Stable Audio 2.5

Stable Audio 2.5
Stability AI · Audio Generation
POST /v1/audio/generations

Up-to-3-minute Audio aus Text mit text-to-audio, audio-to-audio und Audio-Inpainting für Musikproduktion, Sounddesign und Remixing.

Auf einen Blick

SpielfeldWert
Modell-IDstable-audio-2-5
Modell-Veröffentlichungsdatum2025-09-10
EingabemodalitätenText
AusgabemodalitätenAudio
Kontextfenster-
Gewichtspräzision-
Merkmalemusic_generation, text_to_audio, sound_effects
Native SchlussfolgerungNein
NeuNein
Unterstützte EndpunktePOST /v1/audio/generations

Preisgestaltung

BerechnenSpezifikationZinssatz
Erzeugungpro Generation$0.68

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
promptStringJa-Was soll generiert werden.
modeENUMNein"text-to-audio"Audio-Inpaint regeneriert ein [mask_start, mask_end] Fenster eines bestehenden Clips, während der Rest erhalten bleibt. · Erlaubt: text-to-audio, audio-to-audio, audio-inpaint
output_formatENUMNein"mp3"Ausgabe des Mediendateiformats (mp3, wav, mp4, png, jpg usw., je nach Endpunkt). · Erlaubt: mp3, wav
durationAnzahlNein190Sekunden. Bis zu 3 Minuten und 10 Sekunden. · Reichweite: 1 – 190
stepsAnzahlNein8Diffusionsschritte. Das 2,5-Liter-Turbo-Modell ist auf sehr niedrige Schrittzahlen abgestimmt. · Reichweite: 4 – 8
cfg_scaleAnzahlNein1Klassifikatorfreie Orientierung. Das Turbo-Modell verwendet standardmäßig ein kleines CFG. · Reichweite: 1 – 25
strengthAnzahlNein0.5Nur Audio-zu-Audio. 0,01 = Referenz ignorieren, 1 = in der Nähe der Referenz bleiben. · Reichweite: 0,01 – 1
mask_startAnzahlNein-Inpaint-Fensterstart (Sekunden). Erforderlich für Audio-InPaint. · Reichweite: 0 – 190
mask_endAnzahlNein-In-Paint Fenster Ende (Sekunden). Erforderlich für Audio-InPaint. · Reichweite: 0 – 190
random_seedBooleanNeinStimmtWenn zutreffend, verwende bei jedem Aufruf einen zufälligen Seed.
seedAnzahlNein-Reproduzierbarkeitssamen. Nur verwendet, wenn random_seed=falsch.
audio_urlStringNein-Referenz auf Audio-URL für audio-to-audio / Inpaint.

Anmerkungen

Fügt audio-inpaint-Modus (Regenerieren eines Zeitfensters) über Stable Audio 2.0 hinzu.

Modusanforderungen

  • Audio-to-Audio und Audio-Inpaint erfordern beide SOWOHL eine Eingabeaufforderung als auch eine hochgeladene Audiodatei
  • Audio-to-Audio verwendet das Referenzaudio für style/conditioning, NICHT für das Sprachklonen

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5.