Stable Audio 2.0

Stable Audio 2.0
Stability AI · Audio Generation
POST /v1/audio/generations

Erzeugt Audio bis zu 3 Minuten aus Textprompts und unterstützt text-to-audio und audio-to-audio mit einstellbarer Dauer, Schritten und CFG-Skala.

Auf einen Blick

SpielfeldWert
Modell-IDstable-audio-2-0
Modell-Veröffentlichungsdatum2024-04-03
EingabemodalitätenText
AusgabemodalitätenAudio
Kontextfenster-
Gewichtspräzision-
Merkmalemusic_generation, text_to_audio, sound_effects
Native SchlussfolgerungNein
NeuNein
Unterstützte EndpunktePOST /v1/audio/generations

Preisgestaltung

BerechnenSpezifikationZinssatz
Grundkostenpro Generation$0.58
Pro-Schritt-Kostenpro Schritt$0.00

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
promptStringJa-Was soll generiert werden. Sei spezifisch bezüglich Genre, Instrumenten, Stimmung und Tempo.
modeENUMNein"text-to-audio"text-to-audio: Generiere nur aus dem Prompt. audio-to-audio: Konditionierung auf einen Referenzclip. · Erlaubt: text-to-audio, audio-to-audio
output_formatENUMNein"mp3"Ausgabe des Mediendateiformats (mp3, wav, mp4, png, jpg usw., je nach Endpunkt). · Erlaubt: mp3, wav
durationAnzahlNein190Sekunden. Stability Audio 2.0 erzeugt bis zu 3 Minuten und 10 Sekunden. · Reichweite: 1 – 190
stepsAnzahlNein50Diffusionsschritte. Mehr = höhere Genauigkeit, langsamer (und fügt pro Schritt Credits hinzu). · Reichweite: 30 – 100
cfg_scaleAnzahlNein7Klassifikatorfreie Orientierung. Higher = folgt der Aufforderung strenger nach. · Reichweite: 1 – 25
strengthAnzahlNein1Nur Audio-zu-Audio. 0 = Referenz ignorieren, 1 = in der Nähe der Referenz bleiben. · Reichweite: 0 – 1
random_seedBooleanNeinStimmtWenn zutreffend, verwende bei jedem Aufruf einen zufälligen Seed.
seedAnzahlNein-Reproduzierbarkeitssamen. Nur verwendet, wenn random_seed=falsch.
audio_urlStringNein-Referenz auf die Audio-URL für audio-to-audio Modus.

Anmerkungen

Erzeugt bis zu 3 Minuten Audio aus Text oder durch audio-to-audio Transformation.

Audio-zu-Audio-Modus

  • Erfordert SOWOHL eine Eingabeaufforderung als auch eine hochgeladene Audiodatei
  • Empfohlene CFG-Skala: 7-15
  • Empfohlene Schritte: 6-8
  • Typische Stärke: 0,3–0,7

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0.