Stable Audio 2.5 | EmpirioLabs AI Docs

Stability AI · Audio Generation

POST /v1/audio/generations

Up-to-3-minute audio à partir du texte avec text-to-audio, audio-to-audio et l’inpainting audio pour la production musicale, la conception sonore et le remix.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`stable-audio-2-5`
Date de sortie du modèle	2025-09-10
Modalités d’entrée	Texte
Modalités de sortie	Audio
Fenêtre de contexte	-
Précision du poids	-
Caractéristiques	music_generation, text_to_audio, sound_effects
Inférence autochtone	Non
Nouveau	Non
Points de terminaison pris en charge	`POST /v1/audio/generations`

Tarification

Charge	Spec	Taux
Génération	par génération	$0.68

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`prompt`	Corde	Oui	-	Que générer.
`mode`	enum	non	`"text-to-audio"`	audio-inpaint régénère une fenêtre [mask_start, mask_end] d’un clip existant tout en conservant le reste. · Autorisé: `text-to-audio`, `audio-to-audio`, `audio-inpaint`
`output_format`	enum	non	`"mp3"`	Format de fichier média de sortie (mp3, wav, mp4, png, jpg, etc., selon le point d’arrivée). · Autorisé: `mp3`, `wav`
`duration`	Nombre	non	`190`	Quelques secondes. Jusqu’à 3 minutes 10 secondes. · Plage: 1 – 190
`steps`	Nombre	non	`8`	Étapes de diffusion. Le modèle turbo 2,5 est réglé pour des niveaux très faibles. · Répartition: 4 – 8
`cfg_scale`	Nombre	non	`1`	Guidance sans classificateurs. Le modèle turbo utilise par défaut un petit CFG. · Répartition: 1 – 25
`strength`	Nombre	non	`0.5`	Audio-à-audio uniquement. 0,01 = ignorer la référence, 1 = rester proche de la référence. · Portée: 0,01 – 1
`mask_start`	Nombre	non	-	Démarrage de fenêtre en peinture (secondes). Indispensable pour l’audio-inpaint. · Plage: 0 – 190
`mask_end`	Nombre	non	-	Fin de fenêtre d’intérieur (secondes). Indispensable pour l’audio-inpaint. · Plage: 0 – 190
`random_seed`	Booléen	non	Vrai	Si c’est vrai, utilisez une graine aléatoire à chaque appel.
`seed`	Nombre	non	-	Graine de reproductibilité. Utilisé uniquement lorsque random_seed = faux.
`audio_url`	Corde	non	-	Consultez l’URL audio pour audio-to-audio / inpaint.

Notes

Ajoute le mode audio-inpaint (régénération d’une fenêtre temporelle) au-dessus de Stable Audio 2.0.

Exigences de mode

Audio-à-audio et audio-inpaint nécessitent tous deux à la fois une invite et un fichier audio téléchargé
L’audio-à-audio utilise l’audio de référence pour style/conditioning, PAS pour le clonage vocal

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5.