Stable Audio 2.0

Stable Audio 2.0
Stability AI · Audio Generation
POST /v1/audio/generations

Génère de l’audio jusqu’à 3 minutes à partir d’invites textuelles, prenant en charge text-to-audio et audio-to-audio avec une durée, des pas et une échelle CFG ajustables.

En un coup d’œil

TerrainValeur
Identifiant de modèlestable-audio-2-0
Date de sortie du modèle2024-04-03
Modalités d’entréeTexte
Modalités de sortieAudio
Fenêtre de contexte-
Précision du poids-
Caractéristiquesmusic_generation, text_to_audio, sound_effects
Inférence autochtoneNon
NouveauNon
Points de terminaison pris en chargePOST /v1/audio/generations

Tarification

ChargeSpecTaux
Coût de basepar génération$0.58
Coût par étapepar étape$0.00

Exemple de demande

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
promptCordeOui-Que générer. Soyez précis sur le genre, les instruments, l’ambiance et le tempo.
modeenumnon"text-to-audio"text-to-audio: générer uniquement à partir d’une invite. audio-to-audio: condition sur un clip de référence. · Autorisé: text-to-audio, audio-to-audio
output_formatenumnon"mp3"Format de fichier média de sortie (mp3, wav, mp4, png, jpg, etc., selon le point d’arrivée). · Autorisé: mp3, wav
durationNombrenon190Quelques secondes. Stability Audio 2.0 génère jusqu’à 3 minutes 10 secondes. · Plage: 1 – 190
stepsNombrenon50Étapes de diffusion. Plus = plus haute fidélité, plus lent (et ajoute des crédits par étape). · Plage: 30 – 100
cfg_scaleNombrenon7Guidance sans classificateurs. Plus haut = suit l’invite de façon plus stricte. · Répartition: 1 – 25
strengthNombrenon1Audio-à-audio uniquement. 0 = ignorer la référence, 1 = rester proche de la référence. · Répartition: 0 – 1
random_seedBooléennonVraiSi c’est vrai, utilisez une graine aléatoire à chaque appel.
seedNombrenon-Graine de reproductibilité. Utilisé uniquement lorsque random_seed = faux.
audio_urlCordenon-Référence à l’URL audio pour le mode audio-to-audio.

Notes

Génère jusqu’à 3 minutes d’audio à partir de texte ou via audio-to-audio transformation.

Mode audio-versant

  • Nécessite à la fois une invite et un fichier audio téléchargé
  • Échelle CFG recommandée: 7-15
  • Étapes recommandées: 6-8
  • Force typique: 0,3-0,7

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0.