ACE-Step 1.5 XL | EmpirioLabs AI Docs

ACE-Step · Audio Generation

POST /v1/audio/generations

Modèle de génération musicale open source pour l’audio guidé par text-to-song et paroles, avec une inférence XL Turbo rapide en 8 étapes pour une itération contrôlable des chansons.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`ace-step-1.5-xl`
Date de sortie du modèle	2026-04-02
Modalités d’entrée	Texte
Modalités de sortie	Audio
Fenêtre de contexte	-
Précision du poids	BF16
Caractéristiques	music_generation, paroles, text_to_music, seed_control, commercial_ready
Inférence autochtone	Oui
Nouveau	Oui
Points de terminaison pris en charge	`POST /v1/audio/generations`

Tarification

Charge	Spec	Taux
Génération musicale	par seconde générée	$0.00025 (était $0.0003)

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "ace-step-1.5-xl", "prompt": "warm jazz piano", "duration": 8}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`prompt`	Corde	Oui	-	Le genre, l’ambiance, l’instrumentation et les indices BPM décrivent la musique à composer. Les balises séparées par virgules fonctionnent bien.
`lyrics`	Corde	non	-	Paroles vocales du morceau. Utilisez les tags [couplet] / [refrain] / [pont] pour marquer les sections, ligne blanche pour la pause instrumentale. Laissez vide pour les pistes purement instrumentales.
`audio_duration`	Nombre	non	`30.0`	Longueur de la piste générée en secondes. Le modèle est le plus fiable jusqu’à ~4 minutes; les durées plus longues risquent OOM/quality des chutes lors de la diffusion. · Plage: 10,0 – 240
`num_inference_steps`	entier	non	`8`	Nombre d’étapes de diffusion. 8 est le point idéal recommandé pour la version Turbo; Augmentez pour plus de polissage, plus bas pour des générations de tirage moins chères. · Plage: 1 – 20
`guidance_scale`	Nombre	non	`1.0`	Échelle de guidage sans classificateurs. 1.0 suit la distribution naturelle du modèle; des valeurs plus élevées se rapprochent de la consigne au détriment de la variété. · Plage: 0,0 – 20,0
`shift`	Nombre	non	-	Décalage du pas de temps de diffusion. Par défaut, le planning reste inchangé; Poussez à 1,0+ pour shorter/punchier ou en dessous de 1,0 pour slower/dreamier résultats.
`negative_prompt`	Corde	non	-	Prompt négatif - anti-tags, anti-styles, instruments à exclure. Même style de type séparé par virgules que le prompt.
`seed`	entier	non	-	Graines aléatoires pour la reproductibilité. Même seed + params identiques produisent la même piste.
`format`	enum	non	`"flac"`	Format conteneur audio pour la réponse. FLAC = sans perte, WAV = non compressé, MP3 = petite taille de fichier. · Autorisé: `flac`, `wav`, `ogg`, `mp3`
`response_format`	enum	non	`"url"`	Comment l’ouvrier rend l’audio. « url » renvoie une URL signée au fichier rendu; ‘base64’ inligne les octets dans la réponse. · Autorisé: `url`, `b64_json`
`return_base64`	Booléen	non	faux	Lorsque c’est vrai, la réponse inclut l’audio rendu en base64 en plus (ou à la place, selon response_format) de l’URL.

Notes

Par défaut

8 étapes d’inférence
Échelle de guidage 1.0
Sortie FLAC sans perte

Contrôles

Prend en charge les paroles, la prompt/description, la durée de 10 à 600 secondes, la graine, le décalage, l’option optionnelle de la négativité lorsque supporté par le pipeline épinglé, ainsi que le mode URL ou sortie base64.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/ace-step-1.5-xl.