ACE-Step 1.5 XL

ACE-Step 1.5 XL
ACE-Step · Audio Generation
POST /v1/audio/generations

Modèle de génération musicale open source pour l’audio guidé par text-to-song et paroles, avec une inférence XL Turbo rapide en 8 étapes pour une itération contrôlable des chansons.

En un coup d’œil

TerrainValeur
Identifiant de modèleace-step-1.5-xl
Date de sortie du modèle2026-04-02
Modalités d’entréeTexte
Modalités de sortieAudio
Fenêtre de contexte-
Précision du poidsBF16
Caractéristiquesmusic_generation, paroles, text_to_music, seed_control, commercial_ready
Inférence autochtoneOui
NouveauOui
Points de terminaison pris en chargePOST /v1/audio/generations

Tarification

ChargeSpecTaux
Génération musicalepar seconde générée$0.00025 (était $0.0003)

Exemple de demande

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "ace-step-1.5-xl", "prompt": "warm jazz piano", "duration": 8}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
promptCordeOui-Le genre, l’ambiance, l’instrumentation et les indices BPM décrivent la musique à composer. Les balises séparées par virgules fonctionnent bien.
lyricsCordenon-Paroles vocales du morceau. Utilisez les tags [couplet] / [refrain] / [pont] pour marquer les sections, ligne blanche pour la pause instrumentale. Laissez vide pour les pistes purement instrumentales.
audio_durationNombrenon30.0Longueur de la piste générée en secondes. Le modèle est le plus fiable jusqu’à ~4 minutes; les durées plus longues risquent OOM/quality des chutes lors de la diffusion. · Plage: 10,0 – 240
num_inference_stepsentiernon8Nombre d’étapes de diffusion. 8 est le point idéal recommandé pour la version Turbo; Augmentez pour plus de polissage, plus bas pour des générations de tirage moins chères. · Plage: 1 – 20
guidance_scaleNombrenon1.0Échelle de guidage sans classificateurs. 1.0 suit la distribution naturelle du modèle; des valeurs plus élevées se rapprochent de la consigne au détriment de la variété. · Plage: 0,0 – 20,0
shiftNombrenon-Décalage du pas de temps de diffusion. Par défaut, le planning reste inchangé; Poussez à 1,0+ pour shorter/punchier ou en dessous de 1,0 pour slower/dreamier résultats.
negative_promptCordenon-Prompt négatif - anti-tags, anti-styles, instruments à exclure. Même style de type séparé par virgules que le prompt.
seedentiernon-Graines aléatoires pour la reproductibilité. Même seed + params identiques produisent la même piste.
formatenumnon"flac"Format conteneur audio pour la réponse. FLAC = sans perte, WAV = non compressé, MP3 = petite taille de fichier. · Autorisé: flac, wav, ogg, mp3
response_formatenumnon"url"Comment l’ouvrier rend l’audio. « url » renvoie une URL signée au fichier rendu; ‘base64’ inligne les octets dans la réponse. · Autorisé: url, b64_json
return_base64BooléennonfauxLorsque c’est vrai, la réponse inclut l’audio rendu en base64 en plus (ou à la place, selon response_format) de l’URL.

Notes

Par défaut

  • 8 étapes d’inférence
  • Échelle de guidage 1.0
  • Sortie FLAC sans perte

Contrôles

Prend en charge les paroles, la prompt/description, la durée de 10 à 600 secondes, la graine, le décalage, l’option optionnelle de la négativité lorsque supporté par le pipeline épinglé, ainsi que le mode URL ou sortie base64.


_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/ace-step-1.5-xl.