ACE-Step 1.5 XL | EmpirioLabs AI Docs

ACE-Step · Audio Generation

POST /v1/audio/generations

Open-Source-Musikgenerierungsmodell für text-to-song und textgesteuerte Audio, mit schneller 8-Stufe XL Turbo-Inferenz für steuerbare Song-Iteration.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`ace-step-1.5-xl`
Modell-Veröffentlichungsdatum	2026-04-02
Eingabemodalitäten	Text
Ausgabemodalitäten	Audio
Kontextfenster	-
Gewichtspräzision	BF16
Merkmale	music_generation, Liedtexte, text_to_music, seed_control, commercial_ready
Native Schlussfolgerung	Ja
Neu	Ja
Unterstützte Endpunkte	`POST /v1/audio/generations`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Musikerzeugung	pro erzeugter Sekunde	$0.00025 (war $0.0003)

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "ace-step-1.5-xl", "prompt": "warm jazz piano", "duration": 8}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`prompt`	String	Ja	-	Genre, Stimmung, Instrumentierung und BPM beschreiben die Musik, die komponiert werden soll. Komma-getrennte Tags funktionieren gut.
`lyrics`	String	Nein	-	Gesangstexte für den Track. Verwende [Vers] / [Refrain] / [Bridge] Tags, um Abschnitte zu markieren, leere Zeile für instrumentale Unterbrechung. Lassen Sie die Stücke für rein instrumentale Stücke leer.
`audio_duration`	Anzahl	Nein	`30.0`	Länge der generierten Spur in Sekunden. Das Modell ist bis zu ~4 Minuten am zuverlässigsten; Längere Dauern riskieren OOM/quality Drops während der Diffusion. · Reichweite: 10,0 – 240
`num_inference_steps`	Ganzzahl	Nein	`8`	Anzahl der Diffusionsschritte. 8 ist der empfohlene Sweet Spot für die Turbo-Variante; Erhöhung für mehr Politur, niedriger für günstigere Draft-Generationen. · Reichweite: 1 – 20
`guidance_scale`	Anzahl	Nein	`1.0`	Klassifikatorfreie Leitskala. 1.0 folgt der natürlichen Verteilung des Modells; Höhere Werte rücken näher an den Prompt heran, allerdings auf Kosten der Vielfalt. · Reichweite: 0,0 – 20,0
`shift`	Anzahl	Nein	-	Diffusionszeit-Schritt-Verschiebung. Default lässt den Zeitplan unverändert; Schiebe auf 1,0+ für shorter/punchier oder darunter 1,0 für slower/dreamier Ergebnisse.
`negative_prompt`	String	Nein	-	Negativer Prompt – Anti-Tags, Anti-Styles, Instrumente zum Ausschließen. Gleicher kommagetrennter Stil wie der Prompt.
`seed`	Ganzzahl	Nein	-	Zufälliger Seed zur Reproduzierbarkeit. Derselbe Seed + identische Params ergeben denselben Track.
`format`	ENUM	Nein	`"flac"`	Audio-Container-Format für die Antwort. FLAC = verlustfrei, WAV = unkomprimiert, MP3 = kleine Dateigröße. · Erlaubt: `flac`, `wav`, `ogg`, `mp3`
`response_format`	ENUM	Nein	`"url"`	Wie der Arbeiter den Ton zurückgibt. ‘URL’ liefert eine signierte URL zur gerenderten Datei; ‘base64’ fügt die Bytes in die Antwort ein. · Erlaubt: `url`, `b64_json`
`return_base64`	Boolean	Nein	falsch	Wenn true, enthält die Antwort das gerenderte Audio als base64 zusätzlich (oder anstelle von, je nach response_format) der URL.

Anmerkungen

Defaults

8 Schlussschritte
Leitskala 1,0
Verlustfreie FLAC-Ausgabe

Steuerung

Unterstützt Liedtexte, prompt/description, Dauer von 10 bis 600 Sekunden, Seed, Shift, optionalen negativen Prompt, wenn sie von der angepinnten Pipeline unterstützt werden, sowie URL- oder base64-Ausgabemodus.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/ace-step-1.5-xl.