ACE-Step 1.5 XL | EmpirioLabs AI Docs

ACE-Step · Audio Generation

POST /v1/audio/generations

Modelo de generación musical de código abierto para audio guiado por text-to-song y letras, con inferencia XL Turbo rápida de 8 pasos para iteraciones controlables de canciones.

A simple vista

Campo	Valor
ID de modelo	`ace-step-1.5-xl`
Fecha de lanzamiento del modelo	2026-04-02
Modalidades de entrada	Texto
Modalidades de salida	Audio
Ventana de contexto	-
Precisión del peso	BF16
Características	music_generation, letras, text_to_music, seed_control, commercial_ready
Inferencia nativa	Sí
Nuevo	Sí
Puntos finales soportados	`POST /v1/audio/generations`

Precios

Carga	Especificaciones	Tarifa
Generación musical	por segundo generado	$0.00025 (era $0.0003)

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "ace-step-1.5-xl", "prompt": "warm jazz piano", "duration": 8}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`prompt`	Cuerda	Sí	-	Género, ambiente, instrumentación y pistas BPM que describen la música a componer. Las etiquetas separadas por comas funcionan bien.
`lyrics`	Cuerda	no	-	Letras vocales para la canción. Usa etiquetas [verso] / [estribillo] / [puente] para marcar secciones, línea en blanco para el interrupción instrumental. Deja espacio para pistas puramente instrumentales.
`audio_duration`	Número	no	`30.0`	Longitud de la pista generada en segundos. El modelo es más fiable hasta ~4 minutos; Las duraciones más largas corren el riesgo de caídas OOM/quality durante la difusión. · Rango: 10,0 – 240
`num_inference_steps`	enteros	no	`8`	Número de pasos de difusión. 8 es el punto ideal recomendado para la variante Turbo; Sube para más pulido, baja para generaciones de tiro más baratas. · Rango: 1 – 20
`guidance_scale`	Número	no	`1.0`	Escala de guía sin clasificador. 1.0 sigue la distribución natural del modelo; los valores más altos se acercan más al prompt a costa de la variedad. · Rango: 0,0 – 20,0
`shift`	Número	no	-	Desplazamiento de paso temporal de difusión. Por defecto, el horario no cambia; Empuja a 1.0+ para shorter/punchier o por debajo de 1.0 para slower/dreamier resultados.
`negative_prompt`	Cuerda	no	-	Prompt negativo - anti-etiquetas, anti-estilos, instrumentos para excluir. Mismo estilo con comas separadas que el prompt.
`seed`	enteros	no	-	Semilla aleatoria para la reproducibilidad. La misma semilla + parámetros idénticos produce la misma pista.
`format`	enum	no	`"flac"`	Formato contenedor de audio para la respuesta. FLAC = sin pérdidas, WAV = sin comprimir, MP3 = tamaño de archivo pequeño. · Permitidos: `flac`, `wav`, `ogg`, `mp3`
`response_format`	enum	no	`"url"`	Cómo el trabajador devuelve el audio. ‘url’ devuelve una URL firmada al archivo renderizado; ‘base64’ alinea los bytes en la respuesta. · Permitidos: `url`, `b64_json`
`return_base64`	Booleano	no	falso	Cuando es cierto, la respuesta incluye el audio renderizado como base64 además de (o en lugar de, dependiendo de response_format) la URL.

Notas

Defaults

8 pasos de inferencia
Escala de guía 1.0
Salida FLAC sin pérdidas

Controles

Soporta letras, prompt/description, duración de 10 a 600 segundos, semilla, desplazamiento, prompt negativo opcional cuando soportado por la tubería fijada, y modo URL o salida base64.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/ace-step-1.5-xl.