ACE-Step 1.5 XL

ACE-Step 1.5 XL
ACE-Step · Audio Generation
POST /v1/audio/generations

Modelo de generación musical de código abierto para audio guiado por text-to-song y letras, con inferencia XL Turbo rápida de 8 pasos para iteraciones controlables de canciones.

A simple vista

CampoValor
ID de modeloace-step-1.5-xl
Fecha de lanzamiento del modelo2026-04-02
Modalidades de entradaTexto
Modalidades de salidaAudio
Ventana de contexto-
Precisión del pesoBF16
Característicasmusic_generation, letras, text_to_music, seed_control, commercial_ready
Inferencia nativa
Nuevo
Puntos finales soportadosPOST /v1/audio/generations

Precios

CargaEspecificacionesTarifa
Generación musicalpor segundo generado$0.00025 (era $0.0003)

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "ace-step-1.5-xl", "prompt": "warm jazz piano", "duration": 8}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
promptCuerda-Género, ambiente, instrumentación y pistas BPM que describen la música a componer. Las etiquetas separadas por comas funcionan bien.
lyricsCuerdano-Letras vocales para la canción. Usa etiquetas [verso] / [estribillo] / [puente] para marcar secciones, línea en blanco para el interrupción instrumental. Deja espacio para pistas puramente instrumentales.
audio_durationNúmerono30.0Longitud de la pista generada en segundos. El modelo es más fiable hasta ~4 minutos; Las duraciones más largas corren el riesgo de caídas OOM/quality durante la difusión. · Rango: 10,0 – 240
num_inference_stepsenterosno8Número de pasos de difusión. 8 es el punto ideal recomendado para la variante Turbo; Sube para más pulido, baja para generaciones de tiro más baratas. · Rango: 1 – 20
guidance_scaleNúmerono1.0Escala de guía sin clasificador. 1.0 sigue la distribución natural del modelo; los valores más altos se acercan más al prompt a costa de la variedad. · Rango: 0,0 – 20,0
shiftNúmerono-Desplazamiento de paso temporal de difusión. Por defecto, el horario no cambia; Empuja a 1.0+ para shorter/punchier o por debajo de 1.0 para slower/dreamier resultados.
negative_promptCuerdano-Prompt negativo - anti-etiquetas, anti-estilos, instrumentos para excluir. Mismo estilo con comas separadas que el prompt.
seedenterosno-Semilla aleatoria para la reproducibilidad. La misma semilla + parámetros idénticos produce la misma pista.
formatenumno"flac"Formato contenedor de audio para la respuesta. FLAC = sin pérdidas, WAV = sin comprimir, MP3 = tamaño de archivo pequeño. · Permitidos: flac, wav, ogg, mp3
response_formatenumno"url"Cómo el trabajador devuelve el audio. ‘url’ devuelve una URL firmada al archivo renderizado; ‘base64’ alinea los bytes en la respuesta. · Permitidos: url, b64_json
return_base64BooleanonofalsoCuando es cierto, la respuesta incluye el audio renderizado como base64 además de (o en lugar de, dependiendo de response_format) la URL.

Notas

Defaults

  • 8 pasos de inferencia
  • Escala de guía 1.0
  • Salida FLAC sin pérdidas

Controles

Soporta letras, prompt/description, duración de 10 a 600 segundos, semilla, desplazamiento, prompt negativo opcional cuando soportado por la tubería fijada, y modo URL o salida base64.


Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/ace-step-1.5-xl.