ACE-Step 1.5 XL

ACE-Step 1.5 XL
ACE-Step · Audio Generation
POST /v1/audio/generations

Modelo de geração de música open-source para áudio guiado por text-to-song e letras, com inferência XL Turbo rápida de 8 passos para iteração controlável das músicas.

De um olhar

CampoValor
ID do modeloace-step-1.5-xl
Data de lançamento do modelo2026-04-02
Modalidades de entradaTexto
Modalidades de saídaÁudio
Janela de contexto-
Precisão do pesoBF16
Característicasmusic_generation, letras, text_to_music, seed_control, commercial_ready
Inferência nativaSim
NovoSim
Endpoints suportadosPOST /v1/audio/generations

Precificação

CargaEspecificaçãoTaxa
Geração musicalpor segundo gerado$0.00025 (era $0.0003)

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "ace-step-1.5-xl", "prompt": "warm jazz piano", "duration": 8}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
promptStringsim-Gênero, clima, instrumentação e pistas BPM descrevendo a música a ser compor. Etiquetas separadas por vírgulas funcionam bem.
lyricsStringNão-Letras vocais da faixa. Use tags [verso] / [refrão] / [ponte] para marcar seções, linha em branco para a pausa instrumental. Deixe em branco para faixas puramente instrumentais.
audio_durationNúmeroNão30.0Comprimento da trilha gerada em segundos. O modelo é mais confiável até ~4 minutos; durações mais longas correm OOM/quality quedas durante a difusão. · Intervalo: 10,0 – 240
num_inference_stepsinteiroNão8Número de etapas de difusão. 8 é o ponto ideal recomendado para a variante Turbo; Aumente para mais polimento, mais baixo para gerações de tiragem mais baratas. · Alcance: 1 – 20
guidance_scaleNúmeroNão1.0Escala de orientação sem classificador. 1.0 segue a distribuição natural do modelo; valores mais altos se aproximam do prompt, mas isso custa variedade. · Intervalo: 0,0 – 20,0
shiftNúmeroNão-Mudança do intervalo de tempo de difusão. O padrão mantém a programação inalterada; Avance para 1,0+ para shorter/punchier ou abaixo de 1,0 para slower/dreamier resultados.
negative_promptStringNão-Prompt negativo - anti-tags, anti-styles, instrumentos para excluir. Mesmo estilo separado por vírgulas do prompt.
seedinteiroNão-Semente aleatória para reprodutibilidade. A mesma seed + parâmetros idênticos produz a mesma trilha.
formatenumNão"flac"Formato de contêiner de áudio para a resposta. FLAC = sem perdas, WAV = não comprimido, MP3 = tamanho pequeno do arquivo. · Permitido: flac, wav, ogg, mp3
response_formatenumNão"url"Como o funcionário retorna o áudio. ‘url’ retorna uma URL assinada para o arquivo renderizado; ‘base64’ faz linha nos bytes da resposta. · Permitido: url, b64_json
return_base64BooleanoNãofalsoQuando verdade, a resposta inclui o áudio renderizado como base64 além de (ou em vez de, dependendo do response_format) da URL.

Notas

Padrão

  • 8 etapas de inferência
  • Escala de orientação 1.0
  • Saída FLAC sem perdas

Controles

Suporta letras, prompt/description, duração de 10-600s, seed, shift, prompt negativo opcional quando suportado pelo pipeline fixado, e modo de saída URL ou base64.


Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/ace-step-1.5-xl.