ACE-Step 1.5 XL

ACE-Step · Audio Generation

POST /v1/audio/generations

Modelo de geração de música open-source para áudio guiado por text-to-song e letras, com inferência XL Turbo rápida de 8 passos para iteração controlável das músicas.

De um olhar

Campo	Valor
ID do modelo	`ace-step-1.5-xl`
Data de lançamento do modelo	2026-04-02
Modalidades de entrada	Texto
Modalidades de saída	Áudio
Janela de contexto	-
Precisão do peso	BF16
Características	music_generation, letras, text_to_music, seed_control, commercial_ready
Inferência nativa	Sim
Novo	Sim
Endpoints suportados	`POST /v1/audio/generations`

Precificação

Carga	Especificação	Taxa
Geração musical	por segundo gerado	$0.00025 (era $0.0003)

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "ace-step-1.5-xl", "prompt": "warm jazz piano", "duration": 8}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`prompt`	String	sim	-	Gênero, clima, instrumentação e pistas BPM descrevendo a música a ser compor. Etiquetas separadas por vírgulas funcionam bem.
`lyrics`	String	Não	-	Letras vocais da faixa. Use tags [verso] / [refrão] / [ponte] para marcar seções, linha em branco para a pausa instrumental. Deixe em branco para faixas puramente instrumentais.
`audio_duration`	Número	Não	`30.0`	Comprimento da trilha gerada em segundos. O modelo é mais confiável até ~4 minutos; durações mais longas correm OOM/quality quedas durante a difusão. · Intervalo: 10,0 – 240
`num_inference_steps`	inteiro	Não	`8`	Número de etapas de difusão. 8 é o ponto ideal recomendado para a variante Turbo; Aumente para mais polimento, mais baixo para gerações de tiragem mais baratas. · Alcance: 1 – 20
`guidance_scale`	Número	Não	`1.0`	Escala de orientação sem classificador. 1.0 segue a distribuição natural do modelo; valores mais altos se aproximam do prompt, mas isso custa variedade. · Intervalo: 0,0 – 20,0
`shift`	Número	Não	-	Mudança do intervalo de tempo de difusão. O padrão mantém a programação inalterada; Avance para 1,0+ para shorter/punchier ou abaixo de 1,0 para slower/dreamier resultados.
`negative_prompt`	String	Não	-	Prompt negativo - anti-tags, anti-styles, instrumentos para excluir. Mesmo estilo separado por vírgulas do prompt.
`seed`	inteiro	Não	-	Semente aleatória para reprodutibilidade. A mesma seed + parâmetros idênticos produz a mesma trilha.
`format`	enum	Não	`"flac"`	Formato de contêiner de áudio para a resposta. FLAC = sem perdas, WAV = não comprimido, MP3 = tamanho pequeno do arquivo. · Permitido: `flac`, `wav`, `ogg`, `mp3`
`response_format`	enum	Não	`"url"`	Como o funcionário retorna o áudio. ‘url’ retorna uma URL assinada para o arquivo renderizado; ‘base64’ faz linha nos bytes da resposta. · Permitido: `url`, `b64_json`
`return_base64`	Booleano	Não	falso	Quando verdade, a resposta inclui o áudio renderizado como base64 além de (ou em vez de, dependendo do response_format) da URL.

Notas

Padrão

8 etapas de inferência
Escala de orientação 1.0
Saída FLAC sem perdas

Controles

Suporta letras, prompt/description, duração de 10-600s, seed, shift, prompt negativo opcional quando suportado pelo pipeline fixado, e modo de saída URL ou base64.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/ace-step-1.5-xl.