ACE-Step 1.5 XL

ACE-Step · Audio Generation

POST /v1/audio/generations

开源音乐生成模型，支持text-to-song和歌词引导音频，支持快速的8步XL Turbo推理，实现可控的歌曲迭代。

一眼看

场地	价值
型号ID	`ace-step-1.5-xl`
车型发布日期	2026-04-02
输入模态	正文
输出模态	音频
上下文窗口	-
重量精度	BF16
特色	music_generation、歌词、text_to_music、seed_control、commercial_ready
本土推断	是的
新	是的
支持的端点	`POST /v1/audio/generations`

定价

冲锋	规格	速率
音乐生成	每生成秒	$0.00025（曾经$0.0003）

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "ace-step-1.5-xl", "prompt": "warm jazz piano", "duration": 8}'

参数

参数	类型	必修	默认	描述
`prompt`	弦	是的	-	曲风、氛围、乐器编制和BPM暗示了要作曲的音乐。逗号分隔标签效果很好。
`lyrics`	弦	不	-	这首歌的歌词。使用[主歌] / [副歌] / [桥段]标签标记段落，空行表示乐器间奏。留空给纯纯器乐曲目。
`audio_duration`	人数	不	`30.0`	生成轨道的长度以秒计。该模型最可靠的时间范围为~4分钟;持续时间更长，扩散过程中OOM/quality下降风险。·范围：10.0 – 240
`num_inference_steps`	整数	不	`8`	扩散步骤数。8 是 Turbo 版本推荐的最佳配置;加高以求更精致，降低以降低选手代价。·范围：1 – 20
`guidance_scale`	人数	不	`1.0`	无分类器指导刻度。1.0遵循模型的自然分布;更高的分值会让提示更接近，但会牺牲多样性。·范围：0.0 – 20.0
`shift`	人数	不	-	扩散时间步移。默认模式保持时间表不变;shorter/punchier时可调整至1.0+，slower/dreamier结果则低于1.0。
`negative_prompt`	弦	不	-	负面提示 - - 反标签、反样式、排除工具。和提示词一样用逗号分隔的风格。
`seed`	整数	不	-	随机种子以保证可重复性。相同的种子+相同的参数会产生相同的轨道。
`format`	枚举	不	`"flac"`	回答用音频容器格式。FLAC = 无损，WAV = 未压缩，MP3 = 较小的文件大小。·允许：`flac`，`wav`，`ogg`，`mp3`
`response_format`	枚举	不	`"url"`	工作人员如何返回音频。‘url’ 返回已渲染文件的签名 URL;“base64” 在响应中内联字节。·允许：`url`，`b64_json`
`return_base64`	布尔值	不	错误	如果为真，响应会将渲染出来的音频以base64的形式加入（或根据response_format不同）URL作为替代。

注释

默认情况

8个推理步骤
制导量表1.0
无损FLAC输出

控制

支持歌词、prompt/description、10-600秒时长、种子、移动、固定管道支持时可选的负提示，以及URL或base64输出模式。

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/ace-step-1.5-xl。