Stable Audio 2.5 | EmpirioLabs AI Docs

Stability AI · Audio Generation

POST /v1/audio/generations

to-3-minute的文本音频，配合text-to-audio、audio-to-audio和音频修复，用于音乐制作、音效设计和混音。

一眼看

场地	价值
型号ID	`stable-audio-2-5`
车型发布日期	2025-09-10
输入模态	正文
输出模态	音频
上下文窗口	-
重量精度	-
特色	music_generation，text_to_audio，sound_effects
本土推断	不
新	不
支持的端点	`POST /v1/audio/generations`

定价

冲锋	规格	速率
生成	每代	$0.68

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

参数

参数	类型	必修	默认	描述
`prompt`	弦	是的	-	生成什么。
`mode`	枚举	不	`"text-to-audio"`	音频画绘会重新生成现有片段的[mask_start， mask_end]窗口，同时保留其余部分。 ·允许：`text-to-audio`，`audio-to-audio`，`audio-inpaint`
`output_format`	枚举	不	`"mp3"`	输出媒体文件格式（mp3、wav、mp4、png、jpg 等，取决于终端）。·允许：`mp3`，`wav`
`duration`	人数	不	`190`	秒钟。最长3分10秒。·范围：1 – 190
`steps`	人数	不	`8`	扩散步骤。2.5升涡轮增压车型调校为非常低的步数。·范围：4 – 8
`cfg_scale`	人数	不	`1`	无分类器指导。涡轮车型默认使用小型CFG。·射程：1 – 25
`strength`	人数	不	`0.5`	只能音频对音频。0.01 = 忽略参考，1 = 保持靠近参考。·范围：0.01 – 1
`mask_start`	人数	不	-	涂漆窗口开始（秒数）。音频画版必备。·射程：0 – 190
`mask_end`	人数	不	-	涂漆窗口结束（秒数）。音频画版必备。·射程：0 – 190
`random_seed`	布尔值	不	确实如此	如果是真的，每次调用都用随机种子。
`seed`	人数	不	-	可重复性种子。仅在 random_seed=false 时使用。
`audio_url`	弦	不	-	请参考audio-to-audio / inpaint 音频链接。

注释

在稳定音频2.0基础上增加了音频画中模式（重新生成时间窗口）。

模式要求

音频对音频和音频画绘都需要提示和上传的音频文件
音频对音频使用参考音频进行style/conditioning，而不是语音克隆

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5。