Stable Audio 2.0 | EmpirioLabs AI Docs

Stability AI · Audio Generation

POST /v1/audio/generations

可根据文本提示生成长达3分钟的音频，支持可调节时长、步数和CFG比例的 text-to-audio 和audio-to-audio。

一眼看

场地	价值
型号ID	`stable-audio-2-0`
车型发布日期	2024-04-03
输入模态	正文
输出模态	音频
上下文窗口	-
重量精度	-
特色	music_generation，text_to_audio，sound_effects
本土推断	不
新	不
支持的端点	`POST /v1/audio/generations`

定价

冲锋	规格	速率
基础成本	每代	$0.58
每步成本	每步	$0.00

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

参数

参数	类型	必修	默认	描述
`prompt`	弦	是的	-	生成什么。具体说明曲风、乐器、氛围和速度。
`mode`	枚举	不	`"text-to-audio"`	text-to-audio：仅凭提示生成。audio-to-audio：对参考片段进行条件。·允许：`text-to-audio`，`audio-to-audio`
`output_format`	枚举	不	`"mp3"`	输出媒体文件格式（mp3、wav、mp4、png、jpg 等，取决于终端）。·允许：`mp3`，`wav`
`duration`	人数	不	`190`	秒钟。Stability Audio 2.0 可生成最长 3 分 10 秒的时长。·范围：1 – 190
`steps`	人数	不	`50`	扩散步骤。More = 更高的保真度，速度较慢（并增加每步信用额度）。·范围：30 – 100
`cfg_scale`	人数	不	`7`	无分类器指导。更高 = 更严格地跟随提示。·射程：1 – 25
`strength`	人数	不	`1`	只能音频对音频。0 = 忽略参考，1 = 保持靠近参考。·射程：0 – 1
`random_seed`	布尔值	不	确实如此	如果是真的，每次调用都用随机种子。
`seed`	人数	不	-	可重复性种子。仅在 random_seed=false 时使用。
`audio_url`	弦	不	-	请参考 audio-to-audio 模式的音频链接。

注释

通过文本或audio-to-audio变换生成最多3分钟的音频。

音频对音频模式

需要提示词和上传的音频文件
推荐CFG等级：7-15
推荐步骤：6-8
典型强度：0.3-0.7

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0。