Stable Audio 2.0

Stable Audio 2.0
Stability AI · Audio Generation
POST /v1/audio/generations

可根据文本提示生成长达3分钟的音频,支持可调节时长、步数和CFG比例的 text-to-audio 和audio-to-audio。

一眼看

场地价值
型号IDstable-audio-2-0
车型发布日期2024-04-03
输入模态正文
输出模态音频
上下文窗口-
重量精度-
特色music_generation,text_to_audio,sound_effects
本土推断
支持的端点POST /v1/audio/generations

定价

冲锋规格速率
基础成本每代$0.58
每步成本每步$0.00

示例请求

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

参数

参数类型必修默认描述
prompt是的-生成什么。具体说明曲风、乐器、氛围和速度。
mode枚举"text-to-audio"text-to-audio:仅凭提示生成。audio-to-audio:对参考片段进行条件。·允许:text-to-audioaudio-to-audio
output_format枚举"mp3"输出媒体文件格式(mp3、wav、mp4、png、jpg 等,取决于终端)。·允许:mp3wav
duration人数190秒钟。Stability Audio 2.0 可生成最长 3 分 10 秒的时长。·范围:1 – 190
steps人数50扩散步骤。More = 更高的保真度,速度较慢(并增加每步信用额度)。·范围:30 – 100
cfg_scale人数7无分类器指导。更高 = 更严格地跟随提示。·射程:1 – 25
strength人数1只能音频对音频。0 = 忽略参考,1 = 保持靠近参考。·射程:0 – 1
random_seed布尔值确实如此如果是真的,每次调用都用随机种子。
seed人数-可重复性种子。仅在 random_seed=false 时使用。
audio_url-请参考 audio-to-audio 模式的音频链接。

注释

通过文本或audio-to-audio变换生成最多3分钟的音频。

音频对音频模式

  • 需要提示词和上传的音频文件
  • 推荐CFG等级:7-15
  • 推荐步骤:6-8
  • 典型强度:0.3-0.7

Machine可读模式: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0