Stable Audio 2.5

Stable Audio 2.5
Stability AI · Audio Generation
POST /v1/audio/generations

to-3-minute的文本音频,配合text-to-audio、audio-to-audio和音频修复,用于音乐制作、音效设计和混音。

一眼看

场地价值
型号IDstable-audio-2-5
车型发布日期2025-09-10
输入模态正文
输出模态音频
上下文窗口-
重量精度-
特色music_generation,text_to_audio,sound_effects
本土推断
支持的端点POST /v1/audio/generations

定价

冲锋规格速率
生成每代$0.68

示例请求

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

参数

参数类型必修默认描述
prompt是的-生成什么。
mode枚举"text-to-audio"音频画绘会重新生成现有片段的[mask_start, mask_end]窗口,同时保留其余部分。 ·允许:text-to-audioaudio-to-audioaudio-inpaint
output_format枚举"mp3"输出媒体文件格式(mp3、wav、mp4、png、jpg 等,取决于终端)。·允许:mp3wav
duration人数190秒钟。最长3分10秒。·范围:1 – 190
steps人数8扩散步骤。2.5升涡轮增压车型调校为非常低的步数。·范围:4 – 8
cfg_scale人数1无分类器指导。涡轮车型默认使用小型CFG。·射程:1 – 25
strength人数0.5只能音频对音频。0.01 = 忽略参考,1 = 保持靠近参考。·范围:0.01 – 1
mask_start人数-涂漆窗口开始(秒数)。音频画版必备。·射程:0 – 190
mask_end人数-涂漆窗口结束(秒数)。音频画版必备。·射程:0 – 190
random_seed布尔值确实如此如果是真的,每次调用都用随机种子。
seed人数-可重复性种子。仅在 random_seed=false 时使用。
audio_url-请参考audio-to-audio / inpaint 音频链接。

注释

在稳定音频2.0基础上增加了音频画中模式(重新生成时间窗口)。

模式要求

  • 音频对音频和音频画绘都需要提示和上传的音频文件
  • 音频对音频使用参考音频进行style/conditioning,而不是语音克隆

Machine可读模式: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5