Stable Audio 2.5

Stable Audio 2.5
Stability AI · Audio Generation
POST /v1/audio/generations

テキストからのアップto-3-minuteオーディオに、音楽制作、サウンドデザイン、リミックスのためのtext-to-audio、audio-to-audio、オーディオインペインテインメント。

一目で

フィールド価値
モデルIDstable-audio-2-5
モデル発売日2025-09-10
入力モダリティ本文
出力モダリティ音声
コンテキストウィンドウ-
重量精度-
特徴music_generation、text_to_audio、sound_effects
ネイティブ推論いいえ
新作いいえ
サポート端末POST /v1/audio/generations

価格設定

チャージスペックレート
生成世代あたり$0.68

例示リクエスト

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

パラメータ

パラメータ種類必須デフォルト概要
promptストリングはい-何を生成するか。
modeエヌムいいえ"text-to-audio"Audio-Inpaintは既存のクリップの[mask_start, mask_end]ウィンドウを再生し、残りは保持します。許可:text-to-audioaudio-to-audioaudio-inpaint
output_formatエヌムいいえ"mp3"出力メディアファイル形式(mp3、wav、mp4、png、jpgなど、エンドポイントによって異なります)。·許可:mp3wav
duration番号いいえ190秒単位。最大で3分10秒。·範囲:1 – 190
steps番号いいえ8拡散ステップ。2.5リッターターボモデルは非常に低ステップ数にチューニングされています。·射程:4 – 8
cfg_scale番号いいえ1分類器不要のガイダンス。ターボモデルはデフォルトで小型CFGを使用しています。·射程:1 – 25
strength番号いいえ0.5音声間のみ。0.01 = 参照を無視、1 = 参照に近づく。·範囲:0.01 – 1
mask_start番号いいえ-インペイントウィンドウスタート(数秒)。オーディオインペイントには必須です。·範囲:0 – 190
mask_end番号いいえ-インペイントウィンドウの終わり(秒数間)。オーディオインペイントには必須です。·範囲:0 – 190
random_seedブール値いいえ確かにもしそうなら、毎回ランダムなシードを使ってください。
seed番号いいえ-再現性シード。random_seed=falseの場合にのみ使用されます。
audio_urlストリングいいえ-audio-to-audio/インペイントの音声URLを参照してください。

注記

Stable Audio 2.0の上にオーディオインペイントモード(タイムウィンドウの再生成)を追加します。

モード要件

  • オーディオからオーディオとオーディオインペイントの両方は、プロンプトとアップロードされた音声ファイルの両方が必要です
  • オーディオ・トゥ・オーディオはstyle/conditioningに参照音声を使い、音声クローンには使いません

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5