Stable Audio 2.5

Stability AI · Audio Generation

POST /v1/audio/generations

テキストからのアップto-3-minuteオーディオに、音楽制作、サウンドデザイン、リミックスのためのtext-to-audio、audio-to-audio、オーディオインペインテインメント。

一目で

フィールド	価値
モデルID	`stable-audio-2-5`
モデル発売日	2025-09-10
入力モダリティ	本文
出力モダリティ	音声
コンテキストウィンドウ	-
重量精度	-
特徴	music_generation、text_to_audio、sound_effects
ネイティブ推論	いいえ
新作	いいえ
サポート端末	`POST /v1/audio/generations`

価格設定

チャージ	スペック	レート
生成	世代あたり	$0.68

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "stable-audio-2-5", "prompt": "warm jazz piano", "duration": 8}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`prompt`	ストリング	はい	-	何を生成するか。
`mode`	エヌム	いいえ	`"text-to-audio"`	Audio-Inpaintは既存のクリップの[mask_start, mask_end]ウィンドウを再生し、残りは保持します。許可:`text-to-audio`、`audio-to-audio`、`audio-inpaint`
`output_format`	エヌム	いいえ	`"mp3"`	出力メディアファイル形式(mp3、wav、mp4、png、jpgなど、エンドポイントによって異なります)。·許可:`mp3`、`wav`
`duration`	番号	いいえ	`190`	秒単位。最大で3分10秒。·範囲:1 – 190
`steps`	番号	いいえ	`8`	拡散ステップ。2.5リッターターボモデルは非常に低ステップ数にチューニングされています。·射程:4 – 8
`cfg_scale`	番号	いいえ	`1`	分類器不要のガイダンス。ターボモデルはデフォルトで小型CFGを使用しています。·射程:1 – 25
`strength`	番号	いいえ	`0.5`	音声間のみ。0.01 = 参照を無視、1 = 参照に近づく。·範囲:0.01 – 1
`mask_start`	番号	いいえ	-	インペイントウィンドウスタート(数秒)。オーディオインペイントには必須です。·範囲:0 – 190
`mask_end`	番号	いいえ	-	インペイントウィンドウの終わり(秒数間)。オーディオインペイントには必須です。·範囲:0 – 190
`random_seed`	ブール値	いいえ	確かに	もしそうなら、毎回ランダムなシードを使ってください。
`seed`	番号	いいえ	-	再現性シード。random_seed=falseの場合にのみ使用されます。
`audio_url`	ストリング	いいえ	-	audio-to-audio/インペイントの音声URLを参照してください。

注記

Stable Audio 2.0の上にオーディオインペイントモード(タイムウィンドウの再生成)を追加します。

モード要件

オーディオからオーディオとオーディオインペイントの両方は、プロンプトとアップロードされた音声ファイルの両方が必要です
オーディオ・トゥ・オーディオはstyle/conditioningに参照音声を使い、音声クローンには使いません

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-5。