Stable Audio 2.0

Stability AI · Audio Generation

POST /v1/audio/generations

テキストプロンプトから最大3分間の音声を生成し、持続時間、ステップ、CFGスケールを調整可能な、text-to-audioとaudio-to-audioをサポートします。

一目で

フィールド	価値
モデルID	`stable-audio-2-0`
モデル発売日	2024-04-03
入力モダリティ	本文
出力モダリティ	音声
コンテキストウィンドウ	-
重量精度	-
特徴	music_generation、text_to_audio、sound_effects
ネイティブ推論	いいえ
新作	いいえ
サポート端末	`POST /v1/audio/generations`

価格設定

チャージ	スペック	レート
基本費用	世代あたり	$0.58
1ステップあたりのコスト	ステップあたり	$0.00

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/audio/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`prompt`	ストリング	はい	-	何を生成するか。ジャンル、楽器、ムード、テンポについて具体的に伝えましょう。
`mode`	エヌム	いいえ	`"text-to-audio"`	text-to-audio:プロンプトのみで生成。audio-to-audio:参照クリップの条件付き。·許可:`text-to-audio`、`audio-to-audio`
`output_format`	エヌム	いいえ	`"mp3"`	出力メディアファイル形式(mp3、wav、mp4、png、jpgなど、エンドポイントによって異なります)。·許可:`mp3`、`wav`
`duration`	番号	いいえ	`190`	秒単位。Stability Audio 2.0は最大3分10秒の音程を生成します。·範囲:1 – 190
`steps`	番号	いいえ	`50`	拡散ステップ。More = 高い忠実度、遅く(および1ステップあたりのクレジットが加算)。·範囲:30 – 100
`cfg_scale`	番号	いいえ	`7`	分類器不要のガイダンス。Higher = より厳密にプロンプトに従う。·射程:1 – 25
`strength`	番号	いいえ	`1`	音声間のみ。0 = 参照を無視、1 = 参照に近づく。·射程:0 – 1
`random_seed`	ブール値	いいえ	確かに	もしそうなら、毎回ランダムなシードを使ってください。
`seed`	番号	いいえ	-	再現性シード。random_seed=falseの場合にのみ使用されます。
`audio_url`	ストリング	いいえ	-	audio-to-audioモードの音声URLを参照してください。

注記

テキストやaudio-to-audio変換から最大3分間の音声を生成します。

音声から音声へのモード

プロンプトとアップロードされた音声ファイルの両方が必要です
推奨CFGスケール:7-15
推奨ステップ:6-8
典型的な強さ:0.3〜0.7

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0。