Stable Audio 2.0

Stable Audio 2.0
Stability AI · Audio Generation
POST /v1/audio/generations

テキストプロンプトから最大3分間の音声を生成し、持続時間、ステップ、CFGスケールを調整可能な、text-to-audioとaudio-to-audioをサポートします。

一目で

フィールド価値
モデルIDstable-audio-2-0
モデル発売日2024-04-03
入力モダリティ本文
出力モダリティ音声
コンテキストウィンドウ-
重量精度-
特徴music_generation、text_to_audio、sound_effects
ネイティブ推論いいえ
新作いいえ
サポート端末POST /v1/audio/generations

価格設定

チャージスペックレート
基本費用世代あたり$0.58
1ステップあたりのコストステップあたり$0.00

例示リクエスト

$curl https://api.empiriolabs.ai/v1/audio/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "stable-audio-2-0", "prompt": "warm jazz piano", "duration": 8}'

パラメータ

パラメータ種類必須デフォルト概要
promptストリングはい-何を生成するか。ジャンル、楽器、ムード、テンポについて具体的に伝えましょう。
modeエヌムいいえ"text-to-audio"text-to-audio:プロンプトのみで生成。audio-to-audio:参照クリップの条件付き。·許可:text-to-audioaudio-to-audio
output_formatエヌムいいえ"mp3"出力メディアファイル形式(mp3、wav、mp4、png、jpgなど、エンドポイントによって異なります)。·許可:mp3wav
duration番号いいえ190秒単位。Stability Audio 2.0は最大3分10秒の音程を生成します。·範囲:1 – 190
steps番号いいえ50拡散ステップ。More = 高い忠実度、遅く(および1ステップあたりのクレジットが加算)。·範囲:30 – 100
cfg_scale番号いいえ7分類器不要のガイダンス。Higher = より厳密にプロンプトに従う。·射程:1 – 25
strength番号いいえ1音声間のみ。0 = 参照を無視、1 = 参照に近づく。·射程:0 – 1
random_seedブール値いいえ確かにもしそうなら、毎回ランダムなシードを使ってください。
seed番号いいえ-再現性シード。random_seed=falseの場合にのみ使用されます。
audio_urlストリングいいえ-audio-to-audioモードの音声URLを参照してください。

注記

テキストやaudio-to-audio変換から最大3分間の音声を生成します。

音声から音声へのモード

  • プロンプトとアップロードされた音声ファイルの両方が必要です
  • 推奨CFGスケール:7-15
  • 推奨ステップ:6-8
  • 典型的な強さ:0.3〜0.7

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/stable-audio-2-0