input | ストリング | はい | - | テキストを合成する。1リクエストあたり最大2,000文字 - クライアントの文境界でチャンクより長いコピーになります。·最大:2000 |
voice | エヌム | いいえ | "Sarah" | 音声プリセット。英語+スペイン語+ポルトガル語+ヒンディー語+さまざまなアクセントを持つ20人の厳選声優。全271ボイスカタログ(クローンボイスを含む)については、代わりにvoice_idをご利用ください。·許可されている:Sarah、Olivia、Elizabeth、Ashley、Wendy、Julia、Priya、Pixie、Deborah、Alex、Mark、Edward、Theodore、Ronald、Dennis、Timothy、Shaun、Craig、Hades、 Heitor |
voice_id | ストリング | いいえ | - | フリーフォームのボイスID。設定するとボイスを上書きします。これを使い、キュレーションされた20プリセットリスト外の声にも対応してください。Inworld TTS 1.5では15言語(地域アクセント、性別バリエーション)で271+名前付き声が配信されています。例:マイテ、オリビア、またはGET /v1/voices.の任意のボイスネーム |
language | エヌム | いいえ | "en-US" | BCP-47言語コード。InworldTTS 1.5は15言語をカバーしています。·許可されている:en-US、en-GB、es-ES、es-MX、fr-FR、de-DE、it-IT、pt-BR、pt-PT、nl-NL、pl-PL、ru-RU、ja-JP、ko-KR、zh-CN、hi-IN、ar-EG、he-IL |
output_format | エヌム | いいえ | "WAV" | 音声container/codec。WAV = RIFF内でLINEAR16(遍在)。MP3 / OGG = 圧縮。PCM = ヘッダーなしの生 - chunked-real-time再生に有用です。FLAC = ロスレス。·許可:MP3、WAV、OGG、FLAC、PCM、ALAW、MULAW |
sample_rate | エヌム | いいえ | "24000" | 出力サンプリングレートはHzで、Inworldのデフォルトで音声モデルがトレーニングする標準です。放送品質を48000に上げます。·許可:8000、16000、22050、24000、32000、44100、48000 |
speed | 番号 | いいえ | 1.0 | 話す速度の倍率。0.5 = 半速、1.5 = 50%速い。·範囲:0.5 – 1.5 |
temperature | 番号 | いいえ | 1.0 | 声の表現力や変化性。Lower = より一貫性が高い/「フラット」;高いほど = 表現力が豊かですが、レンダリング間で変化が大きいです。·射程:0.1 – 2.0 |
bit_rate | 番号 | いいえ | 128000 | MP3 / OGG_OPUSのビットレートはBPSで表しています。他のエンコーディングは無視されます。·射程:32000 – 320000 |
apply_text_normalization | エヌム | いいえ | "ON" | オンになると、Inworldは数字・略語・日付を音声形式(「USD 5」→「5 US Doll」に拡張します)。·許可:ON、OFF |
timestamp_type | エヌム | いいえ | "NONE" | NONEでない場合は、応答には単語ごとまたは文字ごとのタイムスタンプがtimestamp_infoに含まれます。キャプションやハイライトのUIに便利です。·許可:NONE、WORD、CHARACTER |