TTS 1.5 Mini

TTS 1.5 Mini
Inworld · Audio Generation
POST /v1/audio/speech

15言語で271+音声を使った130ms未満のTTFB音声合成、表現豊かな韻律、そして低遅延の音声エージェント向けのリアルタイムSSEストリーミング。

一目で

フィールド価値
モデルIDtts-1-5-mini
モデル発売日2026-05-05
入力モダリティ本文
出力モダリティ音声
コンテキストウィンドウ-
重量精度-
特徴multi_speaker、real_time、low_latency、ストリーミング、word_timestamps、character_timestamps、多言語、expressive_prosody
ネイティブ推論いいえ
新作はい
サポート端末POST /v1/audio/speechPOST /v1/audio/speech:streamGET /v1/voices

価格設定

チャージスペックレート
合成100万文字あたり$17.50(だった$25.00)

例示リクエスト

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

パラメータ

パラメータ種類必須デフォルト概要
inputストリングはい-テキストを合成する。1リクエストあたり最大2,000文字 - クライアントの文境界でチャンクより長いコピーになります。·最大:2000
voiceエヌムいいえ"Sarah"音声プリセット。英語+スペイン語+ポルトガル語+ヒンディー語+さまざまなアクセントを持つ20人の厳選声優。全271ボイスカタログ(クローンボイスを含む)については、代わりにvoice_idをご利用ください。·許可されている:SarahOliviaElizabethAshleyWendyJuliaPriyaPixieDeborahAlexMarkEdwardTheodoreRonaldDennisTimothyShaunCraigHadesHeitor
voice_idストリングいいえ-フリーフォームのボイスID。設定するとボイスを上書きします。これを使い、キュレーションされた20プリセットリスト外の声にも対応してください。Inworld TTS 1.5では15言語(地域アクセント、性別バリエーション)で271+名前付き声が配信されています。例:マイテ、オリビア、またはGET /v1/voices.の任意のボイスネーム
languageエヌムいいえ"en-US"BCP-47言語コード。InworldTTS 1.5は15言語をカバーしています。·許可されている:en-USen-GBes-ESes-MXfr-FRde-DEit-ITpt-BRpt-PTnl-NLpl-PLru-RUja-JPko-KRzh-CNhi-INar-EGhe-IL
output_formatエヌムいいえ"WAV"音声container/codec。WAV = RIFF内でLINEAR16(遍在)。MP3 / OGG = 圧縮。PCM = ヘッダーなしの生 - chunked-real-time再生に有用です。FLAC = ロスレス。·許可:MP3WAVOGGFLACPCMALAWMULAW
sample_rateエヌムいいえ"24000"出力サンプリングレートはHzで、Inworldのデフォルトで音声モデルがトレーニングする標準です。放送品質を48000に上げます。·許可:8000160002205024000320004410048000
speed番号いいえ1.0話す速度の倍率。0.5 = 半速、1.5 = 50%速い。·範囲:0.5 – 1.5
temperature番号いいえ1.0声の表現力や変化性。Lower = より一貫性が高い/「フラット」;高いほど = 表現力が豊かですが、レンダリング間で変化が大きいです。·射程:0.1 – 2.0
bit_rate番号いいえ128000MP3 / OGG_OPUSのビットレートはBPSで表しています。他のエンコーディングは無視されます。·射程:32000 – 320000
apply_text_normalizationエヌムいいえ"ON"オンになると、Inworldは数字・略語・日付を音声形式(「USD 5」→「5 US Doll」に拡張します)。·許可:ONOFF
timestamp_typeエヌムいいえ"NONE"NONEでない場合は、応答には単語ごとまたは文字ごとのタイムスタンプがtimestamp_infoに含まれます。キャプションやハイライトのUIに便利です。·許可:NONEWORDCHARACTER

注記

限界

  • 最大入力:1リクエストあたり2,000文字(文の境界でチャンクより長いテキスト)
  • WebSocket:同時接続20件、contexts/connection
  • WSあたりのメッセージ:1,000文字

レイテンシー

  • p90 TTFB:130ms未満(Inworldベンチマーク)

  • 15言語にわたる271+名前付きプリセット
  • ドロップダウンに表示されている20の手選みプリセット;他のボイスIDはvoice_idで渡します

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini