TTS 1.5 Mini | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

15言語で271+音声を使った130ms未満のTTFB音声合成、表現豊かな韻律、そして低遅延の音声エージェント向けのリアルタイムSSEストリーミング。

一目で

フィールド	価値
モデルID	`tts-1-5-mini`
モデル発売日	2026-05-05
入力モダリティ	本文
出力モダリティ	音声
コンテキストウィンドウ	-
重量精度	-
特徴	multi_speaker、real_time、low_latency、ストリーミング、word_timestamps、character_timestamps、多言語、expressive_prosody
ネイティブ推論	いいえ
新作	はい
サポート端末	`POST /v1/audio/speech`、`POST /v1/audio/speech:stream`、`GET /v1/voices`

価格設定

チャージ	スペック	レート
合成	100万文字あたり	$17.50(だった$25.00)

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`input`	ストリング	はい	-	テキストを合成する。1リクエストあたり最大2,000文字 - クライアントの文境界でチャンクより長いコピーになります。·最大:2000
`voice`	エヌム	いいえ	`"Sarah"`	音声プリセット。英語+スペイン語+ポルトガル語+ヒンディー語+さまざまなアクセントを持つ20人の厳選声優。全271ボイスカタログ(クローンボイスを含む)については、代わりにvoice_idをご利用ください。·許可されている:`Sarah`、`Olivia`、`Elizabeth`、`Ashley`、`Wendy`、`Julia`、`Priya`、`Pixie`、`Deborah`、`Alex`、`Mark`、`Edward`、`Theodore`、`Ronald`、`Dennis`、`Timothy`、`Shaun`、`Craig`、`Hades`、 `Heitor`
`voice_id`	ストリング	いいえ	-	フリーフォームのボイスID。設定するとボイスを上書きします。これを使い、キュレーションされた20プリセットリスト外の声にも対応してください。Inworld TTS 1.5では15言語(地域アクセント、性別バリエーション)で271+名前付き声が配信されています。例:マイテ、オリビア、またはGET /v1/voices.の任意のボイスネーム
`language`	エヌム	いいえ	`"en-US"`	BCP-47言語コード。InworldTTS 1.5は15言語をカバーしています。·許可されている:`en-US`、`en-GB`、`es-ES`、`es-MX`、`fr-FR`、`de-DE`、`it-IT`、`pt-BR`、`pt-PT`、`nl-NL`、`pl-PL`、`ru-RU`、`ja-JP`、`ko-KR`、`zh-CN`、`hi-IN`、`ar-EG`、`he-IL`
`output_format`	エヌム	いいえ	`"WAV"`	音声container/codec。WAV = RIFF内でLINEAR16(遍在)。MP3 / OGG = 圧縮。PCM = ヘッダーなしの生 - chunked-real-time再生に有用です。FLAC = ロスレス。·許可:`MP3`、`WAV`、`OGG`、`FLAC`、`PCM`、`ALAW`、`MULAW`
`sample_rate`	エヌム	いいえ	`"24000"`	出力サンプリングレートはHzで、Inworldのデフォルトで音声モデルがトレーニングする標準です。放送品質を48000に上げます。·許可:`8000`、`16000`、`22050`、`24000`、`32000`、`44100`、`48000`
`speed`	番号	いいえ	`1.0`	話す速度の倍率。0.5 = 半速、1.5 = 50%速い。·範囲:0.5 – 1.5
`temperature`	番号	いいえ	`1.0`	声の表現力や変化性。Lower = より一貫性が高い/「フラット」;高いほど = 表現力が豊かですが、レンダリング間で変化が大きいです。·射程:0.1 – 2.0
`bit_rate`	番号	いいえ	`128000`	MP3 / OGG_OPUSのビットレートはBPSで表しています。他のエンコーディングは無視されます。·射程:32000 – 320000
`apply_text_normalization`	エヌム	いいえ	`"ON"`	オンになると、Inworldは数字・略語・日付を音声形式(「USD 5」→「5 US Doll」に拡張します)。·許可:`ON`、`OFF`
`timestamp_type`	エヌム	いいえ	`"NONE"`	NONEでない場合は、応答には単語ごとまたは文字ごとのタイムスタンプがtimestamp_infoに含まれます。キャプションやハイライトのUIに便利です。·許可:`NONE`、`WORD`、`CHARACTER`

注記

限界

最大入力:1リクエストあたり2,000文字(文の境界でチャンクより長いテキスト)
WebSocket:同時接続20件、contexts/connection
WSあたりのメッセージ:1,000文字

レイテンシー

p90 TTFB:130ms未満(Inworldベンチマーク)

声

15言語にわたる271+名前付きプリセット
ドロップダウンに表示されている20の手選みプリセット;他のボイスIDはvoice_idで渡します

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini。