TTS 1.5 Max | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

广播级语音合成，富有表现力的韵律，271+语音，跨15种语言，实时SSE流媒体，按字时间戳。

一眼看

场地	价值
型号ID	`tts-1-5-max`
车型发布日期	2026-05-05
输入模态	正文
输出模态	音频
上下文窗口	-
重量精度	-
特色	multi_speaker、real_time、流媒体、word_timestamps、character_timestamps、多语言、expressive_prosody、broadcast_quality
本土推断	不
新	是的
支持的端点	`POST /v1/audio/speech`，`POST /v1/audio/speech:stream`，`GET /v1/voices`

定价

冲锋	规格	速率
合成	每 100 万字符	$29.75（曾经$35.00）

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-max", "input": "Hello from EmpirioLabs."}'

参数

参数	类型	必修	默认	描述
`input`	弦	是的	-	文本要综合。每个请求最多2000个字符 - - 客户端句子边界处的文稿块更长。·最大时间：2000
`voice`	枚举	不	`"Sarah"`	语音预设。20位精心挑选的声音，涵盖英语+西班牙语+葡萄牙语+印地语+多种口音。对于完整的271声部目录（包括克隆声），请使用voice_id。·允许：`Sarah`、`Olivia`、`Elizabeth`、`Ashley`、`Wendy`、`Julia`、`Priya`、`Pixie`、`Deborah`、`Alex`、`Mark`、`Edward`、`Theodore`、`Ronald`、`Dennis`、`Timothy`、`Shaun`、`Craig`、`Hades`， `Heitor`
`voice_id`	弦	不	-	自由形式的语音ID。设置时覆盖语音。用它来处理20个预设列表中之外的声音 - - Inworld TTS 1.5提供271+个名字配音，涵盖15种语言（地区口音、性别变体）。举例：Maitê、Olivia，或GET /v1/voices.中的任何声音名字
`language`	枚举	不	`"en-US"`	BCP-47语言代码。InworldTTS 1.5涵盖了15种语言。·允许：`en-US`、`en-GB`、`es-ES`、`es-MX`、`fr-FR`、`de-DE`、`it-IT`、`pt-BR`、`pt-PT`、`nl-NL`、`pl-PL`、`ru-RU`、`ja-JP`、`ko-KR`、`zh-CN`、`hi-IN`、`ar-EG`、`he-IL`
`output_format`	枚举	不	`"WAV"`	音频container/codec。WAV = LINEAR16 RIFF（无处不在）。MP3 / OGG = 压缩。PCM = 无标题原始 - 对chunked-real-time播放非常有用。FLAC = 无损。·允许：`MP3`、`WAV`、`OGG`、`FLAC`、`PCM`、`ALAW`、`MULAW`
`sample_rate`	枚举	不	`"24000"`	输出采样率以Hz为单位。24000是Inworld的默认采样率，也是其语音模型训练的标准;广播质量提升到48000。·允许：`8000`、`16000`、`22050`、`24000`、`32000`、`44100`、`48000`
`speed`	人数	不	`1.0`	说话率乘数。0.5 = 半速，1.5 = 快50%。·范围：0.5 – 1.5
`temperature`	人数	不	`1.0`	声音的表现力/变化性。Lower = 更稳定/“平坦”;更高=表现力更强，但渲染间差异更大。·范围：0.1 – 2.0
`bit_rate`	人数	不	`128000`	MP3 / OGG_OPUS 的比特率以 BPPS 表示。其他编码则被忽略。·射程：32000 – 320000
`apply_text_normalization`	枚举	不	`"ON"`	开启后，Inworld 会将数字/缩写/日期扩展为口头形式（“5美元”→“5美元”）。·允许：`ON`，`OFF`
`timestamp_type`	枚举	不	`"NONE"`	如果不是 NONE，响应会包含每个词或每个字符的时间戳，timestamp_info。对标题/高亮界面很有用。·允许：`NONE`，`WORD`，`CHARACTER`

注释

极限

最大输入：每个请求2000字符（句子边界处文本块更长）
WebSocket：20个并发连接，5contexts/connection
按窗口消息：1000字符

延迟

p90 TTFB：低于250毫秒（Inworld基准测试）

声音

271+ 命名预设，跨 15 种语言
下拉菜单中显示的20个精心挑选的预设;通过voice_id传递任何其他语音识别码

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/tts-1-5-max。