TTS 1.5 Mini

TTS 1.5 Mini
Inworld · Audio Generation
POST /v1/audio/speech

TTFB语音合成速度低于130毫秒,支持15种语言的271+语音,富有表现力的韵律,以及为低延迟语音代理提供实时SSE流媒体。

一眼看

场地价值
型号IDtts-1-5-mini
车型发布日期2026-05-05
输入模态正文
输出模态音频
上下文窗口-
重量精度-
特色multi_speaker、real_time、low_latency、流媒体、word_timestamps、character_timestamps、多语言、expressive_prosody
本土推断
是的
支持的端点POST /v1/audio/speechPOST /v1/audio/speech:streamGET /v1/voices

定价

冲锋规格速率
合成每 100 万字符$17.50(曾经$25.00)

示例请求

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

参数

参数类型必修默认描述
input是的-文本要综合。每个请求最多2000个字符 - - 客户端句子边界处的文稿块更长。·最大时间:2000
voice枚举"Sarah"语音预设。20位精心挑选的声音,涵盖英语+西班牙语+葡萄牙语+印地语+多种口音。对于完整的271声部目录(包括克隆声),请使用voice_id。·允许:SarahOliviaElizabethAshleyWendyJuliaPriyaPixieDeborahAlexMarkEdwardTheodoreRonaldDennisTimothyShaunCraigHadesHeitor
voice_id-自由形式的语音ID。设置时覆盖语音。用它来处理20个预设列表中之外的声音 - - Inworld TTS 1.5提供271+个名字配音,涵盖15种语言(地区口音、性别变体)。举例:Maitê、Olivia,或GET /v1/voices.中的任何声音名字
language枚举"en-US"BCP-47语言代码。InworldTTS 1.5涵盖了15种语言。·允许:en-USen-GBes-ESes-MXfr-FRde-DEit-ITpt-BRpt-PTnl-NLpl-PLru-RUja-JPko-KRzh-CNhi-INar-EGhe-IL
output_format枚举"WAV"音频container/codec。WAV = LINEAR16 RIFF(无处不在)。MP3 / OGG = 压缩。PCM = 无标题原始 - 对chunked-real-time播放非常有用。FLAC = 无损。·允许:MP3WAVOGGFLACPCMALAWMULAW
sample_rate枚举"24000"输出采样率以Hz为单位。24000是Inworld的默认采样率,也是其语音模型训练的标准;广播质量提升到48000。·允许:8000160002205024000320004410048000
speed人数1.0说话率乘数。0.5 = 半速,1.5 = 快50%。·范围:0.5 – 1.5
temperature人数1.0声音的表现力/变化性。Lower = 更稳定/“平坦”;更高=表现力更强,但渲染间差异更大。·范围:0.1 – 2.0
bit_rate人数128000MP3 / OGG_OPUS 的比特率以 BPPS 表示。其他编码则被忽略。·射程:32000 – 320000
apply_text_normalization枚举"ON"开启后,Inworld 会将数字/缩写/日期扩展为口头形式(“5美元”→“5美元”)。·允许:ONOFF
timestamp_type枚举"NONE"如果不是 NONE,响应会包含每个词或每个字符的时间戳,timestamp_info。对标题/高亮界面很有用。·允许:NONEWORDCHARACTER

注释

极限

  • 最大输入:每个请求2000字符(句子边界处文本块更长)
  • WebSocket:20个并发连接,5contexts/connection
  • 按窗口消息:1000字符

延迟

  • p90 TTFB:低于130毫秒(Inworld基准测试)

声音

  • 271+ 命名预设,跨 15 种语言
  • 下拉菜单中显示的20个精心挑选的预设;通过voice_id传递任何其他语音识别码

Machine可读模式: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini