input | 弦 | 是的 | - | 文本要综合。每个请求最多2000个字符 - - 客户端句子边界处的文稿块更长。·最大时间:2000 |
voice | 枚举 | 不 | "Sarah" | 语音预设。20位精心挑选的声音,涵盖英语+西班牙语+葡萄牙语+印地语+多种口音。对于完整的271声部目录(包括克隆声),请使用voice_id。·允许:Sarah、Olivia、Elizabeth、Ashley、Wendy、Julia、Priya、Pixie、Deborah、Alex、Mark、Edward、Theodore、Ronald、Dennis、Timothy、Shaun、Craig、Hades, Heitor |
voice_id | 弦 | 不 | - | 自由形式的语音ID。设置时覆盖语音。用它来处理20个预设列表中之外的声音 - - Inworld TTS 1.5提供271+个名字配音,涵盖15种语言(地区口音、性别变体)。举例:Maitê、Olivia,或GET /v1/voices.中的任何声音名字 |
language | 枚举 | 不 | "en-US" | BCP-47语言代码。InworldTTS 1.5涵盖了15种语言。·允许:en-US、en-GB、es-ES、es-MX、fr-FR、de-DE、it-IT、pt-BR、pt-PT、nl-NL、pl-PL、ru-RU、ja-JP、ko-KR、zh-CN、hi-IN、ar-EG、he-IL |
output_format | 枚举 | 不 | "WAV" | 音频container/codec。WAV = LINEAR16 RIFF(无处不在)。MP3 / OGG = 压缩。PCM = 无标题原始 - 对chunked-real-time播放非常有用。FLAC = 无损。·允许:MP3、WAV、OGG、FLAC、PCM、ALAW、MULAW |
sample_rate | 枚举 | 不 | "24000" | 输出采样率以Hz为单位。24000是Inworld的默认采样率,也是其语音模型训练的标准;广播质量提升到48000。·允许:8000、16000、22050、24000、32000、44100、48000 |
speed | 人数 | 不 | 1.0 | 说话率乘数。0.5 = 半速,1.5 = 快50%。·范围:0.5 – 1.5 |
temperature | 人数 | 不 | 1.0 | 声音的表现力/变化性。Lower = 更稳定/“平坦”;更高=表现力更强,但渲染间差异更大。·范围:0.1 – 2.0 |
bit_rate | 人数 | 不 | 128000 | MP3 / OGG_OPUS 的比特率以 BPPS 表示。其他编码则被忽略。·射程:32000 – 320000 |
apply_text_normalization | 枚举 | 不 | "ON" | 开启后,Inworld 会将数字/缩写/日期扩展为口头形式(“5美元”→“5美元”)。·允许:ON,OFF |
timestamp_type | 枚举 | 不 | "NONE" | 如果不是 NONE,响应会包含每个词或每个字符的时间戳,timestamp_info。对标题/高亮界面很有用。·允许:NONE,WORD,CHARACTER |