SoulX Podcast

Soul AI Lab · Audio Generation

POST /v1/audio/speech

开源语音模型，用于长格式、多说话播客对话，并具备副语言控制（笑声、叹息）和零帧语音克隆。

一眼看

场地	价值
型号ID	`soulx-podcast`
车型发布日期	2025-10-29
输入模态	文本，音频
输出模态	音频
上下文窗口	-
重量精度	-
特色	voice_cloning、multi_speaker、方言、播客
本土推断	是的
新	不
支持的端点	`POST /v1/audio/speech`

定价

冲锋	规格	速率
基地	每1000字符	$0.015
方言	每1000字符	$0.015

示例请求

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

参数

参数	类型	必修	默认	描述
`input`	弦	是的	-	播客剧本。多扬声器使用[S1] / [S2] / [S3] / [S4] 标签或“Speaker N：”行。支持的副语言标签：<\|笑声\|>, <\|叹气\|>, <\|呼吸\|>, <\|咳嗽\|>.
`voice_model`	枚举	不	`"base"`	基础：英语 + 普通话。方言：新增四川语、河南语和粤语。·允许：`base`，`dialect`
`voice_s1`	枚举	不	`"arthur"`	为[第一季]配音。lj = 艾玛。custom_s1需要voice_s1_audio_url。·允许：`arthur`、`james`、`lj`、`xiaomei`、`zhigang`、`custom_s1`
`voice_s2`	枚举	不	`"lj"`	为[第二季]配音。lj = 艾玛。·允许：`arthur`、`james`、`lj`、`xiaomei`、`zhigang`、`custom_s2`
`voice_s3`	枚举	不	`"james"`	为[第三季]配音。·允许：`arthur`、`james`、`lj`、`xiaomei`、`zhigang`、`custom_s3`
`voice_s4`	枚举	不	`"xiaomei"`	为[第四季]配音。·允许：`arthur`、`james`、`lj`、`xiaomei`、`zhigang`、`custom_s4`
`voice_s1_audio_url`	弦	不	-	[S1] 自定义声音克隆的参考音频链接。发言人必须大声说出同意短语。
`voice_s2_audio_url`	弦	不	-	[S2] 自定义语音克隆的参考音频链接。
`voice_s3_audio_url`	弦	不	-	参考[S3]自定义声音克隆音频链接。
`voice_s4_audio_url`	弦	不	-	[S4] 自定义语音克隆的参考音频链接。
`temperature`	人数	不	`0.6`	采样温度。·范围：0.1 – 2.0
`top_k`	人数	不	`100`	顶K采样上限。·范围：1 – 500
`top_p`	人数	不	`0.9`	核采样。·范围：0.1 – 1.0
`repetition_penalty`	人数	不	`1.25`	高数值则避免重复表达。·范围：1.0 – 2.0
`seed`	弦	不	`"42"`	可重复性种子（每个上游的字符串）。
`output_format`	枚举	不	`"mp3"`	输出媒体文件格式（mp3、wav、mp4、png、jpg 等，取决于终端）。·允许：`mp3`，`wav`
`language`	弦	不	`""`	转发到上游（直通），这样播客模式可以选择合适的voice/dialect层。

注释

开源语音模型，用于长格式、多说话播客对话，具备副语言控制和零样本语音克隆。

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/soulx-podcast。