SoulX Podcast

Soul AI Lab · Audio Generation
POST /v1/audio/speech开源语音模型,用于长格式、多说话播客对话,并具备副语言控制(笑声、叹息)和零帧语音克隆。
一眼看
定价
示例请求
参数
注释
开源语音模型,用于长格式、多说话播客对话,具备副语言控制和零样本语音克隆。
Machine可读模式: GET https://api.empiriolabs.ai/v1/models/soulx-podcast。

POST /v1/audio/speech开源语音模型,用于长格式、多说话播客对话,并具备副语言控制(笑声、叹息)和零帧语音克隆。
| 场地 | 价值 |
|---|---|
| 型号ID | soulx-podcast |
| 车型发布日期 | 2025-10-29 |
| 输入模态 | 文本,音频 |
| 输出模态 | 音频 |
| 上下文窗口 | - |
| 重量精度 | - |
| 特色 | voice_cloning、multi_speaker、方言、播客 |
| 本土推断 | 是的 |
| 新 | 不 |
| 支持的端点 | POST /v1/audio/speech |
| 冲锋 | 规格 | 速率 |
|---|---|---|
| 基地 | 每1000字符 | $0.015 |
| 方言 | 每1000字符 | $0.015 |
$ curl https://api.empiriolabs.ai/v1/audio/speech \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'
| 参数 | 类型 | 必修 | 默认 | 描述 |
|---|---|---|---|---|
input | 弦 | 是的 | - | 播客剧本。多扬声器使用[S1] / [S2] / [S3] / [S4] 标签或“Speaker N:”行。支持的副语言标签:<|笑声|>, <|叹气|>, <|呼吸|>, <|咳嗽|>. |
voice_model | 枚举 | 不 | "base" | 基础:英语 + 普通话。方言:新增四川语、河南语和粤语。·允许:base,dialect |
voice_s1 | 枚举 | 不 | "arthur" | 为[第一季]配音。lj = 艾玛。custom_s1需要voice_s1_audio_url。·允许:arthur、james、lj、xiaomei、zhigang、custom_s1 |
voice_s2 | 枚举 | 不 | "lj" | 为[第二季]配音。lj = 艾玛。·允许:arthur、james、lj、xiaomei、zhigang、custom_s2 |
voice_s3 | 枚举 | 不 | "james" | 为[第三季]配音。·允许:arthur、james、lj、xiaomei、zhigang、custom_s3 |
voice_s4 | 枚举 | 不 | "xiaomei" | 为[第四季]配音。·允许:arthur、james、lj、xiaomei、zhigang、custom_s4 |
voice_s1_audio_url | 弦 | 不 | - | [S1] 自定义声音克隆的参考音频链接。发言人必须大声说出同意短语。 |
voice_s2_audio_url | 弦 | 不 | - | [S2] 自定义语音克隆的参考音频链接。 |
voice_s3_audio_url | 弦 | 不 | - | 参考[S3]自定义声音克隆音频链接。 |
voice_s4_audio_url | 弦 | 不 | - | [S4] 自定义语音克隆的参考音频链接。 |
temperature | 人数 | 不 | 0.6 | 采样温度。·范围:0.1 – 2.0 |
top_k | 人数 | 不 | 100 | 顶K采样上限。·范围:1 – 500 |
top_p | 人数 | 不 | 0.9 | 核采样。·范围:0.1 – 1.0 |
repetition_penalty | 人数 | 不 | 1.25 | 高数值则避免重复表达。·范围:1.0 – 2.0 |
seed | 弦 | 不 | "42" | 可重复性种子(每个上游的字符串)。 |
output_format | 枚举 | 不 | "mp3" | 输出媒体文件格式(mp3、wav、mp4、png、jpg 等,取决于终端)。·允许:mp3,wav |
language | 弦 | 不 | "" | 转发到上游(直通),这样播客模式可以选择合适的voice/dialect层。 |
开源语音模型,用于长格式、多说话播客对话,具备副语言控制和零样本语音克隆。
Machine可读模式: GET https://api.empiriolabs.ai/v1/models/soulx-podcast。