SoulX Podcast

Soul AI Lab · Audio Generation

POST /v1/audio/speech

Modelo de voz open-source para diálogos de podcast de longa duração e múltiplos alto-falantes com controle paralinguístico (risos, suspiros) e clonagem de voz zero-shot.

De um olhar

Campo	Valor
ID do modelo	`soulx-podcast`
Data de lançamento do modelo	2025-10-29
Modalidades de entrada	Texto, Áudio
Modalidades de saída	Áudio
Janela de contexto	-
Precisão do peso	-
Características	voice_cloning, multi_speaker, dialeto, podcast
Inferência nativa	Sim
Novo	Não
Endpoints suportados	`POST /v1/audio/speech`

Precificação

Carga	Especificação	Taxa
Base	por 1k caracteres	$0.015
Dialeto	por 1k caracteres	$0.015

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`input`	String	sim	-	Roteiro de podcast. Use tags [S1] / [S2] / [S3] / [S4] ou linhas ‘Speaker N:’ para multi-alto-falantes. Tags paralinguísticas suportadas: <\|risadas\|>, <\|suspiro\|>, <\|respiração\|>, <\|tosse\|>.
`voice_model`	enum	Não	`"base"`	base: Inglês + Mandarim. dialeto: adiciona Sichuan, Henan e cantonês. · Permitido: `base`, `dialect`
`voice_s1`	enum	Não	`"arthur"`	Voz para [S1]. lj = Emma. custom_s1 exige voice_s1_audio_url. · Permitidos: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s1`
`voice_s2`	enum	Não	`"lj"`	Voz para [S2]. lj = Emma. · Permitidos: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s2`
`voice_s3`	enum	Não	`"james"`	Voz para [S3]. · Permitidos: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s3`
`voice_s4`	enum	Não	`"xiaomei"`	Voz para [S4]. · Permitidos: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s4`
`voice_s1_audio_url`	String	Não	-	URL de áudio de referência para clonagem de voz personalizada [S1]. O falante deve dizer a frase de consentimento em voz alta.
`voice_s2_audio_url`	String	Não	-	URL de áudio de referência para clonagem de voz personalizada [S2].
`voice_s3_audio_url`	String	Não	-	URL de áudio de referência para clonagem de voz personalizada [S3].
`voice_s4_audio_url`	String	Não	-	URL de áudio de referência para clonagem de voz personalizada [S4].
`temperature`	Número	Não	`0.6`	Temperatura de amostragem. · Alcance: 0,1 – 2,0
`top_k`	Número	Não	`100`	Top-k de amostragem de capotagem. · Alcance: 1 – 500
`top_p`	Número	Não	`0.9`	Amostragem do núcleo. · Alcance: 0,1 – 1,0
`repetition_penalty`	Número	Não	`1.25`	Valores mais altos desencorajam frases repetidas. · Intervalo: 1.0 – 2.0
`seed`	String	Não	`"42"`	Semente de reprodutibilidade (string por montante).
`output_format`	enum	Não	`"mp3"`	Formato de arquivo de mídia de saída (mp3, wav, mp4, png, jpg, etc., dependendo do endpoint). · Permitido: `mp3`, `wav`
`language`	String	Não	`""`	Encaminhado para upstream (passthrough) para que o modelo de podcast possa escolher o tier voice/dialect certo.

Notas

Modelo de voz open-source para diálogos de podcast de longa duração e múltiplos alto-falantes, com controle paralinguístico e clonagem de voz zero-shot.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.