SoulX Podcast

SoulX Podcast
Soul AI Lab · Audio Generation
POST /v1/audio/speech

Modelo de voz open-source para diálogos de podcast de longa duração e múltiplos alto-falantes com controle paralinguístico (risos, suspiros) e clonagem de voz zero-shot.

De um olhar

CampoValor
ID do modelosoulx-podcast
Data de lançamento do modelo2025-10-29
Modalidades de entradaTexto, Áudio
Modalidades de saídaÁudio
Janela de contexto-
Precisão do peso-
Característicasvoice_cloning, multi_speaker, dialeto, podcast
Inferência nativaSim
NovoNão
Endpoints suportadosPOST /v1/audio/speech

Precificação

CargaEspecificaçãoTaxa
Basepor 1k caracteres$0.015
Dialetopor 1k caracteres$0.015

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
inputStringsim-Roteiro de podcast. Use tags [S1] / [S2] / [S3] / [S4] ou linhas ‘Speaker N:’ para multi-alto-falantes. Tags paralinguísticas suportadas: <|risadas|>, <|suspiro|>, <|respiração|>, <|tosse|>.
voice_modelenumNão"base"base: Inglês + Mandarim. dialeto: adiciona Sichuan, Henan e cantonês. · Permitido: base, dialect
voice_s1enumNão"arthur"Voz para [S1]. lj = Emma. custom_s1 exige voice_s1_audio_url. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s1
voice_s2enumNão"lj"Voz para [S2]. lj = Emma. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s2
voice_s3enumNão"james"Voz para [S3]. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s3
voice_s4enumNão"xiaomei"Voz para [S4]. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s4
voice_s1_audio_urlStringNão-URL de áudio de referência para clonagem de voz personalizada [S1]. O falante deve dizer a frase de consentimento em voz alta.
voice_s2_audio_urlStringNão-URL de áudio de referência para clonagem de voz personalizada [S2].
voice_s3_audio_urlStringNão-URL de áudio de referência para clonagem de voz personalizada [S3].
voice_s4_audio_urlStringNão-URL de áudio de referência para clonagem de voz personalizada [S4].
temperatureNúmeroNão0.6Temperatura de amostragem. · Alcance: 0,1 – 2,0
top_kNúmeroNão100Top-k de amostragem de capotagem. · Alcance: 1 – 500
top_pNúmeroNão0.9Amostragem do núcleo. · Alcance: 0,1 – 1,0
repetition_penaltyNúmeroNão1.25Valores mais altos desencorajam frases repetidas. · Intervalo: 1.0 – 2.0
seedStringNão"42"Semente de reprodutibilidade (string por montante).
output_formatenumNão"mp3"Formato de arquivo de mídia de saída (mp3, wav, mp4, png, jpg, etc., dependendo do endpoint). · Permitido: mp3, wav
languageStringNão""Encaminhado para upstream (passthrough) para que o modelo de podcast possa escolher o tier voice/dialect certo.

Notas

Modelo de voz open-source para diálogos de podcast de longa duração e múltiplos alto-falantes, com controle paralinguístico e clonagem de voz zero-shot.


Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.