SoulX Podcast

SoulX Podcast
Soul AI Lab · Audio Generation
POST /v1/audio/speech

Modelo de voz de código abierto para diálogos de podcast de formato largo y múltiples altavoces con control paralingüístico (risas, suspiros) y clonación de voz sin tomas.

A simple vista

CampoValor
ID de modelosoulx-podcast
Fecha de lanzamiento del modelo2025-10-29
Modalidades de entradaTexto, Audio
Modalidades de salidaAudio
Ventana de contexto-
Precisión del peso-
Característicasvoice_cloning, multi_speaker, dialecto, podcast
Inferencia nativa
NuevoNo
Puntos finales soportadosPOST /v1/audio/speech

Precios

CargaEspecificacionesTarifa
Basepor cada 1.000 caracteres$0.015
Dialectopor cada 1.000 caracteres$0.015

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
inputCuerda-Guion de pódcast. Usa etiquetas [S1] / [S2] / [S3] / [S4] o líneas ‘Speaker N:’ para multi-altavoz. Etiquetas paralingüísticas soportadas: <|risas|>, <|suspiro|>, <|respira|>, <|Tos
voice_modelenumno"base"base: inglés + mandarín. dialecto: añade Sichuan, Henan y cantonés. · Permitidos: base, dialect
voice_s1enumno"arthur"Voz para [S1]. lj = Emma. custom_s1 requiere voice_s1_audio_url. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s1
voice_s2enumno"lj"Voz para [S2]. lj = Emma. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s2
voice_s3enumno"james"Voz para [S3]. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s3
voice_s4enumno"xiaomei"Voz para [S4]. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s4
voice_s1_audio_urlCuerdano-URL de audio de referencia para la clonación de voz personalizada [S1]. El hablante debe decir la frase de consentimiento en voz alta.
voice_s2_audio_urlCuerdano-URL de audio de referencia para la clonación de voz personalizada [S2].
voice_s3_audio_urlCuerdano-URL de audio de referencia para la clonación de voz personalizada [S3].
voice_s4_audio_urlCuerdano-URL de audio de referencia para la clonación de voz personalizada [S4].
temperatureNúmerono0.6Temperatura de muestreo. · Rango: 0,1 – 2,0
top_kNúmerono100Top-k de muestreo. · Rango: 1 – 500
top_pNúmerono0.9Muestreo de núcleos. · Rango: 0,1 – 1,0
repetition_penaltyNúmerono1.25Valores más altos desaniman la repetición de frases. · Rango: 1.0 – 2.0
seedCuerdano"42"Semilla de reproducibilidad (cadena por río arriba).
output_formatenumno"mp3"Formato de archivo multimedia de salida (mp3, wav, mp4, png, jpg, etc., dependiendo del punto final). · Permitidos: mp3, wav
languageCuerdano""Reenviado a la upstream (passthrough) para que el modelo de podcast pueda elegir el nivel voice/dialect correcto.

Notas

Modelo de voz de código abierto para diálogos de podcast de larga duración y múltiples altavoces con control paralingüístico y clonación de voz sin disparos.


Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.