SoulX Podcast | EmpirioLabs AI Docs

Soul AI Lab · Audio Generation

POST /v1/audio/speech

Modelo de voz de código abierto para diálogos de podcast de formato largo y múltiples altavoces con control paralingüístico (risas, suspiros) y clonación de voz sin tomas.

A simple vista

Campo	Valor
ID de modelo	`soulx-podcast`
Fecha de lanzamiento del modelo	2025-10-29
Modalidades de entrada	Texto, Audio
Modalidades de salida	Audio
Ventana de contexto	-
Precisión del peso	-
Características	voice_cloning, multi_speaker, dialecto, podcast
Inferencia nativa	Sí
Nuevo	No
Puntos finales soportados	`POST /v1/audio/speech`

Precios

Carga	Especificaciones	Tarifa
Base	por cada 1.000 caracteres	$0.015
Dialecto	por cada 1.000 caracteres	$0.015

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`input`	Cuerda	Sí	-	Guion de pódcast. Usa etiquetas [S1] / [S2] / [S3] / [S4] o líneas ‘Speaker N:’ para multi-altavoz. Etiquetas paralingüísticas soportadas: <\|risas\|>, <\|suspiro\|>, <\|respira\|>, <\|Tos
`voice_model`	enum	no	`"base"`	base: inglés + mandarín. dialecto: añade Sichuan, Henan y cantonés. · Permitidos: `base`, `dialect`
`voice_s1`	enum	no	`"arthur"`	Voz para [S1]. lj = Emma. custom_s1 requiere voice_s1_audio_url. · Permitidos: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s1`
`voice_s2`	enum	no	`"lj"`	Voz para [S2]. lj = Emma. · Permitidos: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s2`
`voice_s3`	enum	no	`"james"`	Voz para [S3]. · Permitidos: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s3`
`voice_s4`	enum	no	`"xiaomei"`	Voz para [S4]. · Permitidos: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s4`
`voice_s1_audio_url`	Cuerda	no	-	URL de audio de referencia para la clonación de voz personalizada [S1]. El hablante debe decir la frase de consentimiento en voz alta.
`voice_s2_audio_url`	Cuerda	no	-	URL de audio de referencia para la clonación de voz personalizada [S2].
`voice_s3_audio_url`	Cuerda	no	-	URL de audio de referencia para la clonación de voz personalizada [S3].
`voice_s4_audio_url`	Cuerda	no	-	URL de audio de referencia para la clonación de voz personalizada [S4].
`temperature`	Número	no	`0.6`	Temperatura de muestreo. · Rango: 0,1 – 2,0
`top_k`	Número	no	`100`	Top-k de muestreo. · Rango: 1 – 500
`top_p`	Número	no	`0.9`	Muestreo de núcleos. · Rango: 0,1 – 1,0
`repetition_penalty`	Número	no	`1.25`	Valores más altos desaniman la repetición de frases. · Rango: 1.0 – 2.0
`seed`	Cuerda	no	`"42"`	Semilla de reproducibilidad (cadena por río arriba).
`output_format`	enum	no	`"mp3"`	Formato de archivo multimedia de salida (mp3, wav, mp4, png, jpg, etc., dependiendo del punto final). · Permitidos: `mp3`, `wav`
`language`	Cuerda	no	`""`	Reenviado a la upstream (passthrough) para que el modelo de podcast pueda elegir el nivel voice/dialect correcto.

Notas

Modelo de voz de código abierto para diálogos de podcast de larga duración y múltiples altavoces con control paralingüístico y clonación de voz sin disparos.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.