SoulX Podcast

Soul AI Lab · Audio Generation

POST /v1/audio/speech

Modèle vocal open source pour des dialogues de podcast longs et multi-haut-parleurs, avec contrôle paralinguistique (rires, soupirs) et clonage vocal zéro-shot.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`soulx-podcast`
Date de sortie du modèle	2025-10-29
Modalités d’entrée	Texte, Audio
Modalités de sortie	Audio
Fenêtre de contexte	-
Précision du poids	-
Caractéristiques	voice_cloning, multi_speaker, dialecte, podcast
Inférence autochtone	Oui
Nouveau	Non
Points de terminaison pris en charge	`POST /v1/audio/speech`

Tarification

Charge	Spec	Taux
Base	par 1k caractères	$0.015
Dialecte	par 1k caractères	$0.015

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`input`	Corde	Oui	-	Script de podcast. Utilisez les tags [S1] / [S2] / [S3] / [S4] ou les lignes ‘Speaker N:’ pour le multi-haut-parleurs. Balises paralinguistiques prises en charge: <\|rires\|>, <\|soupir\|>, <\|respire\|>, <\|tousse\|>.
`voice_model`	enum	non	`"base"`	base: anglais + mandarin. dialecte: ajoute le Sichuan, le Henan et le cantonais. · Autorisé: `base`, `dialect`
`voice_s1`	enum	non	`"arthur"`	Voix pour [S1]. lj = Emma. custom_s1 nécessite voice_s1_audio_url. · Autorisé: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s1`
`voice_s2`	enum	non	`"lj"`	Voix pour [S2]. lj = Emma. · Autorisé: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s2`
`voice_s3`	enum	non	`"james"`	Voix pour [S3]. · Autorisé: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s3`
`voice_s4`	enum	non	`"xiaomei"`	Voix pour [S4]. · Autorisé: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s4`
`voice_s1_audio_url`	Corde	non	-	Référence à l’URL audio pour le clonage vocal personnalisé [S1]. Le locuteur doit prononcer la phrase de consentement à voix haute.
`voice_s2_audio_url`	Corde	non	-	Référence à l’URL audio pour le clonage vocal personnalisé [S2].
`voice_s3_audio_url`	Corde	non	-	URL audio de référence pour le clonage vocal personnalisé [S3].
`voice_s4_audio_url`	Corde	non	-	URL audio de référence pour le clonage vocal personnalisé [S4].
`temperature`	Nombre	non	`0.6`	Température d’échantillonnage. · Portée: 0,1 – 2,0
`top_k`	Nombre	non	`100`	Limite d’échantillonnage top-k. · Plage: 1 – 500
`top_p`	Nombre	non	`0.9`	Échantillonnage du noyau. · Portée: 0,1 – 1,0
`repetition_penalty`	Nombre	non	`1.25`	Des valeurs plus élevées découragent la répétition des formulations. · Plage: 1,0 – 2,0
`seed`	Corde	non	`"42"`	Graine de reproductibilité (chaîne par fil en amont).
`output_format`	enum	non	`"mp3"`	Format de fichier média de sortie (mp3, wav, mp4, png, jpg, etc., selon le point d’arrivée). · Autorisé: `mp3`, `wav`
`language`	Corde	non	`""`	Transféré en amont (passthrough) pour que le modèle podcast puisse choisir le bon voice/dialect niveau.

Notes

Modèle vocal open source pour un dialogue long et multi-haut-parleur avec contrôle paralinguistique et clonage vocal zéro-shot.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/soulx-podcast.