SoulX Podcast

SoulX Podcast
Soul AI Lab · Audio Generation
POST /v1/audio/speech

Modèle vocal open source pour des dialogues de podcast longs et multi-haut-parleurs, avec contrôle paralinguistique (rires, soupirs) et clonage vocal zéro-shot.

En un coup d’œil

TerrainValeur
Identifiant de modèlesoulx-podcast
Date de sortie du modèle2025-10-29
Modalités d’entréeTexte, Audio
Modalités de sortieAudio
Fenêtre de contexte-
Précision du poids-
Caractéristiquesvoice_cloning, multi_speaker, dialecte, podcast
Inférence autochtoneOui
NouveauNon
Points de terminaison pris en chargePOST /v1/audio/speech

Tarification

ChargeSpecTaux
Basepar 1k caractères$0.015
Dialectepar 1k caractères$0.015

Exemple de demande

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
inputCordeOui-Script de podcast. Utilisez les tags [S1] / [S2] / [S3] / [S4] ou les lignes ‘Speaker N:’ pour le multi-haut-parleurs. Balises paralinguistiques prises en charge: <|rires|>, <|soupir|>, <|respire|>, <|tousse|>.
voice_modelenumnon"base"base: anglais + mandarin. dialecte: ajoute le Sichuan, le Henan et le cantonais. · Autorisé: base, dialect
voice_s1enumnon"arthur"Voix pour [S1]. lj = Emma. custom_s1 nécessite voice_s1_audio_url. · Autorisé: arthur, james, lj, xiaomei, zhigang, custom_s1
voice_s2enumnon"lj"Voix pour [S2]. lj = Emma. · Autorisé: arthur, james, lj, xiaomei, zhigang, custom_s2
voice_s3enumnon"james"Voix pour [S3]. · Autorisé: arthur, james, lj, xiaomei, zhigang, custom_s3
voice_s4enumnon"xiaomei"Voix pour [S4]. · Autorisé: arthur, james, lj, xiaomei, zhigang, custom_s4
voice_s1_audio_urlCordenon-Référence à l’URL audio pour le clonage vocal personnalisé [S1]. Le locuteur doit prononcer la phrase de consentement à voix haute.
voice_s2_audio_urlCordenon-Référence à l’URL audio pour le clonage vocal personnalisé [S2].
voice_s3_audio_urlCordenon-URL audio de référence pour le clonage vocal personnalisé [S3].
voice_s4_audio_urlCordenon-URL audio de référence pour le clonage vocal personnalisé [S4].
temperatureNombrenon0.6Température d’échantillonnage. · Portée: 0,1 – 2,0
top_kNombrenon100Limite d’échantillonnage top-k. · Plage: 1 – 500
top_pNombrenon0.9Échantillonnage du noyau. · Portée: 0,1 – 1,0
repetition_penaltyNombrenon1.25Des valeurs plus élevées découragent la répétition des formulations. · Plage: 1,0 – 2,0
seedCordenon"42"Graine de reproductibilité (chaîne par fil en amont).
output_formatenumnon"mp3"Format de fichier média de sortie (mp3, wav, mp4, png, jpg, etc., selon le point d’arrivée). · Autorisé: mp3, wav
languageCordenon""Transféré en amont (passthrough) pour que le modèle podcast puisse choisir le bon voice/dialect niveau.

Notes

Modèle vocal open source pour un dialogue long et multi-haut-parleur avec contrôle paralinguistique et clonage vocal zéro-shot.


_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/soulx-podcast.