input | Corde | Oui | - | Script de podcast. Utilisez les tags [S1] / [S2] / [S3] / [S4] ou les lignes ‘Speaker N:’ pour le multi-haut-parleurs. Balises paralinguistiques prises en charge: <|rires|>, <|soupir|>, <|respire|>, <|tousse|>. |
voice_model | enum | non | "base" | base: anglais + mandarin. dialecte: ajoute le Sichuan, le Henan et le cantonais. · Autorisé: base, dialect |
voice_s1 | enum | non | "arthur" | Voix pour [S1]. lj = Emma. custom_s1 nécessite voice_s1_audio_url. · Autorisé: arthur, james, lj, xiaomei, zhigang, custom_s1 |
voice_s2 | enum | non | "lj" | Voix pour [S2]. lj = Emma. · Autorisé: arthur, james, lj, xiaomei, zhigang, custom_s2 |
voice_s3 | enum | non | "james" | Voix pour [S3]. · Autorisé: arthur, james, lj, xiaomei, zhigang, custom_s3 |
voice_s4 | enum | non | "xiaomei" | Voix pour [S4]. · Autorisé: arthur, james, lj, xiaomei, zhigang, custom_s4 |
voice_s1_audio_url | Corde | non | - | Référence à l’URL audio pour le clonage vocal personnalisé [S1]. Le locuteur doit prononcer la phrase de consentement à voix haute. |
voice_s2_audio_url | Corde | non | - | Référence à l’URL audio pour le clonage vocal personnalisé [S2]. |
voice_s3_audio_url | Corde | non | - | URL audio de référence pour le clonage vocal personnalisé [S3]. |
voice_s4_audio_url | Corde | non | - | URL audio de référence pour le clonage vocal personnalisé [S4]. |
temperature | Nombre | non | 0.6 | Température d’échantillonnage. · Portée: 0,1 – 2,0 |
top_k | Nombre | non | 100 | Limite d’échantillonnage top-k. · Plage: 1 – 500 |
top_p | Nombre | non | 0.9 | Échantillonnage du noyau. · Portée: 0,1 – 1,0 |
repetition_penalty | Nombre | non | 1.25 | Des valeurs plus élevées découragent la répétition des formulations. · Plage: 1,0 – 2,0 |
seed | Corde | non | "42" | Graine de reproductibilité (chaîne par fil en amont). |
output_format | enum | non | "mp3" | Format de fichier média de sortie (mp3, wav, mp4, png, jpg, etc., selon le point d’arrivée). · Autorisé: mp3, wav |
language | Corde | non | "" | Transféré en amont (passthrough) pour que le modèle podcast puisse choisir le bon voice/dialect niveau. |