input | Cuerda | Sí | - | Guion de pódcast. Usa etiquetas [S1] / [S2] / [S3] / [S4] o líneas ‘Speaker N:’ para multi-altavoz. Etiquetas paralingüísticas soportadas: <|risas|>, <|suspiro|>, <|respira|>, <|Tos |
voice_model | enum | no | "base" | base: inglés + mandarín. dialecto: añade Sichuan, Henan y cantonés. · Permitidos: base, dialect |
voice_s1 | enum | no | "arthur" | Voz para [S1]. lj = Emma. custom_s1 requiere voice_s1_audio_url. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s1 |
voice_s2 | enum | no | "lj" | Voz para [S2]. lj = Emma. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s2 |
voice_s3 | enum | no | "james" | Voz para [S3]. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s3 |
voice_s4 | enum | no | "xiaomei" | Voz para [S4]. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s4 |
voice_s1_audio_url | Cuerda | no | - | URL de audio de referencia para la clonación de voz personalizada [S1]. El hablante debe decir la frase de consentimiento en voz alta. |
voice_s2_audio_url | Cuerda | no | - | URL de audio de referencia para la clonación de voz personalizada [S2]. |
voice_s3_audio_url | Cuerda | no | - | URL de audio de referencia para la clonación de voz personalizada [S3]. |
voice_s4_audio_url | Cuerda | no | - | URL de audio de referencia para la clonación de voz personalizada [S4]. |
temperature | Número | no | 0.6 | Temperatura de muestreo. · Rango: 0,1 – 2,0 |
top_k | Número | no | 100 | Top-k de muestreo. · Rango: 1 – 500 |
top_p | Número | no | 0.9 | Muestreo de núcleos. · Rango: 0,1 – 1,0 |
repetition_penalty | Número | no | 1.25 | Valores más altos desaniman la repetición de frases. · Rango: 1.0 – 2.0 |
seed | Cuerda | no | "42" | Semilla de reproducibilidad (cadena por río arriba). |
output_format | enum | no | "mp3" | Formato de archivo multimedia de salida (mp3, wav, mp4, png, jpg, etc., dependiendo del punto final). · Permitidos: mp3, wav |
language | Cuerda | no | "" | Reenviado a la upstream (passthrough) para que el modelo de podcast pueda elegir el nivel voice/dialect correcto. |