input | String | sim | - | Roteiro de podcast. Use tags [S1] / [S2] / [S3] / [S4] ou linhas ‘Speaker N:’ para multi-alto-falantes. Tags paralinguísticas suportadas: <|risadas|>, <|suspiro|>, <|respiração|>, <|tosse|>. |
voice_model | enum | Não | "base" | base: Inglês + Mandarim. dialeto: adiciona Sichuan, Henan e cantonês. · Permitido: base, dialect |
voice_s1 | enum | Não | "arthur" | Voz para [S1]. lj = Emma. custom_s1 exige voice_s1_audio_url. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s1 |
voice_s2 | enum | Não | "lj" | Voz para [S2]. lj = Emma. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s2 |
voice_s3 | enum | Não | "james" | Voz para [S3]. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s3 |
voice_s4 | enum | Não | "xiaomei" | Voz para [S4]. · Permitidos: arthur, james, lj, xiaomei, zhigang, custom_s4 |
voice_s1_audio_url | String | Não | - | URL de áudio de referência para clonagem de voz personalizada [S1]. O falante deve dizer a frase de consentimento em voz alta. |
voice_s2_audio_url | String | Não | - | URL de áudio de referência para clonagem de voz personalizada [S2]. |
voice_s3_audio_url | String | Não | - | URL de áudio de referência para clonagem de voz personalizada [S3]. |
voice_s4_audio_url | String | Não | - | URL de áudio de referência para clonagem de voz personalizada [S4]. |
temperature | Número | Não | 0.6 | Temperatura de amostragem. · Alcance: 0,1 – 2,0 |
top_k | Número | Não | 100 | Top-k de amostragem de capotagem. · Alcance: 1 – 500 |
top_p | Número | Não | 0.9 | Amostragem do núcleo. · Alcance: 0,1 – 1,0 |
repetition_penalty | Número | Não | 1.25 | Valores mais altos desencorajam frases repetidas. · Intervalo: 1.0 – 2.0 |
seed | String | Não | "42" | Semente de reprodutibilidade (string por montante). |
output_format | enum | Não | "mp3" | Formato de arquivo de mídia de saída (mp3, wav, mp4, png, jpg, etc., dependendo do endpoint). · Permitido: mp3, wav |
language | String | Não | "" | Encaminhado para upstream (passthrough) para que o modelo de podcast possa escolher o tier voice/dialect certo. |