input | String | sim | - | Texto para sintetizar. Para múltiplos alto-falantes, use tags [S1] / [S2] ou linhas ‘Alto-falante N:’. |
voice | enum | Não | "emma" | emma=Inglês feminino, james=US Male, arthur=US Male alt, xiaomei=Chinese Female, zhigang=Chinese Male, custom=upload reference via voice_audio_url. · Permitidos: emma, james, arthur, xiaomei, zhigang, custom |
voice_audio_url | String | Não | - | Consulte a URL de áudio para clonagem de voz personalizada. A gravação de referência deve conter o falante lendo exatamente essa frase de consentimento em voz alta, em sua própria voz: “Eu consinto que os Laboratórios Empirio clonem minha voz com o propósito de gerar fala sintética. Entendo que minha amostra de voz será usada para criar conteúdo de áudio personalizado.” Áudio de referência sem a frase é rejeitado. |
output_format | enum | Não | "mp3" | Formato de arquivo de mídia de saída (mp3, wav, mp4, png, jpg, etc., dependendo do endpoint). · Permitido: mp3, wav |
speed | Número | Não | 1.0 | Multiplicador de taxa de fala. · Alcance: 0,5 – 2,0 |
model_quality | enum | Não | "quality" | qualidade=FP16 (melhor), rápido=INT8 (mais rápido) · Permitido: quality, fast |
sample_rate | enum | Não | "24000" | Taxa de amostragem de saída em Hz. · Permitido: 24000, 16000 |
volume | Número | Não | 1.0 | Multiplicador de ganho de saída. · Alcance: 0,1 – 2,0 |
use_cache | Booleano | Não | Verdade | Acelera gerações idênticas repetidas. |
optimize_input | Booleano | Não | Verdade | Pronúncia auto-fixa de termos técnicos, siglas e caracteres especiais. |
seed | Número | Não | - | Semente de reprodutibilidade. |