input | Cuerda | Sí | - | Texto para sintetizar. Para múltiples altavoces usa etiquetas [S1] / [S2] o líneas ‘Speaker N:’. |
voice | enum | no | "emma" | emma=Inglés femenino, james=Hombre estadounidense, arthur=Alt masculino estadounidense, xiaomei=chino femenino, zhigang=chino masculino, personalizado=subido referencia vía voice_audio_url. · Permitidos: emma, james, arthur, xiaomei, zhigang, custom |
voice_audio_url | Cuerda | no | - | Consulta la URL de audio para clonación de voz personalizada. La grabación de referencia debe contener al hablante leyendo en voz alta esta misma frase de consentimiento, con su propia voz: “Consiento que Empirio Labs clone mi voz con el propósito de generar un habla sintética. Entiendo que mi muestra de voz se utilizará para crear contenido de audio personalizado.” El audio de referencia sin la frase es rechazado. |
output_format | enum | no | "mp3" | Formato de archivo multimedia de salida (mp3, wav, mp4, png, jpg, etc., dependiendo del punto final). · Permitidos: mp3, wav |
speed | Número | no | 1.0 | Multiplicador de tasa de conversación. · Rango: 0,5 – 2,0 |
model_quality | enum | no | "quality" | calidad=FP16 (mejor), rápido=INT8 (más rápido) · Permitidos: quality, fast |
sample_rate | enum | no | "24000" | Tasa de muestreo de salida en Hz. · Permitidos: 24000, 16000 |
volume | Número | no | 1.0 | Multiplicador de ganancia de salida. · Rango: 0,1 – 2,0 |
use_cache | Booleano | no | Cierto | Acelera generaciones idénticas y repetidas. |
optimize_input | Booleano | no | Cierto | Pronunciación automática de términos técnicos, acrónimos y caracteres especiales. |
seed | Número | no | - | Semilla de reproducibilidad. |