input | Corde | Oui | - | Texte à synthèse. Maximum 2 000 caractères par demande - texte plus long aux limites de phrase sur le client. · Max: 2000 |
voice | enum | non | "Sarah" | Préréglage de voix. 20 voix soigneusement choisies couvrant anglais + espagnol + portugais + hindi + divers accents. Pour le catalogue complet de 271 voix (y compris les voix clonées), utilisez voice_id à la place. · Autorisé: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor |
voice_id | Corde | non | - | ID vocal libre. Prend le dessus sur la voix une fois réglé. Utilisez cela pour traiter les voix en dehors de la liste sélectionnée de 20 présets - Inworld TTS 1.5 propose 271+ voix nommées dans 15 langues (accents régionaux, variantes genrées). Exemple: Maitê, Olivia, ou n’importe quel nom de voix de GET /v1/voices. |
language | enum | non | "en-US" | Code de langage BCP-47. Inworld TTS 1.5 couvre 15 langues. · Autorisés: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL |
output_format | enum | non | "WAV" | Audio container/codec. WAV = LINEAR16 à l’intérieur du RIFF (omniprésent). MP3 / OGG = compressé. PCM = raw sans en-tête - utile pour la lecture chunked-real-time. FLAC = sans perte. · Autorisé: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW |
sample_rate | enum | non | "24000" | La fréquence d’échantillonnage de sortie en Hz. 24000 est la valeur par défaut d’Inworld et celle à laquelle leurs modèles vocaux s’entraînent; Augmentez à 48000 pour la qualité diffusion. · Autorisés: 8000, 16000, 22050, 24000, 32000, 44100, 48000 |
speed | Nombre | non | 1.0 | Multiplicateur de débit de parole. 0,5 = demi-vitesse, 1,5 = 50 % plus rapide. · Plage: 0,5 – 1,5 |
temperature | Nombre | non | 1.0 | L’expressivité / la variabilité de la voix. Plus bas = plus cohérent / « plat »; plus élevé = plus expressif mais plus varié entre les rendus. · Portée: 0,1 – 2,0 |
bit_rate | Nombre | non | 128000 | Débit binaire en bps pour MP3 / OGG_OPUS. Ignoré pour d’autres encodages. · Portée: 32000 – 320000 |
apply_text_normalization | enum | non | "ON" | Lors de ON, Inworld élargit les chiffres / abréviations / dates en forme orale (« 5 USD » → « cinq dollars US »). · Autorisé: ON, OFF |
timestamp_type | enum | non | "NONE" | Si non AUCUNE FOIS, la réponse inclut des horodatages par mot ou par caractère dans timestamp_info. Utile pour les interfaces de légendes / surlignes. · Autorisé: NONE, WORD, CHARACTER |