input | سلسلة | نعم | - | نص لتوليف. فأكثر من ٠٠٠ ٢ شخص لكل طلب - يقطعون نسخا أطول في حدود العقوبة على العميل. ماكس: 2000 |
voice | enum | لا | "Sarah" | ضبط الصوت مسبقا. 20 صوتا مختارا بعناية تغطي الإنجليزية + الإسبانية + البرتغالية + الهندية + لهجات متنوعة. للحصول على الكتالوج الكامل الذي يضم 271 صوتا (بما في ذلك الأصوات المستنسخة)، استخدم voice_id بدلا من ذلك. · مسموح ب: Sarah، Olivia، Elizabeth، Ashley، Wendy، Julia، Priya، Pixie، Deborah، Alex، Mark، Edward، Theodore، Ronald، Dennis، Timothy، Shaun، Craig، Hades، Heitor |
voice_id | سلسلة | لا | - | معرف الصوت الحر. يتجاوز الصوت عند تعيينه. استخدم هذا لمعالجة الأصوات خارج قائمة ال 20 الإعداد المختارة - Inworld TTS 1.5 يرسل 271+ صوتا مسماة عبر 15 لغة (لهجات إقليمية، متغيرات جنسية). مثال: مايتي، أوليفيا، أو أي اسم صوتي من GET /v1/voices. |
language | enum | لا | "en-US" | رمز لغة BCP-47. Inworld TTS 1.5 يغطي 15 لغة. · مسموح ب: en-US، en-GB، es-ES، es-MX، fr-FR، de-DE، it-IT، pt-BR، pt-PT، nl-NL، pl-PL، ru-RU، ja-JP، ko-KR، zh-CN، hi-IN، ar-EG، he-IL |
output_format | enum | لا | "WAV" | container/codec صوتي. WAV = LINEAR16 داخل RIFF (منتشر في كل مكان). MP3 / OGG = مضغوط. PCM = خام بدون رأس - مفيد للتشغيل chunked-real-time. FLAC = بدون فقدان. · مسموح ب: MP3، WAV، OGG، FLAC، PCM، ALAW، MULAW |
sample_rate | enum | لا | "24000" | معدل العينة الناتج بتردد 24000 هو الافتراضي Inworld وهو ما تتدرب عليه نماذج الصوت لديهم؛ رفعت إلى 48000 لجودة البث. · مسموح ب: 8000، 16000، 22050، 24000، 32000، 44100، 48000 |
speed | العدد | لا | 1.0 | مضاعف معدل الكلام 0.5 = نصف السرعة، 1.5 = 50 في المائة أسرع. |
temperature | العدد | لا | 1.0 | التعبير عن الصوت/التقلب. أقل = أكثر اتساقاً / / نكهة؛ أعلى = أكثر تعبيراً ولكن أكثر اختلافاً بين الصدر. الرنج: 0.1 - 2.0 |
bit_rate | العدد | لا | 128000 | تَأْخذُ في bps ل MP3 / OGG OPUS. تم إشعالها من أجل رموز أخرى الرنج: 32000-320000 |
apply_text_normalization | enum | لا | "ON" | عند ON، Inworld توسع الأرقام / الاختصارات / التواريخ إلى شكل منطوق (“5 دولارات أمريكية” → “خمسة دولارات أمريكية”). · مسموح به: ON، OFF |
timestamp_type | enum | لا | "NONE" | إذا لم يكن هناك أي رسم، يتضمن الرد طوابع زمنية لكل كلمة أو لكل حرف في timestamp_info. مفيد للترجمة / واجهات الإضاءة (IL). · مسموح به: NONE، WORD، CHARACTER |