TTS 1.5 Mini | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

Sub-130ms TTFB voice synthesis with 271+ voices across 15 languages, expressive prosody, and real-time SSE streaming for low-latency voice agents.

في لمحة

الميدان	القيمة
النموذج	`tts-1-5-mini`
تاريخ الإفراج النموذجي	2026-05-05
طرائق المدخلات	النص
طرائق النواتج	Audio
نافذة السياق	-
دقة الوزن	-
المعالم	مُعدّد، في الواقع، في الوقت المناسب، منخفض، متطوّرات، كلمات
Native inference	لا
جديدة	نعم
نقاط النهاية المدعومة	`POST /v1/audio/speech`, `POST /v1/audio/speech:stream`, `GET /v1/voices`

الطباعة

الرسم	Spec	المعدل
Synthesis	1M characters	$17.50 (كان $25.00)

طلب مثال

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامترات	النوع	المطلوبة	التقصير	الوصف
`input`	سلسلة	نعم	-	نص لتوليف. فأكثر من ٠٠٠ ٢ شخص لكل طلب - يقطعون نسخا أطول في حدود العقوبة على العميل. ماكس: 2000
`voice`	enum	لا	`"Sarah"`	ضبط الصوت مسبقا. 20 صوتا مختارا بعناية تغطي الإنجليزية + الإسبانية + البرتغالية + الهندية + لهجات متنوعة. للحصول على الكتالوج الكامل الذي يضم 271 صوتا (بما في ذلك الأصوات المستنسخة)، استخدم voice_id بدلا من ذلك. · مسموح ب: `Sarah`، `Olivia`، `Elizabeth`، `Ashley`، `Wendy`، `Julia`، `Priya`، `Pixie`، `Deborah`، `Alex`، `Mark`، `Edward`، `Theodore`، `Ronald`، `Dennis`، `Timothy`، `Shaun`، `Craig`، `Hades`، `Heitor`
`voice_id`	سلسلة	لا	-	معرف الصوت الحر. يتجاوز الصوت عند تعيينه. استخدم هذا لمعالجة الأصوات خارج قائمة ال 20 الإعداد المختارة - Inworld TTS 1.5 يرسل 271+ صوتا مسماة عبر 15 لغة (لهجات إقليمية، متغيرات جنسية). مثال: مايتي، أوليفيا، أو أي اسم صوتي من GET /v1/voices.
`language`	enum	لا	`"en-US"`	رمز لغة BCP-47. Inworld TTS 1.5 يغطي 15 لغة. · مسموح ب: `en-US`، `en-GB`، `es-ES`، `es-MX`، `fr-FR`، `de-DE`، `it-IT`، `pt-BR`، `pt-PT`، `nl-NL`، `pl-PL`، `ru-RU`، `ja-JP`، `ko-KR`، `zh-CN`، `hi-IN`، `ar-EG`، `he-IL`
`output_format`	enum	لا	`"WAV"`	container/codec صوتي. WAV = LINEAR16 داخل RIFF (منتشر في كل مكان). MP3 / OGG = مضغوط. PCM = خام بدون رأس - مفيد للتشغيل chunked-real-time. FLAC = بدون فقدان. · مسموح ب: `MP3`، `WAV`، `OGG`، `FLAC`، `PCM`، `ALAW`، `MULAW`
`sample_rate`	enum	لا	`"24000"`	معدل العينة الناتج بتردد 24000 هو الافتراضي Inworld وهو ما تتدرب عليه نماذج الصوت لديهم؛ رفعت إلى 48000 لجودة البث. · مسموح ب: `8000`، `16000`، `22050`، `24000`، `32000`، `44100`، `48000`
`speed`	العدد	لا	`1.0`	مضاعف معدل الكلام 0.5 = نصف السرعة، 1.5 = 50 في المائة أسرع.
`temperature`	العدد	لا	`1.0`	التعبير عن الصوت/التقلب. أقل = أكثر اتساقاً / / نكهة؛ أعلى = أكثر تعبيراً ولكن أكثر اختلافاً بين الصدر. الرنج: 0.1 - 2.0
`bit_rate`	العدد	لا	`128000`	تَأْخذُ في bps ل MP3 / OGG OPUS. تم إشعالها من أجل رموز أخرى الرنج: 32000-320000
`apply_text_normalization`	enum	لا	`"ON"`	عند ON، Inworld توسع الأرقام / الاختصارات / التواريخ إلى شكل منطوق (“5 دولارات أمريكية” → “خمسة دولارات أمريكية”). · مسموح به: `ON`، `OFF`
`timestamp_type`	enum	لا	`"NONE"`	إذا لم يكن هناك أي رسم، يتضمن الرد طوابع زمنية لكل كلمة أو لكل حرف في timestamp_info. مفيد للترجمة / واجهات الإضاءة (IL). · مسموح به: `NONE`، `WORD`، `CHARACTER`

الحواشي

** الأهداف**

الحد الأقصى للمدخلات: 000 2 شخص لكل طلب (يدون نص أطول في حدود العقوبة)
WebSocket: 20 concurrent connections, 5 contexts/connection
Per-WS message: 1,000 characters

** تناوب**

p90 TTFB: under 130 ms (Inworld benchmarks)

** أصوات**

271 + مسمّى المفترسات عبر 15 لغة
20 إعدادا مسبقا تم اختياره يدويا معروضة في القائمة المنسدلة؛ مرر أي معرف صوتي آخر عبر voice_id

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini.