TTS 1.5 Mini

TTS 1.5 Mini
Inworld · Audio Generation
POST /v1/audio/speech

Sub-130ms TTFB voice synthesis with 271+ voices across 15 languages, expressive prosody, and real-time SSE streaming for low-latency voice agents.

في لمحة

الميدانالقيمة
النموذجtts-1-5-mini
تاريخ الإفراج النموذجي2026-05-05
طرائق المدخلاتالنص
طرائق النواتجAudio
نافذة السياق-
دقة الوزن-
المعالممُعدّد، في الواقع، في الوقت المناسب، منخفض، متطوّرات، كلمات
Native inferenceلا
جديدةنعم
نقاط النهاية المدعومةPOST /v1/audio/speech, POST /v1/audio/speech:stream, GET /v1/voices

الطباعة

الرسمSpecالمعدل
Synthesis1M characters$17.50 (كان $25.00)

طلب مثال

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-mini", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامتراتالنوعالمطلوبةالتقصيرالوصف
inputسلسلةنعم-نص لتوليف. فأكثر من ٠٠٠ ٢ شخص لكل طلب - يقطعون نسخا أطول في حدود العقوبة على العميل. ماكس: 2000
voiceenumلا"Sarah"ضبط الصوت مسبقا. 20 صوتا مختارا بعناية تغطي الإنجليزية + الإسبانية + البرتغالية + الهندية + لهجات متنوعة. للحصول على الكتالوج الكامل الذي يضم 271 صوتا (بما في ذلك الأصوات المستنسخة)، استخدم voice_id بدلا من ذلك. · مسموح ب: Sarah، Olivia، Elizabeth، Ashley، Wendy، Julia، Priya، Pixie، Deborah، Alex، Mark، Edward، Theodore، Ronald، Dennis، Timothy، Shaun، Craig، Hades، Heitor
voice_idسلسلةلا-معرف الصوت الحر. يتجاوز الصوت عند تعيينه. استخدم هذا لمعالجة الأصوات خارج قائمة ال 20 الإعداد المختارة - Inworld TTS 1.5 يرسل 271+ صوتا مسماة عبر 15 لغة (لهجات إقليمية، متغيرات جنسية). مثال: مايتي، أوليفيا، أو أي اسم صوتي من GET /v1/voices.
languageenumلا"en-US"رمز لغة BCP-47. Inworld TTS 1.5 يغطي 15 لغة. · مسموح ب: en-US، en-GB، es-ES، es-MX، fr-FR، de-DE، it-IT، pt-BR، pt-PT، nl-NL، pl-PL، ru-RU، ja-JP، ko-KR، zh-CN، hi-IN، ar-EG، he-IL
output_formatenumلا"WAV"container/codec صوتي. WAV = LINEAR16 داخل RIFF (منتشر في كل مكان). MP3 / OGG = مضغوط. PCM = خام بدون رأس - مفيد للتشغيل chunked-real-time. FLAC = بدون فقدان. · مسموح ب: MP3، WAV، OGG، FLAC، PCM، ALAW، MULAW
sample_rateenumلا"24000"معدل العينة الناتج بتردد 24000 هو الافتراضي Inworld وهو ما تتدرب عليه نماذج الصوت لديهم؛ رفعت إلى 48000 لجودة البث. · مسموح ب: 8000، 16000، 22050، 24000، 32000، 44100، 48000
speedالعددلا1.0مضاعف معدل الكلام 0.5 = نصف السرعة، 1.5 = 50 في المائة أسرع.
temperatureالعددلا1.0التعبير عن الصوت/التقلب. أقل = أكثر اتساقاً / / نكهة؛ أعلى = أكثر تعبيراً ولكن أكثر اختلافاً بين الصدر. الرنج: 0.1 - 2.0
bit_rateالعددلا128000تَأْخذُ في bps ل MP3 / OGG OPUS. تم إشعالها من أجل رموز أخرى الرنج: 32000-320000
apply_text_normalizationenumلا"ON"عند ON، Inworld توسع الأرقام / الاختصارات / التواريخ إلى شكل منطوق (“5 دولارات أمريكية” → “خمسة دولارات أمريكية”). · مسموح به: ON، OFF
timestamp_typeenumلا"NONE"إذا لم يكن هناك أي رسم، يتضمن الرد طوابع زمنية لكل كلمة أو لكل حرف في timestamp_info. مفيد للترجمة / واجهات الإضاءة (IL). · مسموح به: NONE، WORD، CHARACTER

الحواشي

** الأهداف**

  • الحد الأقصى للمدخلات: 000 2 شخص لكل طلب (يدون نص أطول في حدود العقوبة)
  • WebSocket: 20 concurrent connections, 5 contexts/connection
  • Per-WS message: 1,000 characters

** تناوب**

  • p90 TTFB: under 130 ms (Inworld benchmarks)

** أصوات**

  • 271 + مسمّى المفترسات عبر 15 لغة
  • 20 إعدادا مسبقا تم اختياره يدويا معروضة في القائمة المنسدلة؛ مرر أي معرف صوتي آخر عبر voice_id

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/tts-1-5-mini.