TTS 1.5 Max | EmpirioLabs AI Docs

Inworld · Audio Generation

POST /v1/audio/speech

समृद्ध अभिव्यंजक छंदशास्त्र के साथ प्रसारण-गुणवत्ता वाला आवाज संश्लेषण, 271 भाषाओं में 15+ आवाज़ें, और प्रति-शब्द टाइमस्टैम्प के साथ वास्तविक समय एसएसई स्ट्रीमिंग।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`tts-1-5-max`
मॉडल रिलीज की तारीख	2026-05-05
इनपुट तौर-तरीके	टेक्स्ट
आउटपुट के तौर-तरीके	ऑडियो
संदर्भ विंडो	-
वजन परिशुद्धता	-
सुविधाऐं	multi_speaker, real_time, स्ट्रीमिंग, word_timestamps, character_timestamps, बहुभाषी, expressive_prosody, broadcast_quality
मूल अनुमान	नहीं
नया	हाँ
समर्थित समापन बिंदु	`POST /v1/audio/speech`, `POST /v1/audio/speech:stream`, `GET /v1/voices`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
संश्लेषण	प्रति 1M वर्ण	$29.75 ($35.00 था)

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "tts-1-5-max", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`input`	तार	हाँ	-	संश्लेषित करने के लिए पाठ। प्रति अनुरोध अधिकतम 2,000 वर्ण - ग्राहक पर वाक्य सीमाओं पर चंक लंबी प्रतिलिपि। · अधिकतम: 2000
`voice`	एनम	नहीं	`"Sarah"`	आवाज पूर्व निर्धारित। अंग्रेजी + स्पेनिश + पुर्तगाली + हिंदी + विभिन्न लहजे को कवर करने वाली 20 हाथ से चुनी गई आवाजें। पूरे 271-वॉयस कैटलॉग (क्लोन की गई आवाज़ों सहित) के लिए, इसके बजाय voice_id का उपयोग करें। · अनुमति: `Sarah`, `Olivia`, `Elizabeth`, `Ashley`, `Wendy`, `Julia`, `Priya`, `Pixie`, `Deborah`, `Alex`, `Mark`, `Edward`, `Theodore`, `Ronald`, `Dennis`, `Timothy`, `Shaun`, `Craig`, `Hades`, `Heitor`
`voice_id`	तार	नहीं	-	फ़्री-फ़ॉर्म वॉयस ID. सेट होने पर वॉयस को ओवरराइड करता है. क्यूरेट की गई 20-प्रीसेट सूची के बाहर की आवाज़ों को संबोधित करने के लिए इसका उपयोग करें - Inworld TTS 1.5 15 भाषाओं (क्षेत्रीय उच्चारण, लिंग वाले वेरिएंट) में 271+ नामित आवाज़ें शिप करता है। उदाहरण: मैटे, ओलिविया, या GET /v1/voices. से कोई भी ध्वनि नाम
`language`	एनम	नहीं	`"en-US"`	BCP-47 भाषा कोड। Inworld TTS 1.5 में 15 भाषाएँ शामिल हैं। · अनुमति: `en-US`, `en-GB`, `es-ES`, `es-MX`, `fr-FR`, `de-DE`, `it-IT`, `pt-BR`, `pt-PT`, `nl-NL`, `pl-PL`, `ru-RU`, `ja-JP`, `ko-KR`, `zh-CN`, `hi-IN`, `ar-EG`, `he-IL`
`output_format`	एनम	नहीं	`"WAV"`	ऑडियो container/codec। WAV = RIFF के अंदर LINEAR16 (सर्वव्यापी)। एमपी3/ओजीजी = संकुचित। पीसीएम = हेडरलेस रॉ - chunked-real-time प्लेबैक के लिए उपयोगी। FLAC = दोषरहित। · अनुमति: `MP3`, `WAV`, `OGG`, `FLAC`, `PCM`, `ALAW`, `MULAW`
`sample_rate`	एनम	नहीं	`"24000"`	24000 हर्ट्ज में आउटपुट नमूना दर Inworld का डिफ़ॉल्ट है और उनके वॉयस मॉडल किस पर प्रशिक्षित होते हैं; प्रसारण गुणवत्ता के लिए 48000 तक बढ़ाएं। · अनुमति: `8000`, `16000`, `22050`, `24000`, `32000`, `44100`, `48000`
`speed`	संख्या	नहीं	`1.0`	बोलने की दर गुणक। 0.5 = आधी गति, 1.5 = 50% तेज। · रेंज: 0.5 - 1.5
`temperature`	संख्या	नहीं	`1.0`	आवाज की अभिव्यक्ति/परिवर्तनशीलता। निचला = अधिक सुसंगत/“फ्लैट”; उच्च = अधिक अभिव्यंजक लेकिन रेंडर के बीच अधिक भिन्नता। · रेंज: 0.1 - 2.0
`bit_rate`	संख्या	नहीं	`128000`	एमपी 3 / OGG_OPUS के लिए बीपीएस में बिटरेट। अन्य एन्कोडिंग के लिए अनदेखा किया गया। · रेंज: 32000 - 320000
`apply_text_normalization`	एनम	नहीं	`"ON"`	चालू होने पर, Inworld संख्याओं/संक्षिप्ताक्षरों/तिथियों को बोले जाने वाले रूप में विस्तारित करता है (“USD 5” → “पांच अमेरिकी डॉलर”)। · अनुमति: `ON`, `OFF`
`timestamp_type`	एनम	नहीं	`"NONE"`	यदि गैर-कोई नहीं है, तो प्रतिक्रिया में timestamp_info में प्रति-शब्द या प्रति-वर्ण टाइमस्टैम्प शामिल हैं। यूआई को कैप्शन/हाइलाइट करने के लिए उपयोगी। · अनुमति: `NONE`, `WORD`, `CHARACTER`

अधिकतम इनपुट: प्रति अनुरोध 2,000 वर्ण (वाक्य सीमाओं पर लंबे पाठ का खंड)
WebSocket: 20 समवर्ती कनेक्शन, 5 contexts/connection
प्रति-WS संदेश: 1,000 वर्ण

विलंबता

p90 TTFB: 250 एमएस से कम (Inworld बेंचमार्क)

आवाज़ें

15 भाषाओं में 271+ नामित प्रीसेट
ड्रॉपडाउन में 20 हाथ से चुने गए प्रीसेट उजागर हुए; voice_id के माध्यम से कोई अन्य वॉयस आईडी पास करें

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/tts-1-5-max।

एक नजर में

मूल्य निर्धारण

उदाहरण अनुरोध

पैरामीटर

टिप्पणियाँ