TTS 1.5 Max

TTS 1.5 Max
Inworld · Audio Generation
POST /v1/audio/speech

समृद्ध अभिव्यंजक छंदशास्त्र के साथ प्रसारण-गुणवत्ता वाला आवाज संश्लेषण, 271 भाषाओं में 15+ आवाज़ें, और प्रति-शब्द टाइमस्टैम्प के साथ वास्तविक समय एसएसई स्ट्रीमिंग।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीtts-1-5-max
मॉडल रिलीज की तारीख2026-05-05
इनपुट तौर-तरीकेटेक्स्ट
आउटपुट के तौर-तरीकेऑडियो
संदर्भ विंडो-
वजन परिशुद्धता-
सुविधाऐंmulti_speaker, real_time, स्ट्रीमिंग, word_timestamps, character_timestamps, बहुभाषी, expressive_prosody, broadcast_quality
मूल अनुमाननहीं
नयाहाँ
समर्थित समापन बिंदुPOST /v1/audio/speech, POST /v1/audio/speech:stream, GET /v1/voices

मूल्य निर्धारण

आवेशित करनायुक्तिदर
संश्लेषणप्रति 1M वर्ण$29.75 ($35.00 था)

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "tts-1-5-max", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
inputतारहाँ-संश्लेषित करने के लिए पाठ। प्रति अनुरोध अधिकतम 2,000 वर्ण - ग्राहक पर वाक्य सीमाओं पर चंक लंबी प्रतिलिपि। · अधिकतम: 2000
voiceएनमनहीं"Sarah"आवाज पूर्व निर्धारित। अंग्रेजी + स्पेनिश + पुर्तगाली + हिंदी + विभिन्न लहजे को कवर करने वाली 20 हाथ से चुनी गई आवाजें। पूरे 271-वॉयस कैटलॉग (क्लोन की गई आवाज़ों सहित) के लिए, इसके बजाय voice_id का उपयोग करें। · अनुमति: Sarah, Olivia, Elizabeth, Ashley, Wendy, Julia, Priya, Pixie, Deborah, Alex, Mark, Edward, Theodore, Ronald, Dennis, Timothy, Shaun, Craig, Hades, Heitor
voice_idतारनहीं-फ़्री-फ़ॉर्म वॉयस ID. सेट होने पर वॉयस को ओवरराइड करता है. क्यूरेट की गई 20-प्रीसेट सूची के बाहर की आवाज़ों को संबोधित करने के लिए इसका उपयोग करें - Inworld TTS 1.5 15 भाषाओं (क्षेत्रीय उच्चारण, लिंग वाले वेरिएंट) में 271+ नामित आवाज़ें शिप करता है। उदाहरण: मैटे, ओलिविया, या GET /v1/voices. से कोई भी ध्वनि नाम
languageएनमनहीं"en-US"BCP-47 भाषा कोड। Inworld TTS 1.5 में 15 भाषाएँ शामिल हैं। · अनुमति: en-US, en-GB, es-ES, es-MX, fr-FR, de-DE, it-IT, pt-BR, pt-PT, nl-NL, pl-PL, ru-RU, ja-JP, ko-KR, zh-CN, hi-IN, ar-EG, he-IL
output_formatएनमनहीं"WAV"ऑडियो container/codec। WAV = RIFF के अंदर LINEAR16 (सर्वव्यापी)। एमपी3/ओजीजी = संकुचित। पीसीएम = हेडरलेस रॉ - chunked-real-time प्लेबैक के लिए उपयोगी। FLAC = दोषरहित। · अनुमति: MP3, WAV, OGG, FLAC, PCM, ALAW, MULAW
sample_rateएनमनहीं"24000"24000 हर्ट्ज में आउटपुट नमूना दर Inworld का डिफ़ॉल्ट है और उनके वॉयस मॉडल किस पर प्रशिक्षित होते हैं; प्रसारण गुणवत्ता के लिए 48000 तक बढ़ाएं। · अनुमति: 8000, 16000, 22050, 24000, 32000, 44100, 48000
speedसंख्यानहीं1.0बोलने की दर गुणक। 0.5 = आधी गति, 1.5 = 50% तेज। · रेंज: 0.5 - 1.5
temperatureसंख्यानहीं1.0आवाज की अभिव्यक्ति/परिवर्तनशीलता। निचला = अधिक सुसंगत/“फ्लैट”; उच्च = अधिक अभिव्यंजक लेकिन रेंडर के बीच अधिक भिन्नता। · रेंज: 0.1 - 2.0
bit_rateसंख्यानहीं128000एमपी 3 / OGG_OPUS के लिए बीपीएस में बिटरेट। अन्य एन्कोडिंग के लिए अनदेखा किया गया। · रेंज: 32000 - 320000
apply_text_normalizationएनमनहीं"ON"चालू होने पर, Inworld संख्याओं/संक्षिप्ताक्षरों/तिथियों को बोले जाने वाले रूप में विस्तारित करता है (“USD 5” → “पांच अमेरिकी डॉलर”)। · अनुमति: ON, OFF
timestamp_typeएनमनहीं"NONE"यदि गैर-कोई नहीं है, तो प्रतिक्रिया में timestamp_info में प्रति-शब्द या प्रति-वर्ण टाइमस्टैम्प शामिल हैं। यूआई को कैप्शन/हाइलाइट करने के लिए उपयोगी। · अनुमति: NONE, WORD, CHARACTER

टिप्पणियाँ

सीमाएं

  • अधिकतम इनपुट: प्रति अनुरोध 2,000 वर्ण (वाक्य सीमाओं पर लंबे पाठ का खंड)
  • WebSocket: 20 समवर्ती कनेक्शन, 5 contexts/connection
  • प्रति-WS संदेश: 1,000 वर्ण

विलंबता

  • p90 TTFB: 250 एमएस से कम (Inworld बेंचमार्क)

आवाज़ें

  • 15 भाषाओं में 271+ नामित प्रीसेट
  • ड्रॉपडाउन में 20 हाथ से चुने गए प्रीसेट उजागर हुए; voice_id के माध्यम से कोई अन्य वॉयस आईडी पास करें

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/tts-1-5-max