Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

सटीक शैली, टोन, गति, और कथन, सहायकों और आवाज ऐप्स में वितरण के लिए नए ऑडियो टैग के साथ अत्यधिक नियंत्रणीय टीटीएस।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`gemini-3-1-flash-tts`
मॉडल रिलीज की तारीख	2026-04-13
इनपुट तौर-तरीके	टेक्स्ट
आउटपुट के तौर-तरीके	ऑडियो
संदर्भ विंडो	-
वजन परिशुद्धता	-
सुविधाऐं	text_to_speech, multi_speaker, बहुभाषी
मूल अनुमान	नहीं
नया	हाँ
समर्थित समापन बिंदु	`POST /v1/audio/speech`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
इनपुट	प्रति 1M प्रॉम्प्ट टोकन	$2.60
उत्पादन	प्रति 1M जेनरेट किए गए टोकन	$52.00

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`input`	तार	हाँ	-	भाषण में बदलने के लिए पाठ। मल्टी-स्पीकर मोड के लिए, Speaker1:/Speaker2:: के साथ उपसर्ग लाइनें।
`mode`	एनम	नहीं	`"single"`	एकल = एक आवाज, बहु = दो-आवाज संवाद (आवाज + आवाज का उपयोग करता है2 + स्पीकर नाम)। · अनुमति: `single`, `multi`
`language`	तार	नहीं	`"en-US"`	उच्चारण संकेतों के लिए BCP-47 भाषा टैग (en-US, es-ES, आदि)।
`voice`	एनम	नहीं	`"Charon"`	प्राथमिक आवाज का नाम (जैसे कोरे, पक, एओडे)। डिफ़ॉल्ट के लिए रिक्त छोड़ दें। · अनुमति: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`voice2`	एनम	नहीं	`"Kore"`	मल्टी-स्पीकर मोड के लिए दूसरी आवाज का नाम। · अनुमति: `Zephyr`, `Puck`, `Charon`, `Kore`, `Fenrir`, `Leda`, `Orus`, `Aoede`, `Callirrhoe`, `Autonoe`, `Enceladus`, `Iapetus`, `Umbriel`, `Algieba`, `Despina`, `Erinome`, `Algenib`, `Rasalgethi`, `Laomedeia`, `Achernar`, `Alnilam`, `Schedar`, `Gacrux`, `Pulcherrima`, `Achird`, `Zubenelgenubi`, `Vindemiatrix`, `Sadachbia`, `Sadaltager`, `Sulafat`
`speaker1_name`	तार	नहीं	`"Speaker1"`	स्पीकर 1 (डिफ़ॉल्ट: स्पीकर1) के लिए इनपुट उपसर्ग में उपयोग किया गया प्रदर्शन नाम।
`speaker2_name`	तार	नहीं	`"Speaker2"`	स्पीकर 2 (डिफ़ॉल्ट: स्पीकर 2) के लिए इनपुट उपसर्ग में उपयोग किया गया प्रदर्शन नाम।
`output_format`	एनम	नहीं	`"WAV"`	ऑडियो फ़ाइल स्वरूप (एमपी3, wav, opus, flac, आदि)। · अनुमति: `WAV`, `MP3`, `OGG`, `ALAW`, `MULAW`
`speed`	संख्या	नहीं	`1.0`	प्लेबैक दर। 1.0 = प्राकृतिक; <1 धीमा, >1 तेज। · रेंज: 0.25 - 2.0
`volume_gain`	संख्या	नहीं	`0`	डीबी में आउटपुट लाभ। 0 = अपरिवर्तित। · रेंज: -96 - 16
`sample_rate`	एनम	नहीं	`"24000"`	हर्ट्ज में आउटपुट नमूना दर (8000, 16000, 24000, 44100, 48000)। · अनुमति: `8000`, `16000`, `22050`, `24000`, `44100`, `48000`
`style_prompt`	तार	नहीं	-	प्राकृतिक भाषा शैली दिशा (उदाहरण के लिए “गर्म, संवादात्मक” या “न्यूज़कास्टर, गंभीर”)।

पाठ + शैली संकेत: 4,000 बाइट्स प्रत्येक (8,000 संयुक्त)
अधिकतम आउटपुट: ~ 10 मिनट
ऑडियो बिलिंग: ~25 टोकन प्रति सेकंड (~15 chars/s)
भाषा स्वतः पता लगाया जाता है; भाषा सेटिंग एक संकेत है, बाधा नहीं

इनलाइन ऑडियो टैग (नियंत्रण वितरण)

भावना: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry], आदि।
गति: [slow], [fast], [extremely fast], [normal pace]
ठहराव: [short pause], [long pause], [breath]
जोर: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts।

एक नजर में

मूल्य निर्धारण

उदाहरण अनुरोध

पैरामीटर

टिप्पणियाँ