Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

सटीक शैली, टोन, गति, और कथन, सहायकों और आवाज ऐप्स में वितरण के लिए नए ऑडियो टैग के साथ अत्यधिक नियंत्रणीय टीटीएस।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीgemini-3-1-flash-tts
मॉडल रिलीज की तारीख2026-04-13
इनपुट तौर-तरीकेटेक्स्ट
आउटपुट के तौर-तरीकेऑडियो
संदर्भ विंडो-
वजन परिशुद्धता-
सुविधाऐंtext_to_speech, multi_speaker, बहुभाषी
मूल अनुमाननहीं
नयाहाँ
समर्थित समापन बिंदुPOST /v1/audio/speech

मूल्य निर्धारण

आवेशित करनायुक्तिदर
इनपुटप्रति 1M प्रॉम्प्ट टोकन$2.60
उत्पादनप्रति 1M जेनरेट किए गए टोकन$52.00

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
inputतारहाँ-भाषण में बदलने के लिए पाठ। मल्टी-स्पीकर मोड के लिए, Speaker1:/Speaker2:: के साथ उपसर्ग लाइनें।
modeएनमनहीं"single"एकल = एक आवाज, बहु = दो-आवाज संवाद (आवाज + आवाज का उपयोग करता है2 + स्पीकर नाम)। · अनुमति: single, multi
languageतारनहीं"en-US"उच्चारण संकेतों के लिए BCP-47 भाषा टैग (en-US, es-ES, आदि)।
voiceएनमनहीं"Charon"प्राथमिक आवाज का नाम (जैसे कोरे, पक, एओडे)। डिफ़ॉल्ट के लिए रिक्त छोड़ दें। · अनुमति: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2एनमनहीं"Kore"मल्टी-स्पीकर मोड के लिए दूसरी आवाज का नाम। · अनुमति: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameतारनहीं"Speaker1"स्पीकर 1 (डिफ़ॉल्ट: स्पीकर1) के लिए इनपुट उपसर्ग में उपयोग किया गया प्रदर्शन नाम।
speaker2_nameतारनहीं"Speaker2"स्पीकर 2 (डिफ़ॉल्ट: स्पीकर 2) के लिए इनपुट उपसर्ग में उपयोग किया गया प्रदर्शन नाम।
output_formatएनमनहीं"WAV"ऑडियो फ़ाइल स्वरूप (एमपी3, wav, opus, flac, आदि)। · अनुमति: WAV, MP3, OGG, ALAW, MULAW
speedसंख्यानहीं1.0प्लेबैक दर। 1.0 = प्राकृतिक; <1 धीमा, >1 तेज। · रेंज: 0.25 - 2.0
volume_gainसंख्यानहीं0डीबी में आउटपुट लाभ। 0 = अपरिवर्तित। · रेंज: -96 - 16
sample_rateएनमनहीं"24000"हर्ट्ज में आउटपुट नमूना दर (8000, 16000, 24000, 44100, 48000)। · अनुमति: 8000, 16000, 22050, 24000, 44100, 48000
style_promptतारनहीं-प्राकृतिक भाषा शैली दिशा (उदाहरण के लिए “गर्म, संवादात्मक” या “न्यूज़कास्टर, गंभीर”)।

टिप्पणियाँ

अब तक का सबसे नियंत्रणीय मिथुन टीटीएस।

सीमाएं

  • पाठ + शैली संकेत: 4,000 बाइट्स प्रत्येक (8,000 संयुक्त)
  • अधिकतम आउटपुट: ~ 10 मिनट
  • ऑडियो बिलिंग: ~25 टोकन प्रति सेकंड (~15 chars/s)
  • भाषा स्वतः पता लगाया जाता है; भाषा सेटिंग एक संकेत है, बाधा नहीं

इनलाइन ऑडियो टैग (नियंत्रण वितरण)

  • भावना: [whispers], [shouts], [laughs], [sighs], [cheerful], [sad], [angry], आदि।
  • गति: [slow], [fast], [extremely fast], [normal pace]
  • ठहराव: [short pause], [long pause], [breath]
  • जोर: [softly], [loudly], [high pitch], [low pitch], [rising tone], [falling tone]

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts