Gemini 2.5 Pro TTS

Gemini 2.5 Pro TTS
Google · Audio Generation
POST /v1/audio/speech

पॉडकास्ट, ऑडियोबुक और ग्राहक सहायता के लिए उच्च गुणवत्ता वाले टीटीएस पूर्वावलोकन, 23+ भाषाओं में अभिव्यंजक बहु-स्पीकर आवाज़ों के साथ।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीgemini-2-5-pro-tts
मॉडल रिलीज की तारीख2025-05-20
इनपुट तौर-तरीकेटेक्स्ट
आउटपुट के तौर-तरीकेऑडियो
संदर्भ विंडो-
वजन परिशुद्धता-
सुविधाऐंtext_to_speech, multi_speaker, बहुभाषी
मूल अनुमाननहीं
नयानहीं
समर्थित समापन बिंदुPOST /v1/audio/speech

मूल्य निर्धारण

आवेशित करनायुक्तिदर
इनपुटप्रति 1M प्रॉम्प्ट टोकन$3.00
उत्पादनप्रति 1M जेनरेट किए गए टोकन$60.00

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-2-5-pro-tts", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
inputतारहाँ-भाषण में बदलने के लिए पाठ। मल्टी-स्पीकर मोड के लिए, Speaker1:/Speaker2:: के साथ उपसर्ग लाइनें।
modeएनमनहीं"single"एकल = एक आवाज, बहु = दो-आवाज संवाद (आवाज + आवाज का उपयोग करता है2 + स्पीकर नाम)। · अनुमति: single, multi
languageतारनहीं"en-US"उच्चारण संकेतों के लिए BCP-47 भाषा टैग (en-US, es-ES, आदि)।
voiceएनमनहीं"Charon"प्राथमिक आवाज का नाम (जैसे कोरे, पक, एओडे)। डिफ़ॉल्ट के लिए रिक्त छोड़ दें। · अनुमति: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
voice2एनमनहीं"Kore"मल्टी-स्पीकर मोड के लिए दूसरी आवाज का नाम। · अनुमति: Zephyr, Puck, Charon, Kore, Fenrir, Leda, Orus, Aoede, Callirrhoe, Autonoe, Enceladus, Iapetus, Umbriel, Algieba, Despina, Erinome, Algenib, Rasalgethi, Laomedeia, Achernar, Alnilam, Schedar, Gacrux, Pulcherrima, Achird, Zubenelgenubi, Vindemiatrix, Sadachbia, Sadaltager, Sulafat
speaker1_nameतारनहीं"Speaker1"स्पीकर 1 (डिफ़ॉल्ट: स्पीकर1) के लिए इनपुट उपसर्ग में उपयोग किया गया प्रदर्शन नाम।
speaker2_nameतारनहीं"Speaker2"स्पीकर 2 (डिफ़ॉल्ट: स्पीकर 2) के लिए इनपुट उपसर्ग में उपयोग किया गया प्रदर्शन नाम।
output_formatएनमनहीं"WAV"ऑडियो फ़ाइल स्वरूप (एमपी3, wav, opus, flac, आदि)। · अनुमति: WAV, MP3, OGG, ALAW, MULAW
speedसंख्यानहीं1.0प्लेबैक दर। 1.0 = प्राकृतिक; <1 धीमा, >1 तेज। · रेंज: 0.25 - 2.0
volume_gainसंख्यानहीं0डीबी में आउटपुट लाभ। 0 = अपरिवर्तित। · रेंज: -96 - 16
sample_rateएनमनहीं"24000"हर्ट्ज में आउटपुट नमूना दर (8000, 16000, 24000, 44100, 48000)। · अनुमति: 8000, 16000, 22050, 24000, 44100, 48000
style_promptतारनहीं-प्राकृतिक भाषा शैली दिशा (उदाहरण के लिए “गर्म, संवादात्मक” या “न्यूज़कास्टर, गंभीर”)।

टिप्पणियाँ

मोड

  • सिंगल स्पीकर
  • मल्टी-स्पीकर (अधिकतम 2 आवाजें) - पाठ SpeakerName: text प्रारूप में होना चाहिए

सीमाएं

  • पाठ + शैली संकेत: 4,000 बाइट्स प्रत्येक
  • ऑडियो बिलिंग: ~32 टोकन प्रति सेकंड जेनरेट किए गए ऑडियो (~10-15 chars/s)

आवाज़ें और भाषाएँ

  • emotional/tonal पात्रों में 30+ आवाज विकल्प
  • 24+ भाषा स्थान समर्थित

आउटपुट प्रारूप

  • एमपी3, डब्ल्यूएवी, ओजीजी

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-pro-tts