Gemini 3.1 Flash TTS

Gemini 3.1 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

TTS عالية السيطرة مع تاجز الصوتية الجديدة لأسلوب دقيق، نبرة، سرعة، تسليم عبر التخدير، مساعدين، وأجهزة الصوت.

في لمحة

الميدانالقيمة
النموذجgemini-3-1-flash-tts
تاريخ الإفراج النموذجي2026-04-13
طرائق المدخلاتالنص
طرائق النواتجAudio
نافذة السياق-
دقة الوزن-
المعالمtext_to_speech
Native inferenceلا
جديدةنعم
نقاط النهاية المدعومةPOST /v1/audio/speech

الطباعة

الرسمSpecالمعدل
الناتج1M$2.60
الناتج1M المولدة$52.00

طلب مثال

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامتراتالنوعالمطلوبةالتقصيرالوصف
inputسلسلةنعم-نص للتحول إلى خطاب. For multi-speaker mode, prefix lines with Speaker1: / Speaker2:
modeenumلا"single"المفرد = صوت واحد، متعدد = حوارين بصوتين (يستخدم الصوت + الصوت 2 + أسماء المتحدثين). · مسموح: single، multi
languageسلسلةلا"en-US"BCP-47 language tag (en-US, es-ES, etc.) for pronunciation cues.
voiceenumلا"Charon"اسم الصوت الأساسي (مثل كوري، بوك، أويدي). اترك الرقم فارغا للافتراضي. · مسموح ب: Zephyr، Puck، Charon، Kore، Fenrir، Leda، Orus، Aoede، Callirrhoe، Autonoe، Enceladus، Iapetus، Umbriel، Algieba، Despina، Erinome، Algenib، Rasalgethi، Laomedeia، Achernar، Alnilam، Schedar، Gacrux، Pulcherrima، Achird، Zubenelgenubi، Vindemiatrix، Sadachbia، Sadaltager، Sulafat
voice2enumلا"Kore"الاسم الصوتي الثاني لوضع السماعات المتعددة. · مسموح ب: Zephyr، Puck، Charon، Kore، Fenrir، Leda، Orus، Aoede، Callirrhoe، Autonoe، Enceladus، Iapetus، Umbriel، Algieba، Despina، Erinome، Algenib، Rasalgethi، Laomedeia، Achernar، Alnilam، Schedar، Gacrux، Pulcherrima، Achird، Zubenelgenubi، Vindemiatrix، Sadachbia، Sadaltager، Sulafat
speaker1_nameسلسلةلا"Speaker1"التصويب المستخدم في تحديد مدخل للمتكلم 1 (العجز: المتكلم 1).
speaker2_nameسلسلةلا"Speaker2"التصويب المستخدم في تحديد مدخل للمتكلم 2 (المقعد: المتكلم 2).
output_formatenumلا"WAV"تنسيق ملفات الصوت (mp3، wav، opus، flac، إلخ). · مسموح ب: WAV، MP3، OGG، ALAW، MULAW
speedالعددلا1.0معدل العزف 1.0 = natural; 1 slower, > 1 faster. · Range: 0.25 - 2.0
volume_gainالعددلا0الناتج يكسب في دي بي صفر = بدون تغيير. الرنج: 96 - 16
sample_rateenumلا"24000"معدل العينة الناتج بالهرتز (8000، 16000، 24000، 44100، 48000). · مسموح: 8000، 16000، 22050، 24000، 44100، 48000
style_promptسلسلةلا-”إتجاه أسلوب اللغة الطبيعية “مثل “الحرب، المحادثة” أو “الجديدة، الجدية”

الحواشي

معظم الـ (جيميني تي تي تي تي تي تي تي) المتحكم به حتى الآن

** الأهداف**

  • النص + الأسلوب السريع: 000 4 بوصة لكل 000 8 نسخة مجتمعة
  • الناتج الأقصى: 10 دقائق
  • Audio billing: ~25 tokens per second (~15 chars/s)
  • اللغة محررة آلياً؛ وضع اللغة هو تلميح وليس قيداً

** بطاقات صوتية خطية** (توصيل المراقبة)

  • المشاعر: [whispers]، [shouts]، [laughs]، [sighs]، [cheerful]، [sad]، [angry]، إلخ.
  • السرعة: [slow]، [fast]، [extremely fast]، [normal pace]
  • توقفات: [short pause]، [long pause]، [breath]
  • التأكيد: [softly]، [loudly]، [high pitch]، [low pitch]، [rising tone]، [falling tone]

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.