Gemini 3.1 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

TTS عالية السيطرة مع تاجز الصوتية الجديدة لأسلوب دقيق، نبرة، سرعة، تسليم عبر التخدير، مساعدين، وأجهزة الصوت.

في لمحة

الميدان	القيمة
النموذج	`gemini-3-1-flash-tts`
تاريخ الإفراج النموذجي	2026-04-13
طرائق المدخلات	النص
طرائق النواتج	Audio
نافذة السياق	-
دقة الوزن	-
المعالم	text_to_speech
Native inference	لا
جديدة	نعم
نقاط النهاية المدعومة	`POST /v1/audio/speech`

الطباعة

الرسم	Spec	المعدل
الناتج	1M	$2.60
الناتج	1M المولدة	$52.00

طلب مثال

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-3-1-flash-tts", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامترات	النوع	المطلوبة	التقصير	الوصف
`input`	سلسلة	نعم	-	نص للتحول إلى خطاب. For multi-speaker mode, prefix lines with Speaker1: / Speaker2:
`mode`	enum	لا	`"single"`	المفرد = صوت واحد، متعدد = حوارين بصوتين (يستخدم الصوت + الصوت 2 + أسماء المتحدثين). · مسموح: `single`، `multi`
`language`	سلسلة	لا	`"en-US"`	BCP-47 language tag (en-US, es-ES, etc.) for pronunciation cues.
`voice`	enum	لا	`"Charon"`	اسم الصوت الأساسي (مثل كوري، بوك، أويدي). اترك الرقم فارغا للافتراضي. · مسموح ب: `Zephyr`، `Puck`، `Charon`، `Kore`، `Fenrir`، `Leda`، `Orus`، `Aoede`، `Callirrhoe`، `Autonoe`، `Enceladus`، `Iapetus`، `Umbriel`، `Algieba`، `Despina`، `Erinome`، `Algenib`، `Rasalgethi`، `Laomedeia`، `Achernar`، `Alnilam`، `Schedar`، `Gacrux`، `Pulcherrima`، `Achird`، `Zubenelgenubi`، `Vindemiatrix`، `Sadachbia`، `Sadaltager`، `Sulafat`
`voice2`	enum	لا	`"Kore"`	الاسم الصوتي الثاني لوضع السماعات المتعددة. · مسموح ب: `Zephyr`، `Puck`، `Charon`، `Kore`، `Fenrir`، `Leda`، `Orus`، `Aoede`، `Callirrhoe`، `Autonoe`، `Enceladus`، `Iapetus`، `Umbriel`، `Algieba`، `Despina`، `Erinome`، `Algenib`، `Rasalgethi`، `Laomedeia`، `Achernar`، `Alnilam`، `Schedar`، `Gacrux`، `Pulcherrima`، `Achird`، `Zubenelgenubi`، `Vindemiatrix`، `Sadachbia`، `Sadaltager`، `Sulafat`
`speaker1_name`	سلسلة	لا	`"Speaker1"`	التصويب المستخدم في تحديد مدخل للمتكلم 1 (العجز: المتكلم 1).
`speaker2_name`	سلسلة	لا	`"Speaker2"`	التصويب المستخدم في تحديد مدخل للمتكلم 2 (المقعد: المتكلم 2).
`output_format`	enum	لا	`"WAV"`	تنسيق ملفات الصوت (mp3، wav، opus، flac، إلخ). · مسموح ب: `WAV`، `MP3`، `OGG`، `ALAW`، `MULAW`
`speed`	العدد	لا	`1.0`	معدل العزف 1.0 = natural; 1 slower, > 1 faster. · Range: 0.25 - 2.0
`volume_gain`	العدد	لا	`0`	الناتج يكسب في دي بي صفر = بدون تغيير. الرنج: 96 - 16
`sample_rate`	enum	لا	`"24000"`	معدل العينة الناتج بالهرتز (8000، 16000، 24000، 44100، 48000). · مسموح: `8000`، `16000`، `22050`، `24000`، `44100`، `48000`
`style_prompt`	سلسلة	لا	-	”إتجاه أسلوب اللغة الطبيعية “مثل “الحرب، المحادثة” أو “الجديدة، الجدية”

الحواشي

معظم الـ (جيميني تي تي تي تي تي تي تي) المتحكم به حتى الآن

** الأهداف**

النص + الأسلوب السريع: 000 4 بوصة لكل 000 8 نسخة مجتمعة
الناتج الأقصى: 10 دقائق
Audio billing: ~25 tokens per second (~15 chars/s)
اللغة محررة آلياً؛ وضع اللغة هو تلميح وليس قيداً

** بطاقات صوتية خطية** (توصيل المراقبة)

المشاعر: [whispers]، [shouts]، [laughs]، [sighs]، [cheerful]، [sad]، [angry]، إلخ.
السرعة: [slow]، [fast]، [extremely fast]، [normal pace]
توقفات: [short pause]، [long pause]، [breath]
التأكيد: [softly]، [loudly]، [high pitch]، [low pitch]، [rising tone]، [falling tone]

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/gemini-3-1-flash-tts.