Gemini 2.5 Flash TTS | EmpirioLabs AI Docs

Google · Audio Generation

POST /v1/audio/speech

منخفضة التردد text-to-speech بأصوات وحيدة ومتعددة الأصفاد وأسلوب قابل لللسيطرة، لكنة، ونبرة معبرة لأجهزة الإنتاج.

في لمحة

الميدان	القيمة
النموذج	`gemini-2-5-flash-tts`
تاريخ الإفراج النموذجي	2025-05-20
طرائق المدخلات	النص
طرائق النواتج	Audio
نافذة السياق	-
دقة الوزن	-
المعالم	text_to_speech
Native inference	لا
جديدة	لا
نقاط النهاية المدعومة	`POST /v1/audio/speech`

الطباعة

الرسم	Spec	المعدل
الناتج	1M	$1.50
الناتج	1M المولدة	$30.00

طلب مثال

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "gemini-2-5-flash-tts", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامترات	النوع	المطلوبة	التقصير	الوصف
`input`	سلسلة	نعم	-	نص للتحول إلى خطاب. For multi-speaker mode, prefix lines with Speaker1: / Speaker2:
`mode`	enum	لا	`"single"`	المفرد = صوت واحد، متعدد = حوارين بصوتين (يستخدم الصوت + الصوت 2 + أسماء المتحدثين). · مسموح: `single`، `multi`
`language`	سلسلة	لا	`"en-US"`	BCP-47 language tag (en-US, es-ES, etc.) for pronunciation cues.
`voice`	enum	لا	`"Charon"`	اسم الصوت الأساسي (مثل كوري، بوك، أويدي). اترك الرقم فارغا للافتراضي. · مسموح ب: `Zephyr`، `Puck`، `Charon`، `Kore`، `Fenrir`، `Leda`، `Orus`، `Aoede`، `Callirrhoe`، `Autonoe`، `Enceladus`، `Iapetus`، `Umbriel`، `Algieba`، `Despina`، `Erinome`، `Algenib`، `Rasalgethi`، `Laomedeia`، `Achernar`، `Alnilam`، `Schedar`، `Gacrux`، `Pulcherrima`، `Achird`، `Zubenelgenubi`، `Vindemiatrix`، `Sadachbia`، `Sadaltager`، `Sulafat`
`voice2`	enum	لا	`"Kore"`	الاسم الصوتي الثاني لوضع السماعات المتعددة. · مسموح ب: `Zephyr`، `Puck`، `Charon`، `Kore`، `Fenrir`، `Leda`، `Orus`، `Aoede`، `Callirrhoe`، `Autonoe`، `Enceladus`، `Iapetus`، `Umbriel`، `Algieba`، `Despina`، `Erinome`، `Algenib`، `Rasalgethi`، `Laomedeia`، `Achernar`، `Alnilam`، `Schedar`، `Gacrux`، `Pulcherrima`، `Achird`، `Zubenelgenubi`، `Vindemiatrix`، `Sadachbia`، `Sadaltager`، `Sulafat`
`speaker1_name`	سلسلة	لا	`"Speaker1"`	التصويب المستخدم في تحديد مدخل للمتكلم 1 (العجز: المتكلم 1).
`speaker2_name`	سلسلة	لا	`"Speaker2"`	التصويب المستخدم في تحديد مدخل للمتكلم 2 (المقعد: المتكلم 2).
`output_format`	enum	لا	`"WAV"`	تنسيق ملفات الصوت (mp3، wav، opus، flac، إلخ). · مسموح ب: `WAV`، `MP3`، `OGG`، `ALAW`، `MULAW`
`speed`	العدد	لا	`1.0`	معدل العزف 1.0 = natural; 1 slower, > 1 faster. · Range: 0.25 - 2.0
`volume_gain`	العدد	لا	`0`	الناتج يكسب في دي بي صفر = بدون تغيير. الرنج: 96 - 16
`sample_rate`	enum	لا	`"24000"`	معدل العينة الناتج بالهرتز (8000، 16000، 24000، 44100، 48000). · مسموح: `8000`، `16000`، `22050`، `24000`، `44100`، `48000`
`style_prompt`	سلسلة	لا	-	”إتجاه أسلوب اللغة الطبيعية “مثل “الحرب، المحادثة” أو “الجديدة، الجدية”

الحواشي

** مورس**

متكلم واحد
مكبرات الصوت المتعددة (كحد أقصى صوتين) - يجب أن يكون النص بصيغة SpeakerName: text

** الأهداف**

النص + النمط السريع: 000 4 بوصة
Audio billing: ~32 tokens per second of generated audio (~10-15 chars/s

** أصوات ولغات**

30+ خيار صوتي عبر emotional/tonal شخصية
24+ اللغات المحلية المدعومة

** أشكال النواتج**

MP3, WAV, OGG

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-flash-tts.