Gemini 2.5 Flash TTS

Gemini 2.5 Flash TTS
Google · Audio Generation
POST /v1/audio/speech

منخفضة التردد text-to-speech بأصوات وحيدة ومتعددة الأصفاد وأسلوب قابل لللسيطرة، لكنة، ونبرة معبرة لأجهزة الإنتاج.

في لمحة

الميدانالقيمة
النموذجgemini-2-5-flash-tts
تاريخ الإفراج النموذجي2025-05-20
طرائق المدخلاتالنص
طرائق النواتجAudio
نافذة السياق-
دقة الوزن-
المعالمtext_to_speech
Native inferenceلا
جديدةلا
نقاط النهاية المدعومةPOST /v1/audio/speech

الطباعة

الرسمSpecالمعدل
الناتج1M$1.50
الناتج1M المولدة$30.00

طلب مثال

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemini-2-5-flash-tts", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامتراتالنوعالمطلوبةالتقصيرالوصف
inputسلسلةنعم-نص للتحول إلى خطاب. For multi-speaker mode, prefix lines with Speaker1: / Speaker2:
modeenumلا"single"المفرد = صوت واحد، متعدد = حوارين بصوتين (يستخدم الصوت + الصوت 2 + أسماء المتحدثين). · مسموح: single، multi
languageسلسلةلا"en-US"BCP-47 language tag (en-US, es-ES, etc.) for pronunciation cues.
voiceenumلا"Charon"اسم الصوت الأساسي (مثل كوري، بوك، أويدي). اترك الرقم فارغا للافتراضي. · مسموح ب: Zephyr، Puck، Charon، Kore، Fenrir، Leda، Orus، Aoede، Callirrhoe، Autonoe، Enceladus، Iapetus، Umbriel، Algieba، Despina، Erinome، Algenib، Rasalgethi، Laomedeia، Achernar، Alnilam، Schedar، Gacrux، Pulcherrima، Achird، Zubenelgenubi، Vindemiatrix، Sadachbia، Sadaltager، Sulafat
voice2enumلا"Kore"الاسم الصوتي الثاني لوضع السماعات المتعددة. · مسموح ب: Zephyr، Puck، Charon، Kore، Fenrir، Leda، Orus، Aoede، Callirrhoe، Autonoe، Enceladus، Iapetus، Umbriel، Algieba، Despina، Erinome، Algenib، Rasalgethi، Laomedeia، Achernar، Alnilam، Schedar، Gacrux، Pulcherrima، Achird، Zubenelgenubi، Vindemiatrix، Sadachbia، Sadaltager، Sulafat
speaker1_nameسلسلةلا"Speaker1"التصويب المستخدم في تحديد مدخل للمتكلم 1 (العجز: المتكلم 1).
speaker2_nameسلسلةلا"Speaker2"التصويب المستخدم في تحديد مدخل للمتكلم 2 (المقعد: المتكلم 2).
output_formatenumلا"WAV"تنسيق ملفات الصوت (mp3، wav، opus، flac، إلخ). · مسموح ب: WAV، MP3، OGG، ALAW، MULAW
speedالعددلا1.0معدل العزف 1.0 = natural; 1 slower, > 1 faster. · Range: 0.25 - 2.0
volume_gainالعددلا0الناتج يكسب في دي بي صفر = بدون تغيير. الرنج: 96 - 16
sample_rateenumلا"24000"معدل العينة الناتج بالهرتز (8000، 16000، 24000، 44100، 48000). · مسموح: 8000، 16000، 22050، 24000، 44100، 48000
style_promptسلسلةلا-”إتجاه أسلوب اللغة الطبيعية “مثل “الحرب، المحادثة” أو “الجديدة، الجدية”

الحواشي

** مورس**

  • متكلم واحد
  • مكبرات الصوت المتعددة (كحد أقصى صوتين) - يجب أن يكون النص بصيغة SpeakerName: text

** الأهداف**

  • النص + النمط السريع: 000 4 بوصة
  • Audio billing: ~32 tokens per second of generated audio (~10-15 chars/s

** أصوات ولغات**

  • 30+ خيار صوتي عبر emotional/tonal شخصية
  • 24+ اللغات المحلية المدعومة

** أشكال النواتج**

  • MP3, WAV, OGG

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/gemini-2-5-flash-tts.