GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

LLM-based text-to-speech with zero-shot voice cloning from 3-10s of audio and emotion-expressive, controllable output via multi-reward RL.

في لمحة

الميدانالقيمة
النموذجglm-tts
تاريخ الإفراج النموذجي2025-12-11
طرائق المدخلاتالنص، أوديو
طرائق النواتجAudio
نافذة السياق-
دقة الوزنINT8 / FP16
المعالمالصوت
Native inferenceنعم
جديدةلا
نقاط النهاية المدعومةPOST /v1/audio/speech

الطباعة

الرسمSpecالمعدل
(INT8)للشخص الواحد$0.20
الجودة (FP16)للشخص الواحد$0.21

طلب مثال

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامتراتالنوعالمطلوبةالتقصيرالوصف
inputسلسلةنعم-نص لتوليف. لاستعمال المتعدّد السّبكر [S1] / [S2] tags or ‘Speaker N: ’ خطوط.
voiceenumلا"emma"إيما = أنثى إنجليزية، جيمس = ذكر أمريكي، آرثر = ذكر أمريكي بديل، شياومي = أنثى صينية، تشيغانغ = ذكر صيني، مخصص = رفع مرجع عبر voice_audio_url. · مسموح به: emma، james، arthur، xiaomei، zhigang، custom
voice_audio_urlسلسلةلا-المرجع الصوتي URL لاستنساخ الصوت العرفي. يجب أن يحتوي التسجيل المرجعي على مكبر الصوت الذي يقرأ عبارة الموافقة الدقيقة هذه بصوته الخاص: “أوافق على إستنساخ “إمبريو لابس أفهم أن عينة صوتي ستستخدم لخلق محتوى صوتي الشخصي ويُرفض السمع المرجعي دون العبارة.
output_formatenumلا"mp3"تنسيق ملف وسائط الإخراج (mp3، wav، mp4، png، jpg، إلخ، حسب نقطة النهاية). · مسموح: mp3، wav
speedالعددلا1.0مضاعف معدل الكلام الرنج: 0.5 - 2.0
model_qualityenumلا"quality"الجودة=FP16 (أفضل)، سريع=INT8 (أسرع) · مسموح: quality، fast
sample_rateenumلا"24000"معدل العينة الناتج بالهرتز. · مسموح: 24000، 16000
volumeالعددلا1.0مضاعف الناتج الرنج: 0.1 - 2.0
use_cachebooleanلاصحيحيقطع أجيال متطابقة متكررة
optimize_inputbooleanلاصحيحAuto-fix pronciation of technical terms, acronyms, and special characters.
seedالعددلا-بذور التكاثر

الحواشي

** الأهداف**

  • مدخل ماكس: 000 5 شخص
  • التوليد: 5-10 دقائق

** استنساخ صوتي**

  • الصوت المرجعي: 3-10 ثوان
  • الأشكال المقبولة: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

** أصوات متفرقة**

  • emma (English F)
  • جيمس (US M)
  • (UK M)
  • Xiaomei (Chinese F)
  • zhigang (Chinese M)

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/glm-tts.