GLM TTS | EmpirioLabs AI Docs

Z.ai · Audio Generation

POST /v1/audio/speech

LLM-based text-to-speech with zero-shot voice cloning from 3-10s of audio and emotion-expressive, controllable output via multi-reward RL.

في لمحة

الميدان	القيمة
النموذج	`glm-tts`
تاريخ الإفراج النموذجي	2025-12-11
طرائق المدخلات	النص، أوديو
طرائق النواتج	Audio
نافذة السياق	-
دقة الوزن	INT8 / FP16
المعالم	الصوت
Native inference	نعم
جديدة	لا
نقاط النهاية المدعومة	`POST /v1/audio/speech`

الطباعة

الرسم	Spec	المعدل
(INT8)	للشخص الواحد	$0.20
الجودة (FP16)	للشخص الواحد	$0.21

طلب مثال

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامترات	النوع	المطلوبة	التقصير	الوصف
`input`	سلسلة	نعم	-	نص لتوليف. لاستعمال المتعدّد السّبكر [S1] / [S2] tags or ‘Speaker N: ’ خطوط.
`voice`	enum	لا	`"emma"`	إيما = أنثى إنجليزية، جيمس = ذكر أمريكي، آرثر = ذكر أمريكي بديل، شياومي = أنثى صينية، تشيغانغ = ذكر صيني، مخصص = رفع مرجع عبر voice_audio_url. · مسموح به: `emma`، `james`، `arthur`، `xiaomei`، `zhigang`، `custom`
`voice_audio_url`	سلسلة	لا	-	المرجع الصوتي URL لاستنساخ الصوت العرفي. يجب أن يحتوي التسجيل المرجعي على مكبر الصوت الذي يقرأ عبارة الموافقة الدقيقة هذه بصوته الخاص: “أوافق على إستنساخ “إمبريو لابس أفهم أن عينة صوتي ستستخدم لخلق محتوى صوتي الشخصي ويُرفض السمع المرجعي دون العبارة.
`output_format`	enum	لا	`"mp3"`	تنسيق ملف وسائط الإخراج (mp3، wav، mp4، png، jpg، إلخ، حسب نقطة النهاية). · مسموح: `mp3`، `wav`
`speed`	العدد	لا	`1.0`	مضاعف معدل الكلام الرنج: 0.5 - 2.0
`model_quality`	enum	لا	`"quality"`	الجودة=FP16 (أفضل)، سريع=INT8 (أسرع) · مسموح: `quality`، `fast`
`sample_rate`	enum	لا	`"24000"`	معدل العينة الناتج بالهرتز. · مسموح: `24000`، `16000`
`volume`	العدد	لا	`1.0`	مضاعف الناتج الرنج: 0.1 - 2.0
`use_cache`	boolean	لا	صحيح	يقطع أجيال متطابقة متكررة
`optimize_input`	boolean	لا	صحيح	Auto-fix pronciation of technical terms, acronyms, and special characters.
`seed`	العدد	لا	-	بذور التكاثر

الحواشي

** الأهداف**

مدخل ماكس: 000 5 شخص
التوليد: 5-10 دقائق

** استنساخ صوتي**

الصوت المرجعي: 3-10 ثوان
الأشكال المقبولة: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

** أصوات متفرقة**

emma (English F)
جيمس (US M)
(UK M)
Xiaomei (Chinese F)
zhigang (Chinese M)

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/glm-tts.