GLM TTS | EmpirioLabs AI Docs

Z.ai · Audio Generation

POST /v1/audio/speech

एलएलएम-आधारित text-to-speech 3-10 ऑडियो और भावना-अभिव्यंजक, बहु-इनाम आरएल के माध्यम से नियंत्रणीय आउटपुट के 3-10 से शून्य-शॉट वॉयस क्लोनिंग के साथ।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`glm-tts`
मॉडल रिलीज की तारीख	2025-12-11
इनपुट तौर-तरीके	पाठ, ऑडियो
आउटपुट के तौर-तरीके	ऑडियो
संदर्भ विंडो	-
वजन परिशुद्धता	आईएनटी8/एफपी16
सुविधाऐं	voice_cloning, emotion_control
मूल अनुमान	हाँ
नया	नहीं
समर्थित समापन बिंदु	`POST /v1/audio/speech`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
फास्ट (INT8)	प्रति 1k वर्ण	$0.20
गुणवत्ता (FP16)	प्रति 1k वर्ण	$0.21

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`input`	तार	हाँ	-	संश्लेषित करने के लिए पाठ। मल्टी-स्पीकर के लिए [S1]/[S2] टैग या ‘स्पीकर N:’ लाइनों का उपयोग करें।
`voice`	एनम	नहीं	`"emma"`	एम्मा = अंग्रेजी महिला, जेम्स = यूएस पुरुष, आर्थर = यूएस मेल ऑल्ट, ज़ियाओमी = चीनी महिला, ज़िगांग = चीनी पुरुष, कस्टम = voice_audio_url के माध्यम से संदर्भ अपलोड करें। · अनुमति: `emma`, `james`, `arthur`, `xiaomei`, `zhigang`, `custom`
`voice_audio_url`	तार	नहीं	-	कस्टम वॉयस क्लोनिंग के लिए संदर्भ ऑडियो URL। संदर्भ रिकॉर्डिंग में स्पीकर को इस सटीक सहमति वाक्यांश को अपनी आवाज में जोर से पढ़ना होना चाहिए: “मैं सिंथेटिक भाषण उत्पन्न करने के उद्देश्य से एम्पिरियो लैब्स को अपनी आवाज की क्लोनिंग करने के लिए सहमति देता हूं। मैं समझता हूं कि मेरी आवाज के नमूने का उपयोग व्यक्तिगत ऑडियो सामग्री बनाने के लिए किया जाएगा। वाक्यांश के बिना संदर्भ ऑडियो अस्वीकार कर दिया गया है।
`output_format`	एनम	नहीं	`"mp3"`	आउटपुट मीडिया फ़ाइल स्वरूप (mp3, wav, mp4, png, jpg, आदि, समापन बिंदु के आधार पर)। · अनुमति: `mp3`, `wav`
`speed`	संख्या	नहीं	`1.0`	बोलने की दर गुणक। · रेंज: 0.5 - 2.0
`model_quality`	एनम	नहीं	`"quality"`	गुणवत्ता = FP16 (बेहतर), तेज = INT8 (तेज) · अनुमति: `quality`, `fast`
`sample_rate`	एनम	नहीं	`"24000"`	हर्ट्ज में आउटपुट नमूना दर। · अनुमति: `24000`, `16000`
`volume`	संख्या	नहीं	`1.0`	आउटपुट लाभ गुणक। · रेंज: 0.1 - 2.0
`use_cache`	बूलियन	नहीं	सच	बार-बार समान पीढ़ियों को गति देता है।
`optimize_input`	बूलियन	नहीं	सच	तकनीकी शब्दों, परिवर्णी शब्दों और विशेष वर्णों का ऑटो-फिक्स उच्चारण।
`seed`	संख्या	नहीं	-	प्रजनन क्षमता बीज।

एक नजर में

मूल्य निर्धारण

उदाहरण अनुरोध

पैरामीटर

टिप्पणियाँ