GLM TTS

GLM TTS
Z.ai · Audio Generation
POST /v1/audio/speech

एलएलएम-आधारित text-to-speech 3-10 ऑडियो और भावना-अभिव्यंजक, बहु-इनाम आरएल के माध्यम से नियंत्रणीय आउटपुट के 3-10 से शून्य-शॉट वॉयस क्लोनिंग के साथ।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीglm-tts
मॉडल रिलीज की तारीख2025-12-11
इनपुट तौर-तरीकेपाठ, ऑडियो
आउटपुट के तौर-तरीकेऑडियो
संदर्भ विंडो-
वजन परिशुद्धताआईएनटी8/एफपी16
सुविधाऐंvoice_cloning, emotion_control
मूल अनुमानहाँ
नयानहीं
समर्थित समापन बिंदुPOST /v1/audio/speech

मूल्य निर्धारण

आवेशित करनायुक्तिदर
फास्ट (INT8)प्रति 1k वर्ण$0.20
गुणवत्ता (FP16)प्रति 1k वर्ण$0.21

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-tts", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
inputतारहाँ-संश्लेषित करने के लिए पाठ। मल्टी-स्पीकर के लिए [S1]/[S2] टैग या ‘स्पीकर N:’ लाइनों का उपयोग करें।
voiceएनमनहीं"emma"एम्मा = अंग्रेजी महिला, जेम्स = यूएस पुरुष, आर्थर = यूएस मेल ऑल्ट, ज़ियाओमी = चीनी महिला, ज़िगांग = चीनी पुरुष, कस्टम = voice_audio_url के माध्यम से संदर्भ अपलोड करें। · अनुमति: emma, james, arthur, xiaomei, zhigang, custom
voice_audio_urlतारनहीं-कस्टम वॉयस क्लोनिंग के लिए संदर्भ ऑडियो URL। संदर्भ रिकॉर्डिंग में स्पीकर को इस सटीक सहमति वाक्यांश को अपनी आवाज में जोर से पढ़ना होना चाहिए: “मैं सिंथेटिक भाषण उत्पन्न करने के उद्देश्य से एम्पिरियो लैब्स को अपनी आवाज की क्लोनिंग करने के लिए सहमति देता हूं। मैं समझता हूं कि मेरी आवाज के नमूने का उपयोग व्यक्तिगत ऑडियो सामग्री बनाने के लिए किया जाएगा। वाक्यांश के बिना संदर्भ ऑडियो अस्वीकार कर दिया गया है।
output_formatएनमनहीं"mp3"आउटपुट मीडिया फ़ाइल स्वरूप (mp3, wav, mp4, png, jpg, आदि, समापन बिंदु के आधार पर)। · अनुमति: mp3, wav
speedसंख्यानहीं1.0बोलने की दर गुणक। · रेंज: 0.5 - 2.0
model_qualityएनमनहीं"quality"गुणवत्ता = FP16 (बेहतर), तेज = INT8 (तेज) · अनुमति: quality, fast
sample_rateएनमनहीं"24000"हर्ट्ज में आउटपुट नमूना दर। · अनुमति: 24000, 16000
volumeसंख्यानहीं1.0आउटपुट लाभ गुणक। · रेंज: 0.1 - 2.0
use_cacheबूलियननहींसचबार-बार समान पीढ़ियों को गति देता है।
optimize_inputबूलियननहींसचतकनीकी शब्दों, परिवर्णी शब्दों और विशेष वर्णों का ऑटो-फिक्स उच्चारण।
seedसंख्यानहीं-प्रजनन क्षमता बीज।

टिप्पणियाँ

सीमाएं

  • अधिकतम इनपुट: 5,000 वर्ण
  • पीढ़ी: 5-10 मिनट

आवाज क्लोनिंग

  • संदर्भ ऑडियो: 3-10 सेकंड
  • स्वीकृत प्रारूप: WAV, MP3, OGG, FLAC, AAC, M4A, WebM

पूर्व निर्धारित आवाज़ें

  • एम्मा (अंग्रेजी एफ)
  • जेम्स (यूएस एम)
  • आर्थर (यूके एम)
  • ज़ियाओमी (चीनी एफ)
  • झिगांग (चीनी एम)

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/glm-tts