input | तार | हाँ | - | संश्लेषित करने के लिए पाठ। मल्टी-स्पीकर के लिए [S1]/[S2] टैग या ‘स्पीकर N:’ लाइनों का उपयोग करें। |
voice | एनम | नहीं | "emma" | एम्मा = अंग्रेजी महिला, जेम्स = यूएस पुरुष, आर्थर = यूएस मेल ऑल्ट, ज़ियाओमी = चीनी महिला, ज़िगांग = चीनी पुरुष, कस्टम = voice_audio_url के माध्यम से संदर्भ अपलोड करें। · अनुमति: emma, james, arthur, xiaomei, zhigang, custom |
voice_audio_url | तार | नहीं | - | कस्टम वॉयस क्लोनिंग के लिए संदर्भ ऑडियो URL। संदर्भ रिकॉर्डिंग में स्पीकर को इस सटीक सहमति वाक्यांश को अपनी आवाज में जोर से पढ़ना होना चाहिए: “मैं सिंथेटिक भाषण उत्पन्न करने के उद्देश्य से एम्पिरियो लैब्स को अपनी आवाज की क्लोनिंग करने के लिए सहमति देता हूं। मैं समझता हूं कि मेरी आवाज के नमूने का उपयोग व्यक्तिगत ऑडियो सामग्री बनाने के लिए किया जाएगा। वाक्यांश के बिना संदर्भ ऑडियो अस्वीकार कर दिया गया है। |
output_format | एनम | नहीं | "mp3" | आउटपुट मीडिया फ़ाइल स्वरूप (mp3, wav, mp4, png, jpg, आदि, समापन बिंदु के आधार पर)। · अनुमति: mp3, wav |
speed | संख्या | नहीं | 1.0 | बोलने की दर गुणक। · रेंज: 0.5 - 2.0 |
model_quality | एनम | नहीं | "quality" | गुणवत्ता = FP16 (बेहतर), तेज = INT8 (तेज) · अनुमति: quality, fast |
sample_rate | एनम | नहीं | "24000" | हर्ट्ज में आउटपुट नमूना दर। · अनुमति: 24000, 16000 |
volume | संख्या | नहीं | 1.0 | आउटपुट लाभ गुणक। · रेंज: 0.1 - 2.0 |
use_cache | बूलियन | नहीं | सच | बार-बार समान पीढ़ियों को गति देता है। |
optimize_input | बूलियन | नहीं | सच | तकनीकी शब्दों, परिवर्णी शब्दों और विशेष वर्णों का ऑटो-फिक्स उच्चारण। |
seed | संख्या | नहीं | - | प्रजनन क्षमता बीज। |