SoulX Podcast | EmpirioLabs AI Docs

Soul AI Lab · Audio Generation

POST /v1/audio/speech

पैरालिंग्विस्टिक नियंत्रण (हँसी, आह) और शून्य-शॉट वॉयस क्लोनिंग के साथ लंबे-फॉर्म, मल्टी-स्पीकर पॉडकास्ट संवाद के लिए ओपन-सोर्स वॉयस मॉडल।

एक नजर में

फ़ील्ड	मूल्य
मॉडल आईडी	`soulx-podcast`
मॉडल रिलीज की तारीख	2025-10-29
इनपुट तौर-तरीके	पाठ, ऑडियो
आउटपुट के तौर-तरीके	ऑडियो
संदर्भ विंडो	-
वजन परिशुद्धता	-
सुविधाऐं	voice_cloning, multi_speaker, बोली, पॉडकास्ट
मूल अनुमान	हाँ
नया	नहीं
समर्थित समापन बिंदु	`POST /v1/audio/speech`

मूल्य निर्धारण

आवेशित करना	युक्ति	दर
आधार	प्रति 1k वर्ण	$0.015
उपभाषा	प्रति 1k वर्ण	$0.015

उदाहरण अनुरोध

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचल	प्रकार	आवश्यक	डिफ़ॉल्ट	या क़िस्‍म
`input`	तार	हाँ	-	पॉडकास्ट स्क्रिप्ट। मल्टी-स्पीकर के लिए [S1]/[S2]/[S3]/[S4] टैग या ‘स्पीकर N:’ लाइनों का उपयोग करें। पैरालिंग्विस्टिक टैग समर्थित: <\|खिलखिलाहट\|>, <\|गहरी सांस\|>, <\|श्‍वसन क्रिया\|>, <\|खांसी\|>.
`voice_model`	एनम	नहीं	`"base"`	आधार: अंग्रेजी + मंदारिन। बोली: सिचुआन, हेनान और कैंटोनीज़ कहते हैं। · अनुमति: `base`, `dialect`
`voice_s1`	एनम	नहीं	`"arthur"`	[S1] के लिए आवाज। एलजे = एम्मा। custom_s1 voice_s1_audio_url की आवश्यकता है। · अनुमति: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s1`
`voice_s2`	एनम	नहीं	`"lj"`	[S2] के लिए आवाज। एलजे = एम्मा। · अनुमति: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s2`
`voice_s3`	एनम	नहीं	`"james"`	[S3] के लिए आवाज। · अनुमति: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s3`
`voice_s4`	एनम	नहीं	`"xiaomei"`	[S4] के लिए आवाज। · अनुमति: `arthur`, `james`, `lj`, `xiaomei`, `zhigang`, `custom_s4`
`voice_s1_audio_url`	तार	नहीं	-	[S1] कस्टम-वॉयस क्लोनिंग के लिए ऑडियो URL का संदर्भ लें। अध्यक्ष को सहमति वाक्यांश को जोर से कहना चाहिए।
`voice_s2_audio_url`	तार	नहीं	-	[S2] कस्टम-वॉयस क्लोनिंग के लिए ऑडियो URL का संदर्भ लें।
`voice_s3_audio_url`	तार	नहीं	-	[S3] कस्टम-वॉयस क्लोनिंग के लिए ऑडियो URL का संदर्भ लें।
`voice_s4_audio_url`	तार	नहीं	-	[S4] कस्टम-वॉयस क्लोनिंग के लिए संदर्भ ऑडियो URL।
`temperature`	संख्या	नहीं	`0.6`	नमूना तापमान। · रेंज: 0.1 - 2.0
`top_k`	संख्या	नहीं	`100`	टॉप-के सैंपलिंग कैप। · रेंज: 1 - 500
`top_p`	संख्या	नहीं	`0.9`	नाभिक नमूनाकरण। · रेंज: 0.1 - 1.0
`repetition_penalty`	संख्या	नहीं	`1.25`	उच्च मूल्य बार-बार वाक्यांश को हतोत्साहित करते हैं। · रेंज: 1.0 - 2.0
`seed`	तार	नहीं	`"42"`	प्रतिलिपि प्रस्तुत करने योग्यता बीज (स्ट्रिंग प्रति अपस्ट्रीम)।
`output_format`	एनम	नहीं	`"mp3"`	आउटपुट मीडिया फ़ाइल स्वरूप (mp3, wav, mp4, png, jpg, आदि, समापन बिंदु के आधार पर)। · अनुमति: `mp3`, `wav`
`language`	तार	नहीं	`""`	अपस्ट्रीम (पासथ्रू) पर अग्रेषित किया जाता है ताकि पॉडकास्ट मॉडल सही voice/dialect टियर चुन सके।

पैरालिंग्विस्टिक कंट्रोल और जीरो-शॉट वॉयस क्लोनिंग के साथ लंबे-फॉर्म, मल्टी-स्पीकर पॉडकास्ट संवाद के लिए ओपन-सोर्स वॉयस मॉडल।

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/soulx-podcast।

एक नजर में

मूल्य निर्धारण

उदाहरण अनुरोध

पैरामीटर

टिप्पणियाँ