SoulX Podcast

SoulX Podcast
Soul AI Lab · Audio Generation
POST /v1/audio/speech

पैरालिंग्विस्टिक नियंत्रण (हँसी, आह) और शून्य-शॉट वॉयस क्लोनिंग के साथ लंबे-फॉर्म, मल्टी-स्पीकर पॉडकास्ट संवाद के लिए ओपन-सोर्स वॉयस मॉडल।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीsoulx-podcast
मॉडल रिलीज की तारीख2025-10-29
इनपुट तौर-तरीकेपाठ, ऑडियो
आउटपुट के तौर-तरीकेऑडियो
संदर्भ विंडो-
वजन परिशुद्धता-
सुविधाऐंvoice_cloning, multi_speaker, बोली, पॉडकास्ट
मूल अनुमानहाँ
नयानहीं
समर्थित समापन बिंदुPOST /v1/audio/speech

मूल्य निर्धारण

आवेशित करनायुक्तिदर
आधारप्रति 1k वर्ण$0.015
उपभाषाप्रति 1k वर्ण$0.015

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
inputतारहाँ-पॉडकास्ट स्क्रिप्ट। मल्टी-स्पीकर के लिए [S1]/[S2]/[S3]/[S4] टैग या ‘स्पीकर N:’ लाइनों का उपयोग करें। पैरालिंग्विस्टिक टैग समर्थित: <|खिलखिलाहट|>, <|गहरी सांस|>, <|श्‍वसन क्रिया|>, <|खांसी|>.
voice_modelएनमनहीं"base"आधार: अंग्रेजी + मंदारिन। बोली: सिचुआन, हेनान और कैंटोनीज़ कहते हैं। · अनुमति: base, dialect
voice_s1एनमनहीं"arthur"[S1] के लिए आवाज। एलजे = एम्मा। custom_s1 voice_s1_audio_url की आवश्यकता है। · अनुमति: arthur, james, lj, xiaomei, zhigang, custom_s1
voice_s2एनमनहीं"lj"[S2] के लिए आवाज। एलजे = एम्मा। · अनुमति: arthur, james, lj, xiaomei, zhigang, custom_s2
voice_s3एनमनहीं"james"[S3] के लिए आवाज। · अनुमति: arthur, james, lj, xiaomei, zhigang, custom_s3
voice_s4एनमनहीं"xiaomei"[S4] के लिए आवाज। · अनुमति: arthur, james, lj, xiaomei, zhigang, custom_s4
voice_s1_audio_urlतारनहीं-[S1] कस्टम-वॉयस क्लोनिंग के लिए ऑडियो URL का संदर्भ लें। अध्यक्ष को सहमति वाक्यांश को जोर से कहना चाहिए।
voice_s2_audio_urlतारनहीं-[S2] कस्टम-वॉयस क्लोनिंग के लिए ऑडियो URL का संदर्भ लें।
voice_s3_audio_urlतारनहीं-[S3] कस्टम-वॉयस क्लोनिंग के लिए ऑडियो URL का संदर्भ लें।
voice_s4_audio_urlतारनहीं-[S4] कस्टम-वॉयस क्लोनिंग के लिए संदर्भ ऑडियो URL।
temperatureसंख्यानहीं0.6नमूना तापमान। · रेंज: 0.1 - 2.0
top_kसंख्यानहीं100टॉप-के सैंपलिंग कैप। · रेंज: 1 - 500
top_pसंख्यानहीं0.9नाभिक नमूनाकरण। · रेंज: 0.1 - 1.0
repetition_penaltyसंख्यानहीं1.25उच्च मूल्य बार-बार वाक्यांश को हतोत्साहित करते हैं। · रेंज: 1.0 - 2.0
seedतारनहीं"42"प्रतिलिपि प्रस्तुत करने योग्यता बीज (स्ट्रिंग प्रति अपस्ट्रीम)।
output_formatएनमनहीं"mp3"आउटपुट मीडिया फ़ाइल स्वरूप (mp3, wav, mp4, png, jpg, आदि, समापन बिंदु के आधार पर)। · अनुमति: mp3, wav
languageतारनहीं""अपस्ट्रीम (पासथ्रू) पर अग्रेषित किया जाता है ताकि पॉडकास्ट मॉडल सही voice/dialect टियर चुन सके।

टिप्पणियाँ

पैरालिंग्विस्टिक कंट्रोल और जीरो-शॉट वॉयस क्लोनिंग के साथ लंबे-फॉर्म, मल्टी-स्पीकर पॉडकास्ट संवाद के लिए ओपन-सोर्स वॉयस मॉडल।


Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/soulx-podcast