SoulX Podcast | EmpirioLabs AI Docs

Soul AI Lab · Audio Generation

POST /v1/audio/speech

نموذج صوتي مفتوح المصدر من أجل حوار طويل الشكل ومتعدد النطاقات مع مكافحة الشذوذ (الضحك، التنهدات) والإستنساخ بالصوت الصفري.

في لمحة

الميدان	القيمة
النموذج	`soulx-podcast`
تاريخ الإفراج النموذجي	2025-10-29
طرائق المدخلات	النص، أوديو
طرائق النواتج	Audio
نافذة السياق	-
دقة الوزن	-
المعالم	الصوت: قذف، مضاعف، لهجة، دودة
Native inference	نعم
جديدة	لا
نقاط النهاية المدعومة	`POST /v1/audio/speech`

الطباعة

الرسم	Spec	المعدل
القاعدة	للشخص الواحد	$0.015
الوفاة	للشخص الواحد	$0.015

طلب مثال

$ curl https://api.empiriolabs.ai/v1/audio/speech \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامترات	النوع	المطلوبة	التقصير	الوصف
`input`	سلسلة	نعم	-	نُصّة بودكاس، إستعملْ [S1] / [S2] / [S3] / [S4] tags أو ‘Speaker N: خطوط لـ تم دعم العلامات الموازية
`voice_model`	enum	لا	`"base"`	القاعدة: الإنجليزية + الماندرين. اللهجة: تضيف سيتشوان، خنان، وكانتونية. · مسموح: `base`، `dialect`
`voice_s1`	enum	لا	`"arthur"`	صوت ل [S1]. lj = إيما. custom_s1 يتطلب voice_s1_audio_url. · مسموح به: `arthur`، `james`، `lj`، `xiaomei`، `zhigang`، `custom_s1`
`voice_s2`	enum	لا	`"lj"`	صوت ل [S2]. lj = إيما. · مسموح: `arthur`، `james`، `lj`، `xiaomei`، `zhigang`، `custom_s2`
`voice_s3`	enum	لا	`"james"`	صوت ل [S3]. · مسموح: `arthur`، `james`، `lj`، `xiaomei`، `zhigang`، `custom_s3`
`voice_s4`	enum	لا	`"xiaomei"`	الصوت ل [S4]. · مسموح: `arthur`، `james`، `lj`، `xiaomei`، `zhigang`، `custom_s4`
`voice_s1_audio_url`	سلسلة	لا	-	Reference audio URL for [S1] custom-voice cloning. يجب أن يقول المتكلم كلمة الموافقة بصوت عال.
`voice_s2_audio_url`	سلسلة	لا	-	Reference audio URL for [S2] custom-voice cloning.
`voice_s3_audio_url`	سلسلة	لا	-	Reference audio URL for [S3] custom-voice cloning.
`voice_s4_audio_url`	سلسلة	لا	-	Reference audio URL for [S4] custom-voice cloning.
`temperature`	العدد	لا	`0.6`	درجة حرارة أخذ العينات الرنج: 0.1 - 2.0
`top_k`	العدد	لا	`100`	سقف العينات على أعلى مستوى
`top_p`	العدد	لا	`0.9`	أخذ عينات نوكليوس الرنج: 0.1 - 1.0
`repetition_penalty`	العدد	لا	`1.25`	وتثني القيم العليا عن تكرار الصياغة. الرنج: 1.0 - 2.0
`seed`	سلسلة	لا	`"42"`	Reproducibility seed (string per upstream).
`output_format`	enum	لا	`"mp3"`	تنسيق ملف وسائط الإخراج (mp3، wav، mp4، png، jpg، إلخ، حسب نقطة النهاية). · مسموح: `mp3`، `wav`
`language`	سلسلة	لا	`""`	يتم تحويلها إلى المسار العلوي (passthrough) حتى يتمكن نموذج البودكاست من اختيار المستوى الصحيح voice/dialect.

الحواشي

نموذج صوتي مفتوح المصدر من أجل حوار طويل الشكل ومتعدد النطاقات مع التحكم في الشذوذ وإستنساخ الصوت بدون طلقات.

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.