SoulX Podcast

SoulX Podcast
Soul AI Lab · Audio Generation
POST /v1/audio/speech

نموذج صوتي مفتوح المصدر من أجل حوار طويل الشكل ومتعدد النطاقات مع مكافحة الشذوذ (الضحك، التنهدات) والإستنساخ بالصوت الصفري.

في لمحة

الميدانالقيمة
النموذجsoulx-podcast
تاريخ الإفراج النموذجي2025-10-29
طرائق المدخلاتالنص، أوديو
طرائق النواتجAudio
نافذة السياق-
دقة الوزن-
المعالمالصوت: قذف، مضاعف، لهجة، دودة
Native inferenceنعم
جديدةلا
نقاط النهاية المدعومةPOST /v1/audio/speech

الطباعة

الرسمSpecالمعدل
القاعدةللشخص الواحد$0.015
الوفاةللشخص الواحد$0.015

طلب مثال

$curl https://api.empiriolabs.ai/v1/audio/speech \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "soulx-podcast", "input": "Hello from EmpirioLabs."}'

البارامترات

البارامتراتالنوعالمطلوبةالتقصيرالوصف
inputسلسلةنعم-نُصّة بودكاس، إستعملْ [S1] / [S2] / [S3] / [S4] tags أو ‘Speaker N: خطوط لـ تم دعم العلامات الموازية
voice_modelenumلا"base"القاعدة: الإنجليزية + الماندرين. اللهجة: تضيف سيتشوان، خنان، وكانتونية. · مسموح: base، dialect
voice_s1enumلا"arthur"صوت ل [S1]. lj = إيما. custom_s1 يتطلب voice_s1_audio_url. · مسموح به: arthur، james، lj، xiaomei، zhigang، custom_s1
voice_s2enumلا"lj"صوت ل [S2]. lj = إيما. · مسموح: arthur، james، lj، xiaomei، zhigang، custom_s2
voice_s3enumلا"james"صوت ل [S3]. · مسموح: arthur، james، lj، xiaomei، zhigang، custom_s3
voice_s4enumلا"xiaomei"الصوت ل [S4]. · مسموح: arthur، james، lj، xiaomei، zhigang، custom_s4
voice_s1_audio_urlسلسلةلا-Reference audio URL for [S1] custom-voice cloning. يجب أن يقول المتكلم كلمة الموافقة بصوت عال.
voice_s2_audio_urlسلسلةلا-Reference audio URL for [S2] custom-voice cloning.
voice_s3_audio_urlسلسلةلا-Reference audio URL for [S3] custom-voice cloning.
voice_s4_audio_urlسلسلةلا-Reference audio URL for [S4] custom-voice cloning.
temperatureالعددلا0.6درجة حرارة أخذ العينات الرنج: 0.1 - 2.0
top_kالعددلا100سقف العينات على أعلى مستوى
top_pالعددلا0.9أخذ عينات نوكليوس الرنج: 0.1 - 1.0
repetition_penaltyالعددلا1.25وتثني القيم العليا عن تكرار الصياغة. الرنج: 1.0 - 2.0
seedسلسلةلا"42"Reproducibility seed (string per upstream).
output_formatenumلا"mp3"تنسيق ملف وسائط الإخراج (mp3، wav، mp4، png، jpg، إلخ، حسب نقطة النهاية). · مسموح: mp3، wav
languageسلسلةلا""يتم تحويلها إلى المسار العلوي (passthrough) حتى يتمكن نموذج البودكاست من اختيار المستوى الصحيح voice/dialect.

الحواشي

نموذج صوتي مفتوح المصدر من أجل حوار طويل الشكل ومتعدد النطاقات مع التحكم في الشذوذ وإستنساخ الصوت بدون طلقات.


مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/soulx-podcast.