MOSS Video and Audio

OpenMOSS · Video Generation

POST /v1/videos/generations

نموذج مؤسسة ” مو ” المفتوحة المصدر 32B الذي يولد فيديو متزامناً وصوتاً في خطوة واحدة إلى الأمام مع نظام شفاه دقيق ذي بُعدين.

في لمحة

الميدان	القيمة
النموذج	`moss-video-and-audio`
تاريخ الإفراج النموذجي	2026-01-29
طرائق المدخلات	النص، الصورة
طرائق النواتج	Video, Audio
نافذة السياق	-
دقة الوزن	-
المعالم	الصوت - السينك، الشفاه
Native inference	نعم
جديدة	لا
نقاط النهاية المدعومة	`POST /v1/videos/generations`

الطباعة

الرسم	Spec	المعدل
360p Video	الفيديو	$0.17
720p Video	الفيديو	$2.82
T2V Fast	رسوم إضافية	$0.065
T2V Quality	رسوم إضافية	$0.13

طلب مثال

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

البارامترات

البارامترات	النوع	المطلوبة	التقصير	الوصف
`prompt`	سلسلة	نعم	-	وصف المشهد. مع صورة مرفقة، يصبح محفزا image-to-video.
`mode`	enum	لا	`"t2v"`	T2V: text-to-video خالص. I2V: تحريك الصورة المرفقة. · مسموح به: `t2v`، `i2v`
`resolution`	enum	لا	`"720p"`	720p يستخدم نقطة نهاية منفصلة ذات ذاكرة VRAM أعلى. · مسموح: `360p`، `720p`
`aspect_ratio`	enum	لا	`"landscape"`	يدعم MOSS فقط الوضع الأفقي (16:9) والعمودي (9:16). · مسموح: `landscape`، `portrait`
`duration`	العدد	لا	`8`	طول الشفاه في ثواني النموذج فوق المجرى صعب المنال في الثامنة الرنج: 2 - 8
`t2v_quality`	enum	لا	`"quality"`	تحويل النص إلى فيديو فقط. السريع يتبادل الدقة مقابل سرعة ~2×. · مسموح: `fast`، `quality`
`num_inference_steps`	العدد	لا	`25`	خطوات الشدة أكثر من ذلك الرنج: 10 - 50
`cfg_scale`	العدد	لا	`5.0`	إرشادات مجانية أعلى = يتبع بسرعة أكثر دقة. الرنج: 1.0 - 10.0
`sigma_shift`	العدد	لا	`5.0`	تغيير الجدول لا ينطبق إلا عندما يكون القرار 360p. الرنج: 1.0 - 10.0
`image`	سلسلة	لا	-	Reference image URL for i2v mode.
`negative_prompt`	سلسلة	لا	`""`	ما الذي يجب تجنبه
`seed`	العدد	لا	-	بذور التكاثر

الحواشي

32B-parameter MoE with coincidehronized lip-sync video + audio in a single inference.

** القيود**

قد يستغرق الجيل 20 دقيقة
عادة ما تعطي الصورة إلى فيديو نتائج أفضل على text-to-video
فقط صورة واحدة مدعومة (مستخدمة كإطار أول)
مدخلات الفيديو

** أشكال الصور**

(جي بيغ)، (جي بيغ)، (بانغ)، (ويب)، (هيك)، (هيف)، (بومب)

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.