MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

نموذج مؤسسة ” مو ” المفتوحة المصدر 32B الذي يولد فيديو متزامناً وصوتاً في خطوة واحدة إلى الأمام مع نظام شفاه دقيق ذي بُعدين.

في لمحة

الميدانالقيمة
النموذجmoss-video-and-audio
تاريخ الإفراج النموذجي2026-01-29
طرائق المدخلاتالنص، الصورة
طرائق النواتجVideo, Audio
نافذة السياق-
دقة الوزن-
المعالمالصوت - السينك، الشفاه
Native inferenceنعم
جديدةلا
نقاط النهاية المدعومةPOST /v1/videos/generations

الطباعة

الرسمSpecالمعدل
360p Videoالفيديو$0.17
720p Videoالفيديو$2.82
T2V Fastرسوم إضافية$0.065
T2V Qualityرسوم إضافية$0.13

طلب مثال

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

البارامترات

البارامتراتالنوعالمطلوبةالتقصيرالوصف
promptسلسلةنعم-وصف المشهد. مع صورة مرفقة، يصبح محفزا image-to-video.
modeenumلا"t2v"T2V: text-to-video خالص. I2V: تحريك الصورة المرفقة. · مسموح به: t2v، i2v
resolutionenumلا"720p"720p يستخدم نقطة نهاية منفصلة ذات ذاكرة VRAM أعلى. · مسموح: 360p، 720p
aspect_ratioenumلا"landscape"يدعم MOSS فقط الوضع الأفقي (16:9) والعمودي (9:16). · مسموح: landscape، portrait
durationالعددلا8طول الشفاه في ثواني النموذج فوق المجرى صعب المنال في الثامنة الرنج: 2 - 8
t2v_qualityenumلا"quality"تحويل النص إلى فيديو فقط. السريع يتبادل الدقة مقابل سرعة ~2×. · مسموح: fast، quality
num_inference_stepsالعددلا25خطوات الشدة أكثر من ذلك الرنج: 10 - 50
cfg_scaleالعددلا5.0إرشادات مجانية أعلى = يتبع بسرعة أكثر دقة. الرنج: 1.0 - 10.0
sigma_shiftالعددلا5.0تغيير الجدول لا ينطبق إلا عندما يكون القرار 360p. الرنج: 1.0 - 10.0
imageسلسلةلا-Reference image URL for i2v mode.
negative_promptسلسلةلا""ما الذي يجب تجنبه
seedالعددلا-بذور التكاثر

الحواشي

32B-parameter MoE with coincidehronized lip-sync video + audio in a single inference.

** القيود**

  • قد يستغرق الجيل 20 دقيقة
  • عادة ما تعطي الصورة إلى فيديو نتائج أفضل على text-to-video
  • فقط صورة واحدة مدعومة (مستخدمة كإطار أول)
  • مدخلات الفيديو

** أشكال الصور**

  • (جي بيغ)، (جي بيغ)، (بانغ)، (ويب)، (هيك)، (هيف)، (بومب)

مخطط Machine قابل للقراءة: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.