MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

ओपन-सोर्स 32B MoE फाउंडेशन मॉडल जो सटीक दोहरे टॉवर लिप-सिंक के साथ एक अनुमान चरण में सिंक्रनाइज़ वीडियो और ऑडियो उत्पन्न करता है।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीmoss-video-and-audio
मॉडल रिलीज की तारीख2026-01-29
इनपुट तौर-तरीकेपाठ, छवि
आउटपुट के तौर-तरीकेवीडियो, ऑडियो
संदर्भ विंडो-
वजन परिशुद्धता-
सुविधाऐंaudio_sync, लिपसिंक
मूल अनुमानहाँ
नयानहीं
समर्थित समापन बिंदुPOST /v1/videos/generations

मूल्य निर्धारण

आवेशित करनायुक्तिदर
360p वीडियोप्रति वीडियो$0.17
720p वीडियोप्रति वीडियो$2.82
T2V फास्टअतिरिक्त शुल्क$0.065
T2V गुणवत्ताअतिरिक्त शुल्क$0.13

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
promptतारहाँ-दृश्य विवरण। संलग्न छवि के साथ, एक image-to-video संकेत बन जाता है।
modeएनमनहीं"t2v"T2V: शुद्ध text-to-video। i2v: संलग्न छवि को एनिमेट करें। · अनुमति: t2v, i2v
resolutionएनमनहीं"720p"720p एक अलग उच्च-वीआरएएम समापन बिंदु का उपयोग करता है। · अनुमति: 360p, 720p
aspect_ratioएनमनहीं"landscape"काई केवल परिदृश्य का समर्थन करता है (16:9) और चित्र (9:16). · अनुमति: landscape, portrait
durationसंख्यानहीं8सेकंड में क्लिप की लंबाई। अपस्ट्रीम मॉडल 8s पर हार्ड-कैप्ड है। · रेंज: 2 - 8
t2v_qualityएनमनहीं"quality"केवल टेक्स्ट-टू-वीडियो। ~ 2× गति के लिए तेजी से निष्ठा का व्यापार करता है। · अनुमति: fast, quality
num_inference_stepsसंख्यानहीं25प्रसार चरण। अधिक = उच्च निष्ठा, धीमी। · रेंज: 10 - 50
cfg_scaleसंख्यानहीं5.0क्लासिफायर-मुक्त मार्गदर्शन। उच्च = संकेत का अधिक सख्ती से पालन करता है। · रेंज: 1.0 - 10.0
sigma_shiftसंख्यानहीं5.0शेड्यूल शिफ्ट। केवल तभी मान्य जब रिज़ॉल्यूशन=360p। · रेंज: 1.0 - 10.0
imageतारनहीं-i2v मोड के लिए संदर्भ छवि URL।
negative_promptतारनहीं""क्या परहेज करें।
seedसंख्यानहीं-प्रजनन क्षमता बीज।

टिप्पणियाँ

32B-पैरामीटर MoE सिंक्रनाइज़ लिप-सिंक वीडियो + ऑडियो के साथ एक ही अनुमान में।

बाधाएं

  • पीढ़ी में 20+ मिनट लग सकते हैं
  • इमेज-टू-वीडियो आमतौर पर text-to-video के लिए बेहतर परिणाम देता है
  • केवल 1 छवि समर्थित (पहले फ्रेम के रूप में उपयोग किया जाता है)
  • वीडियो इनपुट समर्थित नहीं हैं

छवि प्रारूप

  • जेपीजी, जेपीईजी, पीएनजी, वेबपी, एचईआईसी, एचईआईएफ, बीएमपी, टीआईएफएफ, टीआईएफ, जीआईएफ

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio