SVI 2.0 Pro

SVI 2.0 Pro
VITA-Group / EPFL · Video Generation
POST /v1/videos/generations

WAN 2.0 पर स्थिर वीडियो इन्फिनिटी 2.2 प्रो: स्थिर छवियों को सैद्धांतिक रूप से अनंत-लंबाई वाले वीडियो में विस्तारित करता है, जबकि लगातार चरित्र आईडी रखता है।

एक नजर में

फ़ील्डमूल्य
मॉडल आईडीsvi-2-0-pro
मॉडल रिलीज की तारीख2025-12-26
इनपुट तौर-तरीकेपाठ, छवि
आउटपुट के तौर-तरीकेवीडियो
संदर्भ विंडो-
वजन परिशुद्धतामिश्रित FP8/BF16/FP16
सुविधाऐंinfinite_length, character_consistency
मूल अनुमानहाँ
नयानहीं
समर्थित समापन बिंदुPOST /v1/videos/generations

मूल्य निर्धारण

आवेशित करनायुक्तिदर
480p वीडियोप्रति सेकंड$0.057
720p वीडियोप्रति सेकंड$0.17
T2V फास्टअतिरिक्त शुल्क$0.065
T2V गुणवत्ताअतिरिक्त शुल्क$0.13

उदाहरण अनुरोध

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

पैरामीटर

प्राचलप्रकारआवश्यकडिफ़ॉल्टया क़िस्‍म
resolutionएनमनहीं"832x480"480p तेज है; 720p धीमा लेकिन तेज है। · अनुमति: 832x480, 480x832, 720x1280, 1280x720
durationसंख्यानहीं18सेकंड में अनुमानित क्लिप लंबाई। · रेंज: 18 - 121.5
cfgसंख्यानहीं1.0शीघ्र पालन शक्ति। · रेंज: 1.0 - 2.0
negative_promptतारनहीं"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"पाठ वर्णन करता है कि क्या बचना चाहिए।
t2v_qualityएनमनहीं"quality"टेक्स्ट-टू-वीडियो पाइपलाइन टियर। ‘गुणवत्ता’ उच्च निष्ठा के लिए वान 2.2 प्लस संदर्भ छवि मॉडल का उपयोग करता है; ‘फास्ट’ सस्ते, तेज पीढ़ियों के लिए फ्लैश मॉडल का उपयोग करता है। केवल text-to-video मोड में लागू होता है (image-to-video इस चरण को छोड़ देता है)। · अनुमति: fast, quality

टिप्पणियाँ

सैद्धांतिक रूप से अनंत लंबाई वाला वीडियो जिसमें लगातार वर्ण आईडी है। इमेज-टू-वीडियो आमतौर पर text-to-video के लिए बेहतर परिणाम देता है।

बाधाएं

  • लंबे वीडियो के लिए जनरेशन में 45+ मिनट लग सकते हैं
  • सर्वोत्तम गति के लिए: अपने प्रॉम्प्ट में प्रति सेगमेंट लगातार कार्रवाइयों का वर्णन करें

छवि प्रारूप

  • जेपीजी, जेपीईजी, पीएनजी, वेबपी, एचईआईसी, एचईआईएफ, बीएमपी, टीआईएफएफ, टीआईएफ

मल्टी-सीन मोड

  • एक प्रॉम्प्ट में कई दृश्यों का वर्णन करते समय, कम CFG (1.0-1.3) मॉडल को अलग-अलग दृश्य संक्रमणों की व्याख्या करने के लिए अधिक स्वतंत्रता देता है
  • CFG (1.5-2.0) बढ़ाएँ जब प्रत्येक दृश्य को संकेत का शाब्दिक रूप से पालन करना चाहिए

Machine-पठनीय स्कीमा: GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro