SVI 2.0 Pro

SVI 2.0 Pro
VITA-Group / EPFL · Video Generation
POST /v1/videos/generations

WAN 2.2のStable Video Infinity 2.0 Pro:静止画を理論上無限長の動画に拡張しつつ、文字IDを一貫性を保ちます。

一目で

フィールド価値
モデルIDsvi-2-0-pro
モデル発売日2025-12-26
入力モダリティテキスト、画像
出力モダリティビデオ
コンテキストウィンドウ-
重量精度混合FP8/BF16/FP16
特徴infinite_length、なcharacter_consistency
ネイティブ推論はい
新作いいえ
サポート端末POST /v1/videos/generations

価格設定

チャージスペックレート
480pビデオ秒単位$0.057
720pビデオ秒単位$0.17
T2V Fast追加料金$0.065
T2V品質追加料金$0.13

例示リクエスト

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

パラメータ

パラメータ種類必須デフォルト概要
resolutionエヌムいいえ"832x480"480pは高速です。720pは遅いですがシャープです。·許可:832x480480x832720x12801280x720
duration番号いいえ18推定クリップ長は数秒単位で表示されます。·範囲:18 – 121.5
cfg番号いいえ1.0迅速なアシスタント強化。·範囲:1.0 – 2.0
negative_promptストリングいいえ"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"避けるべきことを説明したテキスト。
t2v_qualityエヌムいいえ"quality"テキストからビデオへのパイプラインの階層です。「品質」はより高精度を実現するためにWan 2.2プラスの参照画像モデルを使用しています。「Fast」はFlashモデルを使い、より安価で迅速な世代を実現しています。text-to-videoモードでのみ適用されます(image-to-videoこのステップをスキップします)。·許可:fastquality

注記

理論上は無限長の動画で、文字IDも一貫しています。画像からビデオへの変換は、通常text-to-videoよりも優れた結果をもたらします。

制約

  • 長文動画の生成には45+分かかることもあります
  • 最良の動きとしては、プロンプトのセグメントごとに連続したアクションを記述してください

画像フォーマット

  • jpg、jpeg、png、webp、heic、heif、BMP、TIFF、TIF

マルチシーンモード

  • 1つのプロンプトで複数のシーンを記述する場合、CFGを低くする(1.0-1.3)はモデルが異なるシーントランジションを解釈する自由度を高めます
  • 各シーンが文字通りプロンプトに従わなければならない場合は、CFGを上げる(1.5-2.0)

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro