SVI 2.0 Pro

SVI 2.0 Pro
VITA-Group / EPFL · Video Generation
POST /v1/videos/generations

Stable Video Infinity 2.0 Pro sur WAN 2.2: étend les images fixes en vidéos théoriquement de longueur infinie tout en conservant des identifiants de caractères cohérents.

En un coup d’œil

TerrainValeur
Identifiant de modèlesvi-2-0-pro
Date de sortie du modèle2025-12-26
Modalités d’entréeTexte, Image
Modalités de sortieVidéo
Fenêtre de contexte-
Précision du poidsMixte FP8/BF16/FP16
Caractéristiquesinfinite_length, character_consistency
Inférence autochtoneOui
NouveauNon
Points de terminaison pris en chargePOST /v1/videos/generations

Tarification

ChargeSpecTaux
Vidéo 480ppar seconde$0.057
Vidéo 720ppar seconde$0.17
T2V Rapidefrais supplémentaires$0.065
Qualité T2Vfrais supplémentaires$0.13

Exemple de demande

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
resolutionenumnon"832x480"480p est rapide; Le 720p est plus lent mais plus net. · Autorisé: 832x480, 480x832, 720x1280, 1280x720
durationNombrenon18Durée estimée du clip en secondes. · Répartition: 18 – 121,5
cfgNombrenon1.0Une adhésion rapide, force. · Plage: 1,0 – 2,0
negative_promptCordenon"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"Texte expliquant ce qu’il faut éviter.
t2v_qualityenumnon"quality"Niveau pipeline texte-vers-vidéo. « Quality » utilise le modèle d’image de référence Wan 2.2 plus pour une meilleure fidélité; « Fast » utilise le modèle flash pour des générations moins coûteuses et plus rapides. S’applique uniquement en mode text-to-video (image-to-video saute cette étape). · Autorisé: fast, quality

Notes

Théoriquement une vidéo de longueur infinie avec un identifiant de caractère cohérent. L’image-de-vidéo donne généralement des résultats supérieurs à text-to-video.

Contraintes

  • La génération peut prendre 45+ minutes pour les longues vidéos
  • Pour le meilleur mouvement: décrivez les actions consécutives par segment dans votre invite

Formats d’image

  • jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif

Mode multi-scènes

  • Lors de la description de plusieurs scènes dans une même invitation, un CFG plus bas (1.0-1.3) donne au modèle plus de liberté pour interpréter les transitions de scène distinctes
  • Augmentez CFG (1.5-2.0) lorsque chaque scène doit suivre la consigne au pied de la lettre

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro.