SVI 2.0 Pro

POST /v1/videos/generations

Stable Video Infinity 2.0 Pro sur WAN 2.2: étend les images fixes en vidéos théoriquement de longueur infinie tout en conservant des identifiants de caractères cohérents.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`svi-2-0-pro`
Date de sortie du modèle	2025-12-26
Modalités d’entrée	Texte, Image
Modalités de sortie	Vidéo
Fenêtre de contexte	-
Précision du poids	Mixte FP8/BF16/FP16
Caractéristiques	infinite_length, character_consistency
Inférence autochtone	Oui
Nouveau	Non
Points de terminaison pris en charge	`POST /v1/videos/generations`

Tarification

Charge	Spec	Taux
Vidéo 480p	par seconde	$0.057
Vidéo 720p	par seconde	$0.17
T2V Rapide	frais supplémentaires	$0.065
Qualité T2V	frais supplémentaires	$0.13

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`resolution`	enum	non	`"832x480"`	480p est rapide; Le 720p est plus lent mais plus net. · Autorisé: `832x480`, `480x832`, `720x1280`, `1280x720`
`duration`	Nombre	non	`18`	Durée estimée du clip en secondes. · Répartition: 18 – 121,5
`cfg`	Nombre	non	`1.0`	Une adhésion rapide, force. · Plage: 1,0 – 2,0
`negative_prompt`	Corde	non	`"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"`	Texte expliquant ce qu’il faut éviter.
`t2v_quality`	enum	non	`"quality"`	Niveau pipeline texte-vers-vidéo. « Quality » utilise le modèle d’image de référence Wan 2.2 plus pour une meilleure fidélité; « Fast » utilise le modèle flash pour des générations moins coûteuses et plus rapides. S’applique uniquement en mode text-to-video (image-to-video saute cette étape). · Autorisé: `fast`, `quality`

Notes

Théoriquement une vidéo de longueur infinie avec un identifiant de caractère cohérent. L’image-de-vidéo donne généralement des résultats supérieurs à text-to-video.

Contraintes

La génération peut prendre 45+ minutes pour les longues vidéos
Pour le meilleur mouvement: décrivez les actions consécutives par segment dans votre invite

Formats d’image

jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif

Mode multi-scènes

Lors de la description de plusieurs scènes dans une même invitation, un CFG plus bas (1.0-1.3) donne au modèle plus de liberté pour interpréter les transitions de scène distinctes
Augmentez CFG (1.5-2.0) lorsque chaque scène doit suivre la consigne au pied de la lettre

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro.