SVI 2.0 Pro

SVI 2.0 Pro
VITA-Group / EPFL · Video Generation
POST /v1/videos/generations

Stable Video Infinity 2.0 Pro auf WAN 2.2: Erweitert Standbilder zu theoretisch unendlich langen Videos und hält dabei konsistente Zeichen-IDs bei.

Auf einen Blick

SpielfeldWert
Modell-IDsvi-2-0-pro
Modell-Veröffentlichungsdatum2025-12-26
EingabemodalitätenText, Bild
AusgabemodalitätenVideo
Kontextfenster-
GewichtspräzisionGemischte FP8/BF16/FP16
Merkmaleinfinite_length, character_consistency
Native SchlussfolgerungJa
NeuNein
Unterstützte EndpunktePOST /v1/videos/generations

Preisgestaltung

BerechnenSpezifikationZinssatz
480p-Videopro Sekunde$0.057
720p-Videopro Sekunde$0.17
T2V SchnellZusätzliche Gebühr$0.065
T2V-QualitätZusätzliche Gebühr$0.13

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
resolutionENUMNein"832x480"480p ist schnell; 720p ist langsamer, aber schärfer. · Erlaubt: 832x480, 480x832, 720x1280, 1280x720
durationAnzahlNein18Geschätzte Cliplänge in Sekunden. · Reichweite: 18 – 121,5
cfgAnzahlNein1.0Schnelle Einhaltungsstärke. · Reichweite: 1,0 – 2,0
negative_promptStringNein"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"Text, der beschreibt, was man vermeiden sollte.
t2v_qualityENUMNein"quality"Text-zu-Video-Pipeline-Schicht. ‘quality’ verwendet das Wan 2.2 Plus-Referenzbildmodell für höhere Genauigkeit; ‘Fast’ verwendet das Flash-Modell für günstigere, schnellere Generationen. Gilt nur im text-to-video Modus (image-to-video überspringt diesen Schritt). · Erlaubt: fast, quality

Anmerkungen

Theoretisch Video von unendlich langer Länge mit konsistenter Zeichenerkennung. Bild-zu-Video liefert in der Regel bessere Ergebnisse als text-to-video.

Einschränkungen

  • Die Erstellung kann 45+ Minuten für lange Videos dauern
  • Für die beste Bewegung: Beschreibe aufeinanderfolgende Aktionen pro Segment in deinem Prompt

Bildformate

  • jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif

Multi-Szenen-Modus

  • Wenn mehrere Szenen in einem Prompt beschrieben werden, gibt ein niedrigerer CFG (1,0–1,3) dem Modell mehr Freiheit, unterschiedliche Szenenübergänge zu interpretieren
  • Erhöhe CFG (1,5-2,0), wenn jede Szene dem Prompt buchstäblich folgen muss

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro.