SVI 2.0 Pro

POST /v1/videos/generations

Stable Video Infinity 2.0 Pro auf WAN 2.2: Erweitert Standbilder zu theoretisch unendlich langen Videos und hält dabei konsistente Zeichen-IDs bei.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`svi-2-0-pro`
Modell-Veröffentlichungsdatum	2025-12-26
Eingabemodalitäten	Text, Bild
Ausgabemodalitäten	Video
Kontextfenster	-
Gewichtspräzision	Gemischte FP8/BF16/FP16
Merkmale	infinite_length, character_consistency
Native Schlussfolgerung	Ja
Neu	Nein
Unterstützte Endpunkte	`POST /v1/videos/generations`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
480p-Video	pro Sekunde	$0.057
720p-Video	pro Sekunde	$0.17
T2V Schnell	Zusätzliche Gebühr	$0.065
T2V-Qualität	Zusätzliche Gebühr	$0.13

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`resolution`	ENUM	Nein	`"832x480"`	480p ist schnell; 720p ist langsamer, aber schärfer. · Erlaubt: `832x480`, `480x832`, `720x1280`, `1280x720`
`duration`	Anzahl	Nein	`18`	Geschätzte Cliplänge in Sekunden. · Reichweite: 18 – 121,5
`cfg`	Anzahl	Nein	`1.0`	Schnelle Einhaltungsstärke. · Reichweite: 1,0 – 2,0
`negative_prompt`	String	Nein	`"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"`	Text, der beschreibt, was man vermeiden sollte.
`t2v_quality`	ENUM	Nein	`"quality"`	Text-zu-Video-Pipeline-Schicht. ‘quality’ verwendet das Wan 2.2 Plus-Referenzbildmodell für höhere Genauigkeit; ‘Fast’ verwendet das Flash-Modell für günstigere, schnellere Generationen. Gilt nur im text-to-video Modus (image-to-video überspringt diesen Schritt). · Erlaubt: `fast`, `quality`

Anmerkungen

Theoretisch Video von unendlich langer Länge mit konsistenter Zeichenerkennung. Bild-zu-Video liefert in der Regel bessere Ergebnisse als text-to-video.

Einschränkungen

Die Erstellung kann 45+ Minuten für lange Videos dauern
Für die beste Bewegung: Beschreibe aufeinanderfolgende Aktionen pro Segment in deinem Prompt

Bildformate

jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif

Multi-Szenen-Modus

Wenn mehrere Szenen in einem Prompt beschrieben werden, gibt ein niedrigerer CFG (1,0–1,3) dem Modell mehr Freiheit, unterschiedliche Szenenübergänge zu interpretieren
Erhöhe CFG (1,5-2,0), wenn jede Szene dem Prompt buchstäblich folgen muss

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro.