SVI 2.0 Pro

POST /v1/videos/generations

Stable Video Infinity 2.0 Pro en WAN 2.2: extiende imágenes fijas a vídeos teóricamente de longitud infinita manteniendo identificadores de personajes consistentes.

A simple vista

Campo	Valor
ID de modelo	`svi-2-0-pro`
Fecha de lanzamiento del modelo	2025-12-26
Modalidades de entrada	Texto, Imagen
Modalidades de salida	Vídeo
Ventana de contexto	-
Precisión del peso	Mixta FP8/BF16/FP16
Características	infinite_length, character_consistency
Inferencia nativa	Sí
Nuevo	No
Puntos finales soportados	`POST /v1/videos/generations`

Precios

Carga	Especificaciones	Tarifa
Vídeo 480p	por segundo	$0.057
Vídeo 720p	por segundo	$0.17
T2V Rápido	Tasa adicional	$0.065
Calidad T2V	Tasa adicional	$0.13

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`resolution`	enum	no	`"832x480"`	480p es rápido; 720p es más lento pero más nítido. · Permitidos: `832x480`, `480x832`, `720x1280`, `1280x720`
`duration`	Número	no	`18`	Duración estimada del clip en segundos. · Rango: 18 – 121,5
`cfg`	Número	no	`1.0`	Fortaleza de adherencia rápida. · Rango: 1.0 – 2.0
`negative_prompt`	Cuerda	no	`"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"`	Texto describiendo qué evitar.
`t2v_quality`	enum	no	`"quality"`	Nivel de pipeline de texto a vídeo. ‘Quality’ utiliza el modelo de imagen Wan 2.2 más referencia para mayor fidelidad; ‘Rápido’ utiliza el modelo flash para generaciones más baratas y rápidas. Solo se aplica en modo text-to-video (image-to-video se salta este paso). · Permitido: `fast`, `quality`

Notas

Teóricamente vídeo de longitud infinita con ID de carácter consistente. La imagen a vídeo suele dar resultados superiores a text-to-video.

Restricciones

La generación puede tardar 45+ minutos en vídeos largos
Para el mejor movimiento: describe acciones consecutivas por segmento en tu prompt

Formatos de imagen

jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif

Modo multiescena

Al describir varias escenas en un solo prompt, un CFG más bajo (1.0-1.3) da al modelo más libertad para interpretar transiciones de escena distintas
Sube CFG (1.5-2.0) cuando cada escena debe seguir el prompt literalmente

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro.