SVI 2.0 Pro

SVI 2.0 Pro
VITA-Group / EPFL · Video Generation
POST /v1/videos/generations

Stable Video Infinity 2.0 Pro en WAN 2.2: extiende imágenes fijas a vídeos teóricamente de longitud infinita manteniendo identificadores de personajes consistentes.

A simple vista

CampoValor
ID de modelosvi-2-0-pro
Fecha de lanzamiento del modelo2025-12-26
Modalidades de entradaTexto, Imagen
Modalidades de salidaVídeo
Ventana de contexto-
Precisión del pesoMixta FP8/BF16/FP16
Característicasinfinite_length, character_consistency
Inferencia nativa
NuevoNo
Puntos finales soportadosPOST /v1/videos/generations

Precios

CargaEspecificacionesTarifa
Vídeo 480ppor segundo$0.057
Vídeo 720ppor segundo$0.17
T2V RápidoTasa adicional$0.065
Calidad T2VTasa adicional$0.13

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
resolutionenumno"832x480"480p es rápido; 720p es más lento pero más nítido. · Permitidos: 832x480, 480x832, 720x1280, 1280x720
durationNúmerono18Duración estimada del clip en segundos. · Rango: 18 – 121,5
cfgNúmerono1.0Fortaleza de adherencia rápida. · Rango: 1.0 – 2.0
negative_promptCuerdano"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"Texto describiendo qué evitar.
t2v_qualityenumno"quality"Nivel de pipeline de texto a vídeo. ‘Quality’ utiliza el modelo de imagen Wan 2.2 más referencia para mayor fidelidad; ‘Rápido’ utiliza el modelo flash para generaciones más baratas y rápidas. Solo se aplica en modo text-to-video (image-to-video se salta este paso). · Permitido: fast, quality

Notas

Teóricamente vídeo de longitud infinita con ID de carácter consistente. La imagen a vídeo suele dar resultados superiores a text-to-video.

Restricciones

  • La generación puede tardar 45+ minutos en vídeos largos
  • Para el mejor movimiento: describe acciones consecutivas por segmento en tu prompt

Formatos de imagen

  • jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif

Modo multiescena

  • Al describir varias escenas en un solo prompt, un CFG más bajo (1.0-1.3) da al modelo más libertad para interpretar transiciones de escena distintas
  • Sube CFG (1.5-2.0) cuando cada escena debe seguir el prompt literalmente

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro.