SVI 2.0 Pro

SVI 2.0 Pro
VITA-Group / EPFL · Video Generation
POST /v1/videos/generations

Stable Video Infinity 2.0 Pro na WAN 2.2: estende imagens estáticas para vídeos teoricamente de comprimento infinito, mantendo IDs de personagens consistentes.

De um olhar

CampoValor
ID do modelosvi-2-0-pro
Data de lançamento do modelo2025-12-26
Modalidades de entradaTexto, Imagem
Modalidades de saídaVídeo
Janela de contexto-
Precisão do pesoMisto FP8/BF16/FP16
Característicasinfinite_length, character_consistency
Inferência nativaSim
NovoNão
Endpoints suportadosPOST /v1/videos/generations

Precificação

CargaEspecificaçãoTaxa
Vídeo 480ppor segundo$0.057
Vídeo 720ppor segundo$0.17
T2V RápidoTaxa adicional$0.065
Qualidade T2VTaxa adicional$0.13

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
resolutionenumNão"832x480"480p é rápido; 720p é mais lento, mas mais nítido. · Permitido: 832x480, 480x832, 720x1280, 1280x720
durationNúmeroNão18Duração estimada do clipe em segundos. · Faixa de alcance: 18 – 121,5
cfgNúmeroNão1.0Força de adesão rápida. · Intervalo: 1.0 – 2.0
negative_promptStringNão"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"Texto descrevendo o que evitar.
t2v_qualityenumNão"quality"Nível de pipeline de texto para vídeo. ‘Quality’ usa o modelo de imagem Wan 2.2 mais referência para maior fidelidade; ‘Rápido’ usa o modelo flash para gerações mais baratas e rápidas. Só se aplica no modo text-to-video (image-to-video pula essa etapa). · Permitido: fast, quality

Notas

Teoricamente vídeo de comprimento infinito com ID de caractere consistente. Image-to-Video normalmente gera resultados superiores aos text-to-video.

Restrições

  • Geração pode levar 45+ minutos para vídeos longos
  • Para melhor movimento: descreva ações consecutivas por segmento no seu prompt

Formatos de imagem

  • jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif

Modo multi-cena

  • Ao descrever várias cenas em um único prompt, um CFG menor (1.0-1.3) dá ao modelo mais liberdade para interpretar transições de cena distintas
  • Aumente o CFG (1.5-2.0) quando cada cena deve seguir o prompt literalmente

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro.