SVI 2.0 Pro | EmpirioLabs AI Docs

POST /v1/videos/generations

Stable Video Infinity 2.0 Pro na WAN 2.2: estende imagens estáticas para vídeos teoricamente de comprimento infinito, mantendo IDs de personagens consistentes.

De um olhar

Campo	Valor
ID do modelo	`svi-2-0-pro`
Data de lançamento do modelo	2025-12-26
Modalidades de entrada	Texto, Imagem
Modalidades de saída	Vídeo
Janela de contexto	-
Precisão do peso	Misto FP8/BF16/FP16
Características	infinite_length, character_consistency
Inferência nativa	Sim
Novo	Não
Endpoints suportados	`POST /v1/videos/generations`

Precificação

Carga	Especificação	Taxa
Vídeo 480p	por segundo	$0.057
Vídeo 720p	por segundo	$0.17
T2V Rápido	Taxa adicional	$0.065
Qualidade T2V	Taxa adicional	$0.13

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "svi-2-0-pro", "prompt": "sunrise over the ocean", "duration": 6}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`resolution`	enum	Não	`"832x480"`	480p é rápido; 720p é mais lento, mas mais nítido. · Permitido: `832x480`, `480x832`, `720x1280`, `1280x720`
`duration`	Número	Não	`18`	Duração estimada do clipe em segundos. · Faixa de alcance: 18 – 121,5
`cfg`	Número	Não	`1.0`	Força de adesão rápida. · Intervalo: 1.0 – 2.0
`negative_prompt`	String	Não	`"vibrant tone, overexposed, static, blurry details, subtitles, style, artwork, painting, picture, still, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn face, deformed, disfigured, malformed limbs, fused fingers, still picture, messy background, three legs, background crowd, walking backwards"`	Texto descrevendo o que evitar.
`t2v_quality`	enum	Não	`"quality"`	Nível de pipeline de texto para vídeo. ‘Quality’ usa o modelo de imagem Wan 2.2 mais referência para maior fidelidade; ‘Rápido’ usa o modelo flash para gerações mais baratas e rápidas. Só se aplica no modo text-to-video (image-to-video pula essa etapa). · Permitido: `fast`, `quality`

Notas

Teoricamente vídeo de comprimento infinito com ID de caractere consistente. Image-to-Video normalmente gera resultados superiores aos text-to-video.

Restrições

Geração pode levar 45+ minutos para vídeos longos
Para melhor movimento: descreva ações consecutivas por segmento no seu prompt

Formatos de imagem

jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif

Modo multi-cena

Ao descrever várias cenas em um único prompt, um CFG menor (1.0-1.3) dá ao modelo mais liberdade para interpretar transições de cena distintas
Aumente o CFG (1.5-2.0) quando cada cena deve seguir o prompt literalmente

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/svi-2-0-pro.