Wan 2.6

Wan 2.6
Alibaba Cloud · Video Generation
POST /v1/videos/generations

Modelo de geração de vídeo multimodal para histórias cinematográficas com múltiplos planos e sincronização áudio-visual nativa (dublagem labial, diálogo, música, efeitos sonoros).

De um olhar

CampoValor
ID do modelowan-2-6
Data de lançamento do modelo2026-01-12
Modalidades de entradaTexto, Imagem, Vídeo, Áudio
Modalidades de saídaVídeo
Janela de contexto-
Precisão do peso-
RegiãoSingapura
Característicasaudio_sync, character_consistency, multi_shot
Inferência nativaNão
NovoNão
Endpoints suportadosPOST /v1/videos/generations

Precificação

CargaEspecificaçãoTaxa
720P padrãopor segundo$0.09 (era $0.10)
1080P padrãopor segundo$0.138 (era $0.15)
Flash 720P (áudio)por segundo$0.045 (era $0.050)
Flash 720P (sem áudio)por segundo$0.0225 (era $0.0250)
Flash 1080P (áudio)por segundo$0.069 (era $0.0750)
Flash 1080P (sem áudio)por segundo$0.0345 (era $0.03750)

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "wan-2-6", "prompt": "sunrise over the ocean", "duration": 6}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
promptStringsim-Descrição da cena.
modeenumNão"auto"T2V: text-to-video. i2v: animar a imagem anexada. R2V: reference-to-video - gerar a partir de uma imagem de referência. · Permitido: auto, t2v, i2v, r2v
resolutionenumNão"1080p"Resolução de saída. Maior = maior fidelidade, mas mais lenta / mais cara. · Permitido: 720p, 1080p
durationNúmeroNão5Duração do clipe em segundos. · Alcance: 5 – 15
aspect_ratioenumNão"16:9"Proporção de aspecto de saída (1:1, 16:9, 9:16, 4:3, 3:2, etc.). · Permitido: 16:9, 9:16, 1:1, 4:3, 3:4
shot_typeenumNão"multi"Único: Um tiro contínuo. Multi: Narrativa com múltiplos planos. · Permitido: single, multi
imageStringNão-URL da imagem de referência. Necessário para i2v / r2v.
negative_promptStringNão""O que evitar.
seedNúmeroNão-Semente de reprodutibilidade.
audioBooleanoNãoVerdadeGerar áudio nativo com o vídeo.
flash_modeBooleanoNãofalsoGeração mais rápida e com custo reduzido. Vale apenas para i2v e r2v.
prompt_extendBooleanoNãoVerdadeExpanda e refine automaticamente o prompt para melhores resultados.

Notas

A geração pode levar 5+ minutos. Modos: T2V, I2V (image-to-video), R2V (reference-to-video). Modo Flash (apenas i2v/r2v) - geração mais rápida com custo reduzido.

Entradas de imagem

  • Redimensionamento automático: i2v 360-2000px, r2v 240-5000px
  • HEIC/HEIF auto-convertido

Vídeos de referência

  • MP4 ou MOV
  • Anos 1-30
  • Máximo 100 MB
  • Saída R2V limitada a 10s

Áudio opcional (apenas t2v / i2v)

  • 3-30 mph, máximo 15 MB,.mp3 ou.wav
  • Ignorado silenciosamente em r2v (o áudio é extraído do vídeo de referência em vez disso)

Pré-processamento de mídia enviado

  • Vídeos de referência e edição são normalizados para MP4 compatível com o provedor quando necessário.
  • A duração do vídeo de referência segue os limites de modo mostrados acima.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/wan-2-6.