Wan 2.6

Wan 2.6
Alibaba Cloud · Video Generation
POST /v1/videos/generations

Modelo de generación de vídeo multimodal para historias cinematográficas con múltiples planos y sincronización audiovisual nativa (sincronización labial, diálogo, música, efectos sonoros).

A simple vista

CampoValor
ID de modelowan-2-6
Fecha de lanzamiento del modelo2026-01-12
Modalidades de entradaTexto, Imagen, Vídeo, Audio
Modalidades de salidaVídeo
Ventana de contexto-
Precisión del peso-
RegiónSingapur
Característicasaudio_sync, character_consistency, multi_shot
Inferencia nativaNo
NuevoNo
Puntos finales soportadosPOST /v1/videos/generations

Precios

CargaEspecificacionesTarifa
720P estándarpor segundo$0.09 (era $0.10)
1080P estándarpor segundo$0.138 (era $0.15)
Flash 720P (audio)por segundo$0.045 (era $0.050)
Flash 720P (sin audio)por segundo$0.0225 (era $0.0250)
Flash 1080P (audio)por segundo$0.069 (era $0.0750)
Flash 1080P (sin audio)por segundo$0.0345 (era $0.03750)

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "wan-2-6", "prompt": "sunrise over the ocean", "duration": 6}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
promptCuerda-Descripción de la escena.
modeenumno"auto"T2V: text-to-video. i2v: Anima la imagen adjunta. R2V: reference-to-video - generar a partir de una imagen de referencia. · Permitidos: auto, t2v, i2v, r2v
resolutionenumno"1080p"Resolución de salida. Más grande = mayor fidelidad pero más lento / más caro. · Permitidos: 720p, 1080p
durationNúmerono5Duración del clip en segundos. · Rango: 5 – 15
aspect_ratioenumno"16:9"Relación de aspecto de salida (1:1, 16:9, 9:16, 4:3, 3:2, etc.). · Permitidos: 16:9, 9:16, 1:1, 4:3, 3:4
shot_typeenumno"multi"Un solo disparo: un disparo continuo. Multi: Narrativa con múltiples planos. · Permitidos: single, multi
imageCuerdano-Referencia URL de la imagen. Es necesario para i2v / r2v.
negative_promptCuerdano""Qué evitar.
seedNúmerono-Semilla de reproducibilidad.
audioBooleanonoCiertoGenera audio nativo con el vídeo.
flash_modeBooleanonofalsoGeneración más rápida a menor coste. Solo aplica a i2v y r2v.
prompt_extendBooleanonoCiertoExpande y refina automáticamente el prompt para obtener mejores resultados.

Notas

La generación puede tardar 5+ minutos. Modos: T2V, I2V (image-to-video), R2V (reference-to-video). Modo Flash (solo i2v/r2v) - generación más rápida a menor coste.

Entradas de imagen

  • Redimensionamiento automático: i2v 360-2000px, r2v 240-5000px
  • HEIC/HEIF conversión automática

Vídeos de referencia

  • MP4 o MOV
  • De los 1 a los 30
  • Máximo 100 MB
  • Salida R2V limitada a 10 segundos

Audio opcional (solo t2v / i2v)

  • 3-30 segundos, máximo 15 MB,.mp3 o.wav
  • Ignorado silenciosamente en r2v (el audio se extrae del vídeo de referencia en su lugar)

Preprocesamiento de medios subidos

  • Los vídeos de referencia y edición se normalizan a MP4 compatibles con el proveedor cuando es necesario.
  • La duración del vídeo de referencia sigue los límites de modo mostrados arriba.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/wan-2-6.