Wan 2.6

Alibaba Cloud · Video Generation

POST /v1/videos/generations

Modelo de generación de vídeo multimodal para historias cinematográficas con múltiples planos y sincronización audiovisual nativa (sincronización labial, diálogo, música, efectos sonoros).

A simple vista

Campo	Valor
ID de modelo	`wan-2-6`
Fecha de lanzamiento del modelo	2026-01-12
Modalidades de entrada	Texto, Imagen, Vídeo, Audio
Modalidades de salida	Vídeo
Ventana de contexto	-
Precisión del peso	-
Región	Singapur
Características	audio_sync, character_consistency, multi_shot
Inferencia nativa	No
Nuevo	No
Puntos finales soportados	`POST /v1/videos/generations`

Precios

Carga	Especificaciones	Tarifa
720P estándar	por segundo	$0.09 (era $0.10)
1080P estándar	por segundo	$0.138 (era $0.15)
Flash 720P (audio)	por segundo	$0.045 (era $0.050)
Flash 720P (sin audio)	por segundo	$0.0225 (era $0.0250)
Flash 1080P (audio)	por segundo	$0.069 (era $0.0750)
Flash 1080P (sin audio)	por segundo	$0.0345 (era $0.03750)

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "wan-2-6", "prompt": "sunrise over the ocean", "duration": 6}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`prompt`	Cuerda	Sí	-	Descripción de la escena.
`mode`	enum	no	`"auto"`	T2V: text-to-video. i2v: Anima la imagen adjunta. R2V: reference-to-video - generar a partir de una imagen de referencia. · Permitidos: `auto`, `t2v`, `i2v`, `r2v`
`resolution`	enum	no	`"1080p"`	Resolución de salida. Más grande = mayor fidelidad pero más lento / más caro. · Permitidos: `720p`, `1080p`
`duration`	Número	no	`5`	Duración del clip en segundos. · Rango: 5 – 15
`aspect_ratio`	enum	no	`"16:9"`	Relación de aspecto de salida (1:1, 16:9, 9:16, 4:3, 3:2, etc.). · Permitidos: `16:9`, `9:16`, `1:1`, `4:3`, `3:4`
`shot_type`	enum	no	`"multi"`	Un solo disparo: un disparo continuo. Multi: Narrativa con múltiples planos. · Permitidos: `single`, `multi`
`image`	Cuerda	no	-	Referencia URL de la imagen. Es necesario para i2v / r2v.
`negative_prompt`	Cuerda	no	`""`	Qué evitar.
`seed`	Número	no	-	Semilla de reproducibilidad.
`audio`	Booleano	no	Cierto	Genera audio nativo con el vídeo.
`flash_mode`	Booleano	no	falso	Generación más rápida a menor coste. Solo aplica a i2v y r2v.
`prompt_extend`	Booleano	no	Cierto	Expande y refina automáticamente el prompt para obtener mejores resultados.

Notas

La generación puede tardar 5+ minutos. Modos: T2V, I2V (image-to-video), R2V (reference-to-video). Modo Flash (solo i2v/r2v) - generación más rápida a menor coste.

Entradas de imagen

Redimensionamiento automático: i2v 360-2000px, r2v 240-5000px
HEIC/HEIF conversión automática

Vídeos de referencia

MP4 o MOV
De los 1 a los 30
Máximo 100 MB
Salida R2V limitada a 10 segundos

Audio opcional (solo t2v / i2v)

3-30 segundos, máximo 15 MB,.mp3 o.wav
Ignorado silenciosamente en r2v (el audio se extrae del vídeo de referencia en su lugar)

Preprocesamiento de medios subidos

Los vídeos de referencia y edición se normalizan a MP4 compatibles con el proveedor cuando es necesario.
La duración del vídeo de referencia sigue los límites de modo mostrados arriba.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/wan-2-6.