Wan 2.7

Alibaba Cloud · Video Generation

POST /v1/videos/generations

Modelo de vídeo multimodal compatible con T2V, I2V, edición de vídeo y reference-to-video, con salida de alta fidelidad desde entradas, texto, imagen o vídeo.

A simple vista

Campo	Valor
ID de modelo	`wan-2-7`
Fecha de lanzamiento del modelo	2026-04-26
Modalidades de entrada	Texto, Imagen, Vídeo, Audio
Modalidades de salida	Vídeo
Ventana de contexto	-
Precisión del peso	-
Región	Singapur
Características	audio_sync, character_consistency, multi_shot
Inferencia nativa	No
Nuevo	No
Puntos finales soportados	`POST /v1/videos/generations`

Precios

Carga	Especificaciones	Tarifa
Todos los modos 720P	por segundo	$0.10
Todos los modos 1080P	por segundo	$0.150

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "wan-2-7", "prompt": "sunrise over the ocean", "duration": 6}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`prompt`	Cuerda	Sí	-	Descripción de la escena.
`mode`	enum	no	`"auto"`	T2V: text-to-video. i2v: Anima la imagen adjunta. Edición del vídeo: Edición del vídeo adjunto. R2V: reference-to-video. · Permitidos: `auto`, `t2v`, `i2v`, `videoedit`, `r2v`
`resolution`	enum	no	`"1080p"`	Resolución de salida. Más grande = mayor fidelidad pero más lento / más caro. · Permitidos: `720p`, `1080p`
`duration`	Número	no	`5`	Duración del clip en segundos. · Rango: 2 – 15
`aspect_ratio`	enum	no	-	Opcional. Si se omite, el modelo elige en función de la entrada. · Permitidos: `16:9`, `9:16`, `1:1`, `4:3`, `3:4`
`image`	Cuerda	no	-	Referencia URL de la imagen. Es necesario para i2v / r2v / edición de vídeo.
`video`	Cuerda	no	-	Consulta la URL del vídeo. Es necesario para edición de vídeo / r2v.
`negative_prompt`	Cuerda	no	`""`	Qué evitar.
`seed`	Número	no	-	Semilla de reproducibilidad.
`audio_setting`	enum	no	`"auto"`	Auto: Generar audio nativo. Origen: Conserva el audio del vídeo de referencia (solo videoedit/r2v). · Permitido: `auto`, `origin`
`prompt_extend`	Booleano	no	Cierto	Expande y refina automáticamente el prompt para obtener mejores resultados.

Notas

La generación puede durar 30+ minutos. Los modos se detectan automáticamente en los archivos adjuntos - o anulan con el parámetro mode.

Modos

T2V: sin accesorios
I2V (Primer fotograma): 1 imagen
I2V (Primero + Último): exactamente 2 imágenes
Continuación en I2V: 1 vídeo (2-10 segundos) + imagen opcional del último fotograma
Edición de vídeo: 1 vídeo (2-10 segundos, ≤100 MB, MP4/MOV) + hasta 3 imágenes de referencia
R2V: hasta 5 referencias combinadas; Haz referencia a los temas en tu enunciado con Video1, Image1, etc.

Audio opcional

T2V/I2V: 2-30 años
R2V: 1-10s (usado como muestra de timbre de voz)
Máximo 15 MB,.mp3 o.wav

Facturación

La edición de vídeo y la R2V se facturan por la duración combinada de entrada + salida.

Preprocesamiento de medios subidos

Los vídeos de referencia y edición se normalizan a MP4 compatibles con el proveedor cuando es necesario.
La duración del vídeo de referencia sigue los límites de modo mostrados arriba.

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/wan-2-7.