MOSS Video and Audio | EmpirioLabs AI Docs

OpenMOSS · Video Generation

POST /v1/videos/generations

Modelo base MoE 32B de código abierto que genera vídeo y audio sincronizados en un solo paso de inferencia con sincronización labial precisa de doble torre.

A simple vista

Campo	Valor
ID de modelo	`moss-video-and-audio`
Fecha de lanzamiento del modelo	2026-01-29
Modalidades de entrada	Texto, Imagen
Modalidades de salida	Vídeo, Audio
Ventana de contexto	-
Precisión del peso	-
Características	audio_sync, sincronización labial
Inferencia nativa	Sí
Nuevo	No
Puntos finales soportados	`POST /v1/videos/generations`

Precios

Carga	Especificaciones	Tarifa
Vídeo 360p	por vídeo	$0.17
Vídeo 720p	por vídeo	$2.82
T2V Rápido	Tasa adicional	$0.065
Calidad T2V	Tasa adicional	$0.13

Solicitud de ejemplo

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

Parámetros

Parámetro	Tipo	Obligatorio	Default	Descripción
`prompt`	Cuerda	Sí	-	Descripción de la escena. Con la imagen adjunta, se convierte en un image-to-video prompt.
`mode`	enum	no	`"t2v"`	T2V: Pura text-to-video. i2v: Anima la imagen adjunta. · Permitido: `t2v`, `i2v`
`resolution`	enum	no	`"720p"`	720p utiliza un punto final separado de mayor VRAM. · Permitidos: `360p`, `720p`
`aspect_ratio`	enum	no	`"landscape"`	MOSS solo soporta paisaje (16:9) y retrato (9:16). · Permitidos: `landscape`, `portrait`
`duration`	Número	no	`8`	Duración del clip en segundos. El modelo upstream tiene un límite estricto de 8s. · Rango: 2 – 8
`t2v_quality`	enum	no	`"quality"`	Solo texto a vídeo. Fast intercambia fidelidad por ~2× de velocidad. · Permitidos: `fast`, `quality`
`num_inference_steps`	Número	no	`25`	Pasos de difusión. Más = mayor fidelidad, más lento. · Rango: 10 – 50
`cfg_scale`	Número	no	`5.0`	Guía sin clasificador. Más alto = sigue el prompt de forma más estricta. · Rango: 1.0 – 10.0
`sigma_shift`	Número	no	`5.0`	Turno de horario. Solo válido cuando la resolución = 360p. · Rango: 1.0 – 10.0
`image`	Cuerda	no	-	URL de imagen de referencia para el modo i2v.
`negative_prompt`	Cuerda	no	`""`	Qué evitar.
`seed`	Número	no	-	Semilla de reproducibilidad.

Notas

MoE de 32B parámetros con sincronización labial de vídeo + audio sincronizados en una sola inferencia.

Restricciones

La generación puede tardar 20+ minutos
La imagen a vídeo suele dar resultados superiores a text-to-video
Solo 1 imagen soportada (usada como primer fotograma)
Entradas de vídeo NO soportadas

Formatos de imagen

jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif, gif

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.