MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

Modelo base MoE 32B de código abierto que genera vídeo y audio sincronizados en un solo paso de inferencia con sincronización labial precisa de doble torre.

A simple vista

CampoValor
ID de modelomoss-video-and-audio
Fecha de lanzamiento del modelo2026-01-29
Modalidades de entradaTexto, Imagen
Modalidades de salidaVídeo, Audio
Ventana de contexto-
Precisión del peso-
Característicasaudio_sync, sincronización labial
Inferencia nativa
NuevoNo
Puntos finales soportadosPOST /v1/videos/generations

Precios

CargaEspecificacionesTarifa
Vídeo 360ppor vídeo$0.17
Vídeo 720ppor vídeo$2.82
T2V RápidoTasa adicional$0.065
Calidad T2VTasa adicional$0.13

Solicitud de ejemplo

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

Parámetros

ParámetroTipoObligatorioDefaultDescripción
promptCuerda-Descripción de la escena. Con la imagen adjunta, se convierte en un image-to-video prompt.
modeenumno"t2v"T2V: Pura text-to-video. i2v: Anima la imagen adjunta. · Permitido: t2v, i2v
resolutionenumno"720p"720p utiliza un punto final separado de mayor VRAM. · Permitidos: 360p, 720p
aspect_ratioenumno"landscape"MOSS solo soporta paisaje (16:9) y retrato (9:16). · Permitidos: landscape, portrait
durationNúmerono8Duración del clip en segundos. El modelo upstream tiene un límite estricto de 8s. · Rango: 2 – 8
t2v_qualityenumno"quality"Solo texto a vídeo. Fast intercambia fidelidad por ~2× de velocidad. · Permitidos: fast, quality
num_inference_stepsNúmerono25Pasos de difusión. Más = mayor fidelidad, más lento. · Rango: 10 – 50
cfg_scaleNúmerono5.0Guía sin clasificador. Más alto = sigue el prompt de forma más estricta. · Rango: 1.0 – 10.0
sigma_shiftNúmerono5.0Turno de horario. Solo válido cuando la resolución = 360p. · Rango: 1.0 – 10.0
imageCuerdano-URL de imagen de referencia para el modo i2v.
negative_promptCuerdano""Qué evitar.
seedNúmerono-Semilla de reproducibilidad.

Notas

MoE de 32B parámetros con sincronización labial de vídeo + audio sincronizados en una sola inferencia.

Restricciones

  • La generación puede tardar 20+ minutos
  • La imagen a vídeo suele dar resultados superiores a text-to-video
  • Solo 1 imagen soportada (usada como primer fotograma)
  • Entradas de vídeo NO soportadas

Formatos de imagen

  • jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif, gif

Machine-legible esquema: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.