MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

Modelo de fundação MoE 32B de código aberto que gera vídeo e áudio sincronizados em uma única etapa de inferência, com sincronização labial precisa de duas torres.

De um olhar

CampoValor
ID do modelomoss-video-and-audio
Data de lançamento do modelo2026-01-29
Modalidades de entradaTexto, Imagem
Modalidades de saídaVídeo, Áudio
Janela de contexto-
Precisão do peso-
Característicasaudio_sync, dublagem
Inferência nativaSim
NovoNão
Endpoints suportadosPOST /v1/videos/generations

Precificação

CargaEspecificaçãoTaxa
Vídeo 360ppor vídeo$0.17
Vídeo 720ppor vídeo$2.82
T2V RápidoTaxa adicional$0.065
Qualidade T2VTaxa adicional$0.13

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
promptStringsim-Descrição da cena. Com a imagem anexada, vira um prompt image-to-video.
modeenumNão"t2v"T2V: Pura text-to-video. i2v: animar a imagem anexada. · Permitido: t2v, i2v
resolutionenumNão"720p"720p usa um endpoint separado de maior VRAM. · Permitido: 360p, 720p
aspect_ratioenumNão"landscape"MOSS suporta apenas paisagem (16:9) e retrato (9:16). · Permitido: landscape, portrait
durationNúmeroNão8Duração do clipe em segundos. O modelo upstream é limitado a 8s. · Intervalo: 2 – 8
t2v_qualityenumNão"quality"Apenas texto para vídeo. Fast troca fidelidade por ~2× de velocidade. · Permitido: fast, quality
num_inference_stepsNúmeroNão25Etapas de difusão. Mais = maior fidelidade, mais lento. · Intervalo: 10 – 50
cfg_scaleNúmeroNão5.0Orientação sem classificadores. Maior = segue o prompt de forma mais rigorosa. · Intervalo: 1,0 – 10,0
sigma_shiftNúmeroNão5.0Mudança de programação. Válido somente quando resolução = 360p. · Intervalo: 1,0 – 10,0
imageStringNão-URL de imagem de referência para o modo i2v.
negative_promptStringNão""O que evitar.
seedNúmeroNão-Semente de reprodutibilidade.

Notas

MoE de 32B parâmetros com sincronização labial sincronizada de vídeo + áudio em uma única inferência.

Restrições

  • A geração pode levar 20+ minutos
  • Imagem-para-vídeo normalmente gera resultados superiores aos text-to-video
  • Apenas 1 imagem suportada (usada como primeiro quadro)
  • Entradas de vídeo NÃO suportadas

Formatos de imagem

  • jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif, gif

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.