MOSS Video and Audio | EmpirioLabs AI Docs

OpenMOSS · Video Generation

POST /v1/videos/generations

Modelo de fundação MoE 32B de código aberto que gera vídeo e áudio sincronizados em uma única etapa de inferência, com sincronização labial precisa de duas torres.

De um olhar

Campo	Valor
ID do modelo	`moss-video-and-audio`
Data de lançamento do modelo	2026-01-29
Modalidades de entrada	Texto, Imagem
Modalidades de saída	Vídeo, Áudio
Janela de contexto	-
Precisão do peso	-
Características	audio_sync, dublagem
Inferência nativa	Sim
Novo	Não
Endpoints suportados	`POST /v1/videos/generations`

Precificação

Carga	Especificação	Taxa
Vídeo 360p	por vídeo	$0.17
Vídeo 720p	por vídeo	$2.82
T2V Rápido	Taxa adicional	$0.065
Qualidade T2V	Taxa adicional	$0.13

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`prompt`	String	sim	-	Descrição da cena. Com a imagem anexada, vira um prompt image-to-video.
`mode`	enum	Não	`"t2v"`	T2V: Pura text-to-video. i2v: animar a imagem anexada. · Permitido: `t2v`, `i2v`
`resolution`	enum	Não	`"720p"`	720p usa um endpoint separado de maior VRAM. · Permitido: `360p`, `720p`
`aspect_ratio`	enum	Não	`"landscape"`	MOSS suporta apenas paisagem (16:9) e retrato (9:16). · Permitido: `landscape`, `portrait`
`duration`	Número	Não	`8`	Duração do clipe em segundos. O modelo upstream é limitado a 8s. · Intervalo: 2 – 8
`t2v_quality`	enum	Não	`"quality"`	Apenas texto para vídeo. Fast troca fidelidade por ~2× de velocidade. · Permitido: `fast`, `quality`
`num_inference_steps`	Número	Não	`25`	Etapas de difusão. Mais = maior fidelidade, mais lento. · Intervalo: 10 – 50
`cfg_scale`	Número	Não	`5.0`	Orientação sem classificadores. Maior = segue o prompt de forma mais rigorosa. · Intervalo: 1,0 – 10,0
`sigma_shift`	Número	Não	`5.0`	Mudança de programação. Válido somente quando resolução = 360p. · Intervalo: 1,0 – 10,0
`image`	String	Não	-	URL de imagem de referência para o modo i2v.
`negative_prompt`	String	Não	`""`	O que evitar.
`seed`	Número	Não	-	Semente de reprodutibilidade.

Notas

MoE de 32B parâmetros com sincronização labial sincronizada de vídeo + áudio em uma única inferência.

Restrições

A geração pode levar 20+ minutos
Imagem-para-vídeo normalmente gera resultados superiores aos text-to-video
Apenas 1 imagem suportada (usada como primeiro quadro)
Entradas de vídeo NÃO suportadas

Formatos de imagem

jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif, gif

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.