MOSS Video and Audio

OpenMOSS · Video Generation

POST /v1/videos/generations

Modèle de fondation MoE open source 32B qui génère des vidéos et des sons synchronisés en une seule étape d’inférence avec une synchronisation labiale précise à double tour.

En un coup d’œil

Terrain	Valeur
Identifiant de modèle	`moss-video-and-audio`
Date de sortie du modèle	2026-01-29
Modalités d’entrée	Texte, Image
Modalités de sortie	Vidéo, Audio
Fenêtre de contexte	-
Précision du poids	-
Caractéristiques	audio_sync, lipsync
Inférence autochtone	Oui
Nouveau	Non
Points de terminaison pris en charge	`POST /v1/videos/generations`

Tarification

Charge	Spec	Taux
Vidéo 360p	par vidéo	$0.17
Vidéo 720p	par vidéo	$2.82
T2V Rapide	frais supplémentaires	$0.065
Qualité T2V	frais supplémentaires	$0.13

Exemple de demande

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

Paramètres

Paramètre	Type	Obligatoire	Par défaut	Description
`prompt`	Corde	Oui	-	Description de la scène. Avec l’image jointe, ça devient un image-to-video prompt.
`mode`	enum	non	`"t2v"`	T2V: Pure text-to-video. i2v: animez l’image jointe. · Autorisé: `t2v`, `i2v`
`resolution`	enum	non	`"720p"`	Le 720p utilise un point de terminaison séparé à haute VRAM. · Autorisé: `360p`, `720p`
`aspect_ratio`	enum	non	`"landscape"`	MOSS ne prend en charge que le paysage (16:9) et le portrait (9:16). · Autorisé: `landscape`, `portrait`
`duration`	Nombre	non	`8`	Longueur du clip en secondes. Le modèle en amont est limité strictement à 8 secondes. · Répartition: 2 – 8
`t2v_quality`	enum	non	`"quality"`	Texte en vidéo uniquement. Fast échange la fidélité contre ~2× vitesse. · Autorisé: `fast`, `quality`
`num_inference_steps`	Nombre	non	`25`	Étapes de diffusion. Plus = plus haute fidélité, plus lentement. · Plage: 10 – 50
`cfg_scale`	Nombre	non	`5.0`	Guidance sans classificateurs. Plus haut = suit l’invite de façon plus stricte. · Plage: 1,0 – 10,0
`sigma_shift`	Nombre	non	`5.0`	Planning shift. Valable seulement lorsque la résolution = 360p. · Plage: 1,0 – 10,0
`image`	Corde	non	-	URL d’image de référence pour le mode i2v.
`negative_prompt`	Corde	non	`""`	Quoi éviter.
`seed`	Nombre	non	-	Graine de reproductibilité.

Notes

MoE à 32B paramètres avec synchronisation labiale vidéo + audio synchronisés dans une seule inférence.

Contraintes

La génération peut prendre 20+ minutes
L’image-vidéo donne généralement des résultats supérieurs à text-to-video
Une seule image prise en charge (utilisée comme première image)
Entrées vidéo NON prises en charge

Formats d’image

jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif, gif

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.