MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

Modèle de fondation MoE open source 32B qui génère des vidéos et des sons synchronisés en une seule étape d’inférence avec une synchronisation labiale précise à double tour.

En un coup d’œil

TerrainValeur
Identifiant de modèlemoss-video-and-audio
Date de sortie du modèle2026-01-29
Modalités d’entréeTexte, Image
Modalités de sortieVidéo, Audio
Fenêtre de contexte-
Précision du poids-
Caractéristiquesaudio_sync, lipsync
Inférence autochtoneOui
NouveauNon
Points de terminaison pris en chargePOST /v1/videos/generations

Tarification

ChargeSpecTaux
Vidéo 360ppar vidéo$0.17
Vidéo 720ppar vidéo$2.82
T2V Rapidefrais supplémentaires$0.065
Qualité T2Vfrais supplémentaires$0.13

Exemple de demande

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
promptCordeOui-Description de la scène. Avec l’image jointe, ça devient un image-to-video prompt.
modeenumnon"t2v"T2V: Pure text-to-video. i2v: animez l’image jointe. · Autorisé: t2v, i2v
resolutionenumnon"720p"Le 720p utilise un point de terminaison séparé à haute VRAM. · Autorisé: 360p, 720p
aspect_ratioenumnon"landscape"MOSS ne prend en charge que le paysage (16:9) et le portrait (9:16). · Autorisé: landscape, portrait
durationNombrenon8Longueur du clip en secondes. Le modèle en amont est limité strictement à 8 secondes. · Répartition: 2 – 8
t2v_qualityenumnon"quality"Texte en vidéo uniquement. Fast échange la fidélité contre ~2× vitesse. · Autorisé: fast, quality
num_inference_stepsNombrenon25Étapes de diffusion. Plus = plus haute fidélité, plus lentement. · Plage: 10 – 50
cfg_scaleNombrenon5.0Guidance sans classificateurs. Plus haut = suit l’invite de façon plus stricte. · Plage: 1,0 – 10,0
sigma_shiftNombrenon5.0Planning shift. Valable seulement lorsque la résolution = 360p. · Plage: 1,0 – 10,0
imageCordenon-URL d’image de référence pour le mode i2v.
negative_promptCordenon""Quoi éviter.
seedNombrenon-Graine de reproductibilité.

Notes

MoE à 32B paramètres avec synchronisation labiale vidéo + audio synchronisés dans une seule inférence.

Contraintes

  • La génération peut prendre 20+ minutes
  • L’image-vidéo donne généralement des résultats supérieurs à text-to-video
  • Une seule image prise en charge (utilisée comme première image)
  • Entrées vidéo NON prises en charge

Formats d’image

  • jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif, gif

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.