MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

Ein Open-Source-32B MoE-Foundation-Modell, das synchronisiertes Video und Audio in einem Inferenzschritt mit präziser Dual-Tower-Lippensynchronisation erzeugt.

Auf einen Blick

SpielfeldWert
Modell-IDmoss-video-and-audio
Modell-Veröffentlichungsdatum2026-01-29
EingabemodalitätenText, Bild
AusgabemodalitätenVideo, Audio
Kontextfenster-
Gewichtspräzision-
Merkmaleaudio_sync, Lippensynchronisation
Native SchlussfolgerungJa
NeuNein
Unterstützte EndpunktePOST /v1/videos/generations

Preisgestaltung

BerechnenSpezifikationZinssatz
360p-Videopro Video$0.17
720p-Videopro Video$2.82
T2V SchnellZusätzliche Gebühr$0.065
T2V-QualitätZusätzliche Gebühr$0.13

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
promptStringJa-Szenenbeschreibung. Mit angehängtem Bild wird es zu einem image-to-video Prompt.
modeENUMNein"t2v"T2V: Reines text-to-video. i2v: Animiere das angehängte Bild. · Erlaubt: t2v, i2v
resolutionENUMNein"720p"720p verwendet einen separaten Endpunkt mit höherem VRAM. · Erlaubt: 360p, 720p
aspect_ratioENUMNein"landscape"MOSS unterstützt nur Querformat (16:9) und Hochformat (9:16). · Erlaubt: landscape, portrait
durationAnzahlNein8Cliplänge in Sekunden. Das Upstream-Modell ist fest auf 8 Schilling begrenzt. · Reichweite: 2 – 8
t2v_qualityENUMNein"quality"Nur Text-zu-Video. Fast tauscht Fidelity gegen ~2× Geschwindigkeit. · Erlaubt: fast, quality
num_inference_stepsAnzahlNein25Diffusionsschritte. Mehr = höhere Genauigkeit, langsamer. · Reichweite: 10 – 50
cfg_scaleAnzahlNein5.0Klassifikatorfreie Orientierung. Higher = folgt der Aufforderung strenger nach. · Reichweite: 1,0 – 10,0
sigma_shiftAnzahlNein5.0Zeitplanverschiebung. Nur gültig, wenn Auflösung =360p. · Reichweite: 1,0 – 10,0
imageStringNein-Referenz auf die Bild-URL für den i2v-Modus.
negative_promptStringNein""Was man vermeiden sollte.
seedAnzahlNein-Reproduzierbarkeitssamen.

Anmerkungen

32B-Parameter MoE mit synchronisiertem Lip-Sync-Video + Audio in einer einzigen Inferenz.

Einschränkungen

  • Die Erzeugung kann 20+ Minuten dauern
  • Bild-zu-Video liefert in der Regel bessere Ergebnisse als text-to-video
  • Nur ein Bild wurde unterstützt (als erster Frame verwendet)
  • Videoeingänge werden NICHT unterstützt

Bildformate

  • jpg, jpeg, png, webp, heic, heif, bmp, tiff, tif, gif

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.