MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

オープンソースの32B MoE基盤モデルで、精密なデュアルタワーリップシンクを用いて、1ステップの推論で同期した映像と音声を生成する。

一目で

フィールド価値
モデルIDmoss-video-and-audio
モデル発売日2026-01-29
入力モダリティテキスト、画像
出力モダリティ映像、音声
コンテキストウィンドウ-
重量精度-
特徴audio_sync、リップシンク
ネイティブ推論はい
新作いいえ
サポート端末POST /v1/videos/generations

価格設定

チャージスペックレート
360pビデオ動画ごとに$0.17
720pビデオ動画ごとに$2.82
T2V Fast追加料金$0.065
T2V品質追加料金$0.13

例示リクエスト

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

パラメータ

パラメータ種類必須デフォルト概要
promptストリングはい-シーンの説明。画像を添付すると、image-to-videoプロンプトになります。
modeエヌムいいえ"t2v"T2V:純粋なtext-to-video。i2V:添付画像をアニメーション化します。·許可:t2vi2v
resolutionエヌムいいえ"720p"720pは別の高VRAMエンドポイントを使用しています。·許可:360p720p
aspect_ratioエヌムいいえ"landscape"MOSSは横(16:9)と縦(9:16)のみに対応しています。·許可:landscapeportrait
duration番号いいえ8クリップの長さは秒単位です。上流モデルは8sに上限が設けられています。射程:2 – 8
t2v_qualityエヌムいいえ"quality"テキストから動画への変換のみです。Fastは忠実度と交換して~2×の速度を得ます。·許可:fastquality
num_inference_steps番号いいえ25拡散ステップ。More = 忠実度が高く、遅くなります。·範囲:10 – 50
cfg_scale番号いいえ5.0分類器不要のガイダンス。Higher = より厳密にプロンプトに従う。·範囲:1.0 – 10.0
sigma_shift番号いいえ5.0スケジュールのずれ。解像度=360pの場合にのみ有効です。範囲:1.0 – 10.0
imageストリングいいえ-i2vモードの参考画像URL。
negative_promptストリングいいえ""避けるべきこと。
seed番号いいえ-再現性シード。

注記

32BパラメータのMoEで、同期したリップシンク映像+音声を単一の推論で実現します。

制約

  • 生成には20+分かかることもあります
  • 画像から映像への変換は、通常text-to-videoよりも優れた結果をもたらします。
  • サポート画像は1枚のみ(最初のフレームとして使用)
  • ビデオ入力はサポートされていません

画像フォーマット

  • JPG、JPEG、PNG、WEBP、HEIC、HEIF、BMP、TIFF、TIF、GIF

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio