MOSS Video and Audio

OpenMOSS · Video Generation

POST /v1/videos/generations

オープンソースの32B MoE基盤モデルで、精密なデュアルタワーリップシンクを用いて、1ステップの推論で同期した映像と音声を生成する。

一目で

フィールド	価値
モデルID	`moss-video-and-audio`
モデル発売日	2026-01-29
入力モダリティ	テキスト、画像
出力モダリティ	映像、音声
コンテキストウィンドウ	-
重量精度	-
特徴	audio_sync、リップシンク
ネイティブ推論	はい
新作	いいえ
サポート端末	`POST /v1/videos/generations`

価格設定

チャージ	スペック	レート
360pビデオ	動画ごとに	$0.17
720pビデオ	動画ごとに	$2.82
T2V Fast	追加料金	$0.065
T2V品質	追加料金	$0.13

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`prompt`	ストリング	はい	-	シーンの説明。画像を添付すると、image-to-videoプロンプトになります。
`mode`	エヌム	いいえ	`"t2v"`	T2V:純粋なtext-to-video。i2V:添付画像をアニメーション化します。·許可:`t2v`、`i2v`
`resolution`	エヌム	いいえ	`"720p"`	720pは別の高VRAMエンドポイントを使用しています。·許可:`360p`、`720p`
`aspect_ratio`	エヌム	いいえ	`"landscape"`	MOSSは横(16:9)と縦(9:16)のみに対応しています。·許可:`landscape`、`portrait`
`duration`	番号	いいえ	`8`	クリップの長さは秒単位です。上流モデルは8sに上限が設けられています。射程:2 – 8
`t2v_quality`	エヌム	いいえ	`"quality"`	テキストから動画への変換のみです。Fastは忠実度と交換して~2×の速度を得ます。·許可:`fast`、`quality`
`num_inference_steps`	番号	いいえ	`25`	拡散ステップ。More = 忠実度が高く、遅くなります。·範囲:10 – 50
`cfg_scale`	番号	いいえ	`5.0`	分類器不要のガイダンス。Higher = より厳密にプロンプトに従う。·範囲:1.0 – 10.0
`sigma_shift`	番号	いいえ	`5.0`	スケジュールのずれ。解像度=360pの場合にのみ有効です。範囲:1.0 – 10.0
`image`	ストリング	いいえ	-	i2vモードの参考画像URL。
`negative_prompt`	ストリング	いいえ	`""`	避けるべきこと。
`seed`	番号	いいえ	-	再現性シード。

注記

32BパラメータのMoEで、同期したリップシンク映像+音声を単一の推論で実現します。

制約

生成には20+分かかることもあります
画像から映像への変換は、通常text-to-videoよりも優れた結果をもたらします。
サポート画像は1枚のみ(最初のフレームとして使用)
ビデオ入力はサポートされていません

画像フォーマット

JPG、JPEG、PNG、WEBP、HEIC、HEIF、BMP、TIFF、TIF、GIF

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio。