MOSS Video and Audio | EmpirioLabs AI Docs

OpenMOSS · Video Generation

POST /v1/videos/generations

开源32B MoE基础模型，通过精确的双塔口型同步，在一次推断步骤内生成同步的视频和音频。

一眼看

场地	价值
型号ID	`moss-video-and-audio`
车型发布日期	2026-01-29
输入模态	文本，图片
输出模态	视频，音频
上下文窗口	-
重量精度	-
特色	audio_sync，对嘴
本土推断	是的
新	不
支持的端点	`POST /v1/videos/generations`

定价

冲锋	规格	速率
360p视频	根据视频	$0.17
720p视频	根据视频	$2.82
T2V 快速	附加费用	$0.065
T2V质量	附加费用	$0.13

示例请求

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

参数

参数	类型	必修	默认	描述
`prompt`	弦	是的	-	场景描述。附上图片时，就变成image-to-video提示。
`mode`	枚举	不	`"t2v"`	T2V：纯text-to-video。I2V：制作附图动画。·允许：`t2v`，`i2v`
`resolution`	枚举	不	`"720p"`	720p使用一个独立的高显存端点。·允许：`360p`，`720p`
`aspect_ratio`	枚举	不	`"landscape"`	MOSS仅支持横屏（16：9）和竖屏（9：16）。·允许：`landscape`，`portrait`
`duration`	人数	不	`8`	剪辑长度只需几秒。上游模型的上限为8秒。 ·射程：2 – 8
`t2v_quality`	枚举	不	`"quality"`	仅支持文本转视频。Fast 用 Fidelity 换取 ~2× 的速度。·允许：`fast`，`quality`
`num_inference_steps`	人数	不	`25`	扩散步骤。More = 保真度更高，速度较慢。·范围：10 – 50
`cfg_scale`	人数	不	`5.0`	无分类器指导。更高 = 更严格地跟随提示。·范围：1.0 – 10.0
`sigma_shift`	人数	不	`5.0`	时间表变更。仅在分辨率=360p时有效。 ·范围：1.0 – 10.0
`image`	弦	不	-	i2v 模式的参考图片链接。
`negative_prompt`	弦	不	`""`	要避免什么。
`seed`	人数	不	-	可重复性种子。

注释

32B参数的MoE，单次推断同步口型同步视频+音频。

约束条件

生成可能需要20+分钟
图像转视频通常比text-to-video更优
仅支持一张图片（作为第一帧使用）
不支持视频输入

图像格式

jpg、jpeg、png、webp、heic、heif、bmp、tiff、tif、gif

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio。