MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

开源32B MoE基础模型,通过精确的双塔口型同步,在一次推断步骤内生成同步的视频和音频。

一眼看

场地价值
型号IDmoss-video-and-audio
车型发布日期2026-01-29
输入模态文本,图片
输出模态视频,音频
上下文窗口-
重量精度-
特色audio_sync,对嘴
本土推断是的
支持的端点POST /v1/videos/generations

定价

冲锋规格速率
360p视频根据视频$0.17
720p视频根据视频$2.82
T2V 快速附加费用$0.065
T2V质量附加费用$0.13

示例请求

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

参数

参数类型必修默认描述
prompt是的-场景描述。附上图片时,就变成image-to-video提示。
mode枚举"t2v"T2V:纯text-to-video。I2V:制作附图动画。·允许:t2vi2v
resolution枚举"720p"720p使用一个独立的高显存端点。·允许:360p720p
aspect_ratio枚举"landscape"MOSS仅支持横屏(16:9)和竖屏(9:16)。·允许:landscapeportrait
duration人数8剪辑长度只需几秒。上游模型的上限为8秒。 ·射程:2 – 8
t2v_quality枚举"quality"仅支持文本转视频。Fast 用 Fidelity 换取 ~2× 的速度。·允许:fastquality
num_inference_steps人数25扩散步骤。More = 保真度更高,速度较慢。·范围:10 – 50
cfg_scale人数5.0无分类器指导。更高 = 更严格地跟随提示。·范围:1.0 – 10.0
sigma_shift人数5.0时间表变更。仅在分辨率=360p时有效。 ·范围:1.0 – 10.0
image-i2v 模式的参考图片链接。
negative_prompt""要避免什么。
seed人数-可重复性种子。

注释

32B参数的MoE,单次推断同步口型同步视频+音频。

约束条件

  • 生成可能需要20+分钟
  • 图像转视频通常比text-to-video更优
  • 仅支持一张图片(作为第一帧使用)
  • 不支持视频输入

图像格式

  • jpg、jpeg、png、webp、heic、heif、bmp、tiff、tif、gif

Machine可读模式: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio