MOSS Video and Audio

MOSS Video and Audio
OpenMOSS · Video Generation
POST /v1/videos/generations

정밀한 듀얼 타워 립싱크와 함께 한 추론 단계에서 동기화된 비디오와 오디오를 생성하는 오픈 소스 32B MoE 기초 모델입니다.

한눈에

필드가치
모델 IDmoss-video-and-audio
모델 출시일2026-01-29
입력 양상텍스트, 이미지
출력 방식비디오, 오디오
컨텍스트 윈도우-
무게 정밀도-
특징audio_sync, 립싱크
원주민 추론
신규아니
지원되는 엔드포인트POST /v1/videos/generations

가격

돌격사양요금
360p 비디오영상에 따라$0.17
720p 비디오영상에 따라$2.82
T2V 패스트추가 요금$0.065
T2V 품질추가 요금$0.13

예시 요청

$curl https://api.empiriolabs.ai/v1/videos/generations \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

매개변수

매개변수유형필수기본 설정설명
prompt스트링-장면 설명. 이미지가 첨부되면 image-to-video 프롬프트가 됩니다.
mode열거아니"t2v"T2V: 순수 text-to-video. i2V: 첨부된 이미지를 애니메이션으로 만드세요. · 허용 시간: t2v, i2v
resolution열거아니"720p"720p는 별도의 고출력 VRAM 엔드포인트를 사용합니다. · 허용: 360p, 720p
aspect_ratio열거아니"landscape"MOSS는 가로(16:9)와 세로(9:16)만 지원합니다. · 허용: landscape, portrait
duration번호아니8클립 길이는 초 단위로 측정됩니다. 상류 모델의 상한선은 8초로 제한되어 있습니다. · 사거리: 2 – 8
t2v_quality열거아니"quality"텍스트-비디오 전용. Fast는 충실도를 대가로 ~2× 속도를 내줍니다. · 허용: fast, quality
num_inference_steps번호아니25확산 단계. More = 더 높은 충실도, 느림. · 사거리: 10 – 50
cfg_scale번호아니5.0분류기 없는 안내. 더 높은 = 프롬프트를 더 엄격하게 따르는 것. · 범위: 1.0 – 10.0
sigma_shift번호아니5.0일정 변경. 해상도=360p일 때만 유효합니다. · 범위: 1.0 – 10.0
image스트링아니-i2v 모드에 대한 참고 이미지 URL.
negative_prompt스트링아니""피해야 할 것들.
seed번호아니-재현성 시드.

주석

32B 매개변수 MoE와 동기화된 립싱크 비디오 + 오디오를 단일 추론으로 제공합니다.

제약 조건

  • 생성 시간은 20+분일 수 있습니다
  • 이미지-비디오 변환은 일반적으로 text-to-video보다 더 우수한 결과를 제공합니다
  • 지원되는 이미지는 단 1장(첫 프레임으로 사용됨)
  • 비디오 입력은 지원되지 않습니다

이미지 포맷

  • jpg, jpeg, png, webp, heic, heif, BMP, TIFF, TIF, GIF

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.