MOSS Video and Audio

OpenMOSS · Video Generation

POST /v1/videos/generations

정밀한 듀얼 타워 립싱크와 함께 한 추론 단계에서 동기화된 비디오와 오디오를 생성하는 오픈 소스 32B MoE 기초 모델입니다.

한눈에

필드	가치
모델 ID	`moss-video-and-audio`
모델 출시일	2026-01-29
입력 양상	텍스트, 이미지
출력 방식	비디오, 오디오
컨텍스트 윈도우	-
무게 정밀도	-
특징	audio_sync, 립싱크
원주민 추론	네
신규	아니
지원되는 엔드포인트	`POST /v1/videos/generations`

가격

돌격	사양	요금
360p 비디오	영상에 따라	$0.17
720p 비디오	영상에 따라	$2.82
T2V 패스트	추가 요금	$0.065
T2V 품질	추가 요금	$0.13

예시 요청

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "moss-video-and-audio", "prompt": "sunrise over the ocean", "duration": 6}'

매개변수

매개변수	유형	필수	기본 설정	설명
`prompt`	스트링	네	-	장면 설명. 이미지가 첨부되면 image-to-video 프롬프트가 됩니다.
`mode`	열거	아니	`"t2v"`	T2V: 순수 text-to-video. i2V: 첨부된 이미지를 애니메이션으로 만드세요. · 허용 시간: `t2v`, `i2v`
`resolution`	열거	아니	`"720p"`	720p는 별도의 고출력 VRAM 엔드포인트를 사용합니다. · 허용: `360p`, `720p`
`aspect_ratio`	열거	아니	`"landscape"`	MOSS는 가로(16:9)와 세로(9:16)만 지원합니다. · 허용: `landscape`, `portrait`
`duration`	번호	아니	`8`	클립 길이는 초 단위로 측정됩니다. 상류 모델의 상한선은 8초로 제한되어 있습니다. · 사거리: 2 – 8
`t2v_quality`	열거	아니	`"quality"`	텍스트-비디오 전용. Fast는 충실도를 대가로 ~2× 속도를 내줍니다. · 허용: `fast`, `quality`
`num_inference_steps`	번호	아니	`25`	확산 단계. More = 더 높은 충실도, 느림. · 사거리: 10 – 50
`cfg_scale`	번호	아니	`5.0`	분류기 없는 안내. 더 높은 = 프롬프트를 더 엄격하게 따르는 것. · 범위: 1.0 – 10.0
`sigma_shift`	번호	아니	`5.0`	일정 변경. 해상도=360p일 때만 유효합니다. · 범위: 1.0 – 10.0
`image`	스트링	아니	-	i2v 모드에 대한 참고 이미지 URL.
`negative_prompt`	스트링	아니	`""`	피해야 할 것들.
`seed`	번호	아니	-	재현성 시드.

주석

32B 매개변수 MoE와 동기화된 립싱크 비디오 + 오디오를 단일 추론으로 제공합니다.

제약 조건

생성 시간은 20+분일 수 있습니다
이미지-비디오 변환은 일반적으로 text-to-video보다 더 우수한 결과를 제공합니다
지원되는 이미지는 단 1장(첫 프레임으로 사용됨)
비디오 입력은 지원되지 않습니다

이미지 포맷

jpg, jpeg, png, webp, heic, heif, BMP, TIFF, TIF, GIF

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/moss-video-and-audio.