Kling O3

Kling AI · Video Generation

POST /v1/videos/generations

视频模型支持标准或专业模式，支持文本转视频、图像转视频、参考视频、编辑、原生声音和多场景过渡。

一眼看

场地	价值
型号ID	`kling-o3`
车型发布日期	2026-02-05
输入模态	文本、图像、视频、音频
输出模态	视频
上下文窗口	-
重量精度	-
特色	音频，剪辑
本土推断	不
新	不
支持的端点	`POST /v1/videos/generations`

定价

冲锋	规格	速率
标准T2V/I2V	每秒	$0.168
标准T2V/I2V音效	每秒	$0.224
标准视频输入	每秒	$0.252
专业T2V/I2V	每秒	$0.224
专业T2V/I2V音效	每秒	$0.280
专业视频输入	每秒	$0.336
4K T2V/I2V/参考	每秒	$0.525

示例请求

$ curl https://api.empiriolabs.ai/v1/videos/generations \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "kling-o3", "prompt": "sunrise over the ocean", "duration": 6}'

参数

参数	类型	必修	默认	描述
`prompt`	弦	是的	-	多场景：管道（\|）或换行分隔的提示，可选地加上时长，如“5：场景文本”。最多6个场景。
`model_tier`	枚举	不	`"pro"`	标准：最便宜。优点：质量平衡。4K：最高保真，最长渲染。·允许：`standard`，`pro`，`4k`
`workflow`	枚举	不	`"auto"`	自动：从输入中检测。T2V：text-to-video。i2V：image-to-video。video_edit：编辑附上视频。参考：请使用reference_images或 reference_videos。·允许：`auto`、`t2v`、`i2v`、`video_edit`、`reference`
`aspect_ratio`	枚举	不	`"16:9"`	Kling O3 仅支持横屏、方形和竖屏。·允许：`16:9`，`1:1`，`9:16`
`duration`	人数	不	`5`	每场戏的时长以秒计。·范围：3 – 15
`sound`	布尔值	不	确实如此	用视频生成原生音频。
`keep_original_sound`	布尔值	不	确实如此	video_edit。保留源视频的音频。
`image`	弦	不	-	i2v的参考图片网址。
`image_end`	弦	不	-	可选的最后一帧图片网址用于image-to-video。
`video`	弦	不	-	video_edit视频来源链接。
`reference_images`	弦	不	-	用于参考工作流程的逗号分隔图片URL。
`reference_videos`	弦	不	-	用于参考工作流程的逗号分隔视频URL。

注释

视频建模支持标准或专业模式，支持text-to-video、image-to-video、reference-to-video、剪辑、原生声音和多场景过渡。

上传的媒体预处理

视频编辑和视频参考工作流程的视频输入限制为10秒。
上传的视频输入在需要时会归一化为与提供商兼容的MP4格式。
Kling O3 4K 支持文本、图像和仅图像的参考流程。视频输入请使用标准或专业。

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/kling-o3。