GLM 5.1 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

长上下文的智浦AI推理模型，具备202K上下文、128K输出、工具调用、结构化输出和缓存支持。

一眼看

场地	价值
型号ID	`glm-5-1`
车型发布日期	2026-04-07
输入模态	正文
输出模态	正文
上下文窗口	202K
重量精度	-
地区	中国
特色	推理、function_calling、简structured_output、缓存
本土推断	不
新	是的
支持的端点	`/v1/chat/completions`，`/v1/responses`，`/v1/messages`

定价

冲锋	规格	速率
输入	每100万个提示词标记	<=32K $0.825（曾为$1.40）;32K-200K $1.10（曾是$1.40）
输出	每100万个生成代币	<=32K $3.301（曾为$4.40）;32K-200K $3.851（曾是$4.40）
隐式缓存读取	每 1M 缓存输入标记	<=32K $0.165（曾为$0.26）;32K-200K $0.22（曾是$0.26）
网页搜索（Linkup）	每次调用时	$0.013

示例请求

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

参数

参数	类型	必修	默认	描述
`max_tokens`	整数	不	`4096`	最大输出令牌数。·范围：1 – 128000
`temperature`	人数	不	`1`	控制随机性。较低的数值使响应更具确定性。·射程：0 – 2
`top_p`	人数	不	`0.95`	核采样截止。·射程：0 – 1
`top_k`	整数	不	`20`	限制抽样只能使用顶层的K代币。·范围：1 – 100
`repetition_penalty`	人数	不	`1`	重复标记会被惩罚。·射程：0.1 – 2
`reasoning_effort`	枚举	不	`"medium"`	推理努力程度。没有人能让思考失效。低、中、高和最大设定了根据所选模型大小的有界思维预算。以类似OpenAI的 reasoning_effort 字段形式发送，转换为模型服务的enable_thinking和thinking_budget。·允许：`none`、`low`、`medium`、`high`、`max`
`enable_thinking`	布尔值	不	确实如此	让模型先思考再回答。禁用它以获得严格结构化输出。
`thinking_budget`	整数	不	`32768`	开启了思考时用于推理内容的最大代币。·距离：1 – 38912
`tool_stream`	布尔值	不	错误	流式流时，函数调用参数是逐步递增的。
`tools`	数组	不	`[]`	兼容 OpenAI 的函数调用工具定义。
`tool_choice`	对象	不	-	兼容OpenAI的工具选择控制。
`parallel_tool_calls`	布尔值	不	确实如此	支持时，允许在一个助手回合内调用多个工具。
`response_format`	对象	不	-	兼容 OpenAI 的 JSON 模式或 JSON 模式响应格式。严格的图式则使用非思考模式。
`stop`	数组	不	-	可选的停车序列。
`web_search_linkup`	布尔值	不	错误	可选的网页搜索由Linkup提供。启用后，最近的网页源会通过最新的用户消息作为查询检索，并作为额外上下文提供给模型。在模型正常的代币成本基础上，每个请求都增加了固定$0.013。默认为禁用。
`disable_formatting`	布尔值	不	错误	启用后，网关不会在使用Linkup网页搜索的助理响应中附加“来源”脚部。当模型输出被传输到另一个不需要装饰的系统时，这很有用。

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/glm-5-1。