GLM 5.2 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

推理与编码模型，具有100万个令牌上下文，输出12.8K，推理努力可调，原生网页搜索和工具调用。

一眼看

场地	价值
型号ID	`glm-5-2`
车型发布日期	2026-06-16
输入模态	正文
输出模态	正文
上下文窗口	1M
重量精度	-
最大输出令牌	131,072
地区	新加坡
特色	推理、function_calling、structured_output、web_search
本土推断	不
新	是的
支持的端点	`/v1/chat/completions`，`/v1/responses`，`/v1/messages`

定价

冲锋	规格	速率
输入	每100万个提示词标记	$1.40
输出	每100万个生成代币	$4.40
网页搜索	按请求	$0.033

示例请求

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'

参数

参数	类型	必修	默认	描述
`max_tokens`	整数	不	`65536`	最大输出令牌数。·射程：1 – 131072
`temperature`	人数	不	`1`	控制随机性。较低的数值使响应更具确定性。·射程：0 – 1
`top_p`	人数	不	`0.95`	核采样截止。·范围：0.01 – 1
`reasoning_effort`	枚举	不	`"max"`	GLM-5.2 推理工作。没有人能阻止思考;最小到最大，先设定模型推理的力度再回答。Max推荐用于复杂编码。·允许：`none`、`minimal`、`low`、`medium`、`high`、`xhigh`、`max`
`enable_thinking`	布尔值	不	确实如此	让模型先思考再回答。关闭以获取最低延迟的回复或严格的结构化输出。
`do_sample`	布尔值	不	确实如此	启用采样。关闭用于贪婪确定性输出（忽略温度和 top_p）。
`tool_web_search`	布尔值	不	错误	启用内置的网页搜索功能。每次使用时会增加$0.033个请求。
`search_recency_filter`	枚举	不	`"noLimit"`	将搜索结果限制在最近的窗口内。·允许：`oneDay`、`oneWeek`、`oneMonth`、`oneYear`、`noLimit`
`count`	整数	不	`10`	启用网页搜索时可检索的网页搜索结果数量。·范围：1 – 50
`search_domain_filter`	弦	不	-	将网络搜索限制在特定领域。
`search_prompt`	弦	不	-	可选提示用于总结检索到的网页搜索结果。
`search_result`	布尔值	不	确实如此	当启用网页搜索时，在回复中返回网页搜索结果元数据。
`tool_stream`	布尔值	不	错误	流式流时，函数调用参数是逐步递增的。
`tools`	数组	不	`[]`	兼容 OpenAI 的函数调用工具定义。
`tool_choice`	对象	不	-	兼容OpenAI的工具选择控制。
`response_format`	对象	不	-	兼容OpenAI的JSON模式。使用思维禁用功能以获得严格的结构化输出。
`stop`	数组	不	-	可选的停车序列（最多4个）。

变体

`:variant1`

场地	价值
型号ID	`glm-5-2:variant1`
车型发布日期	2026-06-16
地区	德国
上下文窗口	1M
重量精度	-
最大输出令牌	131,072
特色	推理、function_calling、简structured_output、缓存
本土推断	不
支持的端点	`POST /v1/chat/completions`，`POST /v1/responses`，`POST /v1/messages`

价格

冲锋	规格	速率
输入	每100万个提示词标记	$1.10（曾经$1.40）
输出	每100万个生成代币	$3.851（曾经$4.40）
隐式缓存读取	每 1M 缓存输入标记	$0.275

参数

参数	类型	必修	默认	描述
`temperature`	人数	不	`0.7`	采样温度。0 = 确定性，2 = 最大随机性。·射程：0 – 2
`top_p`	人数	不	`0.9`	核抽样概率质量。低 = 更专注。·射程：0 – 1
`max_tokens`	人数	不	`4096`	最大输出令牌。·射程：1 – 131072
`stop`	弦	不	-	最多有4串字符串，模型会停止生成更多代币。
`enable_thinking`	布尔值	不	确实如此	在回答之前，先step-by-step理性思考。
`reasoning_effort`	枚举	不	`"medium"`	推理努力程度。没有人能让思考失效。低、中、高和最大设定了根据所选模型大小的有界思维预算。以类似OpenAI的 reasoning_effort 字段形式发送，转换为模型服务的enable_thinking和thinking_budget。·允许：`none`、`low`、`medium`、`high`、`max`
`thinking_budget`	人数	不	`32768`	为推理过程保留的最大令牌。直到131072。·射程：1 – 131072

Machine可读模式： GET https://api.empiriolabs.ai/v1/models/glm-5-2。