GLM 5.2

Z.ai · Text Generation
/v1/chat/completions推理与编码模型,具有100万个令牌上下文,输出12.8K,推理努力可调,原生网页搜索和工具调用。
一眼看
| 场地 | 价值 |
|---|---|
| 型号ID | glm-5-2 |
| 车型发布日期 | 2026-06-16 |
| 输入模态 | 正文 |
| 输出模态 | 正文 |
| 上下文窗口 | 1M |
| 重量精度 | - |
| 最大输出令牌 | 131,072 |
| 地区 | 新加坡 |
| 特色 | 推理、function_calling、structured_output、web_search |
| 本土推断 | 不 |
| 新 | 是的 |
| 支持的端点 | /v1/chat/completions,/v1/responses,/v1/messages |
定价
| 冲锋 | 规格 | 速率 |
|---|---|---|
| 输入 | 每100万个提示词标记 | $1.40 |
| 输出 | 每100万个生成代币 | $4.40 |
| 网页搜索 | 按请求 | $0.033 |
示例请求
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'
参数
| 参数 | 类型 | 必修 | 默认 | 描述 |
|---|---|---|---|---|
max_tokens | 整数 | 不 | 65536 | 最大输出令牌数。·射程:1 – 131072 |
temperature | 人数 | 不 | 1 | 控制随机性。较低的数值使响应更具确定性。·射程:0 – 1 |
top_p | 人数 | 不 | 0.95 | 核采样截止。·范围:0.01 – 1 |
reasoning_effort | 枚举 | 不 | "max" | GLM-5.2 推理工作。没有人能阻止思考;最小到最大,先设定模型推理的力度再回答。Max推荐用于复杂编码。·允许:none、minimal、low、medium、high、xhigh、max |
enable_thinking | 布尔值 | 不 | 确实如此 | 让模型先思考再回答。关闭以获取最低延迟的回复或严格的结构化输出。 |
do_sample | 布尔值 | 不 | 确实如此 | 启用采样。关闭用于贪婪确定性输出(忽略温度和 top_p)。 |
tool_web_search | 布尔值 | 不 | 错误 | 启用内置的网页搜索功能。每次使用时会增加$0.033个请求。 |
search_recency_filter | 枚举 | 不 | "noLimit" | 将搜索结果限制在最近的窗口内。·允许:oneDay、oneWeek、oneMonth、oneYear、noLimit |
count | 整数 | 不 | 10 | 启用网页搜索时可检索的网页搜索结果数量。·范围:1 – 50 |
search_domain_filter | 弦 | 不 | - | 将网络搜索限制在特定领域。 |
search_prompt | 弦 | 不 | - | 可选提示用于总结检索到的网页搜索结果。 |
search_result | 布尔值 | 不 | 确实如此 | 当启用网页搜索时,在回复中返回网页搜索结果元数据。 |
tool_stream | 布尔值 | 不 | 错误 | 流式流时,函数调用参数是逐步递增的。 |
tools | 数组 | 不 | [] | 兼容 OpenAI 的函数调用工具定义。 |
tool_choice | 对象 | 不 | - | 兼容OpenAI的工具选择控制。 |
response_format | 对象 | 不 | - | 兼容OpenAI的JSON模式。使用思维禁用功能以获得严格的结构化输出。 |
stop | 数组 | 不 | - | 可选的停车序列(最多4个)。 |
变体
:variant1
| 场地 | 价值 |
|---|---|
| 型号ID | glm-5-2:variant1 |
| 车型发布日期 | 2026-06-16 |
| 地区 | 德国 |
| 上下文窗口 | 1M |
| 重量精度 | - |
| 最大输出令牌 | 131,072 |
| 特色 | 推理、function_calling、简structured_output、缓存 |
| 本土推断 | 不 |
| 支持的端点 | POST /v1/chat/completions,POST /v1/responses,POST /v1/messages |
价格
| 冲锋 | 规格 | 速率 |
|---|---|---|
| 输入 | 每100万个提示词标记 | $1.10(曾经$1.40) |
| 输出 | 每100万个生成代币 | $3.851(曾经$4.40) |
| 隐式缓存读取 | 每 1M 缓存输入标记 | $0.275 |
参数
| 参数 | 类型 | 必修 | 默认 | 描述 |
|---|---|---|---|---|
temperature | 人数 | 不 | 0.7 | 采样温度。0 = 确定性,2 = 最大随机性。·射程:0 – 2 |
top_p | 人数 | 不 | 0.9 | 核抽样概率质量。低 = 更专注。·射程:0 – 1 |
max_tokens | 人数 | 不 | 4096 | 最大输出令牌。·射程:1 – 131072 |
stop | 弦 | 不 | - | 最多有4串字符串,模型会停止生成更多代币。 |
enable_thinking | 布尔值 | 不 | 确实如此 | 在回答之前,先step-by-step理性思考。 |
reasoning_effort | 枚举 | 不 | "medium" | 推理努力程度。没有人能让思考失效。低、中、高和最大设定了根据所选模型大小的有界思维预算。以类似OpenAI的 reasoning_effort 字段形式发送,转换为模型服务的enable_thinking和thinking_budget。·允许:none、low、medium、high、max |
thinking_budget | 人数 | 不 | 32768 | 为推理过程保留的最大令牌。直到131072。·射程:1 – 131072 |
Machine可读模式: GET https://api.empiriolabs.ai/v1/models/glm-5-2。
