GLM 5.1

GLM 5.1
Z.ai · Text Generation
/v1/chat/completions

长上下文的智浦AI推理模型,具备202K上下文、128K输出、工具调用、结构化输出和缓存支持。

一眼看

场地价值
型号IDglm-5-1
车型发布日期2026-04-07
输入模态正文
输出模态正文
上下文窗口202K
重量精度-
地区中国
特色推理、function_calling、简structured_output、缓存
本土推断
是的
支持的端点/v1/chat/completions/v1/responses/v1/messages

定价

冲锋规格速率
输入每100万个提示词标记<=32K $0.825(曾为$1.40);32K-200K $1.10(曾是$1.40)
输出每100万个生成代币<=32K $3.301(曾为$4.40);32K-200K $3.851(曾是$4.40)
隐式缓存读取每 1M 缓存输入标记<=32K $0.165(曾为$0.26);32K-200K $0.22(曾是$0.26)
网页搜索(Linkup)每次调用时$0.013

示例请求

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

参数

参数类型必修默认描述
max_tokens整数4096最大输出令牌数。·范围:1 – 128000
temperature人数1控制随机性。较低的数值使响应更具确定性。·射程:0 – 2
top_p人数0.95核采样截止。·射程:0 – 1
top_k整数20限制抽样只能使用顶层的K代币。·范围:1 – 100
repetition_penalty人数1重复标记会被惩罚。·射程:0.1 – 2
reasoning_effort枚举"medium"推理努力程度。没有人能让思考失效。低、中、高和最大设定了根据所选模型大小的有界思维预算。以类似OpenAI的 reasoning_effort 字段形式发送,转换为模型服务的enable_thinking和thinking_budget。·允许:nonelowmediumhighmax
enable_thinking布尔值确实如此让模型先思考再回答。禁用它以获得严格结构化输出。
thinking_budget整数32768开启了思考时用于推理内容的最大代币。·距离:1 – 38912
tool_stream布尔值错误流式流时,函数调用参数是逐步递增的。
tools数组[]兼容 OpenAI 的函数调用工具定义。
tool_choice对象-兼容OpenAI的工具选择控制。
parallel_tool_calls布尔值确实如此支持时,允许在一个助手回合内调用多个工具。
response_format对象-兼容 OpenAI 的 JSON 模式或 JSON 模式响应格式。严格的图式则使用非思考模式。
stop数组-可选的停车序列。
web_search_linkup布尔值错误可选的网页搜索由Linkup提供。启用后,最近的网页源会通过最新的用户消息作为查询检索,并作为额外上下文提供给模型。在模型正常的代币成本基础上,每个请求都增加了固定$0.013。默认为禁用。
disable_formatting布尔值错误启用后,网关不会在使用Linkup网页搜索的助理响应中附加“来源”脚部。当模型输出被传输到另一个不需要装饰的系统时,这很有用。

Machine可读模式: GET https://api.empiriolabs.ai/v1/models/glm-5-1