GLM 5.2 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

1Mトークンコンテキスト、128Kの出力、調整可能な推論努力、ネイティブのウェブ検索、ツール呼び出しを備えた推論・コーディングモデル。

一目で

フィールド	価値
モデルID	`glm-5-2`
モデル発売日	2026-06-16
入力モダリティ	本文
出力モダリティ	本文
コンテキストウィンドウ	1M
重量精度	-
最大出力トークン	131,072
地域	シンガポール
特徴	理由、function_calling、structured_output、web_search
ネイティブ推論	いいえ
新作	はい
サポート端末	`/v1/chat/completions`、`/v1/responses`、`/v1/messages`

価格設定

チャージ	スペック	レート
入力	1Mプロンプトトークンあたり	$1.40
出力	生成された1Mトークンあたり	$4.40
ウェブ検索	リクエストごとに	$0.033

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`max_tokens`	整数	いいえ	`65536`	生成できる最大出力トークン数。·射程:1 – 131072
`temperature`	番号	いいえ	`1`	ランダム性を制御します。値が低いほど応答はより決定的になります。·射程:0 – 1
`top_p`	番号	いいえ	`0.95`	核サンプリングカットオフ。·範囲:0.01 – 1
`reasoning_effort`	エヌム	いいえ	`"max"`	GLM-5.2の推論努力。誰も思考を妨げるものではない。最小から最大まで、モデルがどれだけ推理をしているかを決めてから答えます。複雑なコーディングにはMaxが推奨されます。·許可:`none`、`minimal`、`low`、`medium`、`high`、`xhigh`、`max`
`enable_thinking`	ブール値	いいえ	確かに	答える前にモデルに理屈を持たせてください。最も遅延の少ない返信や厳格な構造化出力のために電源を切ってください。
`do_sample`	ブール値	いいえ	確かに	サンプリングを有効にしてください。貪欲な決定論的出力(温度とtop_pは無視)には電源を切ってください。
`tool_web_search`	ブール値	いいえ	偽り	組み込みのウェブ検索を有効にしてください。使用時にリクエストごとに$0.033個を追加します。
`search_recency_filter`	エヌム	いいえ	`"noLimit"`	ウェブ検索結果は最近のウィンドウに限定しましょう。·許可:`oneDay`、`oneWeek`、`oneMonth`、`oneYear`、`noLimit`
`count`	整数	いいえ	`10`	ウェブ検索が有効になっているときに取得できる検索結果の数。·範囲:1 – 50
`search_domain_filter`	ストリング	いいえ	-	ウェブ検索を特定のドメインに限定しましょう。
`search_prompt`	ストリング	いいえ	-	取得したウェブ検索結果を要約するためのオプションプロンプト。
`search_result`	ブール値	いいえ	確かに	ウェブ検索が有効になった場合、レスポンスでウェブ検索結果のメタデータを返してください。
`tool_stream`	ブール値	いいえ	偽り	ストリーム中に関数呼び出しの引数を段階的に行います。
`tools`	配列	いいえ	`[]`	OpenAI互換の関数呼び出しツール定義。
`tool_choice`	目的	いいえ	-	OpenAI互換のツール選択制御。
`response_format`	目的	いいえ	-	OpenAI互換JSONモード。厳格な構造化出力には思考障害を使いましょう。
`stop`	配列	いいえ	-	オプションで最大4回までのストップシーケンスがあります。

バリエーション

`:variant1`

フィールド	価値
モデルID	`glm-5-2:variant1`
モデル発売日	2026-06-16
地域	ドイツ
コンテキストウィンドウ	1M
重量精度	-
最大出力トークン	131,072
特徴	推論、function_calling、structured_output、キャッシュ
ネイティブ推論	いいえ
サポート端末	`POST /v1/chat/completions`、`POST /v1/responses`、`POST /v1/messages`

価格設定

チャージ	スペック	レート
入力	1Mプロンプトトークンあたり	$1.10(だった$1.40)
出力	生成された1Mトークンあたり	$3.851(だった$4.40)
暗黙のキャッシュ読み取り	1Mのキャッシュ入力トークンごとに	$0.275

パラメータ

パラメータ	種類	必須	デフォルト	概要
`temperature`	番号	いいえ	`0.7`	サンプリング温度。0 = 決定論的、2 = 最大ランダム性。·射程:0 – 2
`top_p`	番号	いいえ	`0.9`	原子核サンプリング確率質量。低い方が = より集中しています。·射程:0 – 1
`max_tokens`	番号	いいえ	`4096`	最大出力トークン。·射程:1 – 131072
`stop`	ストリング	いいえ	-	最大4つの文字列で、モデルはこれ以上のトークン生成を停止します。
`enable_thinking`	ブール値	いいえ	確かに	答える前に、step-by-step理由をつけておきましょう。
`reasoning_effort`	エヌム	いいえ	`"medium"`	推論の努力レベル。誰も思考を妨げるものではありません。低、中、高、最大は選択したモデルに合わせて限定された思考予算を設定します。OpenAIスタイルのreasoning_effortフィールドとして送られ、モデルサービス用にenable_thinkingとthinking_budgetに翻訳されました。·許可:`none`、`low`、`medium`、`high`、`max`
`thinking_budget`	番号	いいえ	`32768`	推論プロセスのために最大トークンが予約されています。131072まで。·射程:1 – 131072

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/glm-5-2。