GLM 5.2

Z.ai · Text Generation
/v1/chat/completions100만 토큰 컨텍스트, 128K 출력, 조정 가능한 추론 노력, 네이티브 웹 검색, 툴 호출 기능을 갖춘 추론 및 코딩 모델.
한눈에
| 필드 | 가치 |
|---|---|
| 모델 ID | glm-5-2 |
| 모델 출시일 | 2026-06-16 |
| 입력 양상 | 본문 |
| 출력 방식 | 본문 |
| 컨텍스트 윈도우 | 1M |
| 무게 정밀도 | - |
| 최대 출력 토큰 | 131,072 |
| 지역 | 싱가포르 |
| 특징 | 이성, function_calling, structured_output, web_search |
| 원주민 추론 | 아니 |
| 신규 | 네 |
| 지원되는 엔드포인트 | /v1/chat/completions, /v1/responses, /v1/messages |
가격
| 돌격 | 사양 | 요금 |
|---|---|---|
| 입력 | 1M 프롬프트 토큰당 | $1.40 |
| 출력 | 생성된 토큰 1M 단위 | $4.40 |
| 웹 검색 | 요청에 따라 | $0.033 |
예시 요청
$ curl https://api.empiriolabs.ai/v1/chat/completions \ > -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \ > -H 'Content-Type: application/json' \ > -d '{"model": "glm-5-2", "messages": [{"role":"user","content":"Hello"}]}'
매개변수
| 매개변수 | 유형 | 필수 | 기본 설정 | 설명 |
|---|---|---|---|---|
max_tokens | 정수 | 아니 | 65536 | 생성할 수 있는 최대 출력 토큰 수. · 사거리: 1 – 131072 |
temperature | 번호 | 아니 | 1 | 무작위성을 제어합니다. 값이 낮을수록 응답이 더 결정론적이어집니다. · 사거리: 0 – 1 |
top_p | 번호 | 아니 | 0.95 | 핵 샘플링 컷오프. · 범위: 0.01 – 1 |
reasoning_effort | 열거 | 아니 | "max" | GLM-5.2 추론 노력. 아무도 생각을 막지 못한다; 최소에서 최대까지 모델이 얼마나 강하게 추론하는지 설정한 후 답변하세요. 복잡한 코딩에는 Max가 추천됩니다. · 허용: none, minimal, low, medium, high, xhigh, max |
enable_thinking | 불리언 | 아니 | 맞아요 | 모델이 답변하기 전에 논리적으로 생각할 시간을 주세요. 가장 낮은 지연 시간의 답장이나 엄격한 구조화된 출력을 위해 끄세요. |
do_sample | 불리언 | 아니 | 맞아요 | 샘플링을 활성화하세요. 탐욕적이고 결정론적인 출력(온도와 top_p은 무시)을 위해 끄세요. |
tool_web_search | 불리언 | 아니 | 거짓 | 내장 웹 검색 기능을 활성화하세요. 사용 시 요청당 $0.033 추가 정보가 발생합니다. |
search_recency_filter | 열거 | 아니 | "noLimit" | 웹 검색 결과를 최신 시간 창으로 제한하세요. · 허용: oneDay, oneWeek, oneMonth, oneYear, noLimit |
count | 정수 | 아니 | 10 | 웹 검색이 활성화되었을 때 검색할 수 있는 웹 검색 결과 수. · 범위: 1 – 50 |
search_domain_filter | 스트링 | 아니 | - | 웹 검색을 특정 도메인으로 제한하세요. |
search_prompt | 스트링 | 아니 | - | 검색 결과를 요약하는 데 사용되는 선택적 프롬프트. |
search_result | 불리언 | 아니 | 맞아요 | 웹 검색이 활성화되면 응답에서 웹 검색 결과 메타데이터를 반환하세요. |
tool_stream | 불리언 | 아니 | 거짓 | 스트리밍할 때 함수-호출 인자를 점진적으로 스트리밍하세요. |
tools | 배열 | 아니 | [] | OpenAI 호환 함수 호출 도구 정의. |
tool_choice | 목적 | 아니 | - | OpenAI 호환 도구 선택 제어. |
response_format | 목적 | 아니 | - | OpenAI 호환 JSON 모드입니다. 엄격한 구조화된 출력을 위해서는 사고 비활성화(thinking disabled)를 사용하세요. |
stop | 배열 | 아니 | - | 선택적으로 최대 4개의 정지 시퀀스가 있습니다. |
변형 모델
:variant1
| 필드 | 가치 |
|---|---|
| 모델 ID | glm-5-2:variant1 |
| 모델 출시일 | 2026-06-16 |
| 지역 | 독일 |
| 컨텍스트 윈도우 | 1M |
| 무게 정밀도 | - |
| 최대 출력 토큰 | 131,072 |
| 특징 | 추론, function_calling, structured_output, 캐시 |
| 원주민 추론 | 아니 |
| 지원되는 엔드포인트 | POST /v1/chat/completions, POST /v1/responses, POST /v1/messages |
가격 책정
| 돌격 | 사양 | 요금 |
|---|---|---|
| 입력 | 1M 프롬프트 토큰당 | $1.10 ($1.40였다) |
| 출력 | 생성된 토큰 1M 단위 | $3.851 ($4.40였다) |
| 암묵적 캐시 읽기 | 1M 캐시된 입력 토큰당 | $0.275 |
매개변수
| 매개변수 | 유형 | 필수 | 기본 설정 | 설명 |
|---|---|---|---|---|
temperature | 번호 | 아니 | 0.7 | 샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2 |
top_p | 번호 | 아니 | 0.9 | 핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1 |
max_tokens | 번호 | 아니 | 4096 | 최대 출력 토큰. · 사거리: 1 – 131072 |
stop | 스트링 | 아니 | - | 최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다. |
enable_thinking | 불리언 | 아니 | 맞아요 | 답변하기 전에 step-by-step 추론을 가능하게 하세요. |
reasoning_effort | 열거 | 아니 | "medium" | 추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: none, low, medium, high, max |
thinking_budget | 번호 | 아니 | 32768 | 추론 과정을 위해 최대 토큰을 예약했습니다. 131072까지. · 사거리: 1 – 131072 |
Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/glm-5-2.
