GLM 5.1 | EmpirioLabs AI Docs

Z.ai · Text Generation

/v1/chat/completions

202K 컨텍스트, 128K 출력, 툴 호출, 구조화된 출력, 캐시 지원을 갖춘 롱 컨텍스트 Zhipu AI 추론 모델입니다.

한눈에

필드	가치
모델 ID	`glm-5-1`
모델 출시일	2026-04-07
입력 양상	본문
출력 방식	본문
컨텍스트 윈도우	202K
무게 정밀도	-
지역	중국
특징	추론, function_calling, structured_output, 캐시
원주민 추론	아니
신규	네
지원되는 엔드포인트	`/v1/chat/completions`, `/v1/responses`, `/v1/messages`

가격

돌격	사양	요금
입력	1M 프롬프트 토큰당	<=32K $0.825 ($1.40였다); 32K-200K $1.10 ($1.40 있었음)
출력	생성된 토큰 1M 단위	<=32K $3.301 ($4.40였다); 32K-200K $3.851 ($4.40 있었음)
암묵적 캐시 읽기	1M 캐시된 입력 토큰당	<=32K $0.165 ($0.26였다); 32K-200K $0.22 ($0.26 있었음)
웹 검색 (Linkup)	호출 시 통화당	$0.013

예시 요청

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "glm-5-1", "messages": [{"role":"user","content":"Hello"}]}'

매개변수

매개변수	유형	필수	기본 설정	설명
`max_tokens`	정수	아니	`4096`	생성할 수 있는 최대 출력 토큰 수. · 범위: 1 – 128000
`temperature`	번호	아니	`1`	무작위성을 제어합니다. 값이 낮을수록 응답이 더 결정론적이어집니다. · 사거리: 0 – 2
`top_p`	번호	아니	`0.95`	핵 샘플링 컷오프. · 사거리: 0 – 1
`top_k`	정수	아니	`20`	샘플링은 상위 K 토큰으로 제한합니다. · 범위: 1 – 100
`repetition_penalty`	번호	아니	`1`	반복 토큰을 불이익으로 처리합니다. · 사거리: 0.1 – 2
`reasoning_effort`	열거	아니	`"medium"`	추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	불리언	아니	맞아요	모델이 답변하기 전에 논리적으로 생각할 시간을 주세요. 엄격한 구조화된 출력을 위해 이 기능을 비활성화하세요.
`thinking_budget`	정수	아니	`32768`	생각할 때 내용을 추론할 수 있는 최대 토큰이 활성화되어 있습니다. · 거리: 1 – 38912
`tool_stream`	불리언	아니	거짓	스트리밍할 때 함수-호출 인자를 점진적으로 스트리밍하세요.
`tools`	배열	아니	`[]`	OpenAI 호환 함수 호출 도구 정의.
`tool_choice`	목적	아니	-	OpenAI 호환 도구 선택 제어.
`parallel_tool_calls`	불리언	아니	맞아요	지원될 경우 한 턴에 여러 도구 호출을 허용하세요.
`response_format`	목적	아니	-	OpenAI 호환 JSON 모드 또는 JSON 스키마 응답 형식. 엄격한 스키마에는 비사고 모드를 사용하세요.
`stop`	배열	아니	-	선택적으로 정지 시퀀스가 있습니다.
`web_search_linkup`	불리언	아니	거짓	Linkup이 제공하는 선택적 웹 검색. 활성화되면 최신 웹 소스를 쿼리로 최신 사용자 메시지를 검색하여 모델에 추가 맥락으로 제공합니다. 모델의 일반 토큰 비용 외에 요청당 고정 $0.013을 추가합니다. 기본적으로 비활성화되어 있습니다.
`disable_formatting`	불리언	아니	거짓	활성화되면 게이트웨이는 Linkup 웹 검색을 사용한 어시스턴트 응답에 “Sources” 풋을 추가하지 않습니다. 모델 출력이 장식이 전혀 예상되지 않는 다른 시스템으로 전송될 때 유용합니다.

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/glm-5-1.