Qwen3.5 4B | EmpirioLabs AI Docs

POST /v1/chat/completions

Qwen3.5 4B는 256K 맥락, 이미지 및 비디오 입력, 함수 도구, 구조화된 출력을 갖춘 저비용 다중 모달 추론 모델입니다.

한눈에

필드	가치
모델 ID	`qwen3-5-4b`
모델 출시일	2026-03-02
입력 양상	텍스트, 이미지, 비디오
출력 방식	본문
컨텍스트 윈도우	256K
무게 정밀도	FP8 중량 + FP8 KV
최대 출력 토큰	32,768
특징	추론, 비전, 비디오, function_calling, structured_output, 캐시, 멀티모달, json_mode, 로그프로브스
원주민 추론	네
신규	네
지원되는 엔드포인트	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/completions`

가격

돌격	사양	요금
입력	1M 프롬프트 토큰당	$0.04
출력	생성된 토큰 1M 단위	$0.07
암묵적 캐시 읽기	1M 캐시된 입력 토큰당	$0.02
웹 검색 (Linkup)	호출 시 통화당	$0.013

예시 요청

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

매개변수

매개변수	유형	필수	기본 설정	설명
`temperature`	번호	아니	`0.7`	샘플링 온도. 0은 결정론적이고 2는 최대 무작위성입니다. · 사거리: 0 – 2
`top_p`	번호	아니	`0.95`	핵 샘플링 확률 질량. 값이 낮을수록 출력이 더 집중됩니다. · 사거리: 0 – 1
`max_tokens`	정수	아니	`4096`	최대 출력 토큰. · 거리: 1 – 32768
`stop`	스트링	아니	-	최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다.
`reasoning_effort`	열거	아니	`"medium"`	추론 노력. 아무도 생각을 막지 못한다; 낮음, 중간, 높음, 최대값은 제한된 사고 예산을 설정합니다. · 허용: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	불리언	아니	맞아요	최종 출력 전에 모델 추론 채널을 활성화하세요.
`thinking_budget`	정수	아니	`4096`	최종 답변 전에 최대 사고 토큰을 사용하세요. max_tokens가 더 낮으면 서비스는 답변을 위한 공간을 예약합니다. · 거리: 1024 – 32768
`top_k`	정수	아니	`20`	지원되는 경우 상위 K 후보 토큰으로 샘플링을 제한하세요. · 사거리: 1 – 200
`min_p`	번호	아니	`0`	토큰 샘플링의 최소 확률 임계값. · 사거리: 0 – 1
`presence_penalty`	번호	아니	`0`	생성된 텍스트에 이미 나타난 토큰에 대한 페널티가 있습니다. · 사거리: -2 – 2
`frequency_penalty`	번호	아니	`0`	토큰이 이미 등장한 빈도에 따라 벌칙이 적용됩니다. · 사거리: -2 – 2
`repetition_penalty`	번호	아니	`1`	SGLang이 반복 텍스트를 줄이기 위해 사용한 벌칙. · 사거리: 0.1 – 2
`seed`	정수	아니	-	재현 가능한 샘플링을 위한 선택적 무작위 시드. · 사거리: 0 – 2147483647
`logprobs`	불리언	아니	거짓	지원되는 경우 토큰 로그 확률을 반환합니다.
`top_logprobs`	정수	아니	-	최대 이 정도 최고 토큰 로그 확률을 반환합니다. · 범위: 0 – 20
`logit_bias`	목적	아니	-	샘플링 전에 양수 또는 음수 값을 추가하여 토큰 ID에 편향을 적용합니다.
`tools`	배열	아니	-	OpenAI 호환 기능 도구 정의.
`tool_choice`	목적	아니	-	OpenAI 호환 기능 도구 선택.
`response_format`	목적	아니	-	구조화된 JSON 출력 명령어.
`stream`	불리언	아니	거짓	서버에서 전송된 이벤트를 이용해 응답 델타를 스트리밍하세요.
`web_search_linkup`	불리언	아니	거짓	Linkup이 제공하는 선택적 웹 검색. 활성화되면 최신 웹 소스를 쿼리로 최신 사용자 메시지를 검색하여 모델에 추가 맥락으로 제공합니다. 모델의 일반 토큰 비용 외에 요청당 고정 $0.013을 추가합니다. 기본적으로 비활성화되어 있습니다.
`disable_formatting`	불리언	아니	거짓	활성화되면 게이트웨이는 Linkup 웹 검색을 사용한 어시스턴트 응답에 “Sources” 풋을 추가하지 않습니다. 모델 출력이 장식이 전혀 예상되지 않는 다른 시스템으로 전송될 때 유용합니다.

주석

텍스트, 이미지, 비디오 입력, 스트리밍, 함수 도구, 구조화된 JSON 출력, 시드 제어, 그리고 기본적으로 실행 중인 사고 모드를 지원합니다. 유한한 사고에는 reasoning_effort 또는 thinking_budget을, 직접적인 답변에는 enable_thinking=false를 사용하세요. 자동 캐시 읽기는 모델 서비스가 보고할 때 캐시된 입력 속도로 청구됩니다. 명시적인 캐시 제어는 지원되지 않습니다.

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.