Qwen3.5 4B

Qwen3.5 4B
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Qwen3.5 4B는 256K 맥락, 이미지 및 비디오 입력, 함수 도구, 구조화된 출력을 갖춘 저비용 다중 모달 추론 모델입니다.

한눈에

필드가치
모델 IDqwen3-5-4b
모델 출시일2026-03-02
입력 양상텍스트, 이미지, 비디오
출력 방식본문
컨텍스트 윈도우256K
무게 정밀도FP8 중량 + FP8 KV
최대 출력 토큰32,768
특징추론, 비전, 비디오, function_calling, structured_output, 캐시, 멀티모달, json_mode, 로그프로브스
원주민 추론
신규
지원되는 엔드포인트POST /v1/chat/completions, POST /v1/responses, POST /v1/messages, POST /v1/completions

가격

돌격사양요금
입력1M 프롬프트 토큰당$0.04
출력생성된 토큰 1M 단위$0.07
암묵적 캐시 읽기1M 캐시된 입력 토큰당$0.02
웹 검색 (Linkup)호출 시 통화당$0.013

예시 요청

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

매개변수

매개변수유형필수기본 설정설명
temperature번호아니0.7샘플링 온도. 0은 결정론적이고 2는 최대 무작위성입니다. · 사거리: 0 – 2
top_p번호아니0.95핵 샘플링 확률 질량. 값이 낮을수록 출력이 더 집중됩니다. · 사거리: 0 – 1
max_tokens정수아니4096최대 출력 토큰. · 거리: 1 – 32768
stop스트링아니-최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다.
reasoning_effort열거아니"medium"추론 노력. 아무도 생각을 막지 못한다; 낮음, 중간, 높음, 최대값은 제한된 사고 예산을 설정합니다. · 허용: none, low, medium, high, max
enable_thinking불리언아니맞아요최종 출력 전에 모델 추론 채널을 활성화하세요.
thinking_budget정수아니4096최종 답변 전에 최대 사고 토큰을 사용하세요. max_tokens가 더 낮으면 서비스는 답변을 위한 공간을 예약합니다. · 거리: 1024 – 32768
top_k정수아니20지원되는 경우 상위 K 후보 토큰으로 샘플링을 제한하세요. · 사거리: 1 – 200
min_p번호아니0토큰 샘플링의 최소 확률 임계값. · 사거리: 0 – 1
presence_penalty번호아니0생성된 텍스트에 이미 나타난 토큰에 대한 페널티가 있습니다. · 사거리: -2 – 2
frequency_penalty번호아니0토큰이 이미 등장한 빈도에 따라 벌칙이 적용됩니다. · 사거리: -2 – 2
repetition_penalty번호아니1SGLang이 반복 텍스트를 줄이기 위해 사용한 벌칙. · 사거리: 0.1 – 2
seed정수아니-재현 가능한 샘플링을 위한 선택적 무작위 시드. · 사거리: 0 – 2147483647
logprobs불리언아니거짓지원되는 경우 토큰 로그 확률을 반환합니다.
top_logprobs정수아니-최대 이 정도 최고 토큰 로그 확률을 반환합니다. · 범위: 0 – 20
logit_bias목적아니-샘플링 전에 양수 또는 음수 값을 추가하여 토큰 ID에 편향을 적용합니다.
tools배열아니-OpenAI 호환 기능 도구 정의.
tool_choice목적아니-OpenAI 호환 기능 도구 선택.
response_format목적아니-구조화된 JSON 출력 명령어.
stream불리언아니거짓서버에서 전송된 이벤트를 이용해 응답 델타를 스트리밍하세요.
web_search_linkup불리언아니거짓Linkup이 제공하는 선택적 웹 검색. 활성화되면 최신 웹 소스를 쿼리로 최신 사용자 메시지를 검색하여 모델에 추가 맥락으로 제공합니다. 모델의 일반 토큰 비용 외에 요청당 고정 $0.013을 추가합니다. 기본적으로 비활성화되어 있습니다.
disable_formatting불리언아니거짓활성화되면 게이트웨이는 Linkup 웹 검색을 사용한 어시스턴트 응답에 “Sources” 풋을 추가하지 않습니다. 모델 출력이 장식이 전혀 예상되지 않는 다른 시스템으로 전송될 때 유용합니다.

주석

텍스트, 이미지, 비디오 입력, 스트리밍, 함수 도구, 구조화된 JSON 출력, 시드 제어, 그리고 기본적으로 실행 중인 사고 모드를 지원합니다. 유한한 사고에는 reasoning_effort 또는 thinking_budget을, 직접적인 답변에는 enable_thinking=false를 사용하세요. 자동 캐시 읽기는 모델 서비스가 보고할 때 캐시된 입력 속도로 청구됩니다. 명시적인 캐시 제어는 지원되지 않습니다.


Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.