Qwen3.5 Flash | EmpirioLabs AI Docs

POST /v1/chat/completions

하이브리드 선형 주의와 희소 MoE, 1M 맥락, 빠른 다중 모달 text/image/비디오 추론을 갖춘 시각 언어 모델입니다.

한눈에

필드	가치
모델 ID	`qwen3-5-flash`
모델 출시일	2026-02-24
입력 양상	텍스트, 이미지, 비디오
출력 방식	본문
컨텍스트 윈도우	1M
무게 정밀도	-
최대 출력 토큰	32,768
지역	싱가포르
특징	비전, web_search, code_interpreter, function_calling
원주민 추론	아니
신규	아니
지원되는 엔드포인트	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

가격

돌격	사양	요금
입력	1M 프롬프트 토큰당	$0.090 ($0.10였다)
출력	생성된 토큰 1M 단위	$0.368 ($0.40였다)
웹 검색	통화당	$0.015
이미지 검색	통화당	$0.012

예시 요청

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-flash", "messages": [{"role":"user","content":"Hello"}]}'

매개변수

매개변수	유형	필수	기본 설정	설명
`temperature`	번호	아니	`0.7`	샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2
`top_p`	번호	아니	`0.9`	핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1
`max_tokens`	번호	아니	`4096`	응답에 최대 토큰을 사용하세요. · 거리: 1 – 32768
`enable_thinking`	불리언	아니	맞아요	확장 사고 모드를 활성화하세요. 느리긴 하지만 추론이 많은 과제를 개선합니다.
`vl_high_resolution_images`	불리언	아니	맞아요	입력 이미지에는 더 높은 해상도를 사용하세요. 더 높은 비용에 더 나은 디테일.
`max_pixels`	번호	아니	`2621440`	입력 이미지당 최대 픽셀 수. 더 크면 = 더 세밀하지만 느리거나 토큰이 더 많아요. · 사거리: 1 – 99999999
`tool_web_search`	불리언	아니	거짓	실시간 정보를 웹에서 검색하세요.
`tool_web_extractor`	불리언	아니	맞아요	URL에서 콘텐츠를 추출하고 읽으세요. 웹 검색과 사고가 필요합니다.
`tool_code_interpreter`	불리언	아니	맞아요	샌드박스에서 파이썬 코드를 실행하세요. 생각이 필요해.
`tool_web_search_image`	불리언	아니	맞아요	텍스트 설명에서 이미지를 웹에서 검색하세요.
`tool_image_search`	불리언	아니	맞아요	업로드된 이미지에서 비슷한 이미지를 찾아보세요.
`video_fps`	번호	아니	`2`	입력 비디오에서 초당 프레임 단위로 샘플링하여 분석합니다. · 범위: 0.1 – 10
`treat_images_as_video`	불리언	아니	거짓	입력된 이미지의 시퀀스를 시간적 추론을 위한 비디오로 취급하세요.
`disable_formatting`	불리언	아니	거짓	EmpirioLabs 마크다운 형식(인용 [N] 재작성 + 웹 검색 및 도구 사용 시 참조 차단)은 건너뛰세요. 평범한 [N] 인용이 포함된 원시 상류 답변이 반환됩니다.

주석

내장 도구 (호출 시에만 청구됨)

웹 검색: $0.015/call
웹 추출기: 무료
코드 인터프리터: 무료
텍스트-이미지 검색: $0.012/call
이미지 간 검색: $0.012/call

기타

사고 토큰은 출력 토큰으로 청구됩니다

텍스트-이미지 검색과 이미지 간 검색은 이미지 검색 가격 행을 사용합니다. 각 호출된 이미지 검색은 해당 통화당 요금으로 청구됩니다.

도구별 청구 (usage.tool_usage)

이 모델이 단일 요청 내에서 웹 검색, 코드 인터프리터 등 도구를 호출할 때, 응답은 토큰 수와 함께 정규화된 usage.tool_usage 맵을 포함합니다. 아래 예시는 그 형태를 보여줍니다 - 정확한 필드명, 단위, 그리고 나타나는 도구는 제공자마다 약간 다를 수 있습니다:

1 "usage": {
2   "prompt_tokens": 123,
3   "completion_tokens": 456,
4   "cost_usd": 0.0042,
5   "tool_usage": {"web_search": 3, "code_interpreter": 1}
6 }

도구 수는 이미 cost_usd에 반영되어 있어 투명성을 위해 표면화되어 있어 도구별 청구를 감사할 수 있습니다. 도구가 호출되지 않았을 때는 필드가 생략됩니다.

변형 모델

`:variant1`

필드	가치
모델 ID	`qwen3-5-flash:variant1`
모델 출시일	2026-02-24
지역	중국
컨텍스트 윈도우	1M
무게 정밀도	-
최대 출력 토큰	65,536
특징	추론, 비전, 영상, web_search, function_calling, structured_output, agentic_coding
원주민 추론	아니
지원되는 엔드포인트	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

가격 책정

돌격	사양	요금
입력	1M 프롬프트 토큰당	<=128K $0.029 ($0.090였다); 128K-256K $0.115; 256K-1M \$ 0.172
출력	생성된 토큰 1M 단위	<=128K $0.287 ($0.368였다); 128K-256K $1.147; 256K-1M \$ 1.72
웹 검색	활성화된 쿼리당	$0.01

매개변수

매개변수	유형	필수	기본 설정	설명
`temperature`	번호	아니	`0.7`	샘플링 온도. 0은 결정론적이고 2는 최대 무작위성입니다. · 사거리: 0 – 2
`top_p`	번호	아니	`0.9`	핵 샘플링 확률 질량. 값이 낮을수록 출력이 더 집중됩니다. · 사거리: 0 – 1
`max_tokens`	번호	아니	`4096`	최대 출력 토큰. · 거리: 1 – 65536
`stop`	스트링	아니	-	최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다.
`enable_thinking`	불리언	아니	맞아요	답변하기 전에 추론을 가능하게 하세요.
`reasoning_effort`	열거	아니	`"medium"`	추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: `none`, `low`, `medium`, `high`, `max`
`thinking_budget`	번호	아니	`32768`	사고할 때 추론용으로 예약된 최대 토큰이 활성화되어 있습니다. · 범위: 1 – 80000
`response_format`	목적	아니	-	OpenAI 호환 JSON 모드 또는 JSON 스키마 응답 형식. 엄격한 스키마에는 비사고 모드를 사용하세요.
`vl_high_resolution_images`	불리언	아니	맞아요	이미지 입력에는 고해상도 처리를 사용하세요.
`max_pixels`	번호	아니	`2621440`	고해상도 처리가 비활성화되었을 때 이미지당 최대 픽셀 수. · 거리: 4096 – 16777216
`video_fps`	번호	아니	`2`	초당 프레임으로 비디오 입력을 샘플링하는 것. · 범위: 0.1 – 10
`tool_web_search`	불리언	아니	거짓	실시간 정보를 웹에서 검색하세요. 활성화 시 요청 비용이 $0.01 증가합니다.

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/qwen3-5-flash.