Qwen3.5 Flash

Qwen3.5 Flash
Alibaba Cloud · Text Generation
POST /v1/chat/completions

하이브리드 선형 주의와 희소 MoE, 1M 맥락, 빠른 다중 모달 text/image/비디오 추론을 갖춘 시각 언어 모델입니다.

한눈에

필드가치
모델 IDqwen3-5-flash
모델 출시일2026-02-24
입력 양상텍스트, 이미지, 비디오
출력 방식본문
컨텍스트 윈도우1M
무게 정밀도-
최대 출력 토큰32,768
지역싱가포르
특징비전, web_search, code_interpreter, function_calling
원주민 추론아니
신규아니
지원되는 엔드포인트POST /v1/chat/completions, POST /v1/responses, POST /v1/messages

가격

돌격사양요금
입력1M 프롬프트 토큰당$0.090 ($0.10였다)
출력생성된 토큰 1M 단위$0.368 ($0.40였다)
웹 검색통화당$0.015
이미지 검색통화당$0.012

예시 요청

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-5-flash", "messages": [{"role":"user","content":"Hello"}]}'

매개변수

매개변수유형필수기본 설정설명
temperature번호아니0.7샘플링 온도. 0 = 결정론적, 2 = 최대 무작위성. · 사거리: 0 – 2
top_p번호아니0.9핵 샘플링 확률 질량. 더 낮은 = 더 집중된 상태입니다. · 사거리: 0 – 1
max_tokens번호아니4096응답에 최대 토큰을 사용하세요. · 거리: 1 – 32768
enable_thinking불리언아니맞아요확장 사고 모드를 활성화하세요. 느리긴 하지만 추론이 많은 과제를 개선합니다.
vl_high_resolution_images불리언아니맞아요입력 이미지에는 더 높은 해상도를 사용하세요. 더 높은 비용에 더 나은 디테일.
max_pixels번호아니2621440입력 이미지당 최대 픽셀 수. 더 크면 = 더 세밀하지만 느리거나 토큰이 더 많아요. · 사거리: 1 – 99999999
tool_web_search불리언아니거짓실시간 정보를 웹에서 검색하세요.
tool_web_extractor불리언아니맞아요URL에서 콘텐츠를 추출하고 읽으세요. 웹 검색과 사고가 필요합니다.
tool_code_interpreter불리언아니맞아요샌드박스에서 파이썬 코드를 실행하세요. 생각이 필요해.
tool_web_search_image불리언아니맞아요텍스트 설명에서 이미지를 웹에서 검색하세요.
tool_image_search불리언아니맞아요업로드된 이미지에서 비슷한 이미지를 찾아보세요.
video_fps번호아니2입력 비디오에서 초당 프레임 단위로 샘플링하여 분석합니다. · 범위: 0.1 – 10
treat_images_as_video불리언아니거짓입력된 이미지의 시퀀스를 시간적 추론을 위한 비디오로 취급하세요.
disable_formatting불리언아니거짓EmpirioLabs 마크다운 형식(인용 [N] 재작성 + 웹 검색 및 도구 사용 시 참조 차단)은 건너뛰세요. 평범한 [N] 인용이 포함된 원시 상류 답변이 반환됩니다.

주석

내장 도구 (호출 시에만 청구됨)

  • 웹 검색: $0.015/call
  • 웹 추출기: 무료
  • 코드 인터프리터: 무료
  • 텍스트-이미지 검색: $0.012/call
  • 이미지 간 검색: $0.012/call

기타

  • 사고 토큰은 출력 토큰으로 청구됩니다

텍스트-이미지 검색과 이미지 간 검색은 이미지 검색 가격 행을 사용합니다. 각 호출된 이미지 검색은 해당 통화당 요금으로 청구됩니다.

도구별 청구 (usage.tool_usage)

이 모델이 단일 요청 내에서 웹 검색, 코드 인터프리터 등 도구를 호출할 때, 응답은 토큰 수와 함께 정규화된 usage.tool_usage 맵을 포함합니다. 아래 예시는 그 형태를 보여줍니다 - 정확한 필드명, 단위, 그리고 나타나는 도구는 제공자마다 약간 다를 수 있습니다:

1"usage": {
2 "prompt_tokens": 123,
3 "completion_tokens": 456,
4 "cost_usd": 0.0042,
5 "tool_usage": {"web_search": 3, "code_interpreter": 1}
6}

도구 수는 이미 cost_usd에 반영되어 있어 투명성을 위해 표면화되어 있어 도구별 청구를 감사할 수 있습니다. 도구가 호출되지 않았을 때는 필드가 생략됩니다.

변형 모델

:variant1

필드가치
모델 IDqwen3-5-flash:variant1
모델 출시일2026-02-24
지역중국
컨텍스트 윈도우1M
무게 정밀도-
최대 출력 토큰65,536
특징추론, 비전, 영상, web_search, function_calling, structured_output, agentic_coding
원주민 추론아니
지원되는 엔드포인트POST /v1/chat/completions, POST /v1/responses, POST /v1/messages

가격 책정

돌격사양요금
입력1M 프롬프트 토큰당<=128K $0.029 ($0.090였다); 128K-256K 0.115; 256K-1M \0.172
출력생성된 토큰 1M 단위<=128K $0.287 ($0.368였다); 128K-256K 1.147; 256K-1M \1.72
웹 검색활성화된 쿼리당$0.01

매개변수

매개변수유형필수기본 설정설명
temperature번호아니0.7샘플링 온도. 0은 결정론적이고 2는 최대 무작위성입니다. · 사거리: 0 – 2
top_p번호아니0.9핵 샘플링 확률 질량. 값이 낮을수록 출력이 더 집중됩니다. · 사거리: 0 – 1
max_tokens번호아니4096최대 출력 토큰. · 거리: 1 – 65536
stop스트링아니-최대 4개의 문자열에서 모델이 더 이상 토큰 생성을 멈춥니다.
enable_thinking불리언아니맞아요답변하기 전에 추론을 가능하게 하세요.
reasoning_effort열거아니"medium"추론 노력 수준. 어떤 것도 사고를 막지 못한다. 로우, 미디엄, 하이, 최대는 선택한 모델에 맞춘 제한된 사고 예산을 설정합니다. OpenAI 스타일의 reasoning_effort 필드로 전송되었고, 모델 서비스에 대한 enable_thinking와 thinking_budget로 번역되었습니다. · 허용: none, low, medium, high, max
thinking_budget번호아니32768사고할 때 추론용으로 예약된 최대 토큰이 활성화되어 있습니다. · 범위: 1 – 80000
response_format목적아니-OpenAI 호환 JSON 모드 또는 JSON 스키마 응답 형식. 엄격한 스키마에는 비사고 모드를 사용하세요.
vl_high_resolution_images불리언아니맞아요이미지 입력에는 고해상도 처리를 사용하세요.
max_pixels번호아니2621440고해상도 처리가 비활성화되었을 때 이미지당 최대 픽셀 수. · 거리: 4096 – 16777216
video_fps번호아니2초당 프레임으로 비디오 입력을 샘플링하는 것. · 범위: 0.1 – 10
tool_web_search불리언아니거짓실시간 정보를 웹에서 검색하세요. 활성화 시 요청 비용이 $0.01 증가합니다.

Machine-읽기 가능한 스키마: GET https://api.empiriolabs.ai/v1/models/qwen3-5-flash.