Qwen3.5 4B

Qwen3.5 4B
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Qwen3.5 4Bは、256Kのコンテキスト、画像・映像入力、関数ツール、構造化出力を備えた低コストのマルチモーダル推論モデルです。

一目で

フィールド価値
モデルIDqwen3-5-4b
モデル発売日2026-03-02
入力モダリティテキスト、画像、ビデオ
出力モダリティ本文
コンテキストウィンドウ256K
重量精度FP8の重み+FP8 KV
最大出力トークン32,768
特徴推論、ビジョン、ビデオ、function_calling、structured_output、キャッシュ、マルチモーダル、json_mode、logprobs
ネイティブ推論はい
新作はい
サポート端末POST /v1/chat/completionsPOST /v1/responsesPOST /v1/messagesPOST /v1/completions

価格設定

チャージスペックレート
入力1Mプロンプトトークンあたり$0.04
出力生成された1Mトークンあたり$0.07
暗黙のキャッシュ読み取り1Mのキャッシュ入力トークンごとに$0.02
ウェブ検索(Linkup)呼び出し時の通話ごと$0.013

例示リクエスト

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

パラメータ

パラメータ種類必須デフォルト概要
temperature番号いいえ0.7サンプリング温度。0は決定的で、2は最大のランダム性です。·射程:0 – 2
top_p番号いいえ0.95原子核サンプリング確率質量。値が低いほど出力がより集中します。·射程:0 – 1
max_tokens整数いいえ4096最大出力トークン。·射程:1 – 32768
stopストリングいいえ-最大4つの文字列で、モデルはこれ以上のトークン生成を停止します。
reasoning_effortエヌムいいえ"medium"理屈の努力。誰も思考を妨げるものではない。低・中・高・最大は思考予算に限定されます。·許可:nonelowmediumhighmax
enable_thinkingブール値いいえ確かに最終出力前にモデル推論チャネルを有効にしてください。
thinking_budget整数いいえ4096最終回答の前に最大限の思考トークンを使いましょう。max_tokensが低い場合は、サービス側が答えのためのスペースを確保します。·範囲:1024 – 32768
top_k整数いいえ20対応する場合は、上位K個候補トークンにサンプリングを制限してください。·射程:1 – 200
min_p番号いいえ0トークンサンプリングの最小確率閾値。·射程:0 – 1
presence_penalty番号いいえ0生成されたテキストに既に表示されたトークンに対するペナルティ。·射程:-2 – 2
frequency_penalty番号いいえ0トークンが既に出現した回数に基づくペナルティです。·射程:-2 – 2
repetition_penalty番号いいえ1SGLangが繰り返しのテキストを減らすために使用したペナルティ。·射程:0.1 – 2
seed整数いいえ-再現可能なサンプリングのためのオプションランダムシード。·射程:0 – 2147483647
logprobsブール値いいえ偽りサポートされている場合、トークンログの確率を返します。
top_logprobs整数いいえ-この数のトップトークンログ確率まで返します。·範囲:0 – 20
logit_bias目的いいえ-サンプリング前に正または負の値を付け加えてトークンIDにバイアスを加えます。
tools配列いいえ-OpenAI互換機能ツールの定義。
tool_choice目的いいえ-OpenAI互換機能ツールの選択。
response_format目的いいえ-構造化JSON出力命令。
streamブール値いいえ偽りサーバー送信イベントを使ってレスポンス・デルタをストリーム化します。
web_search_linkupブール値いいえ偽りLinkupによるオプションのウェブ検索機能。有効化すると、最新のウェブソースが最新のユーザーメッセージをクエリとして取得し、モデルに追加のコンテキストとして提供されます。モデルの通常のトークンコストに加えて、リクエストごとに定額$0.013が加算されます。デフォルトで無効化されています。
disable_formattingブール値いいえ偽り有効化されると、Linkupウェブ検索を使用したアシスタント応答に「ソース」フッターを付け加えません。モデル出力が装飾を期待しない別のシステムに送られる場合に有用です。

注記

テキスト、画像、ビデオ入力、ストリーミング、ファンクションツール、構造化JSON出力、シード制御、思考モードをデフォルトでサポートしています。有界思考にはreasoning_effortまたはthinking_budget、直接回答にはenable_thinking=falseを使いましょう。自動キャッシュリードは、モデルサービスから報告された際にキャッシュ入力レートで請求されます。明示的なキャッシュ制御はサポートされていません。


Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b