Qwen3.5 4B | EmpirioLabs AI Docs

POST /v1/chat/completions

Qwen3.5 4Bは、256Kのコンテキスト、画像・映像入力、関数ツール、構造化出力を備えた低コストのマルチモーダル推論モデルです。

一目で

フィールド	価値
モデルID	`qwen3-5-4b`
モデル発売日	2026-03-02
入力モダリティ	テキスト、画像、ビデオ
出力モダリティ	本文
コンテキストウィンドウ	256K
重量精度	FP8の重み+FP8 KV
最大出力トークン	32,768
特徴	推論、ビジョン、ビデオ、function_calling、structured_output、キャッシュ、マルチモーダル、json_mode、logprobs
ネイティブ推論	はい
新作	はい
サポート端末	`POST /v1/chat/completions`、`POST /v1/responses`、`POST /v1/messages`、`POST /v1/completions`

価格設定

チャージ	スペック	レート
入力	1Mプロンプトトークンあたり	$0.04
出力	生成された1Mトークンあたり	$0.07
暗黙のキャッシュ読み取り	1Mのキャッシュ入力トークンごとに	$0.02
ウェブ検索(Linkup)	呼び出し時の通話ごと	$0.013

例示リクエスト

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

パラメータ

パラメータ	種類	必須	デフォルト	概要
`temperature`	番号	いいえ	`0.7`	サンプリング温度。0は決定的で、2は最大のランダム性です。·射程:0 – 2
`top_p`	番号	いいえ	`0.95`	原子核サンプリング確率質量。値が低いほど出力がより集中します。·射程:0 – 1
`max_tokens`	整数	いいえ	`4096`	最大出力トークン。·射程:1 – 32768
`stop`	ストリング	いいえ	-	最大4つの文字列で、モデルはこれ以上のトークン生成を停止します。
`reasoning_effort`	エヌム	いいえ	`"medium"`	理屈の努力。誰も思考を妨げるものではない。低・中・高・最大は思考予算に限定されます。·許可:`none`、`low`、`medium`、`high`、`max`
`enable_thinking`	ブール値	いいえ	確かに	最終出力前にモデル推論チャネルを有効にしてください。
`thinking_budget`	整数	いいえ	`4096`	最終回答の前に最大限の思考トークンを使いましょう。max_tokensが低い場合は、サービス側が答えのためのスペースを確保します。·範囲:1024 – 32768
`top_k`	整数	いいえ	`20`	対応する場合は、上位K個候補トークンにサンプリングを制限してください。·射程:1 – 200
`min_p`	番号	いいえ	`0`	トークンサンプリングの最小確率閾値。·射程:0 – 1
`presence_penalty`	番号	いいえ	`0`	生成されたテキストに既に表示されたトークンに対するペナルティ。·射程:-2 – 2
`frequency_penalty`	番号	いいえ	`0`	トークンが既に出現した回数に基づくペナルティです。·射程:-2 – 2
`repetition_penalty`	番号	いいえ	`1`	SGLangが繰り返しのテキストを減らすために使用したペナルティ。·射程:0.1 – 2
`seed`	整数	いいえ	-	再現可能なサンプリングのためのオプションランダムシード。·射程:0 – 2147483647
`logprobs`	ブール値	いいえ	偽り	サポートされている場合、トークンログの確率を返します。
`top_logprobs`	整数	いいえ	-	この数のトップトークンログ確率まで返します。·範囲:0 – 20
`logit_bias`	目的	いいえ	-	サンプリング前に正または負の値を付け加えてトークンIDにバイアスを加えます。
`tools`	配列	いいえ	-	OpenAI互換機能ツールの定義。
`tool_choice`	目的	いいえ	-	OpenAI互換機能ツールの選択。
`response_format`	目的	いいえ	-	構造化JSON出力命令。
`stream`	ブール値	いいえ	偽り	サーバー送信イベントを使ってレスポンス・デルタをストリーム化します。
`web_search_linkup`	ブール値	いいえ	偽り	Linkupによるオプションのウェブ検索機能。有効化すると、最新のウェブソースが最新のユーザーメッセージをクエリとして取得し、モデルに追加のコンテキストとして提供されます。モデルの通常のトークンコストに加えて、リクエストごとに定額$0.013が加算されます。デフォルトで無効化されています。
`disable_formatting`	ブール値	いいえ	偽り	有効化されると、Linkupウェブ検索を使用したアシスタント応答に「ソース」フッターを付け加えません。モデル出力が装飾を期待しない別のシステムに送られる場合に有用です。

注記

テキスト、画像、ビデオ入力、ストリーミング、ファンクションツール、構造化JSON出力、シード制御、思考モードをデフォルトでサポートしています。有界思考にはreasoning_effortまたはthinking_budget、直接回答にはenable_thinking=falseを使いましょう。自動キャッシュリードは、モデルサービスから報告された際にキャッシュ入力レートで請求されます。明示的なキャッシュ制御はサポートされていません。

Machine-readable schema: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b。