Qwen3.5 4B | EmpirioLabs AI Docs

POST /v1/chat/completions

Qwen3.5 4B ist ein kostengünstiges multimodales Schlussfolgerungsmodell mit 256K Kontext, Bild- und Videoeingabe, Funktionswerkzeugen und strukturierter Ausgabe.

Auf einen Blick

Spielfeld	Wert
Modell-ID	`qwen3-5-4b`
Modell-Veröffentlichungsdatum	2026-03-02
Eingabemodalitäten	Text, Bild, Video
Ausgabemodalitäten	Text
Kontextfenster	256.000
Gewichtspräzision	FP8-Gewichte + FP8 KV
Maximale Ausgabetoken	32,768
Merkmale	Vernunft, Vision, Video, function_calling, structured_output, Cache, Multimodal, json_mode, Logprobs
Native Schlussfolgerung	Ja
Neu	Ja
Unterstützte Endpunkte	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`, `POST /v1/completions`

Preisgestaltung

Berechnen	Spezifikation	Zinssatz
Eingabe	pro 1M Prompt-Token	$0.04
Ausgabe	pro 1 Million generierter Token	$0.07
Implizite Cache-Leseart	pro 1M zwischengespeicherten Eingabetoken	$0.02
Websuche (Linkup)	pro Aufruf beim Aufruf	$0.013

Beispielanfrage

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

Parameter	Typ	Erforderlich	Default	Beschreibung
`temperature`	Anzahl	Nein	`0.7`	Temperatur wird geprochen. 0 ist deterministisch und 2 ist maximale Zufälligkeit. · Reichweite: 0 – 2
`top_p`	Anzahl	Nein	`0.95`	Kernprobenwahrscheinlichkeitsmasse. Niedrigere Werte machen die Ausgaben fokussierter. · Reichweite: 0 – 1
`max_tokens`	Ganzzahl	Nein	`4096`	Maximale Ausgabe-Token. · Reichweite: 1 – 32768
`stop`	String	Nein	-	Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
`reasoning_effort`	ENUM	Nein	`"medium"`	Vernunft und Mühe. keines verhindert das Denken; Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets. · Erlaubt: `none`, `low`, `medium`, `high`, `max`
`enable_thinking`	Boolean	Nein	Stimmt	Aktivieren Sie den Modell-Logikkanal vor der endgültigen Ausgabe.
`thinking_budget`	Ganzzahl	Nein	`4096`	Maximale Denk-Tokens vor der endgültigen Antwort. Ist max_tokens niedriger, reserviert der Dienst Platz für die Antwort. · Reichweite: 1024 – 32768
`top_k`	Ganzzahl	Nein	`20`	Begrenze das Sampling auf die besten K Kandidatentoken, wenn sie unterstützt werden. · Reichweite: 1 – 200
`min_p`	Anzahl	Nein	`0`	Mindestwahrscheinlichkeitsschwelle für Token-Sampling. · Reichweite: 0 – 1
`presence_penalty`	Anzahl	Nein	`0`	Strafe für Token, die bereits im generierten Text erschienen sind. · Reichweite: -2 – 2
`frequency_penalty`	Anzahl	Nein	`0`	Strafe basiert darauf, wie oft ein Token bereits aufgetaucht ist. · Reichweite: -2 – 2
`repetition_penalty`	Anzahl	Nein	`1`	Strafe wird von SGLang verwendet, um wiederholte Texte zu reduzieren. · Reichweite: 0,1 – 2
`seed`	Ganzzahl	Nein	-	Optionaler zufälliger Seed für reproduzierbare Stichproben. · Reichweite: 0 – 2147483647
`logprobs`	Boolean	Nein	falsch	Geben Sie Token-Log-Wahrscheinlichkeiten zurück, wenn sie unterstützt werden.
`top_logprobs`	Ganzzahl	Nein	-	Geben Sie diese Anzahl an Top-Token-Log-Wahrscheinlichkeiten zurück. · Reichweite: 0 – 20
`logit_bias`	Gegenstand	Nein	-	Bias-Token-IDs durch das Hinzufügen positiver oder negativer Werte vor der Stichprobe.
`tools`	Anordnung	Nein	-	OpenAI-kompatible Funktionswerkzeugdefinitionen.
`tool_choice`	Gegenstand	Nein	-	OpenAI-kompatible Funktionswerkzeugauswahl.
`response_format`	Gegenstand	Nein	-	Strukturierte JSON-Ausgabeanweisungen.
`stream`	Boolean	Nein	falsch	Stream-Antwort-Deltas mit servergesendeten Ereignissen.
`web_search_linkup`	Boolean	Nein	falsch	Optionale Websuche, betrieben von Linkup. Wenn aktiviert, werden aktuelle Webquellen mit Ihrer neuesten Benutzernachricht als Abfrage abgerufen und dem Modell als zusätzlicher Kontext bereitgestellt. Fügt pro Anfrage ein festes $0.013 zu den normalen Tokenkosten des Modells hinzu. Standardmäßig deaktiviert.
`disable_formatting`	Boolean	Nein	falsch	Wenn aktiviert, fügt das Gateway den “Sources”-Footer nicht an Assistant-Antworten an, die die Linkup-Websuche verwendet haben. Nützlich, wenn die Modellausgabe an ein anderes System weitergeleitet wird, das keine Dekoration erwartet.

Anmerkungen

Unterstützt Text-, Bild- und Videoeingabe, Streaming, Funktionstools, strukturierte JSON-Ausgabe, Seed-Steuerung und standardmäßig aktivierten Denkmodus. Verwenden Sie reasoning_effort oder thinking_budget für begrenztes Denken oder enable_thinking=falsch für direkte Antworten. Automatische Cache-Lesearten werden mit der vom Modelldienst gemeldeten Eingaberate berechnet. Explizite Cache-Kontrollen werden nicht unterstützt.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.