Qwen3.5 4B

Qwen3.5 4B
Alibaba Cloud · Text Generation
POST /v1/chat/completions

Qwen3.5 4B ist ein kostengünstiges multimodales Schlussfolgerungsmodell mit 256K Kontext, Bild- und Videoeingabe, Funktionswerkzeugen und strukturierter Ausgabe.

Auf einen Blick

SpielfeldWert
Modell-IDqwen3-5-4b
Modell-Veröffentlichungsdatum2026-03-02
EingabemodalitätenText, Bild, Video
AusgabemodalitätenText
Kontextfenster256.000
GewichtspräzisionFP8-Gewichte + FP8 KV
Maximale Ausgabetoken32,768
MerkmaleVernunft, Vision, Video, function_calling, structured_output, Cache, Multimodal, json_mode, Logprobs
Native SchlussfolgerungJa
NeuJa
Unterstützte EndpunktePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages, POST /v1/completions

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token$0.04
Ausgabepro 1 Million generierter Token$0.07
Implizite Cache-Leseartpro 1M zwischengespeicherten Eingabetoken$0.02
Websuche (Linkup)pro Aufruf beim Aufruf$0.013

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "qwen3-5-4b", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
temperatureAnzahlNein0.7Temperatur wird geprochen. 0 ist deterministisch und 2 ist maximale Zufälligkeit. · Reichweite: 0 – 2
top_pAnzahlNein0.95Kernprobenwahrscheinlichkeitsmasse. Niedrigere Werte machen die Ausgaben fokussierter. · Reichweite: 0 – 1
max_tokensGanzzahlNein4096Maximale Ausgabe-Token. · Reichweite: 1 – 32768
stopStringNein-Bis zu 4 Zeichenketten, bei denen das Modell aufhört, weitere Token zu generieren.
reasoning_effortENUMNein"medium"Vernunft und Mühe. keines verhindert das Denken; Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets. · Erlaubt: none, low, medium, high, max
enable_thinkingBooleanNeinStimmtAktivieren Sie den Modell-Logikkanal vor der endgültigen Ausgabe.
thinking_budgetGanzzahlNein4096Maximale Denk-Tokens vor der endgültigen Antwort. Ist max_tokens niedriger, reserviert der Dienst Platz für die Antwort. · Reichweite: 1024 – 32768
top_kGanzzahlNein20Begrenze das Sampling auf die besten K Kandidatentoken, wenn sie unterstützt werden. · Reichweite: 1 – 200
min_pAnzahlNein0Mindestwahrscheinlichkeitsschwelle für Token-Sampling. · Reichweite: 0 – 1
presence_penaltyAnzahlNein0Strafe für Token, die bereits im generierten Text erschienen sind. · Reichweite: -2 – 2
frequency_penaltyAnzahlNein0Strafe basiert darauf, wie oft ein Token bereits aufgetaucht ist. · Reichweite: -2 – 2
repetition_penaltyAnzahlNein1Strafe wird von SGLang verwendet, um wiederholte Texte zu reduzieren. · Reichweite: 0,1 – 2
seedGanzzahlNein-Optionaler zufälliger Seed für reproduzierbare Stichproben. · Reichweite: 0 – 2147483647
logprobsBooleanNeinfalschGeben Sie Token-Log-Wahrscheinlichkeiten zurück, wenn sie unterstützt werden.
top_logprobsGanzzahlNein-Geben Sie diese Anzahl an Top-Token-Log-Wahrscheinlichkeiten zurück. · Reichweite: 0 – 20
logit_biasGegenstandNein-Bias-Token-IDs durch das Hinzufügen positiver oder negativer Werte vor der Stichprobe.
toolsAnordnungNein-OpenAI-kompatible Funktionswerkzeugdefinitionen.
tool_choiceGegenstandNein-OpenAI-kompatible Funktionswerkzeugauswahl.
response_formatGegenstandNein-Strukturierte JSON-Ausgabeanweisungen.
streamBooleanNeinfalschStream-Antwort-Deltas mit servergesendeten Ereignissen.
web_search_linkupBooleanNeinfalschOptionale Websuche, betrieben von Linkup. Wenn aktiviert, werden aktuelle Webquellen mit Ihrer neuesten Benutzernachricht als Abfrage abgerufen und dem Modell als zusätzlicher Kontext bereitgestellt. Fügt pro Anfrage ein festes $0.013 zu den normalen Tokenkosten des Modells hinzu. Standardmäßig deaktiviert.
disable_formattingBooleanNeinfalschWenn aktiviert, fügt das Gateway den “Sources”-Footer nicht an Assistant-Antworten an, die die Linkup-Websuche verwendet haben. Nützlich, wenn die Modellausgabe an ein anderes System weitergeleitet wird, das keine Dekoration erwartet.

Anmerkungen

Unterstützt Text-, Bild- und Videoeingabe, Streaming, Funktionstools, strukturierte JSON-Ausgabe, Seed-Steuerung und standardmäßig aktivierten Denkmodus. Verwenden Sie reasoning_effort oder thinking_budget für begrenztes Denken oder enable_thinking=falsch für direkte Antworten. Automatische Cache-Lesearten werden mit der vom Modelldienst gemeldeten Eingaberate berechnet. Explizite Cache-Kontrollen werden nicht unterstützt.


Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/qwen3-5-4b.