Gemma 4 26B-A4B

Gemma 4 26B-A4B
Google · Text Generation
POST /v1/chat/completions

Gemma 4 26B A4B ist ein Google-offenes multimodales Modell mit 256K-Kontext, Text-, Bild- und Videoeingaben, Werkzeugen und strukturierter Ausgabe.

Auf einen Blick

SpielfeldWert
Modell-IDgemma-4-26b-a4b
Modell-Veröffentlichungsdatum2026-03-31
EingabemodalitätenText, Bild, Video
AusgabemodalitätenText
Kontextfenster256.000
GewichtspräzisionFP8-Gewichte + FP8 KV
Maximale Ausgabetoken32,768
MerkmaleVernunft, Vision, Video, function_calling, structured_output, Cache, Multimodal, json_mode, Logprobs
Native SchlussfolgerungJa
NeuJa
Unterstützte EndpunktePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages, POST /v1/completions

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token$0.05 (war $0.15)
Ausgabepro 1 Million generierter Token$0.29 (war $0.50)
Implizite Cache-Leseartpro 1M zwischengespeicherten Eingabetoken$0.025 (war $0.15)
Websuche (Linkup)pro Aufruf beim Aufruf$0.013

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "gemma-4-26b-a4b", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
temperatureAnzahlNein1.0Temperatur wird geprochen. Niedrigere Werte sind deterministischer. · Reichweite: 0 – 2
top_pAnzahlNein0.95Kernprobenwahrscheinlichkeitsmasse. · Reichweite: 0 – 1
max_tokensGanzzahlNein4096Maximale Ausgabe-Token. · Reichweite: 1 – 32768
stopStringNein-Eine oder mehrere Register-Saiten.
reasoning_effortENUMNein"medium"Vernunft und Mühe. keines verhindert das Denken; Niedrige, mittlere, hohe und maximale begrenzte Denkbudgets. · Erlaubt: none, low, medium, high, max
enable_thinkingBooleanNeinStimmtAktivieren Sie den Modell-Logikkanal vor der endgültigen Ausgabe.
thinking_budgetGanzzahlNein4096Maximale Denk-Tokens vor der endgültigen Antwort. Ist max_tokens niedriger, reserviert der Dienst Platz für die Antwort. · Reichweite: 128 – 32768
top_kGanzzahlNein20Begrenze das Sampling auf die besten K Kandidatentoken, wenn sie unterstützt werden. · Reichweite: 1 – 200
min_pAnzahlNein0Mindestwahrscheinlichkeitsschwelle für Token-Sampling. · Reichweite: 0 – 1
presence_penaltyAnzahlNein0Strafe für Token, die bereits im generierten Text erschienen sind. · Reichweite: -2 – 2
frequency_penaltyAnzahlNein0Strafe basiert darauf, wie oft ein Token bereits aufgetaucht ist. · Reichweite: -2 – 2
repetition_penaltyAnzahlNein1Strafe wird von SGLang verwendet, um wiederholte Texte zu reduzieren. · Reichweite: 0,1 – 2
seedGanzzahlNein-Optionaler zufälliger Seed für reproduzierbare Stichproben. · Reichweite: 0 – 2147483647
logprobsBooleanNeinfalschGeben Sie Token-Log-Wahrscheinlichkeiten zurück, wenn sie unterstützt werden.
top_logprobsGanzzahlNein-Geben Sie diese Anzahl an Top-Token-Log-Wahrscheinlichkeiten zurück. · Reichweite: 0 – 20
logit_biasGegenstandNein-Bias-Token-IDs durch das Hinzufügen positiver oder negativer Werte vor der Stichprobe.
toolsAnordnungNein-OpenAI-kompatible Funktionswerkzeugdefinitionen.
tool_choiceGegenstandNein-OpenAI-kompatible Funktionswerkzeugauswahl.
response_formatGegenstandNein-Strukturierte JSON-Ausgabeanweisungen.
streamBooleanNeinfalschStream-Antwort-Deltas mit servergesendeten Ereignissen.
web_search_linkupBooleanNeinfalschOptionale Websuche, betrieben von Linkup. Wenn aktiviert, werden aktuelle Webquellen mit Ihrer neuesten Benutzernachricht als Abfrage abgerufen und dem Modell als zusätzlicher Kontext bereitgestellt. Fügt pro Anfrage ein festes $0.013 zu den normalen Tokenkosten des Modells hinzu. Standardmäßig deaktiviert.
disable_formattingBooleanNeinfalschWenn aktiviert, fügt das Gateway den “Sources”-Footer nicht an Assistant-Antworten an, die die Linkup-Websuche verwendet haben. Nützlich, wenn die Modellausgabe an ein anderes System weitergeleitet wird, das keine Dekoration erwartet.

Anmerkungen

Unterstützt Text-, Bild- und Videoeingabe, Streaming, Funktionstools, strukturierte JSON-Ausgabe, Seed-Steuerung und standardmäßig aktivierten Denkmodus. Verwenden Sie reasoning_effort oder thinking_budget für begrenztes Denken oder enable_thinking=falsch für direkte Antworten. Automatische Cache-Lesearten werden mit der vom Modelldienst gemeldeten Eingaberate berechnet. Explizite Cache-Kontrollen werden nicht unterstützt.


Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/gemma-4-26b-a4b.