Fugu Ultra

Fugu Ultra
Sakana AI · Text Generation
POST /v1/chat/completions

Multi-Agent-Dirigent, der Pionier-Expertenmodelle für hartes Denken, Codieren und Forschung orchestriert, mit 1M Kontext, Bildeingabe und Websuche.

Auf einen Blick

SpielfeldWert
Modell-IDfugu-ultra
Modell-Veröffentlichungsdatum2026-06-21
EingabemodalitätenText, Bild
AusgabemodalitätenText
Kontextfenster1M
Gewichtspräzision-
Maximale Ausgabetoken131,072
MerkmaleReasoning, Multimodal, web_search, function_calling, structured_output, agentic_coding, Cache
Native SchlussfolgerungNein
NeuJa
Unterstützte EndpunktePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Preisgestaltung

BerechnenSpezifikationZinssatz
Eingabepro 1M Prompt-Token<=272K $7.50; >272K $15.00
Ausgabepro 1 Million generierter Token<=272K $45.00; >272K $67.50
Implizite Cache-Leseartpro 1M zwischengespeicherten Eingabetoken<=272K $1.50; >272K $3.00

Beispielanfrage

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "fugu-ultra", "messages": [{"role":"user","content":"Hello"}]}'

Parameter

ParameterTypErforderlichDefaultBeschreibung
max_tokensGanzzahlNein32768Maximale Anzahl der Ausgabetoken für die endgültige Antwort. Der Leiter braucht Platz zum Arbeiten, daher können sehr kleine Werte leere Ausgänge zurückgeben. · Reichweite: 1 – 131072
reasoning_effortENUMNein"high"Wie schwer Fugu Ultra Gründe. Das Denken ist immer an. Der Standard ist hoch; xhigh und max sind Aliase mit demselben maximalen Aufwand (gründlicher und langsamer als High). · Erlaubt: high, xhigh, max
tool_web_searchBooleanNeinfalschAktivieren Sie die integrierte Websuche. Es gibt keine separate Gebühr; Die Suchkosten werden in den für die Anfrage berechneten Orchestrierungstoken widergespiegelt.
toolsAnordnungNein[]OpenAI-kompatible Funktionsaufruf-Werkzeugdefinitionen.
tool_choiceGegenstandNein-OpenAI-kompatible Werkzeugwahlsteuerung.
response_formatGegenstandNein-OpenAI-kompatibler JSON-Modus für strukturierte Ausgabe.

Anmerkungen

Fugu Ultra ist ein Multi-Agent-Conductor: Jede Anfrage koordiniert einen Pool von Expertenmodellen und fasst ihre Arbeit in einer einzigen Antwort zusammen.

Latenz und Streaming

  • Antworten können auf komplexe Eingabeaufforderungen von wenigen Sekunden bis zu mehreren Minuten dauern.
  • Die vollständige Antwort wird alle auf einmal zurückgegeben, wenn das Modell fertig ist, nicht Token für Token. Streaming wird akzeptiert, liefert aber am Ende die vollständige Antwort, anstatt Token, sobald sie generiert werden.
  • Lassen Sie großzügig max_tokens Headroom, da sehr kleine Limits die Antwort verkürzen oder leeren können.

Fähigkeiten

  • Text- und Bildeingabe mit einem 1M-Token-Kontext.
  • Immer eingeschaltetes Denken. hoch ist der Standard; xhigh und max haben denselben maximalen Einsatz.
  • Funktionsaufrufe, JSON-Modus und integrierte Websuche, die ihre Quellen zitiert, wenn verfügbar (keine separate Gebühr).

Abrechnung

  • Sie werden bei der vollen Tokennutzung abgerechnet, einschließlich der internen Orchester-Tokens, die das Modell nutzt, sodass selbst kurze Prompts Kosten verursachen.
  • Kontextstufen: Anfragen über insgesamt 272.000 Eingabetoken verwenden die höher angezeigte Rate.

Machine-lesbares Schema: GET https://api.empiriolabs.ai/v1/models/fugu-ultra.