Fugu Ultra

Fugu Ultra
Sakana AI · Text Generation
POST /v1/chat/completions

Chef d’orchestre multi-agents qui orchestre des modèles experts de pointe pour le raisonnement approfondi, le codage et la recherche, avec 1M de contexte, saisie d’images et recherche web.

En un coup d’œil

TerrainValeur
Identifiant de modèlefugu-ultra
Date de sortie du modèle2026-06-21
Modalités d’entréeTexte, Image
Modalités de sortieTexte
Fenêtre de contexte1M
Précision du poids-
Jetons de sortie max131,072
Caractéristiquesraisonnement, multimodal, web_search, function_calling, structured_output, agentic_coding, cache
Inférence autochtoneNon
NouveauOui
Points de terminaison pris en chargePOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Tarification

ChargeSpecTaux
Entréepar 1M de jetons d’invite<=272K $7.50; >272K $15.00
Productionpar 1M de jetons générés<=272K $45.00; >272K $67.50
Lecture implicite du cachepar 1M de jetons d’entrée mis en cache<=272K $1.50; >272K $3.00

Exemple de demande

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "fugu-ultra", "messages": [{"role":"user","content":"Hello"}]}'

Paramètres

ParamètreTypeObligatoirePar défautDescription
max_tokensentiernon32768Nombre maximal de jetons de sortie pour la réponse finale. Le conducteur a besoin d’espace pour fonctionner, donc de très faibles valeurs peuvent retourner une sortie vide. · Répartition: 1 – 131072
reasoning_effortenumnon"high"Quelle difficulté Fugu Ultra raisons. La raison est toujours en place. Le facteur par défaut est élevé; Xhigh et Max sont des alias du même effort maximal (plus complets et plus lents que high). · Autorisé: high, xhigh, max
tool_web_searchBooléennonfauxActivez la recherche web intégrée. Il n’y a pas de frais distincts; Le coût de recherche est reflété dans les jetons d’orchestration facturés pour la requête.
toolsTableaunon[]Définitions d’outils d’appel de fonction compatibles OpenAI.
tool_choiceObjetnon-Contrôle du choix d’outils compatible OpenAI.
response_formatObjetnon-Mode JSON compatible OpenAI pour une sortie structurée.

Notes

Fugu Ultra est un conducteur multi-agents: chaque requête coordonne un pool de modèles experts et compose leur travail en une seule réponse.

Latence et streaming

  • Les réponses peuvent prendre de quelques secondes à quelques minutes sur des consignes complexes.
  • La réponse complète est retournée d’un coup à la fin du modèle, et non jeton par jeton. Le streaming est accepté, mais il offre la réponse complète à la fin plutôt que de diffuser les tokens au fur et à mesure qu’ils sont générés.
  • Laissez une marge de max_tokens généreuse, car de très petites limites peuvent tronquer ou vider la réponse.

Capacités

  • Saisie texte et image, avec un contexte de jeton 1M.
  • Raisonnement toujours actif. « élevé » est la norme; Xhigh et Max demandent le même effort maximal.
  • Appel de fonction, mode JSON, et recherche web intégrée qui cite ses sources lorsque disponible (sans frais séparés).

Facturation

  • Facturé sur l’utilisation complète des jetons, y compris les jetons d’orchestration utilisés en interne par le modèle, donc même les courtes invitations ont un certain coût.
  • Palier contextuel: les requêtes supérieures à 272K de jetons d’entrée totaux utilisent le taux plus élevé indiqué.

_Machine schéma lisible: _ GET https://api.empiriolabs.ai/v1/models/fugu-ultra.