Fugu Ultra

Sakana AI · Text Generation

POST /v1/chat/completions

Maestro multiagente que orquestra modelos especialistas de vanguarda para raciocínio rigoroso, codificação e pesquisa, com contexto 1M, entrada de imagem e busca na web.

De um olhar

Campo	Valor
ID do modelo	`fugu-ultra`
Data de lançamento do modelo	2026-06-21
Modalidades de entrada	Texto, Imagem
Modalidades de saída	Texto
Janela de contexto	1M
Precisão do peso	-
Tokens de saída máxima	131,072
Características	raciocínio, multimodal, web_search, function_calling, structured_output, agentic_coding, cache
Inferência nativa	Não
Novo	Sim
Endpoints suportados	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Precificação

Carga	Especificação	Taxa
Entrada	por 1M de tokens de prompt	<=272K $7.50; >272K $15.00
Produção	por 1M de tokens gerados	<=272K $45.00; >272K $67.50
Leitura implícita do cache	por 1M de tokens de entrada cacheados	<=272K $1.50; >272K $3.00

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "fugu-ultra", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`max_tokens`	inteiro	Não	`32768`	Número máximo de tokens de saída para a resposta final. O condutor precisa de espaço para funcionar, então valores muito pequenos podem devolver saída vazia. · Intervalo: 1 – 131072
`reasoning_effort`	enum	Não	`"high"`	Que difícil Fugu Ultra razões. A razão está sempre ativa. O padrão é alto; Xhigh e Max são aliases do mesmo esforço máximo (mais completo e mais lento que alto). · Permitido: `high`, `xhigh`, `max`
`tool_web_search`	Booleano	Não	falso	Ative a busca web embutida. Não há taxa separada; O custo de busca é refletido nos tokens de orquestração faturados pela solicitação.
`tools`	Arranjo	Não	`[]`	Definições de ferramentas de chamada de função compatíveis com OpenAI.
`tool_choice`	Objeto	Não	-	Controle de escolha de ferramentas compatível com OpenAI.
`response_format`	Objeto	Não	-	Modo JSON compatível com OpenAI para saída estruturada.

Notas

Fugu Ultra é um condutor multi-agente: cada solicitação coordena um conjunto de modelos especialistas e compõe seu trabalho em uma única resposta.

Latência e streaming

Respostas podem levar de alguns segundos a alguns minutos em prompts complexos.
A resposta completa é retornada de uma vez quando o modelo termina, não token por token. O streaming é aceito, mas entrega a resposta completa no final, em vez de transmitir tokens conforme eles são gerados.
Deixe um espaço generoso max_tokens cabeça, pois limites muito pequenos podem truncar ou esvaziar a resposta.

Capacidades

Entrada de texto e imagem, com um contexto de token de 1M.
Raciocínio sempre ligado. alto é o padrão; Xhigh e Max têm o mesmo esforço máximo.
Chamada de função, modo JSON e busca web embutida que cita suas fontes quando disponível (sem taxa separada).

Faturamento

Cobrado com base no uso total do token, incluindo os tokens de orquestração que o modelo usa internamente, então até mesmo prompts curtos têm algum custo.
Em níveis de contexto: requisições acima de 272K tokens totais de entrada usam a taxa maior mostrada.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/fugu-ultra.