Fugu Ultra

Fugu Ultra
Sakana AI · Text Generation
POST /v1/chat/completions

Maestro multiagente que orquestra modelos especialistas de vanguarda para raciocínio rigoroso, codificação e pesquisa, com contexto 1M, entrada de imagem e busca na web.

De um olhar

CampoValor
ID do modelofugu-ultra
Data de lançamento do modelo2026-06-21
Modalidades de entradaTexto, Imagem
Modalidades de saídaTexto
Janela de contexto1M
Precisão do peso-
Tokens de saída máxima131,072
Característicasraciocínio, multimodal, web_search, function_calling, structured_output, agentic_coding, cache
Inferência nativaNão
NovoSim
Endpoints suportadosPOST /v1/chat/completions, POST /v1/responses, POST /v1/messages

Precificação

CargaEspecificaçãoTaxa
Entradapor 1M de tokens de prompt<=272K $7.50; >272K $15.00
Produçãopor 1M de tokens gerados<=272K $45.00; >272K $67.50
Leitura implícita do cachepor 1M de tokens de entrada cacheados<=272K $1.50; >272K $3.00

Exemplo de pedido

$curl https://api.empiriolabs.ai/v1/chat/completions \
> -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
> -H 'Content-Type: application/json' \
> -d '{"model": "fugu-ultra", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

ParâmetroTipoObrigatórioPadrãoDescrição
max_tokensinteiroNão32768Número máximo de tokens de saída para a resposta final. O condutor precisa de espaço para funcionar, então valores muito pequenos podem devolver saída vazia. · Intervalo: 1 – 131072
reasoning_effortenumNão"high"Que difícil Fugu Ultra razões. A razão está sempre ativa. O padrão é alto; Xhigh e Max são aliases do mesmo esforço máximo (mais completo e mais lento que alto). · Permitido: high, xhigh, max
tool_web_searchBooleanoNãofalsoAtive a busca web embutida. Não há taxa separada; O custo de busca é refletido nos tokens de orquestração faturados pela solicitação.
toolsArranjoNão[]Definições de ferramentas de chamada de função compatíveis com OpenAI.
tool_choiceObjetoNão-Controle de escolha de ferramentas compatível com OpenAI.
response_formatObjetoNão-Modo JSON compatível com OpenAI para saída estruturada.

Notas

Fugu Ultra é um condutor multi-agente: cada solicitação coordena um conjunto de modelos especialistas e compõe seu trabalho em uma única resposta.

Latência e streaming

  • Respostas podem levar de alguns segundos a alguns minutos em prompts complexos.
  • A resposta completa é retornada de uma vez quando o modelo termina, não token por token. O streaming é aceito, mas entrega a resposta completa no final, em vez de transmitir tokens conforme eles são gerados.
  • Deixe um espaço generoso max_tokens cabeça, pois limites muito pequenos podem truncar ou esvaziar a resposta.

Capacidades

  • Entrada de texto e imagem, com um contexto de token de 1M.
  • Raciocínio sempre ligado. alto é o padrão; Xhigh e Max têm o mesmo esforço máximo.
  • Chamada de função, modo JSON e busca web embutida que cita suas fontes quando disponível (sem taxa separada).

Faturamento

  • Cobrado com base no uso total do token, incluindo os tokens de orquestração que o modelo usa internamente, então até mesmo prompts curtos têm algum custo.
  • Em níveis de contexto: requisições acima de 272K tokens totais de entrada usam a taxa maior mostrada.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/fugu-ultra.