Limites e Chaves de API

Limites de produção, chaves de API, GPU Cloud, agentes hospedados, chats salvos no playground e aumento de solicitações

Cada conta recebe limites padrão de produção e pode solicitar limites maiores conforme o uso cresce. Os padrões abaixo são mantidos sincronizados com as configurações da plataforma ao vivo.

Limites padrão de conta

LimitePadrão
Pedidos por minuto50 RPM
Tokens por minuto2.000.000 TPM
Chaves de API por conta50
GPUs GPU Cloud por conta10
Agentes hospedados por conta3
Conversas salvas no playground por conta50

Envie um e-mail para support@empiriolabs.ai se precisar de limites mais altos para cargas de trabalho em produção.

Formato da chave API

As chaves de API usam o prefixo sk-empiriolabs-:

1Authorization: Bearer sk-empiriolabs-...

Mantenha as chaves da API apenas do lado do servidor. Nunca os exponha em código de navegador, aplicativos móveis, repositórios públicos ou logs de clientes.

GPU Cloud limites

GPU Cloud limites são definidos pelo escopo da conta. O padrão mostrado acima vem das configurações da plataforma ao vivo, e a página de configurações do painel mostra seu limite efetivo.

Implantações multi-GPU contam cada GPU para o limite. Por exemplo, uma instância com 2 GPUs usa dois slots de GPU. Instâncias paradas mantêm sua especificação de implantação e continuam contando até o limite de GPU Cloud até serem destruídas.

O tamanho do disco pode ser ajustado de 100 GB a 300 GB por instância. Implantar ou iniciar uma GPU também exige saldo suficiente para a janela inicial de execução.

Limites de agentes hospedados

Os limites de agentes hospedados são escopados por conta. O padrão mostrado acima vem das configurações da plataforma ao vivo, e a página de configurações do painel mostra seu limite efetivo.

Agentes hospedados parados mantêm seu estado de execução gerenciado e continuam contando até serem destruídos. Criar ou renovar um agente hospedado exige saldo de crédito suficiente para o plano mensal selecionado.

Gerenciando chaves de API

  • Gerar novas chaves a partir do painel
  • Cada conta pode conter até 50 chaves API (ajustável, entre em contato com o suporte)
  • Exclua as teclas não utilizadas rapidamente para reduzir sua superfície de ataque
  • Use chaves separadas para produção, staging e desenvolvimento para isolar ambientes

Conversas salvas no parquinho

O Playground salva automaticamente as conversas para que você possa voltar a testes úteis de modelos, prompts e respostas depois.

O histórico de chat salvo do Playground atualmente cobre conversas de texto para modelos e modos de chat suportados. Geração, busca, transcrição, agent/task e outras execuções do Playground não textuais ainda podem ser revisadas pelo histórico de uso mesmo quando nenhuma transcrição do chat é salva.

AmbientaçãoComportamento
Limite padrão de chat salvo50 chats salvos por conta
No chapéuNovos turnos de chat ainda acontecem, mas conversas adicionais não são salvas até que você exclua conversas antigas ou peça um limite maior
API públicaUse GET /v1/playground/conversations para listar conversas salvas e GET /v1/playground/conversations/\{id\} para carregar uma

A interface do Playground também mostra um chip de status no cabeçalho do chat:

ChipSignificado
SavedA última virada estabilizada é mantida
SavingO cliente está aguardando o debounce do auto-save de 600 ms
Not savingA conta atingiu o limite de chat salvo, então os turnos novos continuam, mas não são armazenados

A API de chat salvo público é somente leitura. Salvar e deletar conversas ainda acontece no Playground do dashboard.

MétodoCaminhoPropósito
GET/v1/playground/conversationsLista de conversas salvas
GET/v1/playground/conversations/\{id\}Carregue uma conversa salva com mensagens

Comportamento do limite de taxa

Quando você ultrapassa um limite de taxa, a API retorna uma resposta 429 Too Many Requests. Use o backoff exponencial com jitter ao tentar novamente.

Os limites de taxa são aplicados por conta, não por chave de API. Todas as chaves da mesma conta compartilham o mesmo RPM e TPM orçamento.

Solicitando limites mais altos

Se sua carga de trabalho exigir mais do que o padrão de 50 RPM ou 2M de TPM, envie um e-mail para support@empiriolabs.ai com:

  • E-mail ou ID da sua conta
  • Os limites que você precisa e por quê
  • Padrões de tráfego esperados (pico de RPM, tamanho médio da solicitação)

Erros comuns

CódigoSignificado
missing_api_keyNenhum token de portador foi fornecido.
invalid_api_keyO token está malformado, inativo, expirado ou não encontrado.
insufficient_creditsA conta precisa de mais créditos antes de fazer chamadas API.
model_not_foundO modelo solicitado não existe ou não está disponível.
rate_limit_exceededA conta ultrapassou seu limite de RPM ou TPM. Retente com recuo.
gpu_limit_exceededA conta atingiu o limite da GPU Cloud. Destrua uma instância, reduza a quantidade de GPUs ou peça um limite maior.
agent_limit_reachedA conta atingiu o limite de agentes hospedados. Destrua um agente não utilizado ou peça um limite maior.
model_unavailableO trabalhador do modelo está temporariamente offline. Tente novamente em breve.
upstream_errorO provedor do modelo retornou um erro.