Kimi K2.7 Code | EmpirioLabs AI Docs

Moonshot AI · Text Generation

POST /v1/chat/completions

Kimi K2.7 Code é o modelo de codificação agente de trilhões de parâmetros da Moonshot, com contexto de 256K, raciocínio sempre ativo e entradas de texto, imagem e vídeo.

De um olhar

Campo	Valor
ID do modelo	`kimi-k2-7-code`
Data de lançamento do modelo	2026-06-16
Modalidades de entrada	Texto, Imagem, Vídeo
Modalidades de saída	Texto
Janela de contexto	256K
Precisão do peso	-
Tokens de saída máxima	131,072
Características	raciocínio, function_calling, structured_output, multimodal, agentic_coding, web_search
Inferência nativa	Não
Novo	Sim
Endpoints suportados	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Precificação

Carga	Especificação	Taxa
Entrada	por 1M de tokens de prompt	$0.95
Produção	por 1M de tokens gerados	$4.00
Busca na web	por chamada quando invocada	$0.015

Exemplo de pedido

$ curl https://api.empiriolabs.ai/v1/chat/completions \
>   -H 'Authorization: Bearer $EMPIRIOLABS_API_KEY' \
>   -H 'Content-Type: application/json' \
>   -d '{"model": "kimi-k2-7-code", "messages": [{"role":"user","content":"Hello"}]}'

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`max_tokens`	Número	Não	`16384`	Tokens de saída máximos. Os tokens de raciocínio contam para esse limite. · Intervalo: 1 – 131072
`stop`	String	Não	-	Até 4 strings em que o modelo para de gerar mais tokens.
`response_format`	Objeto	Não	-	Modo JSON compatível com OpenAI ou formato de resposta de esquema JSON.
`tool_web_search`	Booleano	Não	falso	Pesquise na internet por informações em tempo real. Adiciona $0.015 ao custo da solicitação para cada chamada de busca web invocada.

Notas

Suporta entradas de texto, imagem e vídeo com contexto de 256K, chamada de funções, saída estruturada em modo JSON e busca web embutida a $0.015 por chamada invocada. O pensamento está sempre ligado e não pode ser desativado; tokens de raciocínio são anunciados como tokens de saída. Substituições de temperatura e outras amostragens são ignoradas porque o serviço de modelo usa configurações fixas de amostragem. A função multi-etapa que chama pela API deve reproduzir a mensagem assistente com seu campo de reasoning_content intacto.

Faturamento por ferramenta (usage.tool_usage)

Quando esse modelo invoca ferramentas embutidas dentro de uma única requisição, a resposta carrega um mapa de usage.tool_usage normalizado junto com as contagens de tokens. A contagem de ferramentas já está em conta na cost_usd e é apresentada para transparência.

Variantes

`:variant1`

Campo	Valor
ID do modelo	`kimi-k2-7-code:variant1`
Data de lançamento do modelo	2026-06-16
Região	Alemanha
Janela de contexto	256K
Precisão do peso	-
Tokens de saída máxima	16,384
Características	Raciocínio, function_calling, structured_output, multimodal, agentic_coding, cache
Inferência nativa	Não
Endpoints suportados	`POST /v1/chat/completions`, `POST /v1/responses`, `POST /v1/messages`

Preço

Carga	Especificação	Taxa
Entrada	por 1M de tokens de prompt	$0.8939 (era $0.95)
Produção	por 1M de tokens gerados	$3.7131 (era $4.00)
Leitura implícita do cache	por 1M de tokens de entrada cacheados	$0.1788

Parâmetros

Parâmetro	Tipo	Obrigatório	Padrão	Descrição
`max_tokens`	Número	Não	`16384`	Tokens de saída máximos. Os tokens de raciocínio contam para esse limite. · Distribuição: 1 – 16384
`stop`	String	Não	-	Até 4 strings em que o modelo para de gerar mais tokens.
`response_format`	Objeto	Não	-	Modo JSON compatível com OpenAI ou formato de resposta de esquema JSON.

Machine esquema legível: GET https://api.empiriolabs.ai/v1/models/kimi-k2-7-code.