temperature | Número | Não | 1.0 | Temperatura de amostragem. Valores mais baixos são mais determinísticos. · Intervalo: 0 – 2 |
top_p | Número | Não | 0.95 | Amostragem do núcleo com a probabilidade de massa. · Intervalo: 0 – 1 |
max_tokens | inteiro | Não | 4096 | Tokens de saída máximos. · Intervalo: 1 – 32768 |
stop | String | Não | - | Uma ou mais cordas de registro. |
reasoning_effort | enum | Não | "medium" | Esforço de raciocínio. nenhum impede o pensamento; Orçamentos limitados de cenários baixos, médios, altos e máximos. · Permitido: none, low, medium, high, max |
enable_thinking | Booleano | Não | Verdade | Ative o canal de raciocínio do modelo antes da saída final. |
thinking_budget | inteiro | Não | 4096 | Máximo de tokens de pensamento antes da resposta final. Se max_tokens for menor, o serviço reserva espaço para a resposta. · Intervalo: 128 – 32768 |
top_k | inteiro | Não | 20 | Limite a amostragem aos principais K tokens candidatos quando suportados. · Alcance: 1 – 200 |
min_p | Número | Não | 0 | Limiar mínimo de probabilidade para amostragem de tokens. · Intervalo: 0 – 1 |
presence_penalty | Número | Não | 0 | Penalidade para tokens que já apareceram no texto gerado. · Alcance: -2 – 2 |
frequency_penalty | Número | Não | 0 | Penalidade baseada na frequência com que um token já apareceu. · Alcance: -2 – 2 |
repetition_penalty | Número | Não | 1 | Penalidade usada pelo SGLang para reduzir o texto repetido. · Intervalo: 0,1 – 2 |
seed | inteiro | Não | - | Semente aleatória opcional para amostragem reproduzível. · Intervalo: 0 – 2147483647 |
logprobs | Booleano | Não | falso | Devolva as probabilidades de logarista dos tokens quando suportado. |
top_logprobs | inteiro | Não | - | Volte até esse número de probabilidades principais de logs de tokens. · Intervalo: 0 – 20 |
logit_bias | Objeto | Não | - | IDs de tokens de viés adicionando valores positivos ou negativos antes da amostragem. |
tools | Arranjo | Não | - | Definições de ferramentas funcionais compatíveis com OpenAI. |
tool_choice | Objeto | Não | - | Seleção de ferramentas funcionais compatíveis com OpenAI. |
response_format | Objeto | Não | - | Instruções de saída JSON estruturadas. |
stream | Booleano | Não | falso | Deltas de resposta do fluxo usando eventos enviados pelo servidor. |
web_search_linkup | Booleano | Não | falso | Busca opcional na web alimentada pelo Linkup. Quando ativadas, fontes web recentes são recuperadas usando sua última mensagem de usuário como consulta e fornecidas ao modelo como contexto adicional. Adiciona uma $0.013 fixa por requisição além do custo normal do token do modelo. Desativado por padrão. |
disable_formatting | Booleano | Não | falso | Quando ativado, o gateway não adiciona o rodapé “Fontes” às respostas assistentes que usaram busca web do Linkup. Útil quando a saída do modelo é canalizada para outro sistema que não espera decoração. |