temperature | Nombre | non | 0.7 | Température d’échantillonnage. 0 est déterministe et 2 est l’aléatoire maximal. · Plage: 0 – 2 |
top_p | Nombre | non | 0.95 | Probabilité d’échantillonnage du noyau, masse. Des valeurs plus basses rendent les sorties plus ciblées. · Répartition: 0 – 1 |
max_tokens | entier | non | 4096 | Jetons de sortie maximum. · Répartition: 1 – 32768 |
stop | Corde | non | - | Jusqu’à 4 chaînes où le modèle cesse de générer d’autres jetons. |
reasoning_effort | enum | non | "medium" | Un effort de raisonnement. aucun n’empêche la pensée; Budgets de réflexion limités par les ensembles faible, moyen, élevé et max. · Autorisé: none, low, medium, high, max |
enable_thinking | Booléen | non | Vrai | Activez le canal de raisonnement du modèle avant la sortie finale. |
thinking_budget | entier | non | 4096 | Maximum de jetons de pensée avant la réponse finale. Si max_tokens est plus faible, le service réserve de la place pour la réponse. · Répartition: 1024 – 32768 |
top_k | entier | non | 20 | Limitez l’échantillonnage aux K premiers jetons candidats lorsqu’ils sont pris en charge. · Plage: 1 – 200 |
min_p | Nombre | non | 0 | Seuil minimal de probabilité pour l’échantillonnage des jetons. · Répartition: 0 – 1 |
presence_penalty | Nombre | non | 0 | Pénalité pour les jetons déjà apparus dans le texte généré. · Portée: -2 – 2 |
frequency_penalty | Nombre | non | 0 | Pénalité basée sur la fréquence d’apparition d’un jeton. · Portée: -2 – 2 |
repetition_penalty | Nombre | non | 1 | Pénalité utilisée par SGLang pour réduire la répétition du texte. · Plage: 0,1 – 2 |
seed | entier | non | - | Seed aléatoire optionnelle pour un échantillonnage reproductible. · Plage: 0 – 2147483647 |
logprobs | Booléen | non | faux | Retournez les probabilités de log de jetons lorsqu’elles sont prises en charge. |
top_logprobs | entier | non | - | Revenez à ce nombre de probabilités de logs de jetons supérieures. · Plage: 0 – 20 |
logit_bias | Objet | non | - | Les identifiants de bias des tokens en ajoutant des valeurs positives ou négatives avant l’échantillonnage. |
tools | Tableau | non | - | Définitions d’outils de fonctions compatibles OpenAI. |
tool_choice | Objet | non | - | Sélection d’outils de fonctions compatibles OpenAI. |
response_format | Objet | non | - | Instructions de sortie JSON structurées. |
stream | Booléen | non | faux | Les deltas de réponse du flux utilisent des événements envoyés par le serveur. |
web_search_linkup | Booléen | non | faux | Recherche web optionnelle propulsée par Linkup. Lorsqu’activées, les sources web récentes sont récupérées en utilisant votre dernier message utilisateur comme requête et fournies au modèle comme contexte supplémentaire. Ajoute un $0.013 fixe par requête en plus du coût normal du jeton du modèle. Désactivé par défaut. |
disable_formatting | Booléen | non | faux | Une fois activée, la passerelle n’ajoutera pas le pied de page « Sources » aux réponses des assistants ayant utilisé la recherche web Linkup. Utile lorsque la sortie du modèle est canalisée vers un autre système qui n’attend aucune décoration. |