Le modèle « Kimi K2 Thinking » est une nouvelle variante d'agent de raisonnement développée par Moonshot AI (Pékin). Il appartient à la famille plus large des modèles de langage « Kimi K2 », mais est spécifiquement optimisé pour thinking— à savoir, le raisonnement à long terme, l'utilisation d'outils, la planification et l'inférence en plusieurs étapes. Les versions sont kimi-k2-thinking-turbo et kimi-k2-thinking.
Caractéristiques de base
- Paramétrisation à grande échelleKimi K2 Thinking s'appuie sur la série K2, qui utilise une architecture de type « mix-of-experts » (MoE) avec environ 1 billion (1 T) de paramètres au total Et à propos 32 milliards (32 G) de paramètres activés au moment de l'inférence.
- Longueur du contexte et utilisation des outilsLe modèle prend en charge des fenêtres de contexte très longues (les rapports indiquent jusqu'à 256 000 jetons) et est conçu pour effectuer des appels d'outils séquentiels (jusqu'à 200-300) sans intervention humaine.
- Comportement agentifIl est conçu pour être un « agent » plutôt qu'un simple LLM conversationnel — ce qui signifie qu'il peut planifier, appeler des outils externes (recherche, exécution de code, récupération Web), conserver des traces de raisonnement et orchestrer des flux de travail complexes.
- Poids libre et permisLe modèle est commercialisé sous une licence. licence MIT modifiée, qui autorise l'utilisation commerciale/dérivée mais inclut une clause d'attribution pour les déploiements à grande échelle.
Détails techniques
Archi
- Squelette MoE (Mélange d'Experts).
- Nombre total de paramètres : ≈ 1 billion. Nombre de paramètres actifs par inférence : ≈ 32 milliards.
- Nombre d'experts : ~384, sélectionnés par jeton : ~8.
- Vocabulaire et contexte : Taille du vocabulaire : environ 160 000 mots, fenêtres de contexte jusqu’aux 256 000 derniers jetons.
Formation / optimisation :
- Pré-entraîné sur environ 15.5 billions de jetons.
- Optimiseur utilisé : « Muon » ou une variante (MuonClip) pour remédier à l’instabilité de l’entraînement à grande échelle.
- Post-formation / mise au point : Multi-étapes, incluant la synthèse de données agentiques, l'apprentissage par renforcement et la formation aux appels d'outils.
Inférence et utilisation des outils :
- Prend en charge des centaines d'appels d'outils séquentiels, permettant des flux de travail de raisonnement enchaînés.
- Affirmations concernant l'inférence quantifiée native INT4 pour réduire l'utilisation de la mémoire et la latence sans perte importante de précision, la mise à l'échelle au moment du test et les fenêtres de contexte étendues.
Performances de référence
points de référence: Les chiffres publiés par Moonshot montrent d'excellents résultats sur les suites de raisonnement et d'agentivité : par exemple 44.9 % à l'examen final de l'humanité (HLE) avec des outils, 60.2 % sur BrowseComp, et d'excellentes notes sur des suites de domaines telles que SWE-Bench / Vérifié par SWE-Bench et AIME25 (mathématiques).

Limites et risques
- Calcul et déploiement : malgré l'équivalence d'activation 32B, coûts opérationnels et ingénierie héberger Thinking de manière fiable (contextes longs, orchestration d'outils, pipelines de quantification) reste non trivial. Matériel Les exigences (mémoire GPU, temps d'exécution optimisés) et l'ingénierie d'inférence sont des contraintes réelles.
- Risques comportementaux : comme d'autres LLM, Kimi K2 Thinking peut halluciner les faits, refléter les biais des ensembles de donnéesou produire du contenu non sécurisé sans garde-fous appropriés. Son autonomie d'agent (appels d'outils automatisés en plusieurs étapes) accroît l'importance de la sécurité dès la conception: un contrôle strict des autorisations des outils, des vérifications en temps réel et des politiques d'intervention humaine sont recommandés.
- Modèles comparatifs de bord et modèles fermésBien que le modèle égale ou surpasse de nombreuses références, dans certains domaines ou configurations en « mode lourd », les modèles fermés peuvent encore conserver des avantages.
Comparaison avec d'autres modèles
- Comparé à GPT-5 et Claude Sonnet 4.5 : Kimi K2 Thinking revendique des scores supérieurs sur certains benchmarks majeurs (par exemple, la recherche agentique, le raisonnement) malgré le fait qu'il soit à poids ouvert.
- Comparé aux modèles open-source précédents : il surpasse les modèles open-source antérieurs tels que MiniMax‑M2 et autres en termes de métriques de raisonnement agentiel et de capacité d’appel d’outils.
- Distinction architecturale : Modèle d’Equivalence clairsemé avec un nombre élevé de paramètres actifs par rapport à de nombreux modèles denses ou à des systèmes à plus petite échelle ; accent mis sur le raisonnement à long terme, la chaîne de pensée et l’orchestration multi-outils plutôt que sur la simple génération de texte.
- Avantage en termes de coûts et de licences : une licence ouverte et plus permissive (avec clause d’attribution) offre des économies potentielles par rapport aux API fermées, même si les coûts d’infrastructure demeurent.
Cas d'usage
Kimi K2 Thinking est particulièrement adapté aux scénarios nécessitant :
- Flux de travail de raisonnement à long terme: par exemple, la planification, la résolution de problèmes en plusieurs étapes, les analyses de projets.
- Orchestration d'outils agents: Recherche web + exécution de code + récupération de données + rédaction de résumés dans un seul flux de travail.
- Tâches de codage, de mathématiques et techniquesCompte tenu de ses performances de référence sur LiveCodeBench, SWE-Bench, etc., il est un bon candidat pour l'assistance aux développeurs, la génération de code et l'analyse automatisée des données.
- Flux de travail d'automatisation d'entreprise: Lorsque plusieurs outils doivent être enchaînés (par exemple, récupérer des données → analyser → rédiger un rapport → alerter) avec une intervention humaine minimale.
- Projets de recherche et de logiciels libresCompte tenu du poids ouvert, un déploiement académique ou de recherche est envisageable pour l'expérimentation et la mise au point.
Comment appeler l'API Kimi K2 Thinking depuis CometAPI
Kimi K2 Thinking Tarification de l'API dans CometAPI, 20 % de réduction sur le prix officiel :
| Modèle | Jetons d'entrée | Jetons de sortie |
|---|---|---|
| kimi-k2-penser-turbo | $2.20 | $15.95 |
| kimi-k2-pensée | $1.10 | $4.40 |
Étapes requises
- Se connecter à cometapi.comSi vous n'êtes pas encore notre utilisateur, veuillez d'abord vous inscrire.
- Connectez-vous à votre Console CometAPI.
- Obtenez la clé API d'accès à l'interface. Cliquez sur « Ajouter un jeton » au niveau du jeton API dans l'espace personnel, récupérez la clé : sk-xxxxx et validez.

Utiliser la méthode
- Sélectionnez le point de terminaison « kimi-k2-thinking-turbo, kimi-k2-thinking » pour envoyer la requête API et définissez le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site web. Des tests Apifox sont également disponibles sur notre site web.
- Remplacer avec votre clé CometAPI réelle de votre compte.
- Insérez votre question ou demande dans le champ de contenu : c'est à cela que le modèle répondra.
- Traitez la réponse de l'API pour obtenir la réponse générée.
CometAPI fournit une API REST entièrement compatible, pour une migration fluide. Informations clés API doc:
- URL de base : https://api.cometapi.com/v1/chat/completions
- Noms de modèle: kimi-k2-thinking-turbo, kimi-k2-thinking
- Authentification:
Bearer YOUR_CometAPI_API_KEYentête - Content-Type:
application/json.
