Caractéristiques techniques de Kimi k2.5
| Élément | Valeur / remarques |
|---|---|
| Model name / vendor | Kimi-K2.5 (v1.0) — Moonshot AI (poids ouverts). |
| Architecture family | Modèle de raisonnement hybride Mixture-of-Experts (MoE) (MoE de style DeepSeek). |
| Parameters (total / active) | ≈ 1 trillion de paramètres au total; ~32B actifs par jeton (384 experts, 8 sélectionnés par jeton rapportés). |
| Modalities (input / output) | Entrée : texte, images, vidéo (multimodal). Sortie : principalement du texte (traces de raisonnement riches), éventuellement des appels d’outils structurés / des sorties multi‑étapes. |
| Context window | 256k jetons |
| Training data | Pré‑entraînement continu sur ~15 trillion de jetons mixtes visuels + texte (rapporté par le fournisseur). Étiquettes d’entraînement/composition du jeu de données : non divulguées. |
| Modes | Mode Thinking (renvoie des traces de raisonnement internes ; temp recommandée=1.0) et mode Instant (pas de traces de raisonnement ; temp recommandée=0.6). |
| Agent features | Agent Swarm / sous‑agents parallèles : l’orchestrateur peut engendrer jusqu’à 100 sous‑agents et exécuter un grand nombre d’appels d’outils (le fournisseur revendique jusqu’à ~1,500 appels d’outils ; l’exécution parallèle réduit le temps d’exécution). |
Qu’est‑ce que Kimi K2.5 ?
Kimi K2.5 est le modèle de langue de grande taille phare à poids ouverts de Moonshot AI, conçu comme un système natif multimodal et orienté agents plutôt qu’un LLM texte‑seul agrémenté de modules additionnels. Il intègre le raisonnement linguistique, la compréhension visuelle et le traitement de longs contextes au sein d’une architecture unique, permettant des tâches complexes en plusieurs étapes impliquant des documents, des images, des vidéos, des outils et des agents.
Il est conçu pour des flux de travail de long terme augmentés par des outils (programmation, recherche multi‑étapes, compréhension de documents/vidéos) et est livré avec deux modes d’interaction (Thinking et Instant) ainsi qu’une quantification INT4 native pour une inférence efficace.
Fonctionnalités clés de Kimi K2.5
- Raisonnement multimodal natif
La vision et le langage sont entraînés conjointement dès le pré‑entraînement. Kimi K2.5 peut raisonner sur des images, des captures d’écran, des schémas et des images vidéo sans recourir à des adaptateurs de vision externes. - Fenêtre de contexte ultra‑longue (256K jetons)
Permet un raisonnement persistant sur des bases de code entières, de longs articles de recherche, des documents juridiques ou des conversations multi‑heures étendues sans troncature du contexte. - Modèle d’exécution Agent Swarm
Prend en charge la création et la coordination dynamiques de jusqu’à ~100 sous‑agents spécialisés, permettant la planification parallèle, l’utilisation d’outils et la décomposition des tâches pour des flux de travail complexes. - Multiples modes d’inférence
- Mode Instant pour des réponses à faible latence
- Mode Thinking pour un raisonnement approfondi en plusieurs étapes
- Mode Agent / Swarm pour l’exécution autonome de tâches et l’orchestration
- Solide capacité vision‑vers‑code
Capable de convertir des maquettes UI, des captures d’écran ou des démonstrations vidéo en code front‑end fonctionnel, et de déboguer des logiciels en utilisant le contexte visuel. - Montée en échelle MoE efficace
L’architecture MoE n’active qu’un sous‑ensemble d’experts par jeton, offrant une capacité à l’échelle du trillion de paramètres avec un coût d’inférence maîtrisé comparé aux modèles denses.
Performances sur benchmarks de Kimi K2.5
Résultats de benchmarks publiquement rapportés (principalement dans des contextes axés sur le raisonnement) :
Benchmarks de raisonnement et de connaissances
| Benchmark | Kimi K2.5 | GPT-5.2 (xhigh) | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| HLE-Full (avec outils) | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | 96.1 | 100 | 92.8 | 95.0 |
| GPQA-Diamond | 87.6 | 92.4 | 87.0 | 91.9 |
| IMO-AnswerBench | 81.8 | 86.3 | 78.5 | 83.1 |
Benchmarks vision et vidéo
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVista (Mini) | 90.1 | 82.8* | 80.2* | 89.8* |
| VideoMMMU | 87.4 | 86.0 | — | 88.4 |
Scores marqués avec reflètent des différences dans les configurations d’évaluation rapportées par les sources originales.
Dans l’ensemble, Kimi K2.5 démontre une forte compétitivité en raisonnement multimodal, tâches à long contexte et flux de travail de type agents, en particulier lorsqu’il est évalué au‑delà des questions‑réponses courtes.
Kimi K2.5 vs autres modèles de pointe
| Dimension | Kimi K2.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| Multimodalité | Native (vision + texte) | Modules intégrés | Modules intégrés |
| Longueur de contexte | 256K jetons | Longue (limite exacte non divulguée) | Longue (<256K typique) |
| Orchestration d’agents | Essaim multi‑agents | Focalisation mono‑agent | Focalisation mono‑agent |
| Accès au modèle | Poids ouverts | Propriétaire | Propriétaire |
| Déploiement | Local / cloud / personnalisé | API uniquement | API uniquement |
Guide de sélection du modèle :
- Choisissez Kimi K2.5 pour un déploiement à poids ouverts, la recherche, le raisonnement à long contexte ou des flux de travail d’agents complexes.
- Choisissez GPT-5.2 pour une intelligence générale de niveau production avec de solides écosystèmes d’outils.
- Choisissez Gemini 3 Pro pour une intégration poussée avec la suite de productivité et l’écosystème de recherche de Google.
Cas d’usage représentatifs
- Analyse de documents et de code à grande échelle
Traiter des dépôts entiers, des corpus juridiques ou des archives de recherche dans une seule fenêtre de contexte. - Flux de travail d’ingénierie logicielle visuels
Générer, refactorer ou déboguer du code à partir de captures d’écran, de conceptions d’interface utilisateur ou d’enregistrements d’interactions. - Pipelines d’agents autonomes
Exécuter des flux de travail de bout en bout impliquant planification, récupération, appels d’outils et synthèse via des essaims d’agents. - Automatisation des connaissances en entreprise
Analyser des documents internes, des feuilles de calcul, des PDF et des présentations afin de produire des rapports et des informations structurés. - Recherche et personnalisation du modèle
Le fine‑tuning, la recherche en alignement et l’expérimentation sont rendus possibles par des poids de modèle ouverts.
Limites et considérations
- Exigences matérielles élevées : le déploiement en pleine précision nécessite une mémoire GPU substantielle ; l’usage en production repose généralement sur la quantification (p. ex., INT4).
- Maturité d’Agent Swarm : les comportements multi‑agents avancés sont encore en évolution et peuvent nécessiter une conception d’orchestration soignée.
- Complexité de l’inférence : les performances optimales dépendent du moteur d’inférence, de la stratégie de quantification et de la configuration de routage.
Comment accéder à l’API Kimi k2.5 via CometAPI
Étape 1 : s’inscrire pour obtenir une clé API
Connectez‑vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez‑vous à votre console CometAPI. Obtenez la clé API d’authentification de l’interface. Cliquez sur « Add Token » à l’entrée du jeton API dans le centre personnel, récupérez la clé de jeton : sk-xxxxx et soumettez.

Étape 2 : envoyer des requêtes à l’API Kimi k2.5
Sélectionnez l’endpoint « kimi-k2.5 » pour envoyer la requête API et définir le corps de la requête. La méthode et le corps de la requête sont obtenus à partir de la documentation API de notre site Web. Notre site propose également des tests Apifox pour votre convenance. Remplacez par votre clé CometAPI réelle depuis votre compte. L’URL de base est Chat Completions.
Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.
Étape 3 : récupérer et vérifier les résultats
Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec l’état de la tâche et les données de sortie.