Spécifications techniques de Kimi k2.5
| Élément | Valeur / notes |
|---|---|
| Nom du modèle / fournisseur | Kimi-K2.5 (v1.0) — Moonshot AI (poids ouverts). |
| Famille d’architecture | Modèle de raisonnement hybride Mixture-of-Experts (MoE) (MoE de style DeepSeek). |
| Paramètres (total / actifs) | ≈ 1 000 milliards de paramètres au total ; ~32 milliards actifs par jeton (384 experts, 8 sélectionnés par jeton rapportés). |
| Modalités (entrée / sortie) | Entrée : texte, images, vidéo (multimodal). Sortie : principalement du texte (traces de raisonnement riches), éventuellement des appels d’outils structurés / des sorties multi-étapes. |
| Fenêtre de contexte | 256k jetons |
| Données d’entraînement | Pré-entraînement continu sur ~15 000 milliards de jetons mixtes visuels + texte (d’après le fournisseur). Étiquettes d’entraînement/composition du jeu de données : non divulguées. |
| Modes | Mode Thinking (renvoie des traces de raisonnement internes ; temp=1.0 recommandé) et mode Instant (sans traces de raisonnement ; temp=0.6 recommandé). |
| Fonctionnalités d’agent | Agent Swarm / sous-agents parallèles : l’orchestrateur peut lancer jusqu’à 100 sous-agents et exécuter un grand nombre d’appels d’outils (le fournisseur revendique jusqu’à ~1 500 appels d’outils ; l’exécution parallèle réduit le temps d’exécution). |
Qu’est-ce que Kimi K2.5 ?
Kimi K2.5 est le modèle phare à poids ouverts de Moonshot AI, conçu comme un système natif multimodal et orienté agents plutôt qu’un LLM textuel avec des composants additionnels. Il intègre le raisonnement linguistique, la compréhension visuelle et le traitement de longs contextes dans une seule architecture, permettant des tâches complexes en plusieurs étapes impliquant des documents, des images, des vidéos, des outils et des agents.
Il est conçu pour des workflows de longue haleine augmentés par des outils (codage, recherche en plusieurs étapes, compréhension de documents/vidéos) et propose deux modes d’interaction (Thinking et Instant) ainsi qu’une quantification INT4 native pour une inférence efficace.
Fonctionnalités clés de Kimi K2.5
- Raisonnement multimodal natif
La vision et le langage sont entraînés conjointement dès le pré-entraînement. Kimi K2.5 peut raisonner sur des images, des captures d’écran, des schémas et des images vidéo sans recourir à des adaptateurs de vision externes. - Fenêtre de contexte ultra-longue (256K jetons)
Permet un raisonnement persistant sur des bases de code entières, de longs articles de recherche, des documents juridiques ou des conversations prolongées de plusieurs heures sans troncature du contexte. - Modèle d’exécution Agent Swarm
Prend en charge la création et la coordination dynamiques de jusqu’à ~100 sous-agents spécialisés, permettant la planification en parallèle, l’utilisation d’outils et la décomposition des tâches pour des workflows complexes. - Multiples modes d’inférence
- Instant mode pour des réponses à faible latence
- Thinking mode pour un raisonnement profond en plusieurs étapes
- Agent / Swarm mode pour l’exécution et l’orchestration autonomes de tâches
- Solide capacité vision‑vers‑code
Capable de convertir des maquettes d’interface, des captures d’écran ou des démonstrations vidéo en code front-end fonctionnel, et de déboguer des logiciels à l’aide de contexte visuel. - Mise à l’échelle MoE efficace
L’architecture MoE n’active qu’un sous-ensemble d’experts par jeton, offrant une capacité à l’échelle du billion de paramètres avec un coût d’inférence maîtrisé par rapport aux modèles denses.
Performances de référence de Kimi K2.5
Résultats de benchmarks publiés (principalement dans des contextes axés sur le raisonnement) :
Benchmarks de raisonnement et de connaissances
| Benchmark | Kimi K2.5 | GPT-5.2 (xhigh) | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| HLE-Full (avec outils) | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | 96.1 | 100 | 92.8 | 95.0 |
| GPQA-Diamond | 87.6 | 92.4 | 87.0 | 91.9 |
| IMO-AnswerBench | 81.8 | 86.3 | 78.5 | 83.1 |
Benchmarks de vision et vidéo
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVista (Mini) | 90.1 | 82.8* | 80.2* | 89.8* |
| VideoMMMU | 87.4 | 86.0 | — | 88.4 |
Les scores marqués d’un astérisque reflètent des différences de configurations d’évaluation rapportées par les sources originales.
Globalement, Kimi K2.5 montre une forte compétitivité en raisonnement multimodal, tâches à long contexte et workflows de type agent, en particulier lorsqu’il est évalué au-delà des questions-réponses courtes.
Kimi K2.5 par rapport aux autres modèles de pointe
| Dimension | Kimi K2.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| Multimodalité | Native (vision + texte) | Modules intégrés | Modules intégrés |
| Longueur de contexte | 256K jetons | Longue (limite exacte non divulguée) | Longue (<256K typique) |
| Orchestration d’agents | Nuée multi‑agents | Axé sur un agent unique | Axé sur un agent unique |
| Accès au modèle | Poids ouverts | Propriétaire | Propriétaire |
| Déploiement | Local / cloud / personnalisé | API uniquement | API uniquement |
Conseils de sélection de modèle :
- Choisir Kimi K2.5 pour le déploiement à poids ouverts, la recherche, le raisonnement sur longs contextes ou des workflows d’agents complexes.
- Choisir GPT-5.2 pour une intelligence générale de niveau production avec de solides écosystèmes d’outils.
- Choisir Gemini 3 Pro pour une intégration poussée avec la suite de productivité et de recherche de Google.
Cas d’utilisation représentatifs
- Analyse de documents et de code à grande échelle
Traiter des dépôts entiers, des corpus juridiques ou des archives de recherche dans une seule fenêtre de contexte. - Workflows d’ingénierie logicielle visuelle
Générer, remanier ou déboguer du code à partir de captures d’écran, de conceptions d’interface ou d’interactions enregistrées. - Pipelines d’agents autonomes
Exécuter des workflows de bout en bout impliquant planification, récupération, appels d’outils et synthèse via des nuées d’agents. - Automatisation des connaissances en entreprise
Analyser des documents internes, des feuilles de calcul, des PDF et des présentations pour produire des rapports structurés et des insights. - Recherche et personnalisation de modèles
Fine-tuning, recherche d’alignement et expérimentation rendus possibles par les poids ouverts du modèle.
Limitations et considérations
- Exigences matérielles élevées : Le déploiement en pleine précision requiert une mémoire GPU substantielle ; l’usage en production repose généralement sur la quantification (par ex., INT4).
- Maturité d’Agent Swarm : Les comportements multi-agents avancés évoluent encore et peuvent nécessiter une conception d’orchestration soignée.
- Complexité d’inférence : Les performances optimales dépendent du moteur d’inférence, de la stratégie de quantification et de la configuration de routage.
Comment accéder à l’API Kimi k2.5 via CometAPI
Étape 1 : Inscrivez-vous pour obtenir une clé API
Connectez-vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez-vous à votre console CometAPI. Obtenez la clé API d’identification d’accès de l’interface. Cliquez sur « Add Token » dans la section API token du centre personnel, récupérez la clé de jeton : sk-xxxxx et validez.

Étape 2 : Envoyez des requêtes à l’API Kimi k2.5
Sélectionnez le point de terminaison « kimi-k2.5 » pour envoyer la requête API et définissez le corps de requête. La méthode et le corps de requête sont disponibles dans la documentation API de notre site. Notre site fournit également des tests Apifox pour votre commodité. Remplacez par votre clé CometAPI réelle depuis votre compte. L’URL de base est Chat Completions.
Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.
Étape 3 : Récupérez et vérifiez les résultats
Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API renvoie l’état de la tâche et les données de sortie.