Home/Models/Moonshot AI/Kimi K2.5
M

Kimi K2.5

Entrée:$0.48/M
Sortie:$2.4/M
Kimi K2.5 est le modèle le plus intelligent de Kimi à ce jour, atteignant des performances SoTA open source en Agent, en code, en compréhension visuelle, ainsi que sur un éventail de tâches d'intelligence générale. Kimi K2.5 est également le modèle le plus polyvalent de Kimi à ce jour, doté d’une architecture multimodale native qui prend en charge à la fois les entrées visuelles et textuelles, les modes avec raisonnement et sans raisonnement, ainsi que les tâches de dialogue et d’Agent.
Nouveau
Usage commercial
Playground
Aperçu
Fonctionnalités
Tarification
API

Caractéristiques techniques de Kimi k2.5

ÉlémentValeur / remarques
Model name / vendorKimi-K2.5 (v1.0) — Moonshot AI (poids ouverts).
Architecture familyModèle de raisonnement hybride Mixture-of-Experts (MoE) (MoE de style DeepSeek).
Parameters (total / active)≈ 1 trillion de paramètres au total; ~32B actifs par jeton (384 experts, 8 sélectionnés par jeton rapportés).
Modalities (input / output)Entrée : texte, images, vidéo (multimodal). Sortie : principalement du texte (traces de raisonnement riches), éventuellement des appels d’outils structurés / des sorties multi‑étapes.
Context window256k jetons
Training dataPré‑entraînement continu sur ~15 trillion de jetons mixtes visuels + texte (rapporté par le fournisseur). Étiquettes d’entraînement/composition du jeu de données : non divulguées.
ModesMode Thinking (renvoie des traces de raisonnement internes ; temp recommandée=1.0) et mode Instant (pas de traces de raisonnement ; temp recommandée=0.6).
Agent featuresAgent Swarm / sous‑agents parallèles : l’orchestrateur peut engendrer jusqu’à 100 sous‑agents et exécuter un grand nombre d’appels d’outils (le fournisseur revendique jusqu’à ~1,500 appels d’outils ; l’exécution parallèle réduit le temps d’exécution).

Qu’est‑ce que Kimi K2.5 ?

Kimi K2.5 est le modèle de langue de grande taille phare à poids ouverts de Moonshot AI, conçu comme un système natif multimodal et orienté agents plutôt qu’un LLM texte‑seul agrémenté de modules additionnels. Il intègre le raisonnement linguistique, la compréhension visuelle et le traitement de longs contextes au sein d’une architecture unique, permettant des tâches complexes en plusieurs étapes impliquant des documents, des images, des vidéos, des outils et des agents.

Il est conçu pour des flux de travail de long terme augmentés par des outils (programmation, recherche multi‑étapes, compréhension de documents/vidéos) et est livré avec deux modes d’interaction (Thinking et Instant) ainsi qu’une quantification INT4 native pour une inférence efficace.


Fonctionnalités clés de Kimi K2.5

  1. Raisonnement multimodal natif
    La vision et le langage sont entraînés conjointement dès le pré‑entraînement. Kimi K2.5 peut raisonner sur des images, des captures d’écran, des schémas et des images vidéo sans recourir à des adaptateurs de vision externes.
  2. Fenêtre de contexte ultra‑longue (256K jetons)
    Permet un raisonnement persistant sur des bases de code entières, de longs articles de recherche, des documents juridiques ou des conversations multi‑heures étendues sans troncature du contexte.
  3. Modèle d’exécution Agent Swarm
    Prend en charge la création et la coordination dynamiques de jusqu’à ~100 sous‑agents spécialisés, permettant la planification parallèle, l’utilisation d’outils et la décomposition des tâches pour des flux de travail complexes.
  4. Multiples modes d’inférence
    • Mode Instant pour des réponses à faible latence
    • Mode Thinking pour un raisonnement approfondi en plusieurs étapes
    • Mode Agent / Swarm pour l’exécution autonome de tâches et l’orchestration
  5. Solide capacité vision‑vers‑code
    Capable de convertir des maquettes UI, des captures d’écran ou des démonstrations vidéo en code front‑end fonctionnel, et de déboguer des logiciels en utilisant le contexte visuel.
  6. Montée en échelle MoE efficace
    L’architecture MoE n’active qu’un sous‑ensemble d’experts par jeton, offrant une capacité à l’échelle du trillion de paramètres avec un coût d’inférence maîtrisé comparé aux modèles denses.

Performances sur benchmarks de Kimi K2.5

Résultats de benchmarks publiquement rapportés (principalement dans des contextes axés sur le raisonnement) :

Benchmarks de raisonnement et de connaissances

BenchmarkKimi K2.5GPT-5.2 (xhigh)Claude Opus 4.5Gemini 3 Pro
HLE-Full (avec outils)50.245.543.245.8
AIME 202596.110092.895.0
GPQA-Diamond87.692.487.091.9
IMO-AnswerBench81.886.378.583.1

Benchmarks vision et vidéo

BenchmarkKimi K2.5GPT-5.2Claude Opus 4.5Gemini 3 Pro
MMMU-Pro78.579.5*74.081.0
MathVista (Mini)90.182.8*80.2*89.8*
VideoMMMU87.486.0—88.4

Scores marqués avec reflètent des différences dans les configurations d’évaluation rapportées par les sources originales.

Dans l’ensemble, Kimi K2.5 démontre une forte compétitivité en raisonnement multimodal, tâches à long contexte et flux de travail de type agents, en particulier lorsqu’il est évalué au‑delà des questions‑réponses courtes.


Kimi K2.5 vs autres modèles de pointe

DimensionKimi K2.5GPT-5.2Gemini 3 Pro
MultimodalitéNative (vision + texte)Modules intégrésModules intégrés
Longueur de contexte256K jetonsLongue (limite exacte non divulguée)Longue (<256K typique)
Orchestration d’agentsEssaim multi‑agentsFocalisation mono‑agentFocalisation mono‑agent
Accès au modèlePoids ouvertsPropriétairePropriétaire
DéploiementLocal / cloud / personnaliséAPI uniquementAPI uniquement

Guide de sélection du modèle :

  • Choisissez Kimi K2.5 pour un déploiement à poids ouverts, la recherche, le raisonnement à long contexte ou des flux de travail d’agents complexes.
  • Choisissez GPT-5.2 pour une intelligence générale de niveau production avec de solides écosystèmes d’outils.
  • Choisissez Gemini 3 Pro pour une intégration poussée avec la suite de productivité et l’écosystème de recherche de Google.

Cas d’usage représentatifs

  1. Analyse de documents et de code à grande échelle
    Traiter des dépôts entiers, des corpus juridiques ou des archives de recherche dans une seule fenêtre de contexte.
  2. Flux de travail d’ingénierie logicielle visuels
    Générer, refactorer ou déboguer du code à partir de captures d’écran, de conceptions d’interface utilisateur ou d’enregistrements d’interactions.
  3. Pipelines d’agents autonomes
    Exécuter des flux de travail de bout en bout impliquant planification, récupération, appels d’outils et synthèse via des essaims d’agents.
  4. Automatisation des connaissances en entreprise
    Analyser des documents internes, des feuilles de calcul, des PDF et des présentations afin de produire des rapports et des informations structurés.
  5. Recherche et personnalisation du modèle
    Le fine‑tuning, la recherche en alignement et l’expérimentation sont rendus possibles par des poids de modèle ouverts.

Limites et considérations

  • Exigences matérielles élevées : le déploiement en pleine précision nécessite une mémoire GPU substantielle ; l’usage en production repose généralement sur la quantification (p. ex., INT4).
  • Maturité d’Agent Swarm : les comportements multi‑agents avancés sont encore en évolution et peuvent nécessiter une conception d’orchestration soignée.
  • Complexité de l’inférence : les performances optimales dépendent du moteur d’inférence, de la stratégie de quantification et de la configuration de routage.

Comment accéder à l’API Kimi k2.5 via CometAPI

Étape 1 : s’inscrire pour obtenir une clé API

Connectez‑vous à cometapi.com. Si vous n’êtes pas encore utilisateur, veuillez d’abord vous inscrire. Connectez‑vous à votre console CometAPI. Obtenez la clé API d’authentification de l’interface. Cliquez sur « Add Token » à l’entrée du jeton API dans le centre personnel, récupérez la clé de jeton : sk-xxxxx et soumettez.

cometapi-key

Étape 2 : envoyer des requêtes à l’API Kimi k2.5

Sélectionnez l’endpoint « kimi-k2.5 » pour envoyer la requête API et définir le corps de la requête. La méthode et le corps de la requête sont obtenus à partir de la documentation API de notre site Web. Notre site propose également des tests Apifox pour votre convenance. Remplacez par votre clé CometAPI réelle depuis votre compte. L’URL de base est Chat Completions.

Insérez votre question ou votre demande dans le champ content — c’est à cela que le modèle répondra. Traitez la réponse de l’API pour obtenir la réponse générée.

Étape 3 : récupérer et vérifier les résultats

Traitez la réponse de l’API pour obtenir la réponse générée. Après traitement, l’API répond avec l’état de la tâche et les données de sortie.

FAQ

Combien de paramètres Kimi K2.5 possède-t-il, et quelle architecture utilise-t-il ?

Kimi K2.5 utilise une architecture Mixture-of-Experts (MoE) avec un total d’environ 1 billion de paramètres, dont environ 32 milliards sont actifs par token pendant l’inférence. :contentReference[oaicite:1]{index=1}

Quels types d’entrée Kimi K2.5 peut-il traiter ?

Kimi K2.5 est un modèle multimodal natif qui traite à la fois le langage et les entrées visuelles (images et vidéo) sans modules additionnels, en utilisant son encodeur de vision MoonViT intégré. :contentReference[oaicite:2]{index=2}

Quelle est la taille de la fenêtre de contexte de Kimi K2.5 et pourquoi est-ce important ?

Kimi K2.5 prend en charge une fenêtre de contexte étendue allant jusqu’à 256 000 tokens, ce qui lui permet de conserver le contexte sur de grands documents, des bases de code étendues ou de longues conversations. :contentReference[oaicite:3]{index=3}

Quels sont les principaux modes de fonctionnement de Kimi K2.5 ?

Le modèle prend en charge plusieurs modes, notamment Instant (réponses rapides), Thinking (raisonnement approfondi) et les modes Agent/Agent Swarm pour orchestrer des tâches complexes en plusieurs étapes. :contentReference[oaicite:4]{index=4}

Comment la fonctionnalité Agent Swarm améliore-t-elle les performances ?

Agent Swarm permet à Kimi K2.5 de générer dynamiquement et de coordonner jusqu’à environ 100 sous-agents spécialisés afin de travailler en parallèle sur des objectifs complexes, réduisant ainsi le temps d’exécution global dans les flux de travail en plusieurs étapes. :contentReference[oaicite:5]{index=5}

Kimi K2.5 est-il adapté aux tâches de programmation impliquant des spécifications visuelles ?

Oui — Kimi K2.5 peut générer ou déboguer du code à partir d’entrées visuelles telles que des maquettes d’interface utilisateur ou des captures d’écran, car son raisonnement visuel et linguistique est intégré au cœur du modèle. :contentReference[oaicite:6]{index=6}

Quelles sont les limites pratiques à prendre en compte avec Kimi K2.5 ?

En raison de sa taille (1T paramètres), un déploiement local avec les poids complets nécessite un matériel considérable (des centaines de Go de RAM/VRAM), et ses capacités les plus avancées (comme Agent Swarm) peuvent être expérimentales ou en version bêta. :contentReference[oaicite:7]{index=7}

Fonctionnalités pour Kimi K2.5

Découvrez les fonctionnalités clés de Kimi K2.5, conçues pour améliorer les performances et la facilité d'utilisation. Explorez comment ces capacités peuvent bénéficier à vos projets et améliorer l'expérience utilisateur.

Tarification pour Kimi K2.5

Découvrez des tarifs compétitifs pour Kimi K2.5, conçus pour s'adapter à différents budgets et besoins d'utilisation. Nos formules flexibles garantissent que vous ne payez que ce que vous utilisez, ce qui facilite l'adaptation à mesure que vos besoins évoluent. Découvrez comment Kimi K2.5 peut améliorer vos projets tout en maîtrisant les coûts.
Prix de Comet (USD / M Tokens)Prix officiel (USD / M Tokens)Remise
Entrée:$0.48/M
Sortie:$2.4/M
Entrée:$0.6/M
Sortie:$3/M
-20%

Exemple de code et API pour Kimi K2.5

Accédez à des exemples de code complets et aux ressources API pour Kimi K2.5 afin de simplifier votre processus d'intégration. Notre documentation détaillée fournit des instructions étape par étape pour vous aider à exploiter tout le potentiel de Kimi K2.5 dans vos projets.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Plus de modèles