Especificações técnicas do Kimi k2.5
| Item | Valor / observações |
|---|---|
| Nome do modelo / fornecedor | Kimi-K2.5 (v1.0) — Moonshot AI (pesos abertos). |
| Família de arquitetura | Modelo de raciocínio híbrido de Mistura de Especialistas (MoE) (MoE estilo DeepSeek). |
| Parâmetros (total / ativos) | ≈ 1 trilhão de parâmetros totais; ~32B ativos por token (384 especialistas, 8 selecionados por token, conforme relatado). |
| Modalidades (entrada / saída) | Entrada: texto, imagens, vídeo (multimodal). Saída: principalmente texto (rastros ricos de raciocínio), opcionalmente chamadas de ferramentas estruturadas / saídas de múltiplas etapas. |
| Janela de contexto | 256k tokens |
| Dados de treinamento | Pré-treinamento contínuo em ~15 trilhões de tokens mistos de visão + texto (segundo o fornecedor). Rótulos de treinamento/composição do conjunto de dados: não divulgados. |
| Modos | Modo de Pensamento (retorna rastros internos de raciocínio; temp=1.0 recomendada) e Modo Instantâneo (sem rastros de raciocínio; temp=0.6 recomendada). |
| Recursos de agente | Agent Swarm / subagentes paralelos: o orquestrador pode criar até ~100 subagentes e executar grande número de chamadas de ferramentas (o fornecedor afirma até ~1.500 chamadas; execução paralela reduz o tempo). |
O que é o Kimi K2.5?
Kimi K2.5 é o modelo de linguagem de pesos abertos carro-chefe da Moonshot AI, projetado como um sistema nativo multimodal e orientado a agentes, em vez de um LLM apenas de texto com componentes adicionais. Ele integra raciocínio de linguagem, compreensão de visão e processamento de longo contexto em uma única arquitetura, habilitando tarefas complexas de múltiplas etapas que envolvem documentos, imagens, vídeos, ferramentas e agentes.
Foi projetado para fluxos de trabalho de longo alcance, com reforço de ferramentas (codificação, busca de múltiplas etapas, compreensão de documentos/vídeos) e vem com dois modos de interação (Thinking e Instant) e quantização INT4 nativa para inferência eficiente.
Recursos principais do Kimi K2.5
- Raciocínio multimodal nativo
Visão e linguagem são treinadas conjuntamente desde o pré-treinamento. O Kimi K2.5 pode raciocinar sobre imagens, capturas de tela, diagramas e quadros de vídeo sem depender de adaptadores de visão externos. - Janela de contexto ultralonga (256K tokens)
Permite raciocínio persistente sobre bases de código inteiras, longos artigos de pesquisa, documentos jurídicos ou conversas prolongadas de várias horas sem truncamento de contexto. - Modelo de execução Agent Swarm
Suporta criação e coordenação dinâmicas de até ~100 subagentes especializados, permitindo planejamento paralelo, uso de ferramentas e decomposição de tarefas para fluxos de trabalho complexos. - Múltiplos modos de inferência
- Modo Instantâneo para respostas de baixa latência
- Modo de Pensamento para raciocínio profundo em múltiplas etapas
- Modo Agente / Swarm para execução autônoma de tarefas e orquestração
- Forte capacidade de visão para código
Capaz de converter mockups de UI, capturas de tela ou demonstrações em vídeo em código front-end funcional, e depurar software usando contexto visual. - Escalonamento MoE eficiente
A arquitetura MoE ativa apenas um subconjunto de especialistas por token, permitindo capacidade de trilhões de parâmetros com custo de inferência administrável em comparação a modelos densos.
Desempenho em benchmarks do Kimi K2.5
Resultados de benchmarks reportados publicamente (principalmente em cenários focados em raciocínio):
Benchmarks de Raciocínio e Conhecimento
| Benchmark | Kimi K2.5 | GPT-5.2 (xhigh) | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| HLE-Full (com ferramentas) | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | 96.1 | 100 | 92.8 | 95.0 |
| GPQA-Diamond | 87.6 | 92.4 | 87.0 | 91.9 |
| IMO-AnswerBench | 81.8 | 86.3 | 78.5 | 83.1 |
Benchmarks de Visão e Vídeo
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVista (Mini) | 90.1 | 82.8* | 80.2* | 89.8* |
| VideoMMMU | 87.4 | 86.0 | — | 88.4 |
Pontuações marcadas com * refletem diferenças nos procedimentos de avaliação relatadas pelas fontes originais.
No geral, o Kimi K2.5 demonstra forte competitividade em raciocínio multimodal, tarefas de longo contexto e fluxos de trabalho no estilo de agentes, especialmente quando avaliado além de perguntas e respostas de formato curto.
Kimi K2.5 vs Outros Modelos de Ponta
| Dimensão | Kimi K2.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| Multimodalidade | Nativa (visão + texto) | Módulos integrados | Módulos integrados |
| Comprimento de contexto | 256K tokens | Longo (limite exato não divulgado) | Longo (<256K típico) |
| Orquestração de agentes | Enxame multiagente | Foco em agente único | Foco em agente único |
| Acesso ao modelo | Pesos abertos | Proprietário | Proprietário |
| Implantação | Local / nuvem / personalizado | Somente API | Somente API |
Orientações de seleção de modelo:
- Escolha Kimi K2.5 para implantação com pesos abertos, pesquisa, raciocínio de longo contexto ou fluxos de trabalho complexos de agentes.
- Escolha GPT-5.2 para inteligência geral de nível de produção com ecossistemas de ferramentas robustos.
- Escolha Gemini 3 Pro para integração profunda com o ecossistema de produtividade e de busca do Google.
Casos de uso representativos
- Análise de documentos e código em larga escala
Processar repositórios inteiros, corpora jurídicos ou arquivos de pesquisa em uma única janela de contexto. - Fluxos de trabalho de engenharia de software visual
Gerar, refatorar ou depurar código usando capturas de tela, designs de UI ou interações gravadas. - Pipelines autônomos de agentes
Executar fluxos de trabalho ponta a ponta envolvendo planejamento, recuperação, chamadas de ferramentas e síntese por meio de enxames de agentes. - Automação de conhecimento empresarial
Analisar documentos internos, planilhas, PDFs e apresentações para produzir relatórios estruturados e insights. - Pesquisa e personalização de modelos
Ajuste fino, pesquisa de alinhamento e experimentação possibilitados por pesos de modelo abertos.
Limitações e Considerações
- Altos requisitos de hardware: A implantação em precisão total requer memória substancial de GPU; o uso em produção normalmente depende de quantização (por exemplo, INT4).
- Maturidade do Agent Swarm: Comportamentos multiagente avançados ainda estão evoluindo e podem exigir projeto cuidadoso de orquestração.
- Complexidade de inferência: O desempenho ideal depende do motor de inferência, da estratégia de quantização e da configuração de roteamento.
Como acessar a API do Kimi k2.5 via CometAPI
Etapa 1: Inscreva-se para obter a chave de API
Faça login em cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro. Acesse seu console CometAPI. Obtenha a chave de API de credenciais de acesso da interface. Clique em “Add Token” no token de API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

Etapa 2: Envie solicitações para a API do Kimi k2.5
Selecione o endpoint “kimi-k2.5” para enviar a solicitação de API e defina o corpo da solicitação. O método de solicitação e o corpo da solicitação são obtidos na nossa documentação de API do site. Nosso site também fornece teste Apifox para sua conveniência. Substitua pela sua chave CometAPI real da sua conta. A URL base é Chat Completions.
Insira sua pergunta ou solicitação no campo de conteúdo — é isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.
Etapa 3: Recuperar e verificar os resultados
Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.