Especificações técnicas do Kimi k2.5
| Item | Valor / observações |
|---|---|
| Nome do modelo / fornecedor | Kimi-K2.5 (v1.0) — Moonshot AI (pesos abertos). |
| Família de arquitetura | Modelo híbrido de raciocínio Mixture-of-Experts (MoE) (MoE no estilo DeepSeek). |
| Parâmetros (total / ativos) | ≈ 1 trilhão de parâmetros no total; ~32B ativos por token (384 especialistas, 8 selecionados por token, segundo informações reportadas). |
| Modalidades (entrada / saída) | Entrada: texto, imagens, vídeo (multimodal). Saída: principalmente texto (rastros de raciocínio ricos), opcionalmente chamadas de ferramenta estruturadas / saídas em múltiplas etapas. |
| Janela de contexto | 256k tokens |
| Dados de treinamento | Pré-treinamento contínuo com ~15 trilhões de tokens mistos de conteúdo visual + texto (segundo o fornecedor). Rótulos de treinamento/composição do conjunto de dados: não divulgados. |
| Modos | Modo Thinking (retorna rastros internos de raciocínio; temp recomendada=1.0) e modo Instant (sem rastros de raciocínio; temp recomendada=0.6). |
| Recursos de agente | Agent Swarm / subagentes paralelos: o orquestrador pode gerar até 100 subagentes e executar grandes quantidades de chamadas de ferramentas (o fornecedor afirma até ~1.500 chamadas; a execução paralela reduz o tempo de execução). |
O que é o Kimi K2.5?
Kimi K2.5 é o principal modelo de linguagem de grande porte de pesos abertos da Moonshot AI, projetado como um sistema nativamente multimodal e orientado a agentes em vez de um LLM apenas de texto com componentes adicionais. Ele integra raciocínio linguístico, compreensão visual e processamento de contexto longo em uma única arquitetura, possibilitando tarefas complexas de múltiplas etapas que envolvem documentos, imagens, vídeos, ferramentas e agentes.
Ele foi projetado para fluxos de trabalho de longo horizonte e ampliados por ferramentas (codificação, busca em múltiplas etapas, compreensão de documentos/vídeos) e vem com dois modos de interação (Thinking e Instant) e quantização INT4 nativa para inferência eficiente.
Recursos principais do Kimi K2.5
- Raciocínio multimodal nativo
Visão e linguagem são treinadas conjuntamente desde o pré-treinamento. O Kimi K2.5 pode raciocinar sobre imagens, capturas de tela, diagramas e quadros de vídeo sem depender de adaptadores de visão externos. - Janela de contexto ultralonga (256K tokens)
Permite raciocínio persistente sobre bases de código inteiras, artigos científicos longos, documentos jurídicos ou conversas estendidas de várias horas sem truncamento de contexto. - Modelo de execução Agent Swarm
Suporta criação e coordenação dinâmicas de até ~100 subagentes especializados, permitindo planejamento paralelo, uso de ferramentas e decomposição de tarefas para fluxos de trabalho complexos. - Múltiplos modos de inferência
- Modo Instant para respostas de baixa latência
- Modo Thinking para raciocínio profundo em múltiplas etapas
- Modo Agent / Swarm para execução e orquestração autônomas de tarefas
- Forte capacidade de visão para código
Capaz de converter mockups de interface, capturas de tela ou demonstrações em vídeo em código front-end funcional e depurar software usando contexto visual. - Escalonamento MoE eficiente
A arquitetura MoE ativa apenas um subconjunto de especialistas por token, permitindo capacidade de trilhão de parâmetros com custo de inferência administrável em comparação com modelos densos.
Desempenho em benchmarks do Kimi K2.5
Resultados de benchmarks divulgados publicamente (principalmente em cenários focados em raciocínio):
Benchmarks de raciocínio e conhecimento
| Benchmark | Kimi K2.5 | GPT-5.2 (xhigh) | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| HLE-Full (com ferramentas) | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | 96.1 | 100 | 92.8 | 95.0 |
| GPQA-Diamond | 87.6 | 92.4 | 87.0 | 91.9 |
| IMO-AnswerBench | 81.8 | 86.3 | 78.5 | 83.1 |
Benchmarks de visão e vídeo
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVista (Mini) | 90.1 | 82.8* | 80.2* | 89.8* |
| VideoMMMU | 87.4 | 86.0 | — | 88.4 |
As pontuações marcadas com refletem diferenças nas configurações de avaliação reportadas pelas fontes originais.
No geral, o Kimi K2.5 demonstra forte competitividade em raciocínio multimodal, tarefas de contexto longo e fluxos de trabalho no estilo de agentes, especialmente quando avaliado além de QA de formato curto.
Kimi K2.5 vs. outros modelos de fronteira
| Dimensão | Kimi K2.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| Multimodalidade | Nativa (visão + texto) | Módulos integrados | Módulos integrados |
| Comprimento de contexto | 256K tokens | Longo (limite exato não divulgado) | Longo (<256K típico) |
| Orquestração de agentes | Enxame multiagente | Foco em agente único | Foco em agente único |
| Acesso ao modelo | Pesos abertos | Proprietário | Proprietário |
| Implantação | Local / nuvem / personalizada | Apenas API | Apenas API |
Orientação para seleção de modelo:
- Escolha Kimi K2.5 para implantação com pesos abertos, pesquisa, raciocínio de contexto longo ou fluxos de trabalho complexos com agentes.
- Escolha GPT-5.2 para inteligência geral de nível de produção com ecossistemas de ferramentas robustos.
- Escolha Gemini 3 Pro para integração profunda com a pilha de produtividade e busca do Google.
Casos de uso representativos
- Análise em larga escala de documentos e código
Processe repositórios inteiros, corpora jurídicos ou arquivos de pesquisa em uma única janela de contexto. - Fluxos de trabalho de engenharia de software visual
Gere, refatore ou depure código usando capturas de tela, designs de interface ou interações gravadas. - Pipelines autônomos de agentes
Execute fluxos de trabalho de ponta a ponta envolvendo planejamento, recuperação, chamadas de ferramentas e síntese por meio de enxames de agentes. - Automação do conhecimento empresarial
Analise documentos internos, planilhas, PDFs e apresentações para produzir relatórios e insights estruturados. - Pesquisa e personalização do modelo
Fine-tuning, pesquisa de alinhamento e experimentação habilitados por pesos de modelo abertos.
Limitações e considerações
- Altos requisitos de hardware: A implantação em precisão total exige memória GPU substancial; o uso em produção normalmente depende de quantização (por exemplo, INT4).
- Maturidade do Agent Swarm: Comportamentos multiagente avançados ainda estão evoluindo e podem exigir um projeto cuidadoso de orquestração.
- Complexidade de inferência: O desempenho ideal depende do mecanismo de inferência, da estratégia de quantização e da configuração de roteamento.
Como acessar a API do Kimi k2.5 via CometAPI
Etapa 1: Cadastre-se para obter uma chave de API
Faça login em cometapi.com. Se você ainda não for nosso usuário, registre-se primeiro. Entre no seu console da CometAPI. Obtenha a credencial de acesso, a chave de API da interface. Clique em “Add Token” na seção de token da API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

Etapa 2: Envie solicitações para a API do Kimi k2.5
Selecione o endpoint “kimi-k2.5” para enviar a solicitação de API e defina o corpo da solicitação. O método de solicitação e o corpo da solicitação podem ser obtidos na documentação da API em nosso site. Nosso site também fornece testes no Apifox para sua conveniência. Substitua pela sua chave real da CometAPI da sua conta. A base url é Chat Completions.
Insira sua pergunta ou solicitação no campo content — é a isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.
Etapa 3: Recupere e verifique os resultados
Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.