Home/Models/Moonshot AI/Kimi K2.5
M

Kimi K2.5

Entrada:$0.48/M
Saída:$2.4/M
Kimi K2.5 é o modelo mais inteligente da Kimi até o momento, alcançando desempenho SoTA de código aberto em agentes, código, compreensão visual e uma gama de tarefas gerais de inteligência. Kimi K2.5 também é o modelo mais versátil da Kimi até o momento, com uma arquitetura multimodal nativa que suporta tanto entrada visual quanto de texto, modos com e sem raciocínio, e tarefas de diálogo e de agente.
Novo
Uso comercial
Playground
Visão Geral
Recursos
Preços
API

Especificações técnicas do Kimi k2.5

ItemValor / observações
Nome do modelo / fornecedorKimi-K2.5 (v1.0) — Moonshot AI (pesos abertos).
Família de arquiteturaModelo híbrido de raciocínio Mixture-of-Experts (MoE) (MoE no estilo DeepSeek).
Parâmetros (total / ativos)≈ 1 trilhão de parâmetros no total; ~32B ativos por token (384 especialistas, 8 selecionados por token, segundo informações reportadas).
Modalidades (entrada / saída)Entrada: texto, imagens, vídeo (multimodal). Saída: principalmente texto (rastros de raciocínio ricos), opcionalmente chamadas de ferramenta estruturadas / saídas em múltiplas etapas.
Janela de contexto256k tokens
Dados de treinamentoPré-treinamento contínuo com ~15 trilhões de tokens mistos de conteúdo visual + texto (segundo o fornecedor). Rótulos de treinamento/composição do conjunto de dados: não divulgados.
ModosModo Thinking (retorna rastros internos de raciocínio; temp recomendada=1.0) e modo Instant (sem rastros de raciocínio; temp recomendada=0.6).
Recursos de agenteAgent Swarm / subagentes paralelos: o orquestrador pode gerar até 100 subagentes e executar grandes quantidades de chamadas de ferramentas (o fornecedor afirma até ~1.500 chamadas; a execução paralela reduz o tempo de execução).

O que é o Kimi K2.5?

Kimi K2.5 é o principal modelo de linguagem de grande porte de pesos abertos da Moonshot AI, projetado como um sistema nativamente multimodal e orientado a agentes em vez de um LLM apenas de texto com componentes adicionais. Ele integra raciocínio linguístico, compreensão visual e processamento de contexto longo em uma única arquitetura, possibilitando tarefas complexas de múltiplas etapas que envolvem documentos, imagens, vídeos, ferramentas e agentes.

Ele foi projetado para fluxos de trabalho de longo horizonte e ampliados por ferramentas (codificação, busca em múltiplas etapas, compreensão de documentos/vídeos) e vem com dois modos de interação (Thinking e Instant) e quantização INT4 nativa para inferência eficiente.


Recursos principais do Kimi K2.5

  1. Raciocínio multimodal nativo
    Visão e linguagem são treinadas conjuntamente desde o pré-treinamento. O Kimi K2.5 pode raciocinar sobre imagens, capturas de tela, diagramas e quadros de vídeo sem depender de adaptadores de visão externos.
  2. Janela de contexto ultralonga (256K tokens)
    Permite raciocínio persistente sobre bases de código inteiras, artigos científicos longos, documentos jurídicos ou conversas estendidas de várias horas sem truncamento de contexto.
  3. Modelo de execução Agent Swarm
    Suporta criação e coordenação dinâmicas de até ~100 subagentes especializados, permitindo planejamento paralelo, uso de ferramentas e decomposição de tarefas para fluxos de trabalho complexos.
  4. Múltiplos modos de inferência
    • Modo Instant para respostas de baixa latência
    • Modo Thinking para raciocínio profundo em múltiplas etapas
    • Modo Agent / Swarm para execução e orquestração autônomas de tarefas
  5. Forte capacidade de visão para código
    Capaz de converter mockups de interface, capturas de tela ou demonstrações em vídeo em código front-end funcional e depurar software usando contexto visual.
  6. Escalonamento MoE eficiente
    A arquitetura MoE ativa apenas um subconjunto de especialistas por token, permitindo capacidade de trilhão de parâmetros com custo de inferência administrável em comparação com modelos densos.

Desempenho em benchmarks do Kimi K2.5

Resultados de benchmarks divulgados publicamente (principalmente em cenários focados em raciocínio):

Benchmarks de raciocínio e conhecimento

BenchmarkKimi K2.5GPT-5.2 (xhigh)Claude Opus 4.5Gemini 3 Pro
HLE-Full (com ferramentas)50.245.543.245.8
AIME 202596.110092.895.0
GPQA-Diamond87.692.487.091.9
IMO-AnswerBench81.886.378.583.1

Benchmarks de visão e vídeo

BenchmarkKimi K2.5GPT-5.2Claude Opus 4.5Gemini 3 Pro
MMMU-Pro78.579.5*74.081.0
MathVista (Mini)90.182.8*80.2*89.8*
VideoMMMU87.486.0—88.4

As pontuações marcadas com refletem diferenças nas configurações de avaliação reportadas pelas fontes originais.

No geral, o Kimi K2.5 demonstra forte competitividade em raciocínio multimodal, tarefas de contexto longo e fluxos de trabalho no estilo de agentes, especialmente quando avaliado além de QA de formato curto.


Kimi K2.5 vs. outros modelos de fronteira

DimensãoKimi K2.5GPT-5.2Gemini 3 Pro
MultimodalidadeNativa (visão + texto)Módulos integradosMódulos integrados
Comprimento de contexto256K tokensLongo (limite exato não divulgado)Longo (<256K típico)
Orquestração de agentesEnxame multiagenteFoco em agente únicoFoco em agente único
Acesso ao modeloPesos abertosProprietárioProprietário
ImplantaçãoLocal / nuvem / personalizadaApenas APIApenas API

Orientação para seleção de modelo:

  • Escolha Kimi K2.5 para implantação com pesos abertos, pesquisa, raciocínio de contexto longo ou fluxos de trabalho complexos com agentes.
  • Escolha GPT-5.2 para inteligência geral de nível de produção com ecossistemas de ferramentas robustos.
  • Escolha Gemini 3 Pro para integração profunda com a pilha de produtividade e busca do Google.

Casos de uso representativos

  1. Análise em larga escala de documentos e código
    Processe repositórios inteiros, corpora jurídicos ou arquivos de pesquisa em uma única janela de contexto.
  2. Fluxos de trabalho de engenharia de software visual
    Gere, refatore ou depure código usando capturas de tela, designs de interface ou interações gravadas.
  3. Pipelines autônomos de agentes
    Execute fluxos de trabalho de ponta a ponta envolvendo planejamento, recuperação, chamadas de ferramentas e síntese por meio de enxames de agentes.
  4. Automação do conhecimento empresarial
    Analise documentos internos, planilhas, PDFs e apresentações para produzir relatórios e insights estruturados.
  5. Pesquisa e personalização do modelo
    Fine-tuning, pesquisa de alinhamento e experimentação habilitados por pesos de modelo abertos.

Limitações e considerações

  • Altos requisitos de hardware: A implantação em precisão total exige memória GPU substancial; o uso em produção normalmente depende de quantização (por exemplo, INT4).
  • Maturidade do Agent Swarm: Comportamentos multiagente avançados ainda estão evoluindo e podem exigir um projeto cuidadoso de orquestração.
  • Complexidade de inferência: O desempenho ideal depende do mecanismo de inferência, da estratégia de quantização e da configuração de roteamento.

Como acessar a API do Kimi k2.5 via CometAPI

Etapa 1: Cadastre-se para obter uma chave de API

Faça login em cometapi.com. Se você ainda não for nosso usuário, registre-se primeiro. Entre no seu console da CometAPI. Obtenha a credencial de acesso, a chave de API da interface. Clique em “Add Token” na seção de token da API no centro pessoal, obtenha a chave do token: sk-xxxxx e envie.

cometapi-key

Etapa 2: Envie solicitações para a API do Kimi k2.5

Selecione o endpoint “kimi-k2.5” para enviar a solicitação de API e defina o corpo da solicitação. O método de solicitação e o corpo da solicitação podem ser obtidos na documentação da API em nosso site. Nosso site também fornece testes no Apifox para sua conveniência. Substitua pela sua chave real da CometAPI da sua conta. A base url é Chat Completions.

Insira sua pergunta ou solicitação no campo content — é a isso que o modelo responderá. Processe a resposta da API para obter a resposta gerada.

Etapa 3: Recupere e verifique os resultados

Processe a resposta da API para obter a resposta gerada. Após o processamento, a API responde com o status da tarefa e os dados de saída.

FAQ

How many parameters does Kimi K2.5 have, and what architecture does it use?

O Kimi K2.5 usa uma arquitetura de Mistura de Especialistas (MoE) com um total de ~1 trilhão de parâmetros, dos quais cerca de 32 bilhões ficam ativos por token durante a inferência. :contentReference[oaicite:1]{index=1}

What types of input can Kimi K2.5 handle?

O Kimi K2.5 é um modelo multimodal nativo que processa entradas de linguagem e visuais (imagens e vídeo) sem módulos adicionais, usando seu codificador de visão MoonViT integrado. :contentReference[oaicite:2]{index=2}

What is the context window size of Kimi K2.5 and why does it matter?

O Kimi K2.5 suporta uma janela de contexto estendida de até 256,000 tokens, permitindo manter o contexto em documentos extensos, bases de código amplas ou conversas longas. :contentReference[oaicite:3]{index=3}

What are the main modes of operation in Kimi K2.5?

O modelo oferece vários modos, incluindo Instant (respostas rápidas), Thinking (raciocínio profundo) e os modos Agent/Agent Swarm para orquestrar tarefas complexas de múltiplas etapas. :contentReference[oaicite:4]{index=4}

How does the Agent Swarm feature enhance performance?

O Agent Swarm permite que o Kimi K2.5 gere e coordene dinamicamente até ~100 subagentes especializados para trabalhar em paralelo em objetivos complexos, reduzindo o tempo de execução de ponta a ponta em fluxos de trabalho de múltiplas etapas. :contentReference[oaicite:5]{index=5}

Is Kimi K2.5 suitable for coding tasks involving visual specifications?

Sim — o Kimi K2.5 pode gerar ou depurar código a partir de entradas visuais como mockups de UI ou capturas de tela, porque sua visão e seu raciocínio linguístico estão integrados no núcleo. :contentReference[oaicite:6]{index=6}

What are practical limitations to consider with Kimi K2.5?

Devido ao seu tamanho (1T de parâmetros), a implantação local com pesos completos requer hardware substancial (centenas de GB de RAM/VRAM), e seus recursos mais avançados (como o Agent Swarm) podem ser experimentais ou estar em beta. :contentReference[oaicite:7]{index=7}

Recursos para Kimi K2.5

Explore os principais recursos do Kimi K2.5, projetado para aprimorar o desempenho e a usabilidade. Descubra como essas capacidades podem beneficiar seus projetos e melhorar a experiência do usuário.

Preços para Kimi K2.5

Explore preços competitivos para Kimi K2.5, projetado para atender diversos orçamentos e necessidades de uso. Nossos planos flexíveis garantem que você pague apenas pelo que usar, facilitando o dimensionamento conforme suas necessidades crescem. Descubra como Kimi K2.5 pode aprimorar seus projetos mantendo os custos gerenciáveis.
Preço do Comet (USD / M Tokens)Preço Oficial (USD / M Tokens)Desconto
Entrada:$0.48/M
Saída:$2.4/M
Entrada:$0.6/M
Saída:$3/M
-20%

Código de exemplo e API para Kimi K2.5

Acesse código de exemplo abrangente e recursos de API para Kimi K2.5 para otimizar seu processo de integração. Nossa documentação detalhada fornece orientação passo a passo, ajudando você a aproveitar todo o potencial do Kimi K2.5 em seus projetos.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Mais modelos