模型“Kimi K2 Thinking”是由 Moonshot AI(Beijing)开发的一种新的推理代理变体。它属于更广泛的“Kimi K2”大语言模型家族,但专门针对思考——即长程推理、工具使用、规划与多步推断进行调优。版本为 kimi-k2-thinking-turbo,kimi-k2-thinking。
基本特性
- 大规模参数化:Kimi K2 Thinking 构建于 K2 系列之上,采用专家混合(MoE)架构,拥有约1 trillion(1 T)总参数,推理时激活约32 billion(32 B)参数。
- 上下文长度与工具使用:模型支持超长上下文窗口(报告显示可达 256K tokens),并设计为可在无人干预的情况下执行顺序工具调用(最多 200–300 次)。
- 代理型行为:它面向“代理”而非单纯的对话式 LLM——意味着它可以进行规划、调用外部工具(搜索、代码执行、网页检索)、维护推理轨迹,并编排复杂工作流。
- 开放权重与许可协议:该模型以经修改的 MIT 许可协议发布,允许商业/衍生使用,但对大规模部署包含署名条款。
技术细节
架构:
- MoE(Mixture-of-Experts)主干。
- 总参数:≈ 1 trillion。每次推理的激活参数:≈ 32 billion。
- 专家数量:~384,每个 token 选择:~8。
- 词表与上下文:词表规模约 160K,上下文窗口最高可达最新的 256K tokens。
训练 / 优化:
- 在 ~15.5 trillion tokens 上进行预训练。
- 使用的优化器:“Muon”或其变体(MuonClip),用于解决大规模训练不稳定性。
- 后训练 / 微调:多阶段,包括代理型数据合成、强化学习、工具调用训练。
推理与工具使用:
- 支持数百次顺序工具调用,使链式推理工作流成为可能。
- 声称原生 INT4 量化推理以在不显著降低准确率的情况下减少内存占用与延迟,并支持测试时扩展、扩展的上下文窗口。
基准表现
基准:Moonshot 发布的数据表明,在代理与推理套件上表现强劲:例如在 Humanity’s Last Exam(HLE)配合工具时为 44.9%,在 BrowseComp 为 60.2%,并在诸如 SWE-Bench / SWE-Bench Verified 与 AIME25(数学)等领域套件上取得高分。

限制与风险
- 计算与部署:尽管激活参数等效为 32B,可靠托管 Thinking(长上下文、工具编排、量化管线)所需的运营成本与工程工作依然不容小觑。硬件需求(GPU 内存、优化的运行时)与推理工程是现实约束。
- 行为风险:与其他 LLM 类似,Kimi K2 Thinking 可能幻觉事实、反映数据集偏见,或在缺乏适当防护的情况下产生不安全内容。其代理式自主性(自动化多步工具调用)提高了“安全内生设计”的重要性:建议实施严格的工具权限控制、运行时检查与人类参与策略。
- 与封闭模型的比较优势:虽然该模型在多项基准上达到或超越表现,但在某些领域或“重模式”配置下,封闭模型仍可能保有优势。
与其他模型的比较
- 与 GPT-5 和 Claude Sonnet 4.5 相比:Kimi K2 Thinking 声称在一些主要基准(如代理式搜索、推理)上得分更高,尽管其为开放权重。
- 与此前开源模型相比:在代理式推理指标与工具调用能力上,超过了如 MiniMax‑M2 等早期开放模型。
- 架构差异:稀疏 MoE,激活参数量高,相较于众多稠密模型或小规模系统,更关注长程推理、思维链与多工具编排,而非纯文本生成。
- 成本与许可优势:开放权重、更宽松的许可(含署名条款)相较封闭 API 具有潜在成本节省,但基础设施成本仍然存在。
使用场景
- 长程推理工作流:例如规划、多步问题求解、项目拆解。
- 代理式工具编排:在一个工作流中完成网页搜索 + 代码执行 + 数据检索 + 写作与总结。
- 编程、数学与技术任务:鉴于在 LiveCodeBench、SWE-Bench 等基准上的表现,是开发助手、代码生成、自动化数据分析的优选候选。
- 企业自动化工作流:在需要串联多工具的场景(例如获取数据 → 分析 → 撰写报告 → 通知)中,尽量减少人工介入。
- 研究与开源项目:由于权重开放,学术或研究部署可用于实验与微调。
如何通过 CometAPI 调用 Kimi K2 Thinking API
Kimi K2 Thinking 在 CometAPI 的 API 价格,比官方价格优惠 20%:
| 模型 | 输入 Token | 输出 Token |
|---|---|---|
| kimi-k2-thinking-turbo | $2.20 | $15.95 |
| kimi-k2-thinking | $1.10 | $4.40 |
必需步骤
- 登录 cometapi.com。如果您尚未成为我们的用户,请先注册。
- 登录您的 CometAPI 控制台。
- 获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获得令牌密钥:sk-xxxxx 并提交。

使用方法
- 选择“kimi-k2-thinking-turbo,kimi-k2-thinking”端点发送 API 请求并设置请求体。请求方法与请求体可在我们网站的 API 文档中获取。我们的网站也提供 Apifox 测试,方便您使用。
- 将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。
- 将您的问题或请求插入到 content 字段中——模型将对该内容进行响应。
- . 处理 API 响应以获得生成的答案。
CometAPI 提供完全兼容的 REST API——实现无缝迁移。关键细节见 API 文档:
- Base URL: https://api.cometapi.com/v1/chat/completions
- Model Names: kimi-k2-thinking-turbo,kimi-k2-thinking
- Authentication:
Bearer YOUR_CometAPI_API_KEY请求头 - Content-Type:
application/json。
