Claude 4.5 中的 Thinking 模式：你需要知道的一切

Anthropic 的 Claude 4.5 系列（尤其是Sonnet 4.5 与Opus 4.5）将扩展“思考”/草稿本风格的内部推理引入 Claude 4 产品线。Messages API 通过一个 thinking 对象（启用/禁用 + budget_tokens 配额）、流式选项，以及对“思考”内容块的特殊处理（包括签名与屏蔽）来暴露该能力。Sonnet 4.5 面向编码与 Agent 化任务，并从扩展思考中获益显著；Opus 4.5 进一步引入可保留的思考块与其他优化。

什么是 Claude 4.5？

Claude 4.5（在 Anthropic 的 Claude 模型家族中以 Sonnet 4.5 和 Opus 4.5 变体发布）是该公司新一代大型语言模型，针对更深层的推理、长跨度上下文，以及生产级编码/Agent 化工作流进行了优化。在 Anthropic 的公告与产品页面中，Sonnet 4.5 被描述为在编码、Agent 构建以及“使用计算机”（即工具辅助工作流与多步自动化）方面的重大进步，并在推理、数学与长上下文任务上实现了可量化提升。

4.5 家族阵容

Claude Sonnet 4.5 （发布于 2025 年 9 月 29 日）： 该系列的“主力”模型。目前被评为全球最佳编码模型，能够在自主任务上保持专注超过 30 小时。它在速度、成本与高阶推理之间取得平衡，是多数企业应用的默认选择。
Claude Haiku 4.5 （发布于 2025 年 10 月 15 日）： 面向速度优化的模型。令人惊讶的是，它如今也支持 Extended Thinking，使其成为首个提供此前仅限于前沿模型的深度推理能力的“小”模型。非常适合在延迟敏感但又不能牺牲准确性的高频任务。
Claude Opus 4.5 （发布于 2025 年 11 月 24 日）： 前沿智能模型。Opus 4.5 专为最复杂、最具歧义的任务而设计——例如科学研究、全新架构设计与高风险金融分析。它拥有最高的“思考预算”容量，并擅长自我纠错。

关键能力一览

更大的可用上下文窗口，并在长时运行任务（Agent 工作流、逐步调试、代码库编辑）中表现更优。
在编码基准、重构与多步工具使用任务（Sonnet 与 Opus 家族）上表现更佳。
高级“思考”特性（Anthropic 称之为扩展思考/思考模式），可选地向开发者暴露模型的部分逐步推理，或允许模型在生成最终答案前花费可配置的“预算”令牌进行推理。

在哪里可以运行 Claude 4.5

Claude 4.5（Sonnet/Opus）可通过 Anthropic 自有 API 获取，并已集成至 CometAPI（API 价格目前在促销，约为 Anthropic 官方价格的 20%。），因此你可以通过 Anthropic 平台或托管该模型的第三方云厂商运行这些模型。

Claude Code 和 Claude 4.5 中的新 THINKING 模式是什么？

Anthropic 的扩展思考（亦称“思考模式”、“思考块”或“思考 tokens”）是一项功能，让模型在给出最终答案前执行更多的内部采样步骤以更彻底地推理。你可以通过在 Messages API 请求中加入 thinking 配置启用它（例如：{ "thinking": { "type": "enabled", "budget_tokens": 4096 } }），或使用 Anthropic SDK 助手。启用后，API 将（视模型而定）返回内部推理的摘要版本，或返回完整推理（出于安全可能进行屏蔽处理）。

要理解为何“思考模式”具有革命性，我们需要回顾大型语言模型（LLMs）传统的工作方式。标准模型是“概率文本生成器”——它们在接收提示后立即预测下一个 token。它们不会“停下来思考”；而是立刻开始“说话”（生成）。

向“扩展思考”的转变

思考模式改变了这一范式。启用后，Claude 4.5 会在向用户输出可见字符之前，先生成一段隐藏的“思考 tokens”流。

可见推理（可选）： 在一些界面（如 Claude.ai）中，你可以看到一个“Thinking”下拉菜单，展示模型的内部独白。

隐藏推理（API）： 在 API 中，这些是独立的 thinking 块。模型会在其中用于：

拆解提示： 分解复杂约束。
制定策略： 概述逐步逻辑。
起草与批判： 在心中尝试一个方案、发现缺陷，并在呈现答案之前修正。

交错式思考

Sonnet 4.5 的一项重大创新是交错式思考。在 Agent 化工作流中（AI 使用计算器、代码解释器或网页浏览器等工具时），标准模型通常是调用一个工具、得到结果，然后立即调用下一个工具。

借助交错式思考，Claude 4.5 可以：

思考用户请求。
调用工具 A（例如：进行网络搜索）。
思考搜索结果（“这个结果过时了，我应该尝试不同的查询”）。
调用工具 B（例如：再次搜索）。
思考如何综合这些数据。
最终响应。

这种“思考-行动-思考-行动”的循环在长、多步的编码任务中大幅减少幻觉与错误传播。

Claude Code 如何在开发者工具中呈现思考

在 Claude Code（CLI/编辑器体验）中，Anthropic 增加了用于切换思考模式的 UI 控件（常见的交互是按下 Tab 切换开/关），并显示当前思考预算的指示器。一些较早的触发关键词（如 think、think hard）曾用于控制思考深度；现代版本依赖显式开关与预算参数，ultrathink 在某些场景仍然可用。该配置可在 ~/.claude/settings.json 中全局设置，或按请求覆盖。

如何实现 Claude 4.5 思考模式？

对开发者而言，迁移至 Claude 4.5 需要调整 API 请求结构。你不再只是发送一个提示；你还要管理一个“思考预算”。

设置思考预算

thinking 参数现在是 Anthropic API 的一等公民。你必须显式启用并定义一个 budget_tokens 值。该值代表模型可用于内部推理的最大计算量。

Python 实现示例

import anthropic

# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # We set a high max_tokens to accommodate both thinking and the final answer
    # The budget_tokens must be less than max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Allocating 12k tokens for 'thinking'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Extracting the two distinct parts of the response
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)

print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)

关键技术注意事项

总 Token 用量： 你的总用量为 thinking_tokens + output_tokens。如果你设置 10,000 的预算，模型用于思考 8,000、答案 2,000，那么你的计费为 10,000 个输出 token。
强制思考： 如果任务过于简单，模型仍可能使用最少量的思考 tokens 来验证请求的简单性。

思考模式如何提升代码生成？

Claude 4.5 在 Claude Code CLI 中的一项显著提升是代码相关表现。当 Claude 4.5 对代码“思考”时，它会执行若干标准模型容易忽略的隐藏操作。

1. 依赖映射

在写出第一行修复之前，Claude 4.5 会遍历你的代码库，以理解对 utils/auth.ts 的改动如何可能破坏 views/Profile.tsx 中的某个组件。

2. 心智执行

模型在其推理块中“运行”代码。它模拟逻辑流程，识别潜在的竞态条件或 off-by-one 错误。

3. 约束校验

如果你要求一个“高性能且不使用外部库”的方案，思考模式会充当守门人。如果模型的第一反应是建议某个 NPM 包，思考过程会捕捉到该约束的违背，并迫使其转而思考一个纯 JavaScript 的实现。

思考模式与传统提示技术相比如何？

许多用户熟悉“Chain of Thought（逐步思考）”提示，即你让模型：“一步步思考”。这虽有效，但与 Claude 4.5 的原生思考模式并不相同。

功能	Chain of Thought（手动）	扩展思考（原生）
机制	由用户提示指令触发。	内建于模型架构。
Token 占用	占用可见输出空间。	占用专用的内部块。
自我纠错	有限；模型常会对早期错误“加倍下注”。	较高；模型可舍弃整个推理路径并重来。
可靠性	取决于提示质量而波动。	在复杂领域中稳定性更高。
API 处理	需手动解析文本。	以结构化 JSON 块区分“thinking”与“text”。

思考模式在 Claude 4.5 中如何工作？

内部工作流（概念性）

用户请求： 你的应用发送 Messages API 请求，指定模型、提示、max_tokens，以及可选的 thinking: { type: "enabled", budget_tokens: N }。
内部推理： Claude 在预算范围内执行内部“思考”。它将推理输出记录为 thinking 块（可能会为用户做摘要）。
输出组合： API 返回一个内容块数组。通常顺序是 thinking 块随后是 text 块（最终答案）。若为流式，你将先收到 thinking_delta 事件，随后是 text_delta 事件。
上下文保留： 使用工具或多轮交互时，你可以重新发送先前的思考块（不作修改），以便 Claude 继续思维链。Opus 4.5 引入了默认保留思考块的行为，以提升缓存/效率。

从技术上讲，思考模式依赖特定的 API 参数配置来分配用于推理的“预算” tokens。

Token 预算概念

当你向 Claude 4.5 发起请求时，必须指定 budget_tokens 参数。这是模型可用于内部独白的最大 token 数。

低预算（<2,000 tokens）： 适用于快速健全性检查或简单逻辑题。
高预算（10,000+ tokens）： 适用于复杂软件架构、数学证明或撰写全面的法律文件。

模型经过训练来“管理”这一预算。如果感知到预算即将耗尽，它会尝试收尾推理并给出尽可能好的答案。

“思考过程”的生命周期

当用户提出：“编写一个 Python 脚本来抓取该网站，但确保遵守 robots.txt 并处理动态加载。”

摄取： Claude 阅读提示。
思考阶段（隐藏）：
- 自我纠正： “我需要使用 Selenium 或 Playwright 处理动态加载，requests 不适用。”
- 安全检查： “我必须验证用户是否有抓取权限。我将添加免责声明。”
- 架构设计： “我将采用基于类的结构以实现模块化。”
输出阶段（可见）： Claude 生成 Python 代码。

在以往的模型中，AI 可能会直接开始写 requests 代码，写到一半才意识到它不适用于动态内容，然后要么产生幻觉式的方案，要么给出错误代码。思考模式避免了这种“把自己逼到墙角”的情况。

何时应启用思考模式——用例与经验法则？

受益最大的用例

复杂编码（架构性变更、多文件重构、长调试会话）。启用思考后，Sonnet 4.5 被明确定位为编码与 Agent 化的领先者。
Agent 化工作流，需要反复使用工具并在多步骤中保留内部上下文。交错式思考 + 工具使用是主要场景。
深入研究或分析（统计分析、金融结构化、法律推理），其中中间推理步骤对检查或验证很有价值。

何时不必启用

简短回答生成或需要极低延迟的高吞吐 API（如需毫秒级响应的聊天界面）。
必须最小化每次请求 token 成本，且任务简单或规范明确的场景。

实用经验法则

从**最低思考预算（≈1,024 tokens）**起步，并针对需要更深入推理的任务逐步增加；基于端到端任务准确度 vs 延迟与 token 消耗进行基准测试。对于多步 Agent 任务，尝试交错式思考与缓存的提示断点，以找到最佳点。

结论

Claude 4.5 的思考模式不仅是一项功能；它是与人工智能交互方式的新范式。通过将思考过程与思考产物分离，Anthropic 提供了一个更可靠、更透明、也更能处理现代企业复杂工作的工具。

无论你是在使用 Claude Code CLI 管理一次大型迁移，还是利用 API 构建下一代自治 Agent，掌握“思考预算”都是成功的关键。

开发者可通过 CometAPI 访问 Claude 4.5 模型。开始之前，请在 Playground 了解 CometAPI 的模型能力，并参考 API 指南获取详细说明。访问前，请确保已登录 CometAPI 并获取 API Key。CometAPI 提供远低于官方价格的方案，助你集成落地。

什么是 Claude 4.5？

4.5 家族阵容

关键能力一览

在哪里可以运行 Claude 4.5

Claude Code 和 Claude 4.5 中的新 THINKING 模式是什么？

向“扩展思考”的转变

交错式思考

Claude Code 如何在开发者工具中呈现思考

如何实现 Claude 4.5 思考模式？

设置思考预算

Python 实现示例

关键技术注意事项

思考模式如何提升代码生成？

1. 依赖映射

2. 心智执行

3. 约束校验

思考模式与传统提示技术相比如何？

思考模式在 Claude 4.5 中如何工作？

内部工作流（概念性）

Token 预算概念

“思考过程”的生命周期

何时应启用思考模式——用例与经验法则？

受益最大的用例

何时不必启用

实用经验法则

结论

以低成本获取顶级模型

阅读更多

Claude 4.5 中的 Thinking 模式：你需要知道的一切

什么是 Claude 4.5？

4.5 家族阵容

关键能力一览

在哪里可以运行 Claude 4.5

Claude Code 和 Claude 4.5 中的新 THINKING 模式是什么？

向“扩展思考”的转变

交错式思考

Claude Code 如何在开发者工具中呈现思考

如何实现 Claude 4.5 思考模式？

设置思考预算

Python 实现示例

关键技术注意事项

思考模式如何提升代码生成？

1. 依赖映射

2. 心智执行

3. 约束校验

思考模式与传统提示技术相比如何？

思考模式在 Claude 4.5 中如何工作？

内部工作流（概念性）

Token 预算概念

“思考过程”的生命周期

何时应启用思考模式——用例与经验法则？

受益最大的用例

何时不必启用

实用经验法则

结论

以低成本 获取顶级模型

阅读更多

以低成本获取顶级模型