Anthropic 的 Claude 4.5 系列(尤其是 Sonnet 4.5 和 Opus 4.5)将扩展“思考”/草稿板式内部推理引入了其 Claude 4 产品线。Messages API 通过一个 thinking 对象(启用/禁用 + budget_tokens 配额)、流式传输选项,以及对“thinking”内容块的特殊处理(包括签名和脱敏)来暴露这一能力。Sonnet 4.5 面向编码和智能体任务,并从扩展思考中显著受益;Opus 4.5 则增加了保留思考块和其他优化。
什么是 Claude 4.5?
Claude 4.5(由 Anthropic 在 Claude 模型家族中推出的 Sonnet 4.5 和 Opus 4.5 变体)是该公司最新一代的大语言模型,专为更深层推理、长程上下文以及生产级编码/智能体工作流而调优。在 Anthropic 的公告和产品页面中,Sonnet 4.5 被描述为在编码、智能体构建和“使用计算机”(即工具辅助工作流和多步骤自动化)方面的重大进步,并在推理、数学和长上下文任务上带来了可衡量的提升。
4.5 系列阵容
- Claude Sonnet 4.5 (发布于 2025 年 9 月 29 日): 该系列中的“主力”模型。它目前被评为全球最佳编码模型,能够在自主任务上持续专注超过 30 小时。它在速度、成本和高阶推理之间取得平衡,因此成为大多数企业应用的默认选择。
- Claude Haiku 4.5 (发布于 2025 年 10 月 15 日): 面向速度优化的模型。令人惊讶的是,它现在也支持 Extended Thinking,使其成为首个提供以往仅限前沿模型的深度推理能力的“小型”模型。它非常适合对延迟敏感但又不能牺牲准确性的高频任务。
- Claude Opus 4.5 (发布于 2025 年 11 月 24 日): 前沿智能模型。Opus 4.5 专为最复杂、最模糊的任务而设计,例如科学研究、全新架构设计和高风险金融分析。它具有最高的“思考预算”容量,并且在自我纠错方面表现出色。
关键能力概览
- 更大的可用上下文窗口,以及在长时间运行任务(智能体工作流、逐步调试、代码库编辑)中的改进行为。
- 在编码基准、重构和多步骤工具使用任务上的更佳表现(Sonnet 和 Opus 系列)。
- 高级“思考”功能(Anthropic 称之为 extended thinking / thinking mode),可选择性地向开发者暴露模型部分内部逐步推理,或允许模型在生成最终答案前使用可配置的 token“预算”进行推理。
你可以在哪里运行 Claude 4.5
Claude 4.5(Sonnet/Opus)可通过 Anthropic 自有 API 使用,也已集成到 CometAPI 中(API 定价目前促销中,约为 Anthropic 价格的 20%),因此你可以通过 Anthropic 平台或托管该模型的第三方云厂商来运行这些模型。
Claude Code 和 Claude 4.5 中新的 THINKING 模式是什么?
Anthropic 的 extended thinking(又称“thinking mode”“thinking blocks”或“thinking tokens”)是一项功能,它允许模型在生成最终答案之前执行额外的内部采样步骤,从而进行更充分的推理。你可以通过在 Messages API 请求中添加 thinking 配置来启用它(例如:{ "thinking": { "type": "enabled", "budget_tokens": 4096 } }),或使用 Anthropic SDK 辅助方法。启用后,API 将(取决于模型)返回内部推理的摘要版本,或返回完整推理(出于安全原因可能会经过脱敏)。
要理解“Thinking Mode”为何具有革命性,我们必须先看看大语言模型(LLM)传统上是如何工作的。标准模型是“概率式文本生成器”——它们在接收到提示后立即预测下一个 token。它们不会“停下来思考”;而是立刻开始说话(生成内容)。
向“Extended Thinking”的转变
Thinking Mode 改变了这一范式。启用后,Claude 4.5 会在向用户输出任何一个可见字符之前,先生成一串隐藏的“thinking tokens”。
可见推理(可选): 在 Claude.ai 等某些界面中,你可以看到一个 “Thinking” 下拉菜单,其中会展示模型的内部独白。
隐藏推理(API): 在 API 中,这些是独立的 thinking 块。模型利用这部分空间来:
- 拆解提示: 分解复杂约束条件。
- 规划策略: 列出逐步逻辑。
- 起草并审视: 在给出答案 之前,先在内部尝试一个方案,发现缺陷,再进行修正。
交错思考
Sonnet 4.5 的一项重大创新是 Interleaved Thinking(交错思考)。在智能体工作流中(AI 使用计算器、代码解释器或网页浏览器等工具),标准模型通常只是调用一个工具、拿到结果,然后立即调用下一个工具。
借助 Interleaved Thinking,Claude 4.5 可以:
- 思考 用户请求。
- 调用工具 A(例如:搜索网页)。
- 思考 搜索结果(“这个结果过时了,我应该换一个查询词”)。
- 调用工具 B(例如:再次搜索)。
- 思考 如何综合这些数据。
- 最终响应。
这种“思考-行动-思考-行动”的循环显著减少了长链路、多步骤编码任务中的幻觉和错误传播。
Claude Code 如何在开发者工具中呈现思考
在 Claude Code(CLI / 编辑器体验)中,Anthropic 增加了用于在交互式会话中切换思考模式的 UI 交互方式(常见 UX 是按 Tab 键切换 thinking 开/关),并显示当前思考预算的指示器。一些较旧的触发关键词(例如 think、think hard)过去曾用于控制思考深度;现代版本则依赖显式切换和预算参数,不过 ultrathink 在某些场景中仍可用。配置可以全局写在 ~/.claude/settings.json 中,也可以按请求覆盖。
如何实现 Claude 4.5 Thinking Mode?
对开发者而言,迁移到 Claude 4.5 需要改变 API 请求的组织方式。你不再只是发送一个提示;你还需要管理一个“Thinking Budget(思考预算)”。
设置 Thinking Budget
thinking 参数现在是 Anthropic API 中的一等公民。你必须显式启用它并定义一个 budget_tokens 值。这个值表示模型可以用于内部推理的最大计算量。
Python 实现示例
以下代码演示了如何初始化一个启用了 Extended Thinking 的 Claude 4.5 会话。
import anthropic
# 初始化 Claude 4.5 集成的 Gemini Enterprise 视角
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# 我们设置较高的 max_tokens,以容纳 thinking 和最终答案
# budget_tokens 必须小于 max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # 为“thinking”分配 12k tokens
},
messages=[
{"role": "user", "content": user_query}
]
)
# 提取响应的两个不同部分
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# 示例复杂查询
query = "为一个去中心化投票应用设计一个基于 Circom 的零知识证明系统。"
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE 的内部推理 ---")
print(thoughts)
print("\n--- 最终技术架构 ---")
print(answer)
关键技术注意事项
- 总 token 使用量: 你的总用量是
thinking_tokens+output_tokens。如果你设置 10,000 token 的预算,而模型用了 8,000 个用于思考、2,000 个用于回答,那么你会按 10,000 个输出 token 计费。 - 强制思考: 如果任务过于简单,模型仍可能使用最少数量的 thinking tokens 来验证该请求确实很简单。
Thinking Mode 如何提升代码生成?
Claude 4.5 最重要的升级之一是其在 Claude Code CLI 中的表现。当 Claude 4.5 对代码进行“思考”时,它会执行几个标准模型容易忽略的隐藏动作。
1. 依赖映射
在写下修复代码的第一行之前,Claude 4.5 会遍历你的代码仓库,理解 utils/auth.ts 中的改动可能如何破坏 views/Profile.tsx 中的组件。
2. 心智执行
模型会在其推理块中“运行”代码。它模拟逻辑流程,并识别潜在的竞态条件或 off-by-one 错误。
3. 约束校验
如果你要求一个“高性能且不使用外部库”的解决方案,thinking mode 会充当守门员。如果模型的第一反应是建议某个 NPM 包,那么思考过程会捕捉到这一违规,并迫使模型重新考虑一个原生 JavaScript 实现。
Thinking Mode 与传统提示方式相比如何?
许多用户都熟悉“思维链”(Chain of Thought,CoT)提示法,比如你告诉模型:“一步一步思考。” 虽然这种方法有效,但它并不等同于 Claude 4.5 的原生 Thinking Mode。
| 特性 | 思维链(手动) | 扩展思考(原生) |
|---|---|---|
| 机制 | 用户提示式指令。 | 内建于模型架构中。 |
| Token 空间 | 占用可见输出空间。 | 占用专用内部块。 |
| 自我纠错 | 有限;模型经常会对早期错误“一错到底”。 | 高;模型可以丢弃整条推理路径并重新开始。 |
| 可靠性 | 随提示质量而变化。 | 在复杂领域中持续保持较高水平。 |
| API 处理 | 需要手动解析文本。 | 为 thinking 和 text 提供结构化 JSON 块。 |
Thinking Mode 在 Claude 4.5 中是如何工作的?
内部工作流(概念上)
- 用户请求: 你的应用发送一个 Messages API 请求,指定模型、提示、
max_tokens,以及可选的thinking: { type: "enabled", budget_tokens: N }。 - 内部推理: Claude 在预算范围内执行内部“思考”。它会将推理输出记录为
thinking块(对用户而言可能是摘要形式)。 - 输出组装: API 返回一个内容块数组。通常顺序是先
thinking块,再text块(最终答案)。如果使用流式传输,你会先收到thinking_delta事件,再收到text_delta事件。 - 保留上下文: 在使用工具或多轮流程时,你可以重新发送之前的 thinking 块(原样不修改),以便 Claude 继续该思维链。Opus 4.5 引入了默认保留 thinking 块的行为,以提升缓存/效率。
从技术上讲,Thinking Mode 依赖于特定的 API 参数配置,该配置会为推理分配一个 token“预算”。
Token 预算概念
当你向 Claude 4.5 发出请求时,必须指定一个 budget_tokens 参数。这是模型可用于其内部独白的最大 token 数量。
- 低预算(<2,000 tokens): 适合快速合理性检查或简单逻辑谜题。
- 高预算(10,000+ tokens): 适用于复杂软件架构、数学证明或撰写全面的法律意见书。
模型经过训练可以“管理”这笔预算。如果它感知到预算将要耗尽,就会尝试收尾推理,并给出尽可能好的答案。
“思考过程”的生命周期
当用户提出:“写一个 Python 脚本来抓取这个网站,但要确保遵守 robots.txt 并处理动态加载。”
- 摄取: Claude 读取提示。
- 思考阶段(隐藏):
- 自我纠错: “我需要使用 Selenium 或 Playwright 来处理动态加载,
requests行不通。” - 安全检查: “我必须确认用户有权抓取该网站。我会加上一条免责声明。”
- 架构: “我会用基于类的方法组织代码,以提高模块化。”
- 自我纠错: “我需要使用 Selenium 或 Playwright 来处理动态加载,
- 输出阶段(可见): Claude 生成 Python 代码。
在之前的模型中,AI 可能会立即开始写 requests 代码,写到一半才意识到它无法处理动态内容,然后要么幻觉出一个方案,要么给出无法运行的代码。thinking mode 可以防止这种“把自己逼进死角”的情况。
何时应启用 thinking mode——使用场景与经验法则?
最适合受益的使用场景
- 复杂编码(架构变更、多文件重构、长时间调试会话)。Sonnet 4.5 在启用 thinking 时被明确定位为编码和智能体领域的领先模型。
- 智能体工作流,需要反复使用工具并在多个步骤中保留内部上下文。交错思考 + 工具使用是核心场景。
- 深度研究或分析(统计分析、金融结构设计、法律推理),在这些任务中,中间推理步骤值得检查或验证。
不建议启用的情况
- 简短答案生成或高吞吐、低延迟 API,在这种情况下极低延迟至关重要(例如要求毫秒级响应的聊天 UI)。
- 每次请求的 token 成本必须尽量压低,且任务本身简单或定义明确时。
实用经验法则
从**最低思考预算(约 1,024 tokens)**开始,然后针对需要更多深度的任务逐步增加;对端到端任务准确率、延迟和 token 消耗进行基准测试。对于多步骤智能体任务,可以试验交错思考和缓存提示断点,以找到最佳平衡点。
结论
Claude 4.5 的 Thinking Mode 不仅仅是一项功能;它代表了一种与人工智能交互的新方式。通过将“思考的过程”与“思考的产物”分离,Anthropic 提供了一种更可靠、更透明、更能够处理现代企业工作复杂性的工具。
无论你是在使用 Claude Code CLI 来管理一次大规模迁移,还是利用 API 构建下一代自主智能体,掌握“Thinking Budget”都是成功的关键。
开发者可以通过 CometAPI 访问 Claude 4.5 模型。要开始使用,请在 Playground 中探索 CometAPI 的模型能力,并查阅 API 指南以获取详细说明。在访问之前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的优惠,以帮助你完成集成。
准备开始了吗?→ Claude 4.5 免费试用!
