Anthropic 的 Claude 4.5 系列(尤其是 Sonnet 4.5 和 Opus 4.5)为 Claude 4 产品线带来了扩展“思考”/草稿式内部推理。Messages API 通过一个 thinking 对象(启用/禁用 + budget_tokens 配额)、流式选项,以及对“思考”内容块的特殊处理(包括签名与删减)来暴露该能力。Sonnet 4.5 面向编码与代理型任务,显著受益于扩展思考;Opus 4.5 还引入保留的思考块及其他优化。
什么是 Claude 4.5?
Claude 4.5(在 Anthropic 的 Claude 模型家族中以 Sonnet 4.5 和 Opus 4.5 变体发布)是公司最新一代的大型语言模型,针对更深层的推理、长周期上下文,以及生产级编码/代理型工作流进行了调优。在 Anthropic 的公告和产品页面中,Sonnet 4.5 被描述为在编码、代理构建与“使用计算机”(即工具辅助工作流与多步自动化)方面的重大进步,并在推理、数学与长上下文任务上取得了可衡量的提升。
4.5 系列阵容
- Claude Sonnet 4.5 (Released Sept 29, 2025): 家族中的“主力机型”。目前被评为全球最佳编码模型,能够在自主任务上持续保持专注超过 30 小时。它在速度、成本与高阶推理之间取得平衡,是大多数企业应用的默认选择。
- Claude Haiku 4.5 (Released Oct 15, 2025): 速度优化型号。令人惊讶的是,它现在也支持扩展思考,成为首个提供此前仅限前沿模型的深度推理能力的“小”模型。非常适合高频任务,在注重延迟的同时又不能牺牲准确性。
- Claude Opus 4.5 (Released Nov 24, 2025): 前沿智能型号。Opus 4.5 专为最复杂、最模糊的任务而设计——例如科学研究、新型架构设计与高风险金融分析。它拥有最高的“思考预算”上限,并擅长自我纠错。
关键能力一览
- 更大的可用上下文窗口,并在长时间运行任务(代理工作流、逐步调试、代码库编辑)中表现更佳。
- 在编码基准测试、重构以及多步工具使用任务(Sonnet 与 Opus 系列)中表现更优。
- 高级“思考”特性(Anthropic 称为扩展思考 / 思考模式),可选择性地向开发者暴露模型的部分内部逐步推理,或允许模型在生成最终答案前使用可配置的“预算”令牌进行推理。
在哪里运行 Claude 4.5
Claude 4.5(Sonnet/Opus)可通过 Anthropic 自有 API 获取,并已集成到 CometAPI(API 定价目前在促销,约为 Anthropic 官方价格的 20%),因此你可以通过 Anthropic 平台或托管该模型的第三方云供应商运行这些模型。
Claude Code 与 Claude 4.5 的全新 THINKING 模式是什么?
Anthropic 的扩展思考(又称“思考模式”、“思考块”或“思考令牌”)是一项功能,使模型在生成最终答案前执行额外的内部采样步骤以更充分地推理。你可以在 Messages API 请求中添加 thinking 配置启用它(例如:{ "thinking": { "type": "enabled", "budget_tokens": 4096 } }),或者使用 Anthropic SDK 的辅助工具。启用后,API 会(取决于模型)返回内部推理的摘要版本,或返回完整推理(出于安全会进行删减)。
要理解“思考模式”为何具有革命性,我们需要回看大型语言模型(LLMs)传统的工作方式。标准模型是“概率文本生成器”——接收到提示后立即预测下一个 token。它们不会“停下来思考”,而是立刻开始输出(生成)。
向“扩展思考”的转变
“思考模式”改变了这一范式。启用后,Claude 4.5 会在向用户输出任一可见字符之前,先生成一段隐藏的“思考令牌”流。
“可见推理”(可选):在诸如 Claude.ai 等界面中,你可以看到一个“Thinking”下拉,显示模型的内部独白。
“隐藏推理”(API):在 API 中,它们是独立的 thinking 块。模型在这些空间中会:
- “解构提示”:拆解复杂约束。
- “制定策略”:勾勒逐步逻辑。
- “起草与批判”:在脑中尝试一个解法,发现缺陷并在呈现答案之前纠正。
交错思考
Sonnet 4.5 的一项重要创新是“交错思考”。在代理型工作流(AI 使用计算器、代码解释器或网页浏览器等工具)中,标准模型通常只是调用工具、获得结果,然后立即调用下一个工具。
通过交错思考,Claude 4.5 可以:
- 思考用户请求。
- 调用工具 A(例如:进行网页搜索)。
- 思考搜索结果(“该结果已过时,我应尝试不同的查询”)。
- 调用工具 B(例如:再次搜索)。
- 思考如何综合数据。
- 最终响应。
这种“思考-行动-思考-行动”循环显著减少了在长的、多步编码任务中的幻觉与错误传播。
Claude Code 如何在开发者工具中呈现思考
在 Claude Code(CLI/编辑器体验)中,Anthropic 增加了用于交互式会话的 UI 控件,用于切换思考模式(常见的 UX 是按下 Tab 开关思考),并显示当前思考预算的指示器。一些旧的触发关键词(例如 think、think hard)曾用于历史上控制思考深度;现代版本依赖显式的开关与预算参数,ultrathink 在某些场景中仍可用。配置可以在 ~/.claude/settings.json 全局设置,或按请求覆盖。
如何实现 Claude 4.5 的 Thinking 模式?
对于开发者来说,迁移到 Claude 4.5 需要改变 API 请求的结构方式。你不再只是发送一个提示;你还在管理一个“思考预算”。
设置思考预算
thinking 参数现在是 Anthropic API 的一等公民。你必须显式启用它并定义一个 budget_tokens 值。该值表示模型可用于内部推理的最大计算量。
Python 实现示例
import anthropic
# 初始化与 Claude 4.5 集成的 Gemini Enterprise 视角
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# 设置较高的 max_tokens 以容纳思考与最终答案
# budget_tokens 必须小于 max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # 为“思考”分配 12k 令牌
},
messages=[
{"role": "user", "content": user_query}
]
)
# 提取响应的两个不同部分
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# 复杂示例查询
query = "使用 Circom 为去中心化投票应用设计一个零知识证明系统。"
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE 的内部推理 ---")
print(thoughts)
print("\n--- 最终技术架构 ---")
print(answer)
关键技术考量
- 总令牌使用:你的总用量是
thinking_tokens+output_tokens。如果你设置 10,000 的预算,模型用于思考 8,000,用于答案 2,000,你的计费为 10,000 输出令牌。 - 强制思考:如果任务过于简单,模型仍可能使用最少数量的思考令牌来验证请求的简单性。
思考模式如何提升代码生成?
Claude 4.5 在 Claude Code CLI 中的表现是最显著的升级之一。当 Claude 4.5“思考”关于代码时,它会执行若干标准模型忽略的隐藏动作。
1. 依赖映射
在编写任何一行修复之前,Claude 4.5 会遍历你的代码库,理解对 utils/auth.ts 的修改如何可能破坏 views/Profile.tsx 中的组件。
2. 心理执行
模型在其推理块中“运行”代码。它模拟逻辑流程并识别潜在的竞态条件或 off-by-one 错误。
3. 约束验证
如果你要求一个“高性能且不使用外部库”的解决方案,思考模式会充当守门员。如果模型的第一反应是建议一个 NPM 包,思考过程会捕捉到该违规并强制模型重新思考使用原生 JavaScript 的实现。
思考模式与传统提示相比如何?
许多用户熟悉“链式思维”(Chain of Thought, CoT)提示,即告诉模型:“一步一步思考”。虽然有效,但它与 Claude 4.5 的原生思考模式并不相同。
| 功能 | 链式思维(手动) | 扩展思考(原生) |
|---|---|---|
| 机制 | 用户提示的指令。 | 内建模型架构。 |
| 令牌空间 | 占用可见输出空间。 | 占用专用的内部块。 |
| 自我纠错 | 有限;模型常对早期错误“加倍坚持”。 | 高;模型可丢弃整条推理路径并重新开始。 |
| 可靠性 | 取决于提示质量而波动。 | 在复杂领域持续保持高水平。 |
| API 处理 | 需要手动解析文本。 | 为 "thinking" 和 "text" 提供结构化 JSON 块。 |
Claude 4.5 的思考模式如何工作?
内部工作流(概念)
- 用户请求:你的应用发送一个 Messages API 请求,指定模型、提示、
max_tokens,并可选指定thinking: { type: "enabled", budget_tokens: N }。 - 内部推理:Claude 在预算范围内执行内部“思考”。它将推理输出记录为
thinking块(可能为用户进行摘要)。 - 输出组合:API 返回一个内容块数组。通常顺序是先
thinking块,然后text块(最终答案)。若为流式,你将收到thinking_delta事件,然后是text_delta事件。 - 保持上下文:在使用工具或多轮流程中,你可以重新发送之前的思考块(不做修改),以便 Claude 继续思考链。Opus 4.5 默认引入保留思考块的行为以提升缓存/效率。
技术上,思考模式依赖一组特定的 API 参数配置,为推理分配一个“预算”令牌。
令牌预算概念
当你向 Claude 4.5 发起请求时,必须指定一个 budget_tokens 参数。这是模型可用于内部独白的最大令牌数。
- 低预算(<2,000 tokens):适用于快速的合理性检查或简单逻辑题。
- 高预算(10,000+ tokens):适用于复杂的软件架构、数学证明或撰写全面的法律文书。
模型经过训练会“管理”该预算。如果它感知预算即将耗尽,会尝试收尾推理并提供尽可能好的答案。
“思考过程”的生命周期
当用户提出:“编写一个 Python 脚本来抓取这个网站,但要确保遵守 robots.txt 并处理动态加载。”
- 摄入:Claude 读取提示。
- 思考阶段(隐藏):
- 自我纠错:“我需要使用 Selenium 或 Playwright 处理动态加载。
requests不适用。” - 安全检查:“我必须验证用户有抓取权限。我将添加免责声明。”
- 架构:“我将采用基于类的结构以提升模块化。”
- 自我纠错:“我需要使用 Selenium 或 Playwright 处理动态加载。
- 输出阶段(可见):Claude 生成 Python 代码。
在以往的模型中,AI 可能会立即开始编写 requests 代码,写到一半才意识到它不适用于动态内容,然后要么产生幻觉性的解决方案,要么给出有缺陷的代码。思考模式避免了这种“走进死胡同”的情形。
何时启用思考模式——使用场景与启发式?
最受益的使用场景
- 复杂编码(架构性变更、多文件重构、长时间调试会话)。在启用思考时,Sonnet 4.5 明确定位为编码与代理型领军者。
- 需要反复使用工具并在多步中保持内部上下文的代理型工作流。交错思考 + 工具使用是主要场景。
- 深度研究或分析(统计分析、金融结构化、法律推理),中间推理步骤有助于检查或验证。
不建议启用的场景
- 短答案生成或高吞吐低延迟 API,在毫秒级响应至关重要的聊天界面等。
- 任务简单或规范明确、且必须将每次请求的令牌成本最小化的场景。
实用启发式
从最低思考预算(≈1,024 tokens)开始,并为需要更多深度的任务逐步提升;在端到端任务准确性、延迟与令牌之间进行基准测试。对于多步代理任务,尝试交错思考与缓存的提示断点,以找到最佳平衡点。
结论
Claude 4.5 的思考模式不仅仅是一项功能;它是一种与人工智能交互的新方式。通过将思考的过程与思考的产物分离,Anthropic 提供了一个更可靠、更透明,且更能处理现代企业工作复杂性的工具。
无论你使用 Claude Code CLI 来管理一次大规模迁移,还是利用 API 构建下一代自主代理,掌握“思考预算”都是成功的关键。
开发者可以通过 CometAPI 访问 Claude 4.5 模型。开始之前,请在 CometAPI 的 Playground 中探索模型能力,并参考 API 指南获取详细说明。访问前,请确保你已登录 CometAPI 并获得 API 密钥。CometAPI 提供远低于官方价格的报价,帮助你集成。
Ready to Go?→ 免费试用 Claude 4.5!
