Anthropic 的 Claude 4.5 系列(尤其是Sonnet 4.5 与Opus 4.5)将扩展“思考”/草稿本风格的内部推理引入 Claude 4 产品线。Messages API 通过一个 thinking 对象(启用/禁用 + budget_tokens 配额)、流式选项,以及对“思考”内容块的特殊处理(包括签名与屏蔽)来暴露该能力。Sonnet 4.5 面向编码与 Agent 化任务,并从扩展思考中获益显著;Opus 4.5 进一步引入可保留的思考块与其他优化。
什么是 Claude 4.5?
Claude 4.5(在 Anthropic 的 Claude 模型家族中以 Sonnet 4.5 和 Opus 4.5 变体发布)是该公司新一代大型语言模型,针对更深层的推理、长跨度上下文,以及生产级编码/Agent 化工作流进行了优化。在 Anthropic 的公告与产品页面中,Sonnet 4.5 被描述为在编码、Agent 构建以及“使用计算机”(即工具辅助工作流与多步自动化)方面的重大进步,并在推理、数学与长上下文任务上实现了可量化提升。
4.5 家族阵容
- Claude Sonnet 4.5 (发布于 2025 年 9 月 29 日): 该系列的“主力”模型。目前被评为全球最佳编码模型,能够在自主任务上保持专注超过 30 小时。它在速度、成本与高阶推理之间取得平衡,是多数企业应用的默认选择。
- Claude Haiku 4.5 (发布于 2025 年 10 月 15 日): 面向速度优化的模型。令人惊讶的是,它如今也支持 Extended Thinking,使其成为首个提供此前仅限于前沿模型的深度推理能力的“小”模型。非常适合在延迟敏感但又不能牺牲准确性的高频任务。
- Claude Opus 4.5 (发布于 2025 年 11 月 24 日): 前沿智能模型。Opus 4.5 专为最复杂、最具歧义的任务而设计——例如科学研究、全新架构设计与高风险金融分析。它拥有最高的“思考预算”容量,并擅长自我纠错。
关键能力一览
- 更大的可用上下文窗口,并在长时运行任务(Agent 工作流、逐步调试、代码库编辑)中表现更优。
- 在编码基准、重构与多步工具使用任务(Sonnet 与 Opus 家族)上表现更佳。
- 高级“思考”特性(Anthropic 称之为扩展思考/思考模式),可选地向开发者暴露模型的部分逐步推理,或允许模型在生成最终答案前花费可配置的“预算”令牌进行推理。
在哪里可以运行 Claude 4.5
Claude 4.5(Sonnet/Opus)可通过 Anthropic 自有 API 获取,并已集成至 CometAPI(API 价格目前在促销,约为 Anthropic 官方价格的 20%。),因此你可以通过 Anthropic 平台或托管该模型的第三方云厂商运行这些模型。
Claude Code 和 Claude 4.5 中的新 THINKING 模式是什么?
Anthropic 的扩展思考(亦称“思考模式”、“思考块”或“思考 tokens”)是一项功能,让模型在给出最终答案前执行更多的内部采样步骤以更彻底地推理。你可以通过在 Messages API 请求中加入 thinking 配置启用它(例如:{ "thinking": { "type": "enabled", "budget_tokens": 4096 } }),或使用 Anthropic SDK 助手。启用后,API 将(视模型而定)返回内部推理的摘要版本,或返回完整推理(出于安全可能进行屏蔽处理)。
要理解为何“思考模式”具有革命性,我们需要回顾大型语言模型(LLMs)传统的工作方式。标准模型是“概率文本生成器”——它们在接收提示后立即预测下一个 token。它们不会“停下来思考”;而是立刻开始“说话”(生成)。
向“扩展思考”的转变
思考模式改变了这一范式。启用后,Claude 4.5 会在向用户输出可见字符之前,先生成一段隐藏的“思考 tokens”流。
可见推理(可选): 在一些界面(如 Claude.ai)中,你可以看到一个“Thinking”下拉菜单,展示模型的内部独白。
隐藏推理(API): 在 API 中,这些是独立的 thinking 块。模型会在其中用于:
- 拆解提示: 分解复杂约束。
- 制定策略: 概述逐步逻辑。
- 起草与批判: 在心中尝试一个方案、发现缺陷,并在呈现答案之前修正。
交错式思考
Sonnet 4.5 的一项重大创新是交错式思考。在 Agent 化工作流中(AI 使用计算器、代码解释器或网页浏览器等工具时),标准模型通常是调用一个工具、得到结果,然后立即调用下一个工具。
借助交错式思考,Claude 4.5 可以:
- 思考用户请求。
- 调用工具 A(例如:进行网络搜索)。
- 思考搜索结果(“这个结果过时了,我应该尝试不同的查询”)。
- 调用工具 B(例如:再次搜索)。
- 思考如何综合这些数据。
- 最终响应。
这种“思考-行动-思考-行动”的循环在长、多步的编码任务中大幅减少幻觉与错误传播。
Claude Code 如何在开发者工具中呈现思考
在 Claude Code(CLI/编辑器体验)中,Anthropic 增加了用于切换思考模式的 UI 控件(常见的交互是按下 Tab 切换开/关),并显示当前思考预算的指示器。一些较早的触发关键词(如 think、think hard)曾用于控制思考深度;现代版本依赖显式开关与预算参数,ultrathink 在某些场景仍然可用。该配置可在 ~/.claude/settings.json 中全局设置,或按请求覆盖。
如何实现 Claude 4.5 思考模式?
对开发者而言,迁移至 Claude 4.5 需要调整 API 请求结构。你不再只是发送一个提示;你还要管理一个“思考预算”。
设置思考预算
thinking 参数现在是 Anthropic API 的一等公民。你必须显式启用并定义一个 budget_tokens 值。该值代表模型可用于内部推理的最大计算量。
Python 实现示例
import anthropic
# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# We set a high max_tokens to accommodate both thinking and the final answer
# The budget_tokens must be less than max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # Allocating 12k tokens for 'thinking'
},
messages=[
{"role": "user", "content": user_query}
]
)
# Extracting the two distinct parts of the response
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)
关键技术注意事项
- 总 Token 用量: 你的总用量为
thinking_tokens+output_tokens。如果你设置 10,000 的预算,模型用于思考 8,000、答案 2,000,那么你的计费为 10,000 个输出 token。 - 强制思考: 如果任务过于简单,模型仍可能使用最少量的思考 tokens 来验证请求的简单性。
思考模式如何提升代码生成?
Claude 4.5 在 Claude Code CLI 中的一项显著提升是代码相关表现。当 Claude 4.5 对代码“思考”时,它会执行若干标准模型容易忽略的隐藏操作。
1. 依赖映射
在写出第一行修复之前,Claude 4.5 会遍历你的代码库,以理解对 utils/auth.ts 的改动如何可能破坏 views/Profile.tsx 中的某个组件。
2. 心智执行
模型在其推理块中“运行”代码。它模拟逻辑流程,识别潜在的竞态条件或 off-by-one 错误。
3. 约束校验
如果你要求一个“高性能且不使用外部库”的方案,思考模式会充当守门人。如果模型的第一反应是建议某个 NPM 包,思考过程会捕捉到该约束的违背,并迫使其转而思考一个纯 JavaScript 的实现。
思考模式与传统提示技术相比如何?
许多用户熟悉“Chain of Thought(逐步思考)”提示,即你让模型:“一步步思考”。这虽有效,但与 Claude 4.5 的原生思考模式并不相同。
| 功能 | Chain of Thought(手动) | 扩展思考(原生) |
|---|---|---|
| 机制 | 由用户提示指令触发。 | 内建于模型架构。 |
| Token 占用 | 占用可见输出空间。 | 占用专用的内部块。 |
| 自我纠错 | 有限;模型常会对早期错误“加倍下注”。 | 较高;模型可舍弃整个推理路径并重来。 |
| 可靠性 | 取决于提示质量而波动。 | 在复杂领域中稳定性更高。 |
| API 处理 | 需手动解析文本。 | 以结构化 JSON 块区分“thinking”与“text”。 |
思考模式在 Claude 4.5 中如何工作?
内部工作流(概念性)
- 用户请求: 你的应用发送 Messages API 请求,指定模型、提示、
max_tokens,以及可选的thinking: { type: "enabled", budget_tokens: N }。 - 内部推理: Claude 在预算范围内执行内部“思考”。它将推理输出记录为
thinking块(可能会为用户做摘要)。 - 输出组合: API 返回一个内容块数组。通常顺序是
thinking块随后是text块(最终答案)。若为流式,你将先收到thinking_delta事件,随后是text_delta事件。 - 上下文保留: 使用工具或多轮交互时,你可以重新发送先前的思考块(不作修改),以便 Claude 继续思维链。Opus 4.5 引入了默认保留思考块的行为,以提升缓存/效率。
从技术上讲,思考模式依赖特定的 API 参数配置来分配用于推理的“预算” tokens。
Token 预算概念
当你向 Claude 4.5 发起请求时,必须指定 budget_tokens 参数。这是模型可用于内部独白的最大 token 数。
- 低预算(<2,000 tokens): 适用于快速健全性检查或简单逻辑题。
- 高预算(10,000+ tokens): 适用于复杂软件架构、数学证明或撰写全面的法律文件。
模型经过训练来“管理”这一预算。如果感知到预算即将耗尽,它会尝试收尾推理并给出尽可能好的答案。
“思考过程”的生命周期
当用户提出:“编写一个 Python 脚本来抓取该网站,但确保遵守 robots.txt 并处理动态加载。”
- 摄取: Claude 阅读提示。
- 思考阶段(隐藏):
- 自我纠正: “我需要使用 Selenium 或 Playwright 处理动态加载,
requests不适用。” - 安全检查: “我必须验证用户是否有抓取权限。我将添加免责声明。”
- 架构设计: “我将采用基于类的结构以实现模块化。”
- 自我纠正: “我需要使用 Selenium 或 Playwright 处理动态加载,
- 输出阶段(可见): Claude 生成 Python 代码。
在以往的模型中,AI 可能会直接开始写 requests 代码,写到一半才意识到它不适用于动态内容,然后要么产生幻觉式的方案,要么给出错误代码。思考模式避免了这种“把自己逼到墙角”的情况。
何时应启用思考模式——用例与经验法则?
受益最大的用例
- 复杂编码(架构性变更、多文件重构、长调试会话)。启用思考后,Sonnet 4.5 被明确定位为编码与 Agent 化的领先者。
- Agent 化工作流,需要反复使用工具并在多步骤中保留内部上下文。交错式思考 + 工具使用是主要场景。
- 深入研究或分析(统计分析、金融结构化、法律推理),其中中间推理步骤对检查或验证很有价值。
何时不必启用
- 简短回答生成或需要极低延迟的高吞吐 API(如需毫秒级响应的聊天界面)。
- 必须最小化每次请求 token 成本,且任务简单或规范明确的场景。
实用经验法则
从**最低思考预算(≈1,024 tokens)**起步,并针对需要更深入推理的任务逐步增加;基于端到端任务准确度 vs 延迟与 token 消耗进行基准测试。对于多步 Agent 任务,尝试交错式思考与缓存的提示断点,以找到最佳点。
结论
Claude 4.5 的思考模式不仅是一项功能;它是与人工智能交互方式的新范式。通过将思考过程与思考产物分离,Anthropic 提供了一个更可靠、更透明、也更能处理现代企业复杂工作的工具。
无论你是在使用 Claude Code CLI 管理一次大型迁移,还是利用 API 构建下一代自治 Agent,掌握“思考预算”都是成功的关键。
开发者可通过 CometAPI 访问 Claude 4.5 模型。开始之前,请在 Playground 了解 CometAPI 的模型能力,并参考 API 指南获取详细说明。访问前,请确保已登录 CometAPI 并获取 API Key。CometAPI 提供远低于官方价格的方案,助你集成落地。
准备好了吗?→ 免费试用 Claude 4.5!
