Modo de razonamiento en Claude 4.5: Todo lo que necesita saber

CometAPI
AnnaDec 30, 2025
Modo de razonamiento en Claude 4.5: Todo lo que necesita saber

Anthropic 的 Claude 4.5 系列(尤其是 Sonnet 4.5Opus 4.5)将扩展“思考”/草稿板式内部推理引入了其 Claude 4 产品线。Messages API 通过一个 thinking 对象(启用/禁用 + budget_tokens 配额)、流式传输选项,以及对“thinking”内容块的特殊处理(包括签名和脱敏)来暴露这一能力。Sonnet 4.5 面向编码和智能体任务,并从扩展思考中显著受益;Opus 4.5 则增加了保留思考块和其他优化。

什么是 Claude 4.5?

Claude 4.5(由 Anthropic 在 Claude 模型家族中推出的 Sonnet 4.5Opus 4.5 变体)是该公司最新一代的大语言模型,专为更深层推理、长程上下文以及生产级编码/智能体工作流而调优。在 Anthropic 的公告和产品页面中,Sonnet 4.5 被描述为在编码、智能体构建和“使用计算机”(即工具辅助工作流和多步骤自动化)方面的重大进步,并在推理、数学和长上下文任务上带来了可衡量的提升。

4.5 系列阵容

  • Claude Sonnet 4.5 (发布于 2025 年 9 月 29 日): 该系列中的“主力”模型。它目前被评为全球最佳编码模型,能够在自主任务上持续专注超过 30 小时。它在速度、成本和高阶推理之间取得平衡,因此成为大多数企业应用的默认选择。
  • Claude Haiku 4.5 (发布于 2025 年 10 月 15 日): 面向速度优化的模型。令人惊讶的是,它现在也支持 Extended Thinking,使其成为首个提供以往仅限前沿模型的深度推理能力的“小型”模型。它非常适合对延迟敏感但又不能牺牲准确性的高频任务。
  • Claude Opus 4.5 (发布于 2025 年 11 月 24 日): 前沿智能模型。Opus 4.5 专为最复杂、最模糊的任务而设计,例如科学研究、全新架构设计和高风险金融分析。它具有最高的“思考预算”容量,并且在自我纠错方面表现出色。

关键能力概览

  • 更大的可用上下文窗口,以及在长时间运行任务(智能体工作流、逐步调试、代码库编辑)中的改进行为。
  • 在编码基准、重构和多步骤工具使用任务上的更佳表现(Sonnet 和 Opus 系列)。
  • 高级“思考”功能(Anthropic 称之为 extended thinking / thinking mode),可选择性地向开发者暴露模型部分内部逐步推理,或允许模型在生成最终答案前使用可配置的 token“预算”进行推理。

你可以在哪里运行 Claude 4.5

Claude 4.5(Sonnet/Opus)可通过 Anthropic 自有 API 使用,也已集成到 CometAPI 中(API 定价目前促销中,约为 Anthropic 价格的 20%),因此你可以通过 Anthropic 平台或托管该模型的第三方云厂商来运行这些模型。

Claude Code 和 Claude 4.5 中新的 THINKING 模式是什么?

Anthropic 的 extended thinking(又称“thinking mode”“thinking blocks”或“thinking tokens”)是一项功能,它允许模型在生成最终答案之前执行额外的内部采样步骤,从而进行更充分的推理。你可以通过在 Messages API 请求中添加 thinking 配置来启用它(例如:{ "thinking": { "type": "enabled", "budget_tokens": 4096 } }),或使用 Anthropic SDK 辅助方法。启用后,API 将(取决于模型)返回内部推理的摘要版本,或返回完整推理(出于安全原因可能会经过脱敏)。

要理解“Thinking Mode”为何具有革命性,我们必须先看看大语言模型(LLM)传统上是如何工作的。标准模型是“概率式文本生成器”——它们在接收到提示后立即预测下一个 token。它们不会“停下来思考”;而是立刻开始说话(生成内容)。

向“Extended Thinking”的转变

Thinking Mode 改变了这一范式。启用后,Claude 4.5 会在向用户输出任何一个可见字符之前,先生成一串隐藏的“thinking tokens”。

可见推理(可选): 在 Claude.ai 等某些界面中,你可以看到一个 “Thinking” 下拉菜单,其中会展示模型的内部独白。

隐藏推理(API): 在 API 中,这些是独立的 thinking 块。模型利用这部分空间来:

  • 拆解提示: 分解复杂约束条件。
  • 规划策略: 列出逐步逻辑。
  • 起草并审视: 在给出答案 之前,先在内部尝试一个方案,发现缺陷,再进行修正。

交错思考

Sonnet 4.5 的一项重大创新是 Interleaved Thinking(交错思考)。在智能体工作流中(AI 使用计算器、代码解释器或网页浏览器等工具),标准模型通常只是调用一个工具、拿到结果,然后立即调用下一个工具。

借助 Interleaved Thinking,Claude 4.5 可以:

  1. 思考 用户请求。
  2. 调用工具 A(例如:搜索网页)。
  3. 思考 搜索结果(“这个结果过时了,我应该换一个查询词”)。
  4. 调用工具 B(例如:再次搜索)。
  5. 思考 如何综合这些数据。
  6. 最终响应。

这种“思考-行动-思考-行动”的循环显著减少了长链路、多步骤编码任务中的幻觉和错误传播。

Claude Code 如何在开发者工具中呈现思考

Claude Code(CLI / 编辑器体验)中,Anthropic 增加了用于在交互式会话中切换思考模式的 UI 交互方式(常见 UX 是按 Tab 键切换 thinking 开/关),并显示当前思考预算的指示器。一些较旧的触发关键词(例如 thinkthink hard)过去曾用于控制思考深度;现代版本则依赖显式切换和预算参数,不过 ultrathink 在某些场景中仍可用。配置可以全局写在 ~/.claude/settings.json 中,也可以按请求覆盖。

如何实现 Claude 4.5 Thinking Mode?

对开发者而言,迁移到 Claude 4.5 需要改变 API 请求的组织方式。你不再只是发送一个提示;你还需要管理一个“Thinking Budget(思考预算)”。

设置 Thinking Budget

thinking 参数现在是 Anthropic API 中的一等公民。你必须显式启用它并定义一个 budget_tokens 值。这个值表示模型可以用于内部推理的最大计算量。

Python 实现示例

以下代码演示了如何初始化一个启用了 Extended Thinking 的 Claude 4.5 会话。

import anthropic

# 初始化 Claude 4.5 集成的 Gemini Enterprise 视角
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # 我们设置较高的 max_tokens,以容纳 thinking 和最终答案
    # budget_tokens 必须小于 max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # 为“thinking”分配 12k tokens
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # 提取响应的两个不同部分
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# 示例复杂查询
query = "为一个去中心化投票应用设计一个基于 Circom 的零知识证明系统。"
thoughts, answer = get_reasoned_response(query)

print("--- CLAUDE 的内部推理 ---")
print(thoughts)
print("\n--- 最终技术架构 ---")
print(answer)

关键技术注意事项

  • 总 token 使用量: 你的总用量是 thinking_tokens + output_tokens。如果你设置 10,000 token 的预算,而模型用了 8,000 个用于思考、2,000 个用于回答,那么你会按 10,000 个输出 token 计费。
  • 强制思考: 如果任务过于简单,模型仍可能使用最少数量的 thinking tokens 来验证该请求确实很简单。

Thinking Mode 如何提升代码生成?

Claude 4.5 最重要的升级之一是其在 Claude Code CLI 中的表现。当 Claude 4.5 对代码进行“思考”时,它会执行几个标准模型容易忽略的隐藏动作。

1. 依赖映射

在写下修复代码的第一行之前,Claude 4.5 会遍历你的代码仓库,理解 utils/auth.ts 中的改动可能如何破坏 views/Profile.tsx 中的组件。

2. 心智执行

模型会在其推理块中“运行”代码。它模拟逻辑流程,并识别潜在的竞态条件或 off-by-one 错误。

3. 约束校验

如果你要求一个“高性能且不使用外部库”的解决方案,thinking mode 会充当守门员。如果模型的第一反应是建议某个 NPM 包,那么思考过程会捕捉到这一违规,并迫使模型重新考虑一个原生 JavaScript 实现。

Thinking Mode 与传统提示方式相比如何?

许多用户都熟悉“思维链”(Chain of Thought,CoT)提示法,比如你告诉模型:“一步一步思考。” 虽然这种方法有效,但它并不等同于 Claude 4.5 的原生 Thinking Mode。

特性思维链(手动)扩展思考(原生)
机制用户提示式指令。内建于模型架构中。
Token 空间占用可见输出空间。占用专用内部块。
自我纠错有限;模型经常会对早期错误“一错到底”。高;模型可以丢弃整条推理路径并重新开始。
可靠性随提示质量而变化。在复杂领域中持续保持较高水平。
API 处理需要手动解析文本。thinkingtext 提供结构化 JSON 块。

Thinking Mode 在 Claude 4.5 中是如何工作的?

内部工作流(概念上)

  1. 用户请求: 你的应用发送一个 Messages API 请求,指定模型、提示、max_tokens,以及可选的 thinking: { type: "enabled", budget_tokens: N }
  2. 内部推理: Claude 在预算范围内执行内部“思考”。它会将推理输出记录为 thinking 块(对用户而言可能是摘要形式)。
  3. 输出组装: API 返回一个内容块数组。通常顺序是先 thinking 块,再 text 块(最终答案)。如果使用流式传输,你会先收到 thinking_delta 事件,再收到 text_delta 事件。
  4. 保留上下文: 在使用工具或多轮流程时,你可以重新发送之前的 thinking 块(原样不修改),以便 Claude 继续该思维链。Opus 4.5 引入了默认保留 thinking 块的行为,以提升缓存/效率。

从技术上讲,Thinking Mode 依赖于特定的 API 参数配置,该配置会为推理分配一个 token“预算”。

Token 预算概念

当你向 Claude 4.5 发出请求时,必须指定一个 budget_tokens 参数。这是模型可用于其内部独白的最大 token 数量。

  • 低预算(<2,000 tokens): 适合快速合理性检查或简单逻辑谜题。
  • 高预算(10,000+ tokens): 适用于复杂软件架构、数学证明或撰写全面的法律意见书。

模型经过训练可以“管理”这笔预算。如果它感知到预算将要耗尽,就会尝试收尾推理,并给出尽可能好的答案。

“思考过程”的生命周期

当用户提出:“写一个 Python 脚本来抓取这个网站,但要确保遵守 robots.txt 并处理动态加载。”

  1. 摄取: Claude 读取提示。
  2. 思考阶段(隐藏):
    • 自我纠错: “我需要使用 Selenium 或 Playwright 来处理动态加载,requests 行不通。”
    • 安全检查: “我必须确认用户有权抓取该网站。我会加上一条免责声明。”
    • 架构: “我会用基于类的方法组织代码,以提高模块化。”
  3. 输出阶段(可见): Claude 生成 Python 代码。

在之前的模型中,AI 可能会立即开始写 requests 代码,写到一半才意识到它无法处理动态内容,然后要么幻觉出一个方案,要么给出无法运行的代码。thinking mode 可以防止这种“把自己逼进死角”的情况。

何时应启用 thinking mode——使用场景与经验法则?

最适合受益的使用场景

  • 复杂编码(架构变更、多文件重构、长时间调试会话)。Sonnet 4.5 在启用 thinking 时被明确定位为编码和智能体领域的领先模型。
  • 智能体工作流,需要反复使用工具并在多个步骤中保留内部上下文。交错思考 + 工具使用是核心场景。
  • 深度研究或分析(统计分析、金融结构设计、法律推理),在这些任务中,中间推理步骤值得检查或验证。

不建议启用的情况

  • 简短答案生成或高吞吐、低延迟 API,在这种情况下极低延迟至关重要(例如要求毫秒级响应的聊天 UI)。
  • 每次请求的 token 成本必须尽量压低,且任务本身简单或定义明确时。

实用经验法则

从**最低思考预算(约 1,024 tokens)**开始,然后针对需要更多深度的任务逐步增加;对端到端任务准确率、延迟和 token 消耗进行基准测试。对于多步骤智能体任务,可以试验交错思考和缓存提示断点,以找到最佳平衡点。

结论

Claude 4.5 的 Thinking Mode 不仅仅是一项功能;它代表了一种与人工智能交互的新方式。通过将“思考的过程”与“思考的产物”分离,Anthropic 提供了一种更可靠、更透明、更能够处理现代企业工作复杂性的工具。

无论你是在使用 Claude Code CLI 来管理一次大规模迁移,还是利用 API 构建下一代自主智能体,掌握“Thinking Budget”都是成功的关键。

开发者可以通过 CometAPI 访问 Claude 4.5 模型。要开始使用,请在 Playground 中探索 CometAPI 的模型能力,并查阅 API 指南以获取详细说明。在访问之前,请确保你已登录 CometAPI 并获取 API key。CometAPI 提供远低于官方价格的优惠,以帮助你完成集成。

准备开始了吗?→ Claude 4.5 免费试用!

Accede a Modelos de Primera Calidad a Bajo Costo

Leer Más