如何使用 Claude Opus 4.5 API

Anthropic 于 2025 年 11 月下旬发布了 Claude Opus 4.5，这是一款能力更强、效率更高的 Opus 级模型，面向专业软件工程、智能体工作流和长时程任务。它可通过 Anthropic 的开发者平台以及 CometAPI 获取，并引入了新的 API 控制项（尤其是 effort 参数）、改进的 computer-use 工具、扩展思考能力，以及对生产环境很重要的 token 效率提升。

下面是一份实用、专业的讲解：有哪些变化、如何获取访问权限、如何使用新控制项（effort、扩展思考、工具使用、文件/computer use）、成本与优化建议、安全/治理注意事项，以及真实世界的集成模式。

Claude Opus 4.5 到底是什么，为什么重要？

Claude Opus 4.5 是 Anthropic 最新的 Opus 级模型家族成员（于 2025 年 11 月 24–25 日发布），专注于最大化推理与编码能力，同时提升 token 效率，并提供新的 API 控制项以平衡成本与完整性。Anthropic 将 Opus 4.5 定位为其发布过的“最智能模型”，目标场景包括复杂软件工程任务、长时间运行的智能体、电子表格/Excel 自动化，以及需要持续多步推理的任务。

Opus 4.5 的主要更新有哪些？

Anthropic 将 Opus 4.5 设计为在提升推理深度和智能体行为的同时，让开发者更好地控制成本/延迟权衡。此次发布的亮点包括：

Effort 参数（beta）： 一个一等 API 控制旋钮，用于控制 Claude 在一次请求上花费多少“思考预算”（通常为 low、medium、high）。它会影响推理、工具调用和内部“thinking” tokens，因此你可以按调用粒度调节速度与完整性，而不是通过切换模型来实现。这是 Opus 4.5 的标志性能力。
更好的智能体与工具编排： 在选择工具时准确性更高、工具调用结构更规范、tool-result 工作流更稳健，更适合构建智能体和多步流水线。Anthropic 提供了关于“tool use”流程的文档和 SDK 指南。
Token / 成本效率 —— Anthropic 报告称，相比 Sonnet 4.5，在某些工作流中 token 使用量最高可减少约 50%，同时复杂工程任务中的工具调用错误更少、迭代次数更少。
增强的多模态能力： 在视觉、推理和数学性能方面有全面提升。
上下文窗口扩展至 200K tokens，支持深入、长对话和复杂文档分析。

实际能力有哪些提升？

性能升级

更好的智能体与工具编排：在选择工具时准确性更高、工具调用结构更规范、tool-result 工作流更稳健，更适合构建智能体和多步流水线。Anthropic 提供了“tool use”流程的文档和 SDK 指南。改进的上下文处理、面向长时间智能体运行的压缩辅助工具，以及用于注册和验证工具的一等工具 SDK，使 Opus 4.5 更适合构建可无人值守运行多步的智能体。
增强的多模态能力：在视觉、推理和数学性能方面有全面提升。
上下文窗口扩展至 200K tokens，支持深入、长对话和复杂文档分析。

编码与长时程工作

Opus 4.5 延续了以编码任务基准为导向的定位；在长作业（代码迁移、重构、多步调试）中，它减少了迭代次数和工具调用错误。早期报告和 Anthropic 的 system card 指出，它在工程基准上的持续表现有所改善，并在工具驱动流水线中实现了显著的效率收益。

在 SWE-bench， Opus 4.5 在软件工程基准上报告了领先分数（Anthropic 在发布材料中列出了 SWE-bench Verified 80.9% 的成绩），客户也反馈其在调试、多文件编辑和长时程代码任务上有所提升。

Claude Opus 4.5-SWE-1

成本与效率

Anthropic 将 Opus 4.5 设计为在提升推理深度和智能体行为的同时，让开发者更好地控制成本/延迟权衡：

相比 opus 4.1 降价：每百万 tokens 输入 $5 / 输出 $25。
Token 使用改进：在保持性能的同时，平均消耗减少 50–75%。
一个一等 API 控制旋钮，用于控制 Claude 在一次请求上花费多少“思考预算”（通常为 low、medium、high）。它会影响推理、工具调用和内部“thinking” tokens，因此你可以按调用粒度调节速度与完整性，而不是通过切换模型来实现。这是 Opus 4.5 的标志性能力（相比 Sonnet 4.5：Medium Effort → token 减少 76%，性能相当；High Effort → 性能提升 4.3%，token 使用减少 48%）。

如何访问并使用 Claude Opus 4.5 API？

如何获取访问权限和密钥？

创建 Anthropic / Claude Developer 账户。 在 Claude/Anthropic 开发者门户注册，并通过 Console 创建 API key（团队场景也有 organization/admin 流程）。Messages API 是聊天/助手类交互的主要端点。
云合作伙伴： Opus 4.5 也可通过主要云市场获取，例如 Google Vertex AI、CometAPI（一个 AI API 聚合平台，需要使用其认证）。在 CometAPI 中，你可以通过 Anthropic Messages 格式和 Chat 格式访问 Claude opus 4.5 API。

应该如何对请求进行身份验证？

使用标准 bearer token：在每个 API 调用中包含 Authorization: Bearer $_API_KEY 请求头。请求为 HTTPS 上的 JSON；Messages API 接收一个结构化消息列表（system + user + assistant）。

快速开始 — Python（官方 SDK）

安装 SDK：

pip install anthropic

最小示例（同步）：

import os
from anthropic import Anthropic

# expects ANTHROPIC_API_KEY in env

client = Anthropic(api_key=os.environ)

resp = client.messages.create(
    model="claude-opus-4-5-20251101",
    messages=,
    max_tokens=512,
)

print(resp.content.text)  # SDK returns structured content blocks

此调用使用规范的 Opus 4.5 模型标识符。对于由提供方管理的端点（Vertex、CometAPI、Foundry），请遵循提供方文档来构造客户端并提供提供方的 url 和 key（例如 CometAPI 的 https://api.cometapi.com/v1/messages）。

快速开始 — Python（CometAPI）

你需要登录 CometAPI 并获取一个 key。

curl 
--location 
--request POST 'https://api.cometapi.com/v1/messages' \ 
--header 'Authorization: Bearer ' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "model": "claude-opus-4-5-20251101", "max_tokens": 1000, "thinking": { "type": "enabled", "budget_tokens": 1000 }, "messages":  }'

如何使用新的 effort 参数和扩展思考？

什么是 effort 参数，我该如何设置？

effort 参数是随 Opus 4.5 引入的一等 API 控制项，用于调整模型在生成输出时投入多少内部计算和 token 预算。典型值包括 low、medium 和 high。用它来平衡延迟和 token 成本与完整性之间的关系：

low —— 面向高吞吐自动化和常规任务的快速、token 高效回答。
medium —— 面向生产使用的质量/成本平衡。
high —— 适用于深度分析、多步推理，或当准确性最重要时。

Anthropic 为 Opus 4.5（beta）引入了 effort。你必须包含一个 beta header（例如 effort-2025-11-24），并指定 output_config: { "effort": "low|medium|high" }（示例如下）。high 是默认行为。降低 effort 会减少 token 使用和延迟，但可能会略微降低完整性。适用于高吞吐或对延迟敏感的任务。

示例：

# Example using the beta messages API shown in Anthropic docs

from anthropic import Anthropic
import os

client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))

response = client.beta.messages.create(
    model="claude-opus-4-5-20251101",
    betas=,   # required beta header

    messages=,
    max_tokens=1500,
    output_config={"effort": "medium"}  # low | medium | high

)

print(response)

何时使用哪种设置： 对自动化流水线（例如邮件分类）使用 low，对标准助手使用 medium，对代码生成、深度研究或高风险敏感任务使用 high。Anthropic 将此参数强调为 Opus 4.5 的关键控制项。

在 SWE-bench 测试中：

在 Medium Effort 模式下：性能与 Sonnet 4.5 相当，但输出 tokens 减少了 76%；

在 High Effort 模式下：性能比 Sonnet 4.5 高约 4.3 个百分点，且 tokens 减少了 48%。

Claude Opus 4.5-SWE-2

什么是 Extended Thinking，如何调用？

Extended Thinking（也称“extended thinking”或“thinking blocks”）允许模型执行中间链式思考或分步推理，同时可选择保留或总结内部思考块。Messages API 支持这种行为，Anthropic 还增加了用于保留先前 thinking blocks 的控制项，以便多轮智能体复用先前推理，而无需重复进行昂贵的重计算。当任务需要多步规划、长时程问题求解或工具编排时，应使用扩展思考。

如何集成工具并用 Opus 4.5 构建智能体？

Opus 4.5 的主要优势之一是改进的工具使用：在客户端定义工具，让 Claude 决定何时调用它们，执行工具，然后返回 tool_result —— Claude 会在最终回复中使用这些结果。Anthropic 提供了 Agent SDK，允许你注册带类型的工具函数（例如 run_shell、call_api、search_docs），Claude 可在扩展思考期间发现并调用它们。平台会将工具定义转换为模型可调用并接收结果的函数。这就是安全构建智能体工作流的方式（通过受控输入/输出）。

下面给出一个实用模式和一个端到端 Python 示例。

工具使用模式（概念）

客户端提供 tools 元数据，包括名称、描述和 JSON schema（input_schema）。
模型返回一个 tool_use 块（模型发出的结构化指令，要求调用特定工具并传入特定输入）。API 响应中的 stop_reason 可能为 tool_use。
客户端执行工具（你的代码调用外部 API 或本地函数）。
客户端发送一条后续消息，其中 role:"user" 且包含一个 tool_result 内容块，携带工具输出。
模型消费工具结果，并返回最终答案或进一步的工具调用。

这一流程能够在客户端安全控制模型执行的内容（模型提出工具调用；执行由你控制）。

端到端示例 — Python（简单天气工具）

# 1) Define tools metadata and send initial request

from anthropic import Anthropic
import os, json

client = Anthropic(api_key=os.environ)

tools = [
    {
        "name": "get_weather",
        "description": "Return the current weather for a given city.",
        "input_schema": {"type":"object","properties":{"city":{"type":"string"}},"required":}
    }
]

resp = client.messages.create(
    model="claude-opus-4-5-20251101",
    messages=,
    tools=tools,
    max_tokens=800,
)

# 2) Check if Claude wants a tool call

stop_reason = resp.stop_reason  # SDK field

if stop_reason == "tool_use":
    # Extract the tool call (format varies by SDK; this is schematic)

    tool_call = resp.tool_calls  # e.g., {"name":"get_weather", "input":{"city":"Tokyo"}}

    tool_name = tool_call
    tool_input = tool_call

    # 3) Execute the tool client-side (here: stub)

    def get_weather(city):
        # Replace this stub with a real weather API call

        return {"temp_c": 12, "condition": "Partly cloudy"}

    tool_result = get_weather(tool_input)

    # 4) Send tool_result back to Claude

    follow_up = client.messages.create(
        model="claude-opus-4-5-20251101",
        messages=[
            {"role":"user", "content":[{"type":"tool_result",
                                        "tool_use_id": resp.tool_use_id,
                                        "content": json.dumps(tool_result)}]}
        ],
        max_tokens=512,
    )

    print(follow_up.content.text)
else:
    print(resp.content.text)

应该如何设计智能体结构以提高可靠性？

清洗工具输入（避免通过提示词进行注入）。
在将工具输出反馈给模型之前进行验证（schema 检查）。
限制工具作用域（最小权限原则）。
使用压缩辅助工具（Anthropic SDK 提供）以在长时间运行中保持上下文可管理。

我应该如何为 Opus 4.5 设计提示词并组织消息结构？

哪些消息角色和预填充策略效果最好？

使用三段式模式：

System（role: system）：全局指令——语气、护栏、角色。
Assistant（可选）：固定示例或预置引导内容。
User（role: user）：当前请求。

在 system 消息中预填充约束（格式、长度、安全策略、若希望结构化输出则给出 JSON schema）。对于智能体，请加入工具规范和使用示例，以便 Opus 4.5 能正确调用这些工具。

如何使用上下文压缩和提示缓存来节省 tokens？

上下文压缩： 将对话中较早的部分压缩为模型仍可使用的简明摘要。Opus 4.5 支持在不丢失关键推理块的情况下自动压缩上下文。
提示缓存： 为重复提示缓存模型响应（Anthropic 提供了降低延迟/成本的 prompt caching 模式）。

这两项功能都能减少长交互中的 token 占用，推荐用于长时间运行的智能体工作流和生产助手。

错误处理与最佳实践

下面是一些面向生产环境集成 Opus 4.5 的务实可靠性与安全建议。

可靠性与重试

处理限流（HTTP 429） 时使用指数退避和抖动（从 500–1000ms 开始）。
幂等性： 对于无副作用的 LLM 调用，你可以安全重试；但在模型触发外部副作用（工具调用）的工作流中要谨慎——通过跟踪 tool_use_id 或你自己的 request ID 来去重。
流式稳定性： 处理部分流并优雅重连；如果发生中断，优先重试整个请求，或者使用应用层状态恢复，以避免不一致的工具交互。

安全与防护

提示注入与工具安全： 绝不要允许模型在未经验证的情况下直接执行任意 shell 命令或代码。始终验证工具输入并清洗输出。模型提出工具调用；是否执行由你的代码决定。Anthropic 的 system card 和文档描述了对齐约束与安全级别——在高风险领域请遵循它们。
数据处理与合规： 对于包含 PII 或受监管数据的提示词以及工具输入/输出，应按照你的法律/合规政策处理。如果你有严格的数据驻留或审计要求，请使用提供方的 VPC/企业控制（Bedrock / Vertex / Foundry 提供企业选项）。

可观测性与成本控制

记录请求/响应元数据（除非被允许，否则不要记录原始敏感内容）——token 计数、effort 级别、延迟、模型 id 和提供方。这些指标对于成本归因和调试至关重要。
使用 effort 控制单次调用成本： 对常规摘要或高 QPS 端点优先使用 low effort；对深度调试或调查使用 high effort。监控质量与 token 消耗的关系，以便为不同端点选择默认值。

结论——何时（以及如何）选择 Opus 4.5？

当你的产品需要以下能力时，Claude Opus 4.5 是一个自然的选择：

深度多步推理（长逻辑链、研究或调试），
稳健的智能体/工具编排（调用外部 API 的复杂工作流），或
面向大型代码库的生产级代码辅助。

在运营层面，使用 effort 来调节每次调用预算；依靠工具使用模式来保留执行安全性；并根据你的合规需求选择云合作伙伴（或直接使用 Anthropic API）。请使用你自己的语料进行基准测试：厂商数据（如 SWE-bench 等）只是有用信号，但真正决定 ROI 的是你的实际任务和数据。出于安全考虑，请遵循 Opus 4.5 的 system card，并在工具执行和 PII 处理周围设置护栏。

开发者可以通过 Claude Opus 4.5 API 在 CometAPI 上访问 Claude Opus 4.5 API。开始前，请在 Playground 中探索 CometAPI 的模型能力，并查阅 API guide 以获取详细说明。在访问之前，请确保你已经登录 CometAPI 并获得 API key。CometAPI 提供远低于官方价格的价格，以帮助你完成集成。

准备开始了吗？→ 立即注册 CometAPI！

如果你想了解更多关于 AI 的技巧、指南和新闻，请在 VK、X 和 Discord 上关注我们！

Claude Opus 4.5 到底是什么，为什么重要？

Opus 4.5 的主要更新有哪些？

实际能力有哪些提升？

性能升级

编码与长时程工作

成本与效率

如何访问并使用 Claude Opus 4.5 API？

如何获取访问权限和密钥？

应该如何对请求进行身份验证？

快速开始 — Python（官方 SDK）

快速开始 — Python（CometAPI）

如何使用新的 effort 参数和扩展思考？

什么是 effort 参数，我该如何设置？

什么是 Extended Thinking，如何调用？

如何集成工具并用 Opus 4.5 构建智能体？

工具使用模式（概念）

端到端示例 — Python（简单天气工具）

应该如何设计智能体结构以提高可靠性？

我应该如何为 Opus 4.5 设计提示词并组织消息结构？

哪些消息角色和预填充策略效果最好？

如何使用上下文压缩和提示缓存来节省 tokens？

错误处理与最佳实践

可靠性与重试

安全与防护

可观测性与成本控制

结论——何时（以及如何）选择 Opus 4.5？

以低成本获取顶级模型

阅读更多

如何使用 Claude Opus 4.5 API

Claude Opus 4.5 到底是什么，为什么重要？

Opus 4.5 的主要更新有哪些？

实际能力有哪些提升？

性能升级

编码与长时程工作

成本与效率

如何访问并使用 Claude Opus 4.5 API？

如何获取访问权限和密钥？

应该如何对请求进行身份验证？

快速开始 — Python（官方 SDK）

快速开始 — Python（CometAPI）

如何使用新的 effort 参数和扩展思考？

什么是 effort 参数，我该如何设置？

什么是 Extended Thinking，如何调用？

如何集成工具并用 Opus 4.5 构建智能体？

工具使用模式（概念）

端到端示例 — Python（简单天气工具）

应该如何设计智能体结构以提高可靠性？

我应该如何为 Opus 4.5 设计提示词并组织消息结构？

哪些消息角色和预填充策略效果最好？

如何使用上下文压缩和提示缓存来节省 tokens？

错误处理与最佳实践

可靠性与重试

安全与防护

可观测性与成本控制

结论——何时（以及如何）选择 Opus 4.5？

以低成本 获取顶级模型

阅读更多

以低成本获取顶级模型