如何使用 Claude Opus 4.5 API

CometAPI
AnnaNov 24, 2025
如何使用 Claude Opus 4.5 API

Anthropic 于 2025 年 11 月下旬发布了 Claude Opus 4.5,这是一款能力更强、效率更高的 Opus 级模型,面向专业软件工程、智能体工作流和长时程任务。它可通过 Anthropic 的开发者平台以及 CometAPI 获取,并引入了新的 API 控制项(尤其是 effort 参数)、改进的 computer-use 工具、扩展思考能力,以及对生产环境很重要的 token 效率提升。

下面是一份实用、专业的讲解:有哪些变化、如何获取访问权限、如何使用新控制项(effort、扩展思考、工具使用、文件/computer use)、成本与优化建议、安全/治理注意事项,以及真实世界的集成模式。

Claude Opus 4.5 到底是什么,为什么重要?

Claude Opus 4.5 是 Anthropic 最新的 Opus 级模型家族成员(于 2025 年 11 月 24–25 日发布),专注于最大化推理与编码能力,同时提升 token 效率,并提供新的 API 控制项以平衡成本与完整性。Anthropic 将 Opus 4.5 定位为其发布过的“最智能模型”,目标场景包括复杂软件工程任务、长时间运行的智能体、电子表格/Excel 自动化,以及需要持续多步推理的任务。

Opus 4.5 的主要更新有哪些?

Anthropic 将 Opus 4.5 设计为在提升推理深度智能体行为的同时,让开发者更好地控制成本/延迟权衡。此次发布的亮点包括:

  • Effort 参数(beta): 一个一等 API 控制旋钮,用于控制 Claude 在一次请求上花费多少“思考预算”(通常为 lowmediumhigh)。它会影响推理、工具调用和内部“thinking” tokens,因此你可以按调用粒度调节速度与完整性,而不是通过切换模型来实现。这是 Opus 4.5 的标志性能力。
  • 更好的智能体与工具编排: 在选择工具时准确性更高、工具调用结构更规范、tool-result 工作流更稳健,更适合构建智能体和多步流水线。Anthropic 提供了关于“tool use”流程的文档和 SDK 指南。
  • Token / 成本效率 —— Anthropic 报告称,相比 Sonnet 4.5,在某些工作流中 token 使用量最高可减少约 50%,同时复杂工程任务中的工具调用错误更少、迭代次数更少。
  • 增强的多模态能力: 在视觉、推理和数学性能方面有全面提升。
  • 上下文窗口扩展至 200K tokens,支持深入、长对话和复杂文档分析。

实际能力有哪些提升?

性能升级

  • 更好的智能体与工具编排:在选择工具时准确性更高、工具调用结构更规范、tool-result 工作流更稳健,更适合构建智能体和多步流水线。Anthropic 提供了“tool use”流程的文档和 SDK 指南。改进的上下文处理、面向长时间智能体运行的压缩辅助工具,以及用于注册和验证工具的一等工具 SDK,使 Opus 4.5 更适合构建可无人值守运行多步的智能体。
  • 增强的多模态能力:在视觉、推理和数学性能方面有全面提升。
  • 上下文窗口扩展至 200K tokens,支持深入、长对话和复杂文档分析。

编码与长时程工作

Opus 4.5 延续了以编码任务基准为导向的定位;在长作业(代码迁移、重构、多步调试)中,它减少了迭代次数和工具调用错误。早期报告和 Anthropic 的 system card 指出,它在工程基准上的持续表现有所改善,并在工具驱动流水线中实现了显著的效率收益。

SWE-bench, Opus 4.5 在软件工程基准上报告了领先分数(Anthropic 在发布材料中列出了 SWE-bench Verified 80.9% 的成绩),客户也反馈其在调试、多文件编辑和长时程代码任务上有所提升。

Claude Opus 4.5-SWE-1

成本与效率

Anthropic 将 Opus 4.5 设计为在提升推理深度智能体行为的同时,让开发者更好地控制成本/延迟权衡:

  • 相比 opus 4.1 降价:每百万 tokens 输入 $5 / 输出 $25。
  • Token 使用改进:在保持性能的同时,平均消耗减少 50–75%。
  • 一个一等 API 控制旋钮,用于控制 Claude 在一次请求上花费多少“思考预算”(通常为 lowmediumhigh)。它会影响推理、工具调用和内部“thinking” tokens,因此你可以按调用粒度调节速度与完整性,而不是通过切换模型来实现。这是 Opus 4.5 的标志性能力(相比 Sonnet 4.5:Medium Effort → token 减少 76%,性能相当;High Effort → 性能提升 4.3%,token 使用减少 48%)。

如何访问并使用 Claude Opus 4.5 API?

如何获取访问权限和密钥?

  1. 创建 Anthropic / Claude Developer 账户。 在 Claude/Anthropic 开发者门户注册,并通过 Console 创建 API key(团队场景也有 organization/admin 流程)。Messages API 是聊天/助手类交互的主要端点。
  2. 云合作伙伴: Opus 4.5 也可通过主要云市场获取,例如 Google Vertex AI、CometAPI(一个 AI API 聚合平台,需要使用其认证)。在 CometAPI 中,你可以通过 Anthropic Messages 格式和 Chat 格式访问 Claude opus 4.5 API。

应该如何对请求进行身份验证?

使用标准 bearer token:在每个 API 调用中包含 Authorization: Bearer $_API_KEY 请求头。请求为 HTTPS 上的 JSON;Messages API 接收一个结构化消息列表(system + user + assistant)。

快速开始 — Python(官方 SDK)

安装 SDK:

pip install anthropic

最小示例(同步):

import os
from anthropic import Anthropic

# expects ANTHROPIC_API_KEY in env

client = Anthropic(api_key=os.environ)

resp = client.messages.create(
    model="claude-opus-4-5-20251101",
    messages=,
    max_tokens=512,
)

print(resp.content.text)  # SDK returns structured content blocks

此调用使用规范的 Opus 4.5 模型标识符。对于由提供方管理的端点(Vertex、CometAPI、Foundry),请遵循提供方文档来构造客户端并提供提供方的 url 和 key(例如 CometAPI 的 https://api.cometapi.com/v1/messages)。

快速开始 — Python(CometAPI)

你需要登录 CometAPI 并获取一个 key。

curl 
--location 
--request POST 'https://api.cometapi.com/v1/messages' \ 
--header 'Authorization: Bearer ' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "model": "claude-opus-4-5-20251101", "max_tokens": 1000, "thinking": { "type": "enabled", "budget_tokens": 1000 }, "messages":  }'

如何使用新的 effort 参数和扩展思考?

什么是 effort 参数,我该如何设置?

effort 参数是随 Opus 4.5 引入的一等 API 控制项,用于调整模型在生成输出时投入多少内部计算和 token 预算。典型值包括 lowmediumhigh。用它来平衡延迟和 token 成本与完整性之间的关系:

  • low —— 面向高吞吐自动化和常规任务的快速、token 高效回答。
  • medium —— 面向生产使用的质量/成本平衡。
  • high —— 适用于深度分析、多步推理,或当准确性最重要时。

Anthropic 为 Opus 4.5(beta)引入了 effort。你必须包含一个 beta header(例如 effort-2025-11-24),并指定 output_config: { "effort": "low|medium|high" }(示例如下)。high 是默认行为。降低 effort 会减少 token 使用和延迟,但可能会略微降低完整性。适用于高吞吐或对延迟敏感的任务。

示例:

# Example using the beta messages API shown in Anthropic docs

from anthropic import Anthropic
import os

client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))

response = client.beta.messages.create(
    model="claude-opus-4-5-20251101",
    betas=,   # required beta header

    messages=,
    max_tokens=1500,
    output_config={"effort": "medium"}  # low | medium | high

)

print(response)

何时使用哪种设置: 对自动化流水线(例如邮件分类)使用 low,对标准助手使用 medium,对代码生成、深度研究或高风险敏感任务使用 high。Anthropic 将此参数强调为 Opus 4.5 的关键控制项。

在 SWE-bench 测试中:

  • 在 Medium Effort 模式下:性能与 Sonnet 4.5 相当,但输出 tokens 减少了 76%;
  • 在 High Effort 模式下:性能比 Sonnet 4.5 高约 4.3 个百分点,且 tokens 减少了 48%。

Claude Opus 4.5-SWE-2

什么是 Extended Thinking,如何调用?

Extended Thinking(也称“extended thinking”或“thinking blocks”)允许模型执行中间链式思考或分步推理,同时可选择保留或总结内部思考块。Messages API 支持这种行为,Anthropic 还增加了用于保留先前 thinking blocks 的控制项,以便多轮智能体复用先前推理,而无需重复进行昂贵的重计算。当任务需要多步规划、长时程问题求解或工具编排时,应使用扩展思考。

如何集成工具并用 Opus 4.5 构建智能体?

Opus 4.5 的主要优势之一是改进的工具使用:在客户端定义工具,让 Claude 决定何时调用它们,执行工具,然后返回 tool_result —— Claude 会在最终回复中使用这些结果。Anthropic 提供了 Agent SDK,允许你注册带类型的工具函数(例如 run_shellcall_apisearch_docs),Claude 可在扩展思考期间发现并调用它们。平台会将工具定义转换为模型可调用并接收结果的函数。这就是安全构建智能体工作流的方式(通过受控输入/输出)。

下面给出一个实用模式和一个端到端 Python 示例。

工具使用模式(概念)

  1. 客户端提供 tools 元数据,包括名称、描述和 JSON schema(input_schema)。
  2. 模型返回一个 tool_use(模型发出的结构化指令,要求调用特定工具并传入特定输入)。API 响应中的 stop_reason 可能为 tool_use
  3. 客户端执行工具(你的代码调用外部 API 或本地函数)。
  4. 客户端发送一条后续消息,其中 role:"user" 且包含一个 tool_result 内容块,携带工具输出。
  5. 模型消费工具结果,并返回最终答案或进一步的工具调用。

这一流程能够在客户端安全控制模型执行的内容(模型提出工具调用;执行由你控制)。

端到端示例 — Python(简单天气工具)

# 1) Define tools metadata and send initial request

from anthropic import Anthropic
import os, json

client = Anthropic(api_key=os.environ)

tools = [
    {
        "name": "get_weather",
        "description": "Return the current weather for a given city.",
        "input_schema": {"type":"object","properties":{"city":{"type":"string"}},"required":}
    }
]

resp = client.messages.create(
    model="claude-opus-4-5-20251101",
    messages=,
    tools=tools,
    max_tokens=800,
)

# 2) Check if Claude wants a tool call

stop_reason = resp.stop_reason  # SDK field

if stop_reason == "tool_use":
    # Extract the tool call (format varies by SDK; this is schematic)

    tool_call = resp.tool_calls  # e.g., {"name":"get_weather", "input":{"city":"Tokyo"}}

    tool_name = tool_call
    tool_input = tool_call

    # 3) Execute the tool client-side (here: stub)

    def get_weather(city):
        # Replace this stub with a real weather API call

        return {"temp_c": 12, "condition": "Partly cloudy"}

    tool_result = get_weather(tool_input)

    # 4) Send tool_result back to Claude

    follow_up = client.messages.create(
        model="claude-opus-4-5-20251101",
        messages=[
            {"role":"user", "content":[{"type":"tool_result",
                                        "tool_use_id": resp.tool_use_id,
                                        "content": json.dumps(tool_result)}]}
        ],
        max_tokens=512,
    )

    print(follow_up.content.text)
else:
    print(resp.content.text)

应该如何设计智能体结构以提高可靠性?

  • 清洗工具输入(避免通过提示词进行注入)。
  • 在将工具输出反馈给模型之前进行验证(schema 检查)。
  • 限制工具作用域(最小权限原则)。
  • 使用压缩辅助工具(Anthropic SDK 提供)以在长时间运行中保持上下文可管理。

我应该如何为 Opus 4.5 设计提示词并组织消息结构?

哪些消息角色和预填充策略效果最好?

使用三段式模式:

  • System(role: system):全局指令——语气、护栏、角色。
  • Assistant(可选):固定示例或预置引导内容。
  • User(role: user):当前请求。

在 system 消息中预填充约束(格式、长度、安全策略、若希望结构化输出则给出 JSON schema)。对于智能体,请加入工具规范和使用示例,以便 Opus 4.5 能正确调用这些工具。

如何使用上下文压缩和提示缓存来节省 tokens?

  • 上下文压缩: 将对话中较早的部分压缩为模型仍可使用的简明摘要。Opus 4.5 支持在不丢失关键推理块的情况下自动压缩上下文。
  • 提示缓存: 为重复提示缓存模型响应(Anthropic 提供了降低延迟/成本的 prompt caching 模式)。

这两项功能都能减少长交互中的 token 占用,推荐用于长时间运行的智能体工作流和生产助手。

错误处理与最佳实践

下面是一些面向生产环境集成 Opus 4.5 的务实可靠性与安全建议。

可靠性与重试

  • 处理限流(HTTP 429) 时使用指数退避和抖动(从 500–1000ms 开始)。
  • 幂等性: 对于无副作用的 LLM 调用,你可以安全重试;但在模型触发外部副作用(工具调用)的工作流中要谨慎——通过跟踪 tool_use_id 或你自己的 request ID 来去重。
  • 流式稳定性: 处理部分流并优雅重连;如果发生中断,优先重试整个请求,或者使用应用层状态恢复,以避免不一致的工具交互。

安全与防护

  • 提示注入与工具安全: 绝不要允许模型在未经验证的情况下直接执行任意 shell 命令或代码。始终验证工具输入并清洗输出。模型提出工具调用;是否执行由你的代码决定。Anthropic 的 system card 和文档描述了对齐约束与安全级别——在高风险领域请遵循它们。
  • 数据处理与合规: 对于包含 PII 或受监管数据的提示词以及工具输入/输出,应按照你的法律/合规政策处理。如果你有严格的数据驻留或审计要求,请使用提供方的 VPC/企业控制(Bedrock / Vertex / Foundry 提供企业选项)。

可观测性与成本控制

  • 记录请求/响应元数据(除非被允许,否则不要记录原始敏感内容)——token 计数、effort 级别、延迟、模型 id 和提供方。这些指标对于成本归因和调试至关重要。
  • 使用 effort 控制单次调用成本: 对常规摘要或高 QPS 端点优先使用 low effort;对深度调试或调查使用 high effort。监控质量与 token 消耗的关系,以便为不同端点选择默认值。

结论——何时(以及如何)选择 Opus 4.5?

当你的产品需要以下能力时,Claude Opus 4.5 是一个自然的选择:

  • 深度多步推理(长逻辑链、研究或调试),
  • 稳健的智能体/工具编排(调用外部 API 的复杂工作流),或
  • 面向大型代码库的生产级代码辅助。

在运营层面,使用 effort 来调节每次调用预算;依靠工具使用模式来保留执行安全性;并根据你的合规需求选择云合作伙伴(或直接使用 Anthropic API)。请使用你自己的语料进行基准测试:厂商数据(如 SWE-bench 等)只是有用信号,但真正决定 ROI 的是你的实际任务和数据。出于安全考虑,请遵循 Opus 4.5 的 system card,并在工具执行和 PII 处理周围设置护栏。

开发者可以通过 Claude Opus 4.5 API 在 CometAPI 上访问 Claude Opus 4.5 API。开始前,请在 Playground 中探索 CometAPI 的模型能力,并查阅 API guide 以获取详细说明。在访问之前,请确保你已经登录 CometAPI 并获得 API key。CometAPI 提供远低于官方价格的价格,以帮助你完成集成。

准备开始了吗?→ 立即注册 CometAPI

如果你想了解更多关于 AI 的技巧、指南和新闻,请在 VKX 和 Discord 上关注我们!

以低成本 获取顶级模型

阅读更多