Anthropic 的 Claude 系列一直是 2025 年前沿模型竞赛中进展最快的主线之一。在过去几周里,多起泄露、社交媒体帖子和调查性报道都指向即将推出的 Claude Opus 4.5(通常简称为 “Opus 4.5”)——一些消息源内部将其称为 Neptune V6——并且该模型似乎已被分享给外部红队成员进行越狱测试。公开细节仍然零散,因此本文汇总了现有报道,解释这次泄露对能力与安全意味着什么,并对其可能的定价以及 Opus 4.5 与 Google 的 Gemini 3 和 OpenAI 的 GPT-5.1 相比表现如何,给出一个有依据的估计。
什么是 Claude Opus 4.5?
Claude 4.5 家族中的前沿成员
Anthropic 一直使用 “Opus”、“Sonnet” 和 “Haiku” 等名称来表示模型家族和容量层级。Opus 一直是 Anthropic 在 4.x 代中能力最强模型的标签(例如 Opus 4.1)。Sonnet 和 Haiku 则分别用于中等和较小层级。按照这一命名惯例,“Claude Opus 4.5” 很自然地会成为 Claude 4.5 系列中新的顶级发布候选。
“Opus” 是 Anthropic 对 Claude 4 家族中最高容量、最高能力模型的标签——这些模型定位于最困难的推理、研究和编码任务(Opus 4 和 Opus 4.1 是目前最具代表性的在线示例)。Opus 模型旨在以更高的推理成本换取更强的长上下文推理、编码性能以及在复杂工作流中的稳健性,而 Anthropic 历来都会将扩展上下文处理和“深度思考”模式等特性保留给 Opus 层级。
这些标识符说明了什么:“Opus 4.5” 和 “Neptune V6”
公开信号流中似乎有两条独立线索:
- 开发者和社区成员报告称,曾短暂在 Claude Code CLI 请求和代码仓库讨论中看到字面模型标识符
Opus 4.5——这是一种典型的早期泄露痕迹,通常发生在内部名称渗入日志或 PR 时。 - 多家媒体和社区帖子称,用于开发/红队实例的内部代号是 Neptune V6;Anthropic 历来曾用内部 Neptune 工作台命名预发布/红队快照。因此,Neptune 这一名称很可能对应于未来对外产品 Claude Opus 4.5 的某个内部测试实例。
结论: 公开信号显示,Claude Opus 4.5 很可能是 Claude 4.5 系列中预期的高能力成员,目前正处于测试阶段,并且(截至最新报道)正在积极进行红队测试。这组信号一致且可信,但并不等同于官方产品公告。
这次泄露是如何出现的?可靠性如何?
可见的证据链
当前这则消息主要由三种线索汇聚而成:
- 模型标识符出现在开发工具 / 拉取请求中: 观察者在 Claude Code CLI 的某个 pull request 或内部工具日志中发现了 “Claude Opus 4.5”/“Neptune V6” 字符串——这通常是内部模型名称进入可见工作流的早期信号。X/Twitter 上的一则简短帖子及其后续转发,将这一发现带到了更广泛的社区视野中。
- Reddit 和社区讨论: 聚焦 Claude 的 subreddit 一直在讨论用户报告的变化、Sonnet/Opus 的可用性以及一些性能异常,还有部分用户声称在其 beta 环境中瞥见了 4.5 变体。社区帖子噪音很大,但作为早期信号仍有参考价值。
- Anthropic Shares New AI Model with Red Team Members: AIPRM 首席工程师 Tibor Blaho 在 X(原 Twitter)上发文称,Anthropic 于周二向红队测试者发送了 Neptune V6 LLM。值得注意的是,爆料者还提到,这家 AI 公司发起了一项为期 10 天的外部安全评估挑战。如果有人能在接下来的 10 天内找到一种被确认的、通用的越狱方法,他们将获得额外奖励。
你应该有多大把握?
保持适度谨慎是合适的。这个证据链非常符合早期模型泄露的典型模式:内部标识符泄露到工具或日志中,社区成员发现后,记者再进行报道。这样的模式过去确实曾先于真实发布出现——但它偶尔也只是指向内部实验,而这些实验未必会面向公众发布。简而言之:一个代号为 Neptune 的测试实例存在,以及日志中出现 Opus 4.5 标识符,这一点是可信的。
Claude Opus 4.5 可能会是什么样(功能与性能)?
Opus 4.1 已经提供了什么
根据 Anthropic 的公告和产品文档:Opus 4.1 改进了代理工作流、真实世界编码以及稳健的多步推理。它位于 Anthropic 产品家族的高端,并可通过 Claude API、Claude Code 以及 AWS Bedrock 和 Google Vertex AI 等合作伙伴平台使用。由于 Opus 类模型面向复杂工程和企业任务,它们通常具备大上下文窗口以及安全/护栏层。
Sonnet 4.5 带来了什么,以及它如何影响我们对假想中的 Opus 4.5 的预期
Sonnet 4.5 重点提升了 编码能力、代理式工具使用 和 扩展推理——这些都与 Opus 的使命直接重叠。Sonnet 4.5 还在数学以及与金融和网络安全相关的领域知识上有所改进;Anthropic 将 Sonnet 4.5 定位为“最佳编码模型”和最适合基于代理工作流的模型。因此,合理推测即将推出的 Opus 4.5 会借用 Sonnet 的架构或训练改进,并将其扩展到 Opus 更高能力的层级。
Claude Opus 4.5 的可能功能集(推测)
如果 Opus 4.5 遵循此前 Opus 升级的产品逻辑,我们可以合理预期:
- 默认具备更强的多步推理和“扩展思考”能力: 更好的内部思维链、更长且更可靠的复杂规划与多代理编排能力(这一点 Sonnet 4.5 已经有所加强)。
- 更高的编码和软件工程能力: 更少的代码幻觉、更好的跨文件推理、更强的 bug 修复和测试生成能力,以及面向大型代码库的更长上下文窗口——Opus 产品线本就明确瞄准这些任务。
- 更好的工具使用和代理编排: 更稳定的工具调用、更强的子任务编排和异步工作流处理能力(这对 Copilot 风格代理和“办公代理”集成尤为重要)。
- 企业级安全、合规和可解释性特性: 更强的护栏、系统卡以及与 Sonnet 4.5 方法一致的 ASL 分类。
- 多模态升级(可能): 在混合工作流中具备更强的图像 / 代码 / 文档理解能力——尽管 Sonnet 在这方面领跑,Opus 可能会进一步推进。
性能预期
可测得的性能很可能遵循模型家族更新的一贯模式:Opus 4.5 将致力于超越 Opus 4.1,并在编码和代理基准上挑战或追平 Sonnet 4.5 的优势——但其每 token 成本会更高,目标用户也会更少、更偏向高要求用例(企业工程、研究和代理自动化)。如果 Sonnet 4.5 已显著提升了编码与推理能力,那么 Opus 4.5 的定位将是为关键任务提供 最高 可靠性和最佳“首次输出”正确率。
Claude Opus 4.5 会花多少钱?
Anthropic 当前的收费情况(H3)
Anthropic 公开的消费者订阅(Claude Pro)和 API 定价是最好的参考:
- 消费者 / Pro 订阅: Claude Pro 标价为 17 美元/月(年付) 或 20 美元/月(月付),面向个人生产力使用。该订阅可让消费者在 Claude.ai 上访问更高端的模型和功能。
- API / Opus 定价(Opus 4 / 4.1 已确认): 在 2025 年公开文件和多份定价摘要中,Anthropic 将 Opus 级 API 费率设定在大约 每 100 万输入 token 15 美元 和 每 100 万输出 token 75 美元,适用于 Opus 4 / Opus 4.1。Anthropic 还提供 提示缓存 和 批处理 折扣(提示缓存可显著降低重复提示成本;批处理对大任务可带来约 ~50% 的降幅)。这些 Opus 费率明显高于 Sonnet/Haiku 层级,也体现了 Opus 的高端定位。
对 Opus 4.5 发布定价的估计
如果 Opus 4.5 发布,最保守(也最可能)的定价情景是:
不变价(最可能): Anthropic 将 Opus 4.5 保持在与 4.1 相同的 Opus 定价档位,也就是 ~每百万 token 15 / 75 美元,并通过缓存/批处理激励逐步改变实际成本。历史上 Opus 4.1 的发布 并未 提高 Opus 的基础定价,因此一次渐进式改进很可能也会遵循同样模式。
传闻中的 Opus 4.5 与 Gemini 3 和 GPT-5.1 相比如何?
(这里比较的是当前公开的说法和基准:Gemini 3(Google)、GPT-5.1(OpenAI)以及 Opus 家族(Anthropic)。对于 Opus 4.5,我依赖于对 Opus 4.1 和 Sonnet 4.5 的合理外推。)
Gemini 3 和 GPT-5.1 目前是什么样
- Gemini 3(Google): Google 于 2025 年 11 月公开发布了 Gemini 3,将其定位为迄今最强大的多模态与推理模型,并具备新的代理式功能、强大的多模态(文本/图像/视频/音频)推理能力,以及在多个基准(LMArena、GPQA、MathArena、MMMU 系列)上取得顶级分数。Google 正将 Gemini 3 集成到 Gemini 应用、Google Cloud 和开发者工具中。
- GPT-5.1(OpenAI): OpenAI 于 2025 年 11 月中旬推出 GPT-5.1,作为 GPT-5 的升级版,提供两个变体:GPT-5.1 Instant(响应更快、对话感更强)和 GPT-5.1 Thinking(在复杂任务上有更强的持续性)。OpenAI 强调了对话能力提升、“更温暖”的输出以及更多用户个性化选项;他们将 GPT-5.1 定位为 GPT-5 的一次迭代升级。
正面对比预期
原始推理能力和基准领先地位:公开基准发布显示,Gemini 3 正在多个指标上刷新排行榜记录(LMArena Elo、多模态基准)。GPT-5.1 被定位为 GPT-5 更流畅、更具对话感的迭代版本,在复杂任务上表现也非常强;Sonnet 4.5 和 Opus 4.1 在编码和代理任务上仍具竞争力。如果 Opus 4.5 成真,它很可能会被调优为在编码和可靠性方面超越 Opus 4.1,但 Gemini 3 的公开基准主张表明,Google 目前可能暂时在许多尖端多模态和推理指标上占优。
编码与“使用计算机”:Anthropic 一直强调 Sonnet 4.5 的编码优势,现在 Sonnet 也被 Anthropic 描述为在许多测试中最佳的编码模型;而 Opus 历来专注于最困难的编码和代理使用场景。话虽如此,Google 和 OpenAI 也在大力投入代码工具和代理平台——Gemini 3 包含 “vibe coding” 和代理集成,而 OpenAI 也持续通过 GPT 家族推进代码能力。
多模态与代理工作流:Google 的 Gemini 产品线历来强调广泛的多模态理解(图像、视频、音频、文本);Gemini 3 在这方面进一步强化。Anthropic 的 Claude 家族则更优先考虑工具使用与代理安全;Sonnet 4.5 提升了代理能力,但预计 Opus 4.1/4.5 的调优方向会更偏向深度和可靠性,而不是多媒体广度。GPT-5.1 则试图在两者之间取得平衡,同时强调对话性和可定制性。
哪种模型“获胜”取决于产品目标:多模态创造力和大生态自动化 → Gemini 3;关键任务工程、编码和安全敏感自动化 → Opus/Sonnet;广泛的对话定制化 → GPT-5.1。
最终结论:应该期待什么,以及如何规划
Anthropic 正在快速迭代:Sonnet 4.5 刷新了编码和代理任务中的成本-能力平衡,而 Opus 4.1 则是当前面向关键工程和代理编排的高端模型。关于 Claude Opus 4.5 的传闻是合理且与 Anthropic 的发布节奏一致的——但 尚未得到官方确认。如果/当 Opus 4.5 发布时,可以预期它会在推理、编码可靠性和代理稳定性方面较 Opus 4.1 带来渐进但有意义的提升;定价预计仍将维持在 Opus 的高端档位内(输入/输出价格和企业分层大致相似),而且它仍将是面向高输出工作负载的高投入选择。
开发者可以通过 CometAPI 访问 Gemini 3 Pro Preview API 和 Claude Sonnet 4.5 API 。开始之前,可在 Playground 中探索 CometAPI 的模型能力,并查阅 API 指南以获取详细说明。访问前,请确保您已登录 CometAPI 并获取 API 密钥。CometAPI 提供远低于官方价格的价格,帮助您完成集成。
准备好开始了吗?→ 立即注册 CometAPI!
