Anthropic 的 Claude 系列一直是 2025 年前沿模型竞争中发展最快的主线之一。过去几周,多方泄露、社媒帖子与调查报道指向一款即将到来的 Claude Opus 4.5(常被简称为“Opus 4.5”)——一些来源称其内部代号为 Neptune V6——并称该模型已分享给外部红队进行越狱测试。公开信息仍然零散,因此本文汇总了现有报道,解释这些泄露对能力与安全性的暗示,并给出关于可能定价的稳健估计,以及 Opus 4.5 可能如何与 Google 的 Gemini 3 和 OpenAI 的 GPT-5.1 对比。
什么是 Claude Opus 4.5?
Claude 4.5 系列的前沿成员
Anthropic 一直使用 “Opus”、“Sonnet” 和 “Haiku” 来标示模型家族与能力等级。Opus 是 4.x 代(如 Opus 4.1)中最高能力模型的标签;Sonnet 与 Haiku 则分别用于中等与较小等级。这一命名惯例使“Claude Opus 4.5”成为 Claude 4.5 系列全新高端版本的合理候选。
“Opus” 是 Anthropic 在 Claude 4 家族中为最高容量、最高能力模型使用的标签——这些模型面向最艰难的推理、研究与编程任务(Opus 4 与 Opus 4.1 是最可见的在售示例)。Opus 模型旨在以更高的推理成本换取更好的长上下文推理、编程表现以及复杂工作流的稳健性,且 Anthropic 过去常将扩展上下文与“更深层思考”模式等特性保留给 Opus 等级。
这些标识透露了什么:“Opus 4.5”和“Neptune V6”
公开信号呈现出两条独立线索:
- 开发者与社区成员报告在 Claude Code CLI 请求与代码库讨论中短暂看到
Opus 4.5这一字面模型标识——当内部名称泄露到日志或 PR 中时,这是典型的早期泄露足迹。 - 多家媒体与社区帖子称用于开发/红队版本的内部代号为 Neptune V6;Anthropic 过去常用内部 Neptune 工作台名称指代预发布/红队快照。因此,Neptune 名称很可能对应内部测试实例,而对外产品名则会是 Claude Opus 4.5。
结论: 公开信号指向 Claude Opus 4.5 将是 Claude 4.5 系列中预期的高能力成员,当前处于测试阶段,并(截至最新报道)正进行主动红队测试。该信号集合一致且可信,但尚不等同于官方产品公告。
泄露是如何出现的?可靠性如何?
可见的证据线索
三类模式构成了当前的叙事:
- 模型标识出现在开发者工具/拉取请求中: 观察者在 Claude Code CLI 的某个 Pull Request 或内部工具日志中注意到 “Claude Opus 4.5”/“Neptune V6” 字符串——这是内部模型名进入可见工作流的典型早期迹象。一则简短的 X/Twitter 帖子及后续转发则将这一目击扩散至更广泛社区。
- Reddit 与社区讨论: 以 Claude 为焦点的子版块一直在讨论用户报告的变化、Sonnet/Opus 的可用性以及性能中的异常现象,一些用户声称在其测试环境中瞥见过 4.5 变体。社区帖子信噪比不高,但对早期信号仍有参考价值。
- Anthropic Shares New AI Model with Red Team Members: AIPRM 首席工程师 Tibor Blaho 在 X(原 Twitter)上发帖称,Anthropic 于周二将 Neptune V6 LLM 发给红队测试者。值得注意的是,该爆料者还提到这家 AI 公司为外部安全评估者发起了一个 10 天挑战:若在接下来的 10 天内找到经确认、可通用的越狱方法,将获得额外奖励。
应该有多大把握?
保持适度谨慎是合适的。这条证据链是早期模型泄露的经典路径:内部标识渗入工具或日志、被社区成员发现、再被记者报道。过去这一模式常常先于真实发布——但也偶尔指向仅为内部试验、并不面向公众发布的项目。简言之:日志中出现以 Neptune 命名的测试以及 Opus 4.5 标识的事实是可信的。
Claude Opus 4.5 可能是什么样(功能与性能)?
Opus 4.1 已具备的能力
据 Anthropic 公告与产品文档:Opus 4.1 提升了类代理工作流、真实场景编码与稳健的多步推理。它位于 Anthropic 家族的高端,通过 Claude API、Claude Code,以及 AWS Bedrock、Google Vertex AI 等合作伙伴提供。由于 Opus 级模型面向复杂工程与企业任务,它们具备大上下文窗口与安全/护栏层。
Sonnet 4.5 带来的变化,对假想的 Opus 4.5 的启示
Sonnet 4.5 在编码能力、代理式工具使用与扩展推理方面发力——这些都与 Opus 的使命直接重合。Sonnet 4.5 还在数学与与金融、网络安全相关的领域知识上有所改进;Anthropic 将其定位为“最佳编码模型”,并最适合基于代理的工作流。这使我们有理由预期,任何即将到来的 Opus 4.5 都会借鉴 Sonnet 的架构或训练改进,并在更高能力的 Opus 级别上进行扩展。
可能的 Claude Opus 4.5 特性集(推断)
若 Opus 4.5 延续以往 Opus 升级的产品逻辑,我们可以合理预期:
- 默认更强的多步推理与“扩展思考”: 更好的内部思考链,更长且更可靠的复杂规划与多代理编排链条(这是 Sonnet 4.5 已经加强的方向)。
- 更高的编码与软件工程能力: 更少的代码幻觉,更好的跨文件推理,改进的缺陷修复与测试生成,对大型代码库提供更长上下文——Opus 系列明确面向这些任务。
- 改进的工具使用与代理编排: 更稳定的工具调用,更好的子任务与异步工作流编排(对 Copilot 式代理与“办公代理”集成尤为重要)。
- 企业级安全、合规与可解释性: 更强的护栏、系统卡片与 ASL 分类,延续 Sonnet 4.5 的方法。
- 多模态升级(可能): 更好的图像/代码/文档理解以支持混合工作流——虽然 Sonnet 率先推进了这一点,Opus 可能进一步强化。
性能预期
测得的性能大概率延续家族更新的模式:Opus 4.5 将力求超越 Opus 4.1,并在编码与代理基准上挑战或匹配 Sonnet 4.5 的提升——但以更高的每 token 成本,面向更少但更严苛的用例(企业工程、研究与代理式自动化)。如果 Sonnet 4.5 在编码与推理方面有显著提升,那么 Opus 4.5 的定位将是为关键任务提供更高的可靠性与更高的“一次成功率”。
Claude Opus 4.5 的价格会是多少?
Anthropic 当前的收费(H3)
Anthropic 面向消费者的订阅(Claude Pro)与其 API 定价是最佳参考:
- 消费者/Pro 订阅: 面向个人效率的 Claude Pro 标价为 $17/月(年付)或$20/月(月付)。这让消费者可在 Claude.ai 上使用更高端的模型与功能。
- API/Opus 定价(对 Opus 4/4.1 已确认): 在 2025 年的公开文档与多份定价摘要中,Anthropic 为 Opus 级 API 设置了大致 每 100 万输入 tokens $15、每 100 万输出 tokens $75 的费率。Anthropic 还提供提示缓存与批处理折扣(提示缓存可显著降低重复提示成本;批量处理可为大型任务带来约 ~50% 的减免)。这些 Opus 费率显著高于 Sonnet/Haiku 等级,体现了 Opus 的高端定位。
对 Opus 4.5 发布的价格估计
若 Opus 4.5 发布,最保守(且最可能)的定价情形是:
不变价(最可能): Anthropic 将 Opus 4.1 的 Opus 定价沿用于 Opus 4.5——即 ~$15 / $75 每百万 tokens——并通过缓存/批处理激励逐步改变实际成本。Opus 4.1 的发布历史上并未提升 Opus 的基准定价,因此一次渐进式改进也可能沿用同样做法。
传闻中的 Opus 4.5 与 Gemini 3 和 GPT-5.1 如何比较?
(本文比较当前的公开声明与基准:Gemini 3(Google)、GPT-5.1(OpenAI)与 Opus 家族(Anthropic)。关于 Opus 4.5 的判断基于对 Opus 4.1 与 Sonnet 4.5 的合理外推。)
Gemini 3 和 GPT-5.1 的现状
- Gemini 3(Google): Google 于 2025 年 11 月正式推出 Gemini 3,将其定位为迄今最强的多模态与推理模型,具备新的代理式特性、强大的多模态(文本/图像/视频/音频)推理能力,并在多项基准(LMArena、GPQA、MathArena、MMMU 系列)上取得领先。Google 正在将 Gemini 3 广泛集成进 Gemini 应用、Google Cloud 与开发者工具。
- GPT-5.1(OpenAI): OpenAI 于 2025 年 11 月中旬推出 GPT-5.1 作为 GPT-5 的升级版,提供 GPT-5.1 Instant(更迅捷、对话性更强)与 GPT-5.1 Thinking(在复杂任务上更强的持久性)两个变体。OpenAI 强调对话改进、“更温暖”的输出与更多用户个性化选项;他们将 GPT-5.1 定位为对 GPT-5 的迭代升级。
正面比较的预期
原始推理与基准领先:公开的基准显示 Gemini 3 在多项指标(LMArena Elo、多模态基准)上树立了新高。GPT-5.1 被定位为更流畅、更具对话性的 GPT-5 迭代,在复杂任务上表现非常强;Sonnet 4.5 与 Opus 4.1 在编码与代理式任务上仍具竞争力。若 Opus 4.5 落地,其目标大概率是在编码与可靠性上超越 Opus 4.1,但从 Google 的公开基准声称来看,Gemini 3 在许多前沿的多模态与推理指标上暂时占优。
编码与“使用计算机”:Anthropic 强调 Sonnet 4.5 的编码优势,并在许多测试中将 Sonnet 描述为最佳编码模型;Opus 传统上聚焦最困难的编码与代理用例。话虽如此,Google 与 OpenAI 也在大力投入代码工具与代理平台——Gemini 3 引入了“vibe coding”与代理集成,OpenAI 则持续通过 GPT 家族推进代码能力。
多模态与代理式工作流:Google 的 Gemini 系列历来强调广义多模态理解(图像、视频、音频、文本);Gemini 3 在此基础上大幅迭代。Anthropic 的 Claude 系列优先考虑工具使用与代理安全;Sonnet 4.5 增强了代理式能力,而 Opus 4.1/4.5 预计更偏重深度与可靠性,而非多媒体广度。GPT-5.1 试图在两者之间找到平衡,强调对话性与定制化。
“谁更胜一筹”取决于产品目标:多模态创作与大生态自动化 → Gemini 3;关键任务工程、编码与安全敏感型自动化 → Opus/Sonnet;大规模对话个性化 → GPT-5.1。
最终结论:如何预期与规划
Anthropic 在快速迭代:Sonnet 4.5 在编码与代理任务上刷新了成本与能力平衡,而 Opus 4.1 仍是当前面向关键任务工程与代理编排的高端模型。关于 Claude Opus 4.5 的传闻是可信且符合 Anthropic 的发布节奏——但尚未官方确认。如果/当 Opus 4.5 发布,可预期相对于 Opus 4.1 在推理、编码可靠性与代理稳定性上有渐进但实质性的提升;价格预计仍处于 Opus 的高端档位(相似的输入/输出定价与企业分层);该模型将继续是高产出负载的高投入选择。
开发者可以通过 CometAPI 访问 Gemini 3 Pro Preview API 与 Claude Sonnet 4.5 API。开始之前,请在 CometAPI 的 Playground 中探索模型能力,并查阅 API 指南以获得详细说明。访问前,请确保已登录 CometAPI 并获取 API Key。CometAPI 提供远低于官方的价格,帮助你更轻松集成。
准备好了吗?→ 立即注册 CometAPI!
