Composer 2:有哪些新功能,以及与 Claude Opus 4.6 和 GPT-5.4 的比较

CometAPI
AnnaMar 23, 2026
Composer 2:有哪些新功能,以及与 Claude Opus 4.6 和 GPT-5.4 的比较

Cursor 的 Composer 2 是该公司最新的代理式编码模型,于 2026 年 3 月 19 日发布。Cursor 将其描述为“达到前沿水平的编码能力”,面向低延迟的软件工作,可在 Cursor 内直接使用,并为个人套餐提供独立的用量池。本次发布还推出了在相同智能水平下更快的变体,以及一套新的定价结构,旨在让代理式编码比许多通用前沿模型更实惠。

Composer 2 的意义在于,它折射出 AI 软件开发的更广泛转向:价值不再只是模型本身的智力,而是速度、长周期任务处理、工具使用与成本效率的组合。Cursor 的表述非常明确:该模型为代理式编码优化,能够处理需要数百步动作的高难任务,并通过训练在长时间运行的工作流中保留关键上下文。

什么是 Composer 2?

为代理式编码而生的模型,而非仅用于文本补全

Composer 2 是 Cursor 的自研编码模型。Composer 2 专注于软件工程智能与速度,在 Cursor 的代理框架中训练,目标是在真实编码任务中表现出色,而不是泛化聊天。之所以重要,是因为代理式编码不同于普通的代码生成:模型必须搜索代码库、编辑文件、进行多步推理,并能在不丢失任务主线的情况下从错误中恢复。Cursor 关于长周期训练的文章清晰阐明了这一设计目标。

双模型变体:

VariantPurpose
Standard最低成本
Fast更高速度(默认)

为什么 Cursor 要构建它

Cursor 的研究文章提出了一个简单论点:更好的编码代理既需要智能,也需要在多步过程中高效续写。其内部基准(CursorBench)的观察显示,在真实世界高难编码任务上的更强表现,与更多的思考与更多的代码库探索高度相关。因此,Composer 2 不仅被训练去解决任务,还被训练去沿着超出模型即时上下文长度的长轨迹持续解决任务。

Composer 2 如何工作?

继续预训练是关键升级

Composer 2 的质量提升来自其“首次继续预训练”,据称为强化学习提供了更强的基座。这点很重要,因为这意味着该模型不仅仅是 Composer 1.5 的微调版本;而是一个更适合 Cursor 追求的长周期编码行为的起点。

基于长编码轨迹的强化学习

在继续预训练之后,Cursor 通过强化学习在长周期编码任务上训练 Composer 2。公司声称 Composer 2 能解决需要数百步动作的难题。就实践而言,这意味着模型被教会在多步调试、代码导航和迭代修复循环中坚持到底,而不是给出一次性答案后就停止。

自我摘要是关键研究进展

Cursor 使用“自我摘要”来训练更长的周期。在这种设置下,当模型到达上下文触发点时,会暂停并对自身工作状态进行摘要,然后从压缩后的上下文继续。Cursor 称,该技术使其可以在远超模型最大上下文窗口的轨迹上进行训练,并将摘要本身纳入奖励信号的一部分。

耐久性

实践上的好处是耐久性。长时间编码任务常在代理遗忘早先决策或在庞大的工作区中丢失重要细节时失败。自我摘要在其测试环境中相较于调过的基于提示的压缩基线,将压缩误差降低了 50%,同时只使用了五分之一的 tokens。这一主张相当重要,因为压缩是当前代理系统的薄弱环节之一。

Composer 2 有哪些新特性?

1. 继续预训练 + 强化学习扩展

Composer 2 引入了 Cursor 的首个大规模继续预训练流水线,为强化学习打造更强的基座模型。

随后应用:

  • 长周期强化学习训练
  • 多步任务链
  • 真实世界编码工作流

👉 结果:更好地处理复杂工程任务,而不仅是代码片段。

2. 长周期任务执行

不同于早期在数步之后就失败的模型:

  • Composer 2 可完成多文件重构
  • 执行终端工作流
  • 数百步动作中保持状态

这推动它更接近真正的 AI 编码代理行为

3. 仅代码训练策略

Composer 2 仅用与编程相关的数据进行训练。

这为何重要:

FactorGeneral ModelsComposer 2
Model sizeLargeSmaller
ScopeBroadNarrow
EfficiencyLowerHigher
CostHighLow

👉 这解释了其巨大的性价比优势

4. 混合基座(Kimi Base + 强化学习)

最新披露显示,Composer 2 最初构建于**Kimi K2.5(Moonshot AI)**之上,并进行了额外的强化训练。

  • 来自基座模型的计算仅约 25%
  • 大部分来自 Cursor 自有训练栈

👉 这反映了一种新趋势:混合式模型工程 + 专有优化

性能基准

ModelCursorBenchTerminal-Bench 2.0SWE-bench Multilingual
Composer 261.361.773.7
Composer 1.544.247.965.9
Composer 138.040.056.9

相较于 Composer 1.5,Composer 2 在 CursorBench 上高约 38.7%,在 Terminal-Bench 2.0 上高约 28.8%,在 SWE-bench Multilingual 上高约 11.8%。这并不能证明其在所有外部模型上的普遍优势,但确实显示出 Cursor 自家模型线内的明显进步。

如何使用 Composer 2?

Cursor 将 Composer 2 定位为其产品的“代理优先”工作流的一部分。它可在 Cursor 中使用,且 Cursor 表示在个人套餐中,Composer 的用量来自一个独立的用量池,并有较为宽松的包含用量。Cursor 还称用户可以在其新界面的“早期 Alpha”中试用 Composer 2。这意味着 Composer 2 不只是一个模型 API;它旨在于 Cursor 的代理工作流中使用,让编辑器、代理、浏览器与审阅工具协同工作。

在 Cursor 内

Composer 2 可在 Cursor 中使用,也可在其新界面的早期 Alpha 中使用。实际的接入方式以产品内为主,而非 API 优先:用户在 Cursor 编辑器及其代理工作流中与之交互。这与 Cursor 更广泛的方向一致,即将编辑器作为模型交互的主要界面。

用量池与套餐结构

每个个人套餐包含两个在计费周期内重置的用量池:Auto + Composer,在选择 Auto 或 Composer 2 时会提供显著更多的包含用量;以及按模型 API 费率计费的 API 用量池。Cursor 还表示个人套餐每月至少包含 $20 的 API 用量,且更高档位的额度更高。实际结论是,Composer 2 被设计为可高频使用,而非让每个请求都立即落入纯 API 计费。

API 价格:

每 1M tokens:输入 $0.50 / 输出 $2.50;Fast 变体 $1.50 / $7.50

套餐上下文

Cursor Pro 每月 $20、Pro Plus 每月 $60、Ultra 每月 $200,各有不同的包含用量。面向团队,Cursor 还提供 Teams 与 Enterprise,并附加更多管控功能。这很重要,因为 Composer 2 不只是一个模型 SKU;它是更广泛产品包的一部分,融合了定价、用量池与协作管控。

Composer 2 vs Claude Opus 4.6 vs GPT-5.4:我该选哪一个?

Terminal-Bench 2.0

Composer 2:有哪些新功能,以及与 Claude Opus 4.6 和 GPT-5.4 的比较

ModelScore
Composer 261.7
Claude Opus 4.6~58
GPT-5.4~75

👉 Composer 2:

在峰值表现上落后于 GPT-5.4

在某些设置下领先于 Opus 4.6

官方定价

ModelInput ($/M tokens)Output ($/M tokens)
Composer 20.502.50
Composer 2 Fast1.507.50
Claude Opus 4.65.0025.00
GPT-5.42.50–5.0015.00–22.50

👉 Composer 2:

  • 比 Opus 4.6 便宜 10×
  • 比 GPT-5.4 约便宜 5–6×

为什么 Claude Opus 4.6 和 GPT-5.4 仍然值得?

对于大多数时间在 Cursor 内进行开发,尤其是重复的代码编辑循环、重构、多文件更改,以及受益于速度与成本效率的代理式任务,Composer 2 是一个很强的选择:围绕代码与长周期动作执行进行优化,且定价大幅更低。

但 Claude Opus 4.6 与 GPT-5.4 各自提供更广泛的专业能力、更大的上下文窗口,以及更丰富的企业特性。如果你需要一次性产出一篇打磨好的文章、一张表格与一个浏览器代理工作流。

对比表:

FeatureComposer 2Claude Opus 4.6GPT-5.4
FocusCoding onlyGeneral AIGeneral AI
Cost⭐ LowestVery highMedium
Coding AccuracyHighVery highHigh
ReasoningMediumVery highVery high
SpeedFast variant availableModerateModerate
Agent CapabilityStrongStrongImproving
Multimodal
Best Use CaseDev workflowsResearch-grade tasksGeneral + coding

最佳适配用例与访问

如果任务是广义推理、多模态工作或通用企业用途,根据官方定位与能力,GPT-5.4 与 Claude Opus 4.6 都是有力候选。如果任务是 Cursor 内的日常编码,尤其是在乎成本与迭代速度时,Composer 2 是更专门且更便宜的选择。Cursor 将 Composer 2 定位为专为 Cursor 本身的代理式编码而打造的模型;GPT-5.4 与 Opus 4.6 是广义前沿模型,而 Composer 2 则为 IDE + 代理循环而生。

OpenAI 将 GPT-5.4 定位为面向复杂专业工作的前沿模型,API 中具备工具支持并拥有强大的通用推理。Anthropic 将 Claude Opus 4.6 定位为其最智能的模型之一,覆盖编码、推理与代理工作,它们目前均可通过 CometAPI 使用。

CometAPI 的 API 目前有 20% 折扣,且可直接生成 Playground。与其他方案相比,CometAPI 是更优选项;本质上是一个无需订阅的 Cursor。

结论

Composer 2 并非 Cursor 的又一次小幅迭代,而是其试图重塑编码代理的性价比曲线:相较前代有更强的基准表现,以长周期代理行为为中心的设计,以及远低于大型前沿替代品的定价。Cursor 自身的证据显示,它相对 Composer 1 与 1.5 有明确增益,同时在输入 tokens 上的价格比 Claude Opus 4.6 低 10 倍、比 GPT-5.4 低 5 倍。

对于已将工作重心放在 Cursor 的团队,Composer 2 是许多编码任务的有力默认项。对于最困难、最关键或范围最广的工作,Claude Opus 4.6 与 GPT-5.4 仍是可对标的高端选择。真正的故事是,前沿编码市场正变得更锋利、更便宜、也更专业化。

如果你在寻找 Cursor 的替代方案,或一款更便宜、前沿的模型 API(如 Claude Opus 4.6 与 GPT-5.4),那么 CometAPI 是最佳选择。Ready to go?

以低成本 获取顶级模型

阅读更多