Claude Opus 4.7 於 2026 年 4 月 16 日發布,在程式設計、代理式工作流程、視覺與指令遵循方面,相較 Opus 4.6 有重大升級。它在 SWE-bench Verified(87.6% vs 80.8%)提升 +6.8 個百分點、SWE-bench Pro(64.3% vs 53.4%)提升 +10.9 個百分點、CursorBench(70% vs 58%)提升 +12 個百分點,並提供 3.3× 更高解析度的視覺能力,搭配自我驗證迴圈,降低長任務的幻覺。官方定價維持不變(每百萬 tokens $5/$25),但低努力級別的 4.7 可達到中等努力級別 4.6 的品質,實際成本因此下降。
在 CometAPI 上,你可獲得兩個模型(Claude Opus 4.7 與 Opus 4.6),以 $4 輸入 / $20 輸出 的價格,提供與 OpenAI 相容的端點且零供應商綁定。若你運行生產級程式代理、複雜文件分析或多會話工作流程,建議升級——4.7 是前沿工作的全新預設。
Claude Opus 4.7 vs Opus 4.6: Quick comparison
Bottom line:Opus 4.7 的感受是「Opus 4.6 的解禁加精修版」。它移除了 4.6 偶爾出現的限制(例如過早放棄任務、較低的視覺敏感度),並透過自適應推理提升效率。使用者反饋它更「有主見」且更具協作性——就像與會自我複核的資深工程師共事。
Why Claude Opus 4.7 Matters in 2026
2026 年 4 月 16 日,Anthropic 低調推出了迄今最強的「普遍可用」模型:Claude Opus 4.7。在受限的 Mythos Preview(側重網安的強力模型)釋出數週後,Opus 4.7 重新奪回生產工作負載的王座,同時保持與 Opus 4.6 完全一致的定價。
開發者與企業不再需要看管最困難的程式任務。使用者回報現可放心交付「過去需要密切監督」的工作給 4.7。該模型現會自我驗證輸出、按字面遵循指令,並能以更少的工具錯誤與更佳的錯誤修復,支撐多小時的代理式執行。
該模型擅長:
- 嚴謹的長時任務,內建自我驗證(Plan → Execute → Verify → Report)。
- 按字面執行指令——不再鬆散解讀「consider」或「you might」。
- 大幅提升的視覺能力(長邊最高至 2,576 px ≈ 3.75 MP,超過先前解析度的 3×)。
- 在介面、簡報與文件等專業產出中具備更佳的品味與創造力。
- 改進的檔案系統記憶,實現真正的多會話自治。
新功能包含 xhigh 努力等級(介於 high 與 max 之間)、Platform API 的任務預算,以及 Claude Design 工具整合。模型 ID 現為 claude-opus-4-7。官方定價不變,但因 token 效率提升,常能降低每次任務的有效成本。
Core Capability Improvements – What Actually Changed
Advanced Software Engineering & Agentic Coding
Opus 4.7 在最困難的問題上表現出色。在 93 項內部程式基準中,它相較 4.6 提升 13% 的解決率,並攻克 4 個連 4.6 與 Sonnet 4.6 都無法解決的任務。Rakuten-SWE-Bench 顯示在無人干預下解決的生產級任務增加 3×。CursorBench(真實 IDE 工作流)提升 +12 點至 70%。
內部 93 項程式基準顯示 13% 的提升,並解決了 4 個連 4.6 與 Sonnet 4.6 都無法攻克的任務。在代理式工作流程中,Box 報告LLM 呼叫次數減半(7.1 vs 16.3),同輸出下 AI 單位使用量降低 30%——直接轉化為成本與延遲的優勢。
**對開發者的重要性:**你如今可以信任 Opus 4.7 處理過去需監督的「最困難程式工作」。它精準注意指令、自我驗證輸出,並能跨會話重用檔案系統記憶——非常適合跨多日的自主重構。
實際成果包括:
- 以單一提示自動生成 Rust 文字轉語音引擎。
- 修復在 Terminal-Bench 2.0 中先前模型束手無策的競態條件與並發錯誤(+4.0 個百分點)。
- 在 Factory Droids 任務成功率提升 10–15%,工具錯誤減少至 ⅓。
- 在程式碼品質、測試品質與審查準確度方面的雙位數提升(CodeRabbit、Qodo)。
低努力級別的 4.7 現可匹敵中等努力級別的 4.6 品質,因此在相同(甚至更低)token 花費下完成更多工作。
Vision & Multimodal Leap
這是單一最大升級。最高影像解析度從 1.15 MP(1568 px)躍升至 3.75 MP(長邊 2576 px)——像素增加 3.3×,並提供 1:1 座標映射。對截圖或圖表不再需要縮放因子的計算。
結果:
- 視覺敏銳度基準:98.5% vs 54.5%(相較 4.6)。
- CharXiv-R(無工具):+13.4 個百分點;有工具:+13.6 個百分點。
- 解鎖像素級精準的電腦使用代理、密集截圖分析、化學結構解析與 UI/UX 設計審查。
Agentic Workflows, Reliability & Instruction Following
Opus 4.7 引入原生自我驗證——模型先規劃、執行、驗證,再回報。這大幅降低長期任務中「自信但錯誤」的答案。檔案系統記憶的改進讓真正的多日自治成為可能。
指令遵循更嚴謹且更按字面。針對 4.6 較鬆散風格調過的提示可能需要審核——例如「consider」這類措辭如今被視為硬性要求。對精準工作而言這是特色,但需要進行提示遷移。
**關於回退的註記:**長上下文針對性檢索(MRCR)顯著下降(例如在 256K 下 91.9% → 59.2%)。Anthropic 表示正逐步淘汰此類合成測試,改用應用的 GraphWalks 指標;在此框架下,真實程式碼理解仍然強勁。
New xhigh Effort Level + Task Budgets
Opus 4.7 新增介於 high 與 max 之間的 xhigh,提供更精細的控制。Claude Code 目前在各方案中預設為 xhigh。新的 task_budget(公開測試版)讓模型可在整個代理式迴圈中追蹤總 token,並在預算用罄時優雅完成。
Instruction Following, Self-Verification & Memory
Opus 4.7 對提示的解讀更為字面——對精準非常有利,但舊的模糊提示可能需要收緊。它會自擬驗證步驟(Plan → Execute → Verify → Report),並在多會話工作中更佳地重用檔案系統記憶。對打造持久代理的團隊而言,這是最實用的升級之一,因為它減少了重複解釋、重載與重規劃。
Tokenizer Update
新的分詞器提升了品質,但可能消耗 1.0–1.35× 的 token(最多 +35%)。token 計數端點現在會返回不同的數字。淨效果是:在相同品質目標下,尤其於較低努力級別時,較高的任務品質往往可抵銷增加的 token。
Safety, Alignment & Cybersecurity
安全側寫類似 4.6(低不對齊),在誠實性與抵抗提示注入方面略有改善。

Opus 4.7 隨附 Project Glasswing 的防護:即時阻擋被禁止或高風險的網安用途。CyberGym 分數刻意維持不變。不對齊行為相較 4.6 略有改善。完整系統卡可於 Anthropic 官網取得。
Pricing, Token Efficiency & CometAPI Savings
官方定價相同,但每次任務的有效成本下降,因為低努力級別的 4.7 ≈ 中等努力級別的 4.6 品質,且更高的成功率意味著更少重試。新的分詞器對相同文字的輸入 token 增加 0–35%,但在匹配品質下的淨用量常更有利。
**CometAPI 優勢:**可同時以 每百萬 tokens $4 輸入 / $20 輸出 存取兩個模型——比官方便宜 20%——並可透過單一相容 OpenAI 或 Anthropic Messages 端點,在 500+ 模型(GPT-5.4、Gemini 3.1 等)間無縫切換。供應商調價時無停機風險。零供應商綁定。操場測試與統一計費讓遷移毫不費力。
Side-by-Side Benchmark Deep Dive

以下為 Anthropic 發布資料的完整 14 項基準對比(由合作夥伴驗證):
Coding Benchmarks
- SWE-bench Verified:80.8% → 87.6%(+6.8 個百分點)
- SWE-bench Pro:53.4% → 64.3%(+10.9 個百分點)
- Terminal-Bench 2.0:65.4% → 69.4%(+4.0 個百分點)
Agentic & Tool-Use
- MCP-Atlas:62.7% → 77.3%(+14.6 個百分點)——最大單次提升
- OSWorld-Verified:72.7% → 78.0%(+5.3 個百分點)
- Finance Agent:60.7% → 64.4%(+3.7 個百分點)
Reasoning & Knowledge
- GPQA Diamond:91.3% → 94.2%(+2.9 個百分點)
- HLE(無工具):40.0% → 46.9%(+6.9 個百分點)
- MMMLU:91.1% → 91.5%(+0.4 個百分點)
Vision
- CharXiv-R(無工具):68.7% → 82.1%(+13.4 個百分點)
- CharXiv-R(有工具):77.4% → 91.0%(+13.6 個百分點)
Regressions (transparent)
- BrowseComp:84.0% → 79.3%(–4.7 個百分點)——對測試工具敏感
- CyberGym:73.8% → 73.1%(–0.7 個百分點)——基於安全的刻意調整
**Internal Research-Agent Benchmark:**整體 0.715(並列最高),其中 Finance 模組由 0.767 跳升至 0.813。
Real-World Performance & Use Cases
Box 的代理式工作流程測試顯示,Opus 4.7 以 7.1 次 LLM 呼叫 vs 16.3(下降 2.3×)完成相同任務,AI 單位使用量降低 30%。中位延遲由 242 秒降至 183 秒。
企業夥伴(Harvey、Databricks、Hebbia、Ramp、Genspark)回報:
- 文件推理錯誤減少 21%。
- 多代理在長時段下的協同更佳。
- 投影片、試算表與程式碼的整合更緊密。
Who Should Upgrade Immediately?
- 使用 Cursor/Claude Code 的軟體工程團隊。
- 需要可靠長期自治的 AI 代理構建者。
- 視覺密集工作流(截圖、圖表、UI 審查)。
- 金融、法務與知識工作自動化。
API Changes, Migration Guide & Code Examples
Breaking Changes (Messages API)
- 移除擴展思考預算 → 使用
thinking: {"type": "adaptive"}。 - 不再接受抽樣參數(
temperature等)→ 以提示控制。 - 預設省略思考內容。
- 新分詞器需在
max_tokens預留餘量。
Migration Guide + Code Examples (CometAPI)
**Step 1:**更新模型名稱為 claude-opus-4-7(或 CometAPI 別名)。
**Step 2:**審核提示以符合更字面的解讀。
**Step 3:**測試努力等級(針對程式設計先以 xhigh 起步)。
**Step 4:**使用任務預算限制支出。
(Python)
import anthropic
import os
client = anthropic.Anthropic(
api_key=os.getenv("COMETAPI_KEY"), # Your CometAPI sk- key
base_url="https://www.cometapi.com/console/" # CometAPI base
)
message = client.messages.create(
model="claude-opus-4-7", # or "claude-opus-4-6" for comparison
max_tokens=4096,
temperature=0.7,
effort="xhigh", # New level for deep reasoning
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "Refactor this legacy Python module into clean, type-hinted, testable code. Follow instructions literally: use Pydantic v2, add comprehensive tests, no external deps beyond stdlib + pydantic. Verify your changes before responding."},
{"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": "iVBORw0KGgoAAAANSUhEUg..."} } # High-res screenshot support
]
}
]
)
print(message.content[0].text)
Self-verification demo prompt (works far better on 4.7):
(text):
Plan → Execute → Verify → Report:
1. Analyze the attached codebase.
2. Propose refactors.
3. Implement changes in a new file.
4. Run mental unit tests and edge cases.
5. Only output final verified code if all checks pass.
在你的實際工作負載上進行 A/B 測試——多數團隊觀察到迭代次數下降 20–40%。
Note:
First, The new tokenizer generates more tokens from the same text. Opus 4.7 introduced a new tokenizer, improving how the model processes text. The trade-off is that the same input will map to more tokens; the exact number depends on the content type, but is roughly between 1.0 and 1.35 times.
Secondly Higher effort levels allow for more comprehensive consideration, especially in multi-turn agent scenarios.
This leads to better reliability, but also more output tokens.
The official solution provides three approaches:
- Adjusting the effort level using the
efficiencyparameter - Limiting the budget using task budgets
- Telling the model to "be more concise" in the prompt.
Known limitations and migration notes
- Extended thinking budgets removed → use
thinking: {"type": "adaptive"}.thinking: {type: "enabled", budget_tokens: N}is no longer supported; use adaptive thinking instead. - Sampling params (
temperature, etc.) no longer accepted → use prompting.temperature,top_p, andtop_kshould be removed from requests when migrating to Opus 4.7. - The model is described as more literal and more direct than Opus 4.6, which is useful for precision but may require sharper prompts.
- New tokenizer requires headroom in
max_tokens. Anthropic recommends re-checkingmax_tokensheadroom because Opus 4.7 can produce higher token counts for the same text. - Thinking content omitted by default.
Final Verdict & Recommendation
Claude Opus 4.7 是 2026 年任何嚴肅的程式、代理或視覺工作負載的明顯勝者。 這些增益不是微幅——而是可改造生產的級別。若你仍在使用 Opus 4.6,請於本週完成遷移。更高的品質、更少的呼叫次數與相同(或透過 CometAPI 更低)的定價,使其成為不需多想的選擇。
Action steps:
- 在 CometAPI 的操場以你的實際工作負載測試 4.7。
- 先更新一項服務(Cursor 或你的代理框架)。
- 首週監測 token 使用。
- 在擁有橫跨 500+ 模型的統一、較便宜存取下自信擴張。
