Claude Opus 4.7 與 Claude Opus 4.6：改進與遷移指南

Claude Opus 4.7 於 2026 年 4 月 16 日發布，在程式設計、代理式工作流程、視覺與指令遵循方面，相較 Opus 4.6 有重大升級。它在 SWE-bench Verified（87.6% vs 80.8%）提升 +6.8 個百分點、SWE-bench Pro（64.3% vs 53.4%）提升 +10.9 個百分點、CursorBench（70% vs 58%）提升 +12 個百分點，並提供 3.3× 更高解析度的視覺能力，搭配自我驗證迴圈，降低長任務的幻覺。官方定價維持不變（每百萬 tokens $5/$25），但低努力級別的 4.7 可達到中等努力級別 4.6 的品質，實際成本因此下降。

在 CometAPI 上，你可獲得兩個模型（Claude Opus 4.7 與 Opus 4.6），以 $4 輸入 / $20 輸出 的價格，提供與 OpenAI 相容的端點且零供應商綁定。若你運行生產級程式代理、複雜文件分析或多會話工作流程，建議升級——4.7 是前沿工作的全新預設。

Claude Opus 4.7 vs Opus 4.6: Quick comparison

Bottom line：Opus 4.7 的感受是「Opus 4.6 的解禁加精修版」。它移除了 4.6 偶爾出現的限制（例如過早放棄任務、較低的視覺敏感度），並透過自適應推理提升效率。使用者反饋它更「有主見」且更具協作性——就像與會自我複核的資深工程師共事。

Why Claude Opus 4.7 Matters in 2026

2026 年 4 月 16 日，Anthropic 低調推出了迄今最強的「普遍可用」模型：Claude Opus 4.7。在受限的 Mythos Preview（側重網安的強力模型）釋出數週後，Opus 4.7 重新奪回生產工作負載的王座，同時保持與 Opus 4.6 完全一致的定價。

開發者與企業不再需要看管最困難的程式任務。使用者回報現可放心交付「過去需要密切監督」的工作給 4.7。該模型現會自我驗證輸出、按字面遵循指令，並能以更少的工具錯誤與更佳的錯誤修復，支撐多小時的代理式執行。

該模型擅長：

嚴謹的長時任務，內建自我驗證（Plan → Execute → Verify → Report）。
按字面執行指令——不再鬆散解讀「consider」或「you might」。
大幅提升的視覺能力（長邊最高至 2,576 px ≈ 3.75 MP，超過先前解析度的 3×）。
在介面、簡報與文件等專業產出中具備更佳的品味與創造力。
改進的檔案系統記憶，實現真正的多會話自治。

新功能包含 xhigh 努力等級（介於 high 與 max 之間）、Platform API 的任務預算，以及 Claude Design 工具整合。模型 ID 現為 claude-opus-4-7。官方定價不變，但因 token 效率提升，常能降低每次任務的有效成本。

Core Capability Improvements – What Actually Changed

Advanced Software Engineering & Agentic Coding

Opus 4.7 在最困難的問題上表現出色。在 93 項內部程式基準中，它相較 4.6 提升 13% 的解決率，並攻克 4 個連 4.6 與 Sonnet 4.6 都無法解決的任務。Rakuten-SWE-Bench 顯示在無人干預下解決的生產級任務增加 3×。CursorBench（真實 IDE 工作流）提升 +12 點至 70%。

內部 93 項程式基準顯示 13% 的提升，並解決了 4 個連 4.6 與 Sonnet 4.6 都無法攻克的任務。在代理式工作流程中，Box 報告LLM 呼叫次數減半（7.1 vs 16.3），同輸出下 AI 單位使用量降低 30%——直接轉化為成本與延遲的優勢。

**對開發者的重要性：**你如今可以信任 Opus 4.7 處理過去需監督的「最困難程式工作」。它精準注意指令、自我驗證輸出，並能跨會話重用檔案系統記憶——非常適合跨多日的自主重構。

實際成果包括：

以單一提示自動生成 Rust 文字轉語音引擎。
修復在 Terminal-Bench 2.0 中先前模型束手無策的競態條件與並發錯誤（+4.0 個百分點）。
在 Factory Droids 任務成功率提升 10–15%，工具錯誤減少至 ⅓。
在程式碼品質、測試品質與審查準確度方面的雙位數提升（CodeRabbit、Qodo）。

低努力級別的 4.7 現可匹敵中等努力級別的 4.6 品質，因此在相同（甚至更低）token 花費下完成更多工作。

Vision & Multimodal Leap

這是單一最大升級。最高影像解析度從 1.15 MP（1568 px）躍升至 3.75 MP（長邊 2576 px）——像素增加 3.3×，並提供 1:1 座標映射。對截圖或圖表不再需要縮放因子的計算。

結果：

視覺敏銳度基準：98.5% vs 54.5%（相較 4.6）。
CharXiv-R（無工具）：+13.4 個百分點；有工具：+13.6 個百分點。
解鎖像素級精準的電腦使用代理、密集截圖分析、化學結構解析與 UI/UX 設計審查。

Agentic Workflows, Reliability & Instruction Following

Opus 4.7 引入原生自我驗證——模型先規劃、執行、驗證，再回報。這大幅降低長期任務中「自信但錯誤」的答案。檔案系統記憶的改進讓真正的多日自治成為可能。

指令遵循更嚴謹且更按字面。針對 4.6 較鬆散風格調過的提示可能需要審核——例如「consider」這類措辭如今被視為硬性要求。對精準工作而言這是特色，但需要進行提示遷移。

**關於回退的註記：**長上下文針對性檢索（MRCR）顯著下降（例如在 256K 下 91.9% → 59.2%）。Anthropic 表示正逐步淘汰此類合成測試，改用應用的 GraphWalks 指標；在此框架下，真實程式碼理解仍然強勁。

New xhigh Effort Level + Task Budgets

Opus 4.7 新增介於 high 與 max 之間的 xhigh，提供更精細的控制。Claude Code 目前在各方案中預設為 xhigh。新的 task_budget（公開測試版）讓模型可在整個代理式迴圈中追蹤總 token，並在預算用罄時優雅完成。

Instruction Following, Self-Verification & Memory

Opus 4.7 對提示的解讀更為字面——對精準非常有利，但舊的模糊提示可能需要收緊。它會自擬驗證步驟（Plan → Execute → Verify → Report），並在多會話工作中更佳地重用檔案系統記憶。對打造持久代理的團隊而言，這是最實用的升級之一，因為它減少了重複解釋、重載與重規劃。

Tokenizer Update

新的分詞器提升了品質，但可能消耗 1.0–1.35× 的 token（最多 +35%）。token 計數端點現在會返回不同的數字。淨效果是：在相同品質目標下，尤其於較低努力級別時，較高的任務品質往往可抵銷增加的 token。

Safety, Alignment & Cybersecurity

安全側寫類似 4.6（低不對齊），在誠實性與抵抗提示注入方面略有改善。

Claude Opus 4.7 與 Claude Opus 4.6：改進與遷移指南

Opus 4.7 隨附 Project Glasswing 的防護：即時阻擋被禁止或高風險的網安用途。CyberGym 分數刻意維持不變。不對齊行為相較 4.6 略有改善。完整系統卡可於 Anthropic 官網取得。

Pricing, Token Efficiency & CometAPI Savings

官方定價相同，但每次任務的有效成本下降，因為低努力級別的 4.7 ≈ 中等努力級別的 4.6 品質，且更高的成功率意味著更少重試。新的分詞器對相同文字的輸入 token 增加 0–35%，但在匹配品質下的淨用量常更有利。

**CometAPI 優勢：**可同時以 每百萬 tokens $4 輸入 / $20 輸出 存取兩個模型——比官方便宜 20%——並可透過單一相容 OpenAI 或 Anthropic Messages 端點，在 500+ 模型（GPT-5.4、Gemini 3.1 等）間無縫切換。供應商調價時無停機風險。零供應商綁定。操場測試與統一計費讓遷移毫不費力。

Side-by-Side Benchmark Deep Dive

Claude Opus 4.7 與 Claude Opus 4.6：改進與遷移指南

以下為 Anthropic 發布資料的完整 14 項基準對比（由合作夥伴驗證）：

Coding Benchmarks

SWE-bench Verified：80.8% → 87.6%（+6.8 個百分點）
SWE-bench Pro：53.4% → 64.3%（+10.9 個百分點）
Terminal-Bench 2.0：65.4% → 69.4%（+4.0 個百分點）

Agentic & Tool-Use

MCP-Atlas：62.7% → 77.3%（+14.6 個百分點）——最大單次提升
OSWorld-Verified：72.7% → 78.0%（+5.3 個百分點）
Finance Agent：60.7% → 64.4%（+3.7 個百分點）

Reasoning & Knowledge

GPQA Diamond：91.3% → 94.2%（+2.9 個百分點）
HLE（無工具）：40.0% → 46.9%（+6.9 個百分點）
MMMLU：91.1% → 91.5%（+0.4 個百分點）

Vision

CharXiv-R（無工具）：68.7% → 82.1%（+13.4 個百分點）
CharXiv-R（有工具）：77.4% → 91.0%（+13.6 個百分點）

Regressions (transparent)

BrowseComp：84.0% → 79.3%（–4.7 個百分點）——對測試工具敏感
CyberGym：73.8% → 73.1%（–0.7 個百分點）——基於安全的刻意調整

**Internal Research-Agent Benchmark：**整體 0.715（並列最高），其中 Finance 模組由 0.767 跳升至 0.813。

Real-World Performance & Use Cases

Box 的代理式工作流程測試顯示，Opus 4.7 以 7.1 次 LLM 呼叫 vs 16.3（下降 2.3×）完成相同任務，AI 單位使用量降低 30%。中位延遲由 242 秒降至 183 秒。

企業夥伴（Harvey、Databricks、Hebbia、Ramp、Genspark）回報：

文件推理錯誤減少 21%。
多代理在長時段下的協同更佳。
投影片、試算表與程式碼的整合更緊密。

Who Should Upgrade Immediately?

使用 Cursor/Claude Code 的軟體工程團隊。
需要可靠長期自治的 AI 代理構建者。
視覺密集工作流（截圖、圖表、UI 審查）。
金融、法務與知識工作自動化。

API Changes, Migration Guide & Code Examples

Breaking Changes (Messages API)

移除擴展思考預算 → 使用 thinking: {"type": "adaptive"}。
不再接受抽樣參數（temperature 等）→ 以提示控制。
預設省略思考內容。
新分詞器需在 max_tokens 預留餘量。

Migration Guide + Code Examples (CometAPI)

**Step 1：**更新模型名稱為 claude-opus-4-7（或 CometAPI 別名）。

**Step 2：**審核提示以符合更字面的解讀。

**Step 3：**測試努力等級（針對程式設計先以 xhigh 起步）。

**Step 4：**使用任務預算限制支出。

（Python）

import anthropic
import os

client = anthropic.Anthropic(
    api_key=os.getenv("COMETAPI_KEY"),  # Your CometAPI sk- key
    base_url="https://www.cometapi.com/console/"  # CometAPI base
)

message = client.messages.create(
    model="claude-opus-4-7",  # or "claude-opus-4-6" for comparison
    max_tokens=4096,
    temperature=0.7,
    effort="xhigh",  # New level for deep reasoning
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Refactor this legacy Python module into clean, type-hinted, testable code. Follow instructions literally: use Pydantic v2, add comprehensive tests, no external deps beyond stdlib + pydantic. Verify your changes before responding."},
                {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": "iVBORw0KGgoAAAANSUhEUg..."} }  # High-res screenshot support
            ]
        }
    ]
)

print(message.content[0].text)

Self-verification demo prompt (works far better on 4.7):

(text):

Plan → Execute → Verify → Report:
1. Analyze the attached codebase.
2. Propose refactors.
3. Implement changes in a new file.
4. Run mental unit tests and edge cases.
5. Only output final verified code if all checks pass.

在你的實際工作負載上進行 A/B 測試——多數團隊觀察到迭代次數下降 20–40%。

Note:

First, The new tokenizer generates more tokens from the same text. Opus 4.7 introduced a new tokenizer, improving how the model processes text. The trade-off is that the same input will map to more tokens; the exact number depends on the content type, but is roughly between 1.0 and 1.35 times.

Secondly Higher effort levels allow for more comprehensive consideration, especially in multi-turn agent scenarios.

This leads to better reliability, but also more output tokens.

The official solution provides three approaches:

Adjusting the effort level using the efficiency parameter
Limiting the budget using task budgets
Telling the model to "be more concise" in the prompt.

Known limitations and migration notes

Extended thinking budgets removed → use thinking: {"type": "adaptive"}. thinking: {type: "enabled", budget_tokens: N} is no longer supported; use adaptive thinking instead.
Sampling params (temperature, etc.) no longer accepted → use prompting. temperature, top_p, and top_k should be removed from requests when migrating to Opus 4.7.
The model is described as more literal and more direct than Opus 4.6, which is useful for precision but may require sharper prompts.
New tokenizer requires headroom in max_tokens. Anthropic recommends re-checking max_tokens headroom because Opus 4.7 can produce higher token counts for the same text.
Thinking content omitted by default.

Final Verdict & Recommendation

Claude Opus 4.7 是 2026 年任何嚴肅的程式、代理或視覺工作負載的明顯勝者。 這些增益不是微幅——而是可改造生產的級別。若你仍在使用 Opus 4.6，請於本週完成遷移。更高的品質、更少的呼叫次數與相同（或透過 CometAPI 更低）的定價，使其成為不需多想的選擇。

Action steps:

在 CometAPI 的操場以你的實際工作負載測試 4.7。
先更新一項服務（Cursor 或你的代理框架）。
首週監測 token 使用。
在擁有橫跨 500+ 模型的統一、較便宜存取下自信擴張。

Claude Opus 4.7 與 Claude Opus 4.6：改進與遷移指南

Claude Opus 4.7 vs Opus 4.6: Quick comparison

Why Claude Opus 4.7 Matters in 2026

Core Capability Improvements – What Actually Changed

Advanced Software Engineering & Agentic Coding

Vision & Multimodal Leap

Agentic Workflows, Reliability & Instruction Following

New xhigh Effort Level + Task Budgets

Instruction Following, Self-Verification & Memory

Tokenizer Update

Safety, Alignment & Cybersecurity

Pricing, Token Efficiency & CometAPI Savings

Side-by-Side Benchmark Deep Dive

Real-World Performance & Use Cases

Who Should Upgrade Immediately?

API Changes, Migration Guide & Code Examples

Migration Guide + Code Examples (CometAPI)

Known limitations and migration notes

Final Verdict & Recommendation

準備好將 AI 開發成本降低 20% 了嗎？

閱讀更多