Claude Opus 4.7 vs Claude Opus 4.6: Hướng dẫn về các cải tiến và chuyển đổi

CometAPI
AnnaApr 20, 2026
Claude Opus 4.7 vs Claude Opus 4.6: Hướng dẫn về các cải tiến và chuyển đổi

Claude Opus 4.7, ra mắt ngày 16 tháng 4 năm 2026, là một nâng cấp đáng kể so với Opus 4.6 về lập trình, quy trình dạng tác tử, thị giác và khả năng tuân thủ chỉ dẫn. Model đạt +6.8pp trên SWE-bench Verified (87.6% so với 80.8%), +10.9pp trên SWE-bench Pro (64.3% so với 53.4%), +12pp trên CursorBench (70% so với 58%), và mang lại thị giác độ phân giải cao hơn 3,3× cùng các vòng lặp tự kiểm chứng giúp giảm ảo giác ở các tác vụ dài. Mức giá chính thức giữ nguyên ($5/$25 trên mỗi triệu token), nhưng nỗ lực thấp của 4.7 cho chất lượng tương đương nỗ lực trung bình của 4.6, cắt giảm chi phí thực tế.

Trên CometAPI, bạn có cả hai model (Claude Opus 4.7Opus 4.6) với giá $4 input / $20 output cùng điểm cuối tương thích OpenAI và không bị khóa chặt nhà cung cấp. Hãy nâng cấp nếu bạn vận hành tác tử lập trình sản xuất, phân tích tài liệu phức tạp, hoặc quy trình đa phiên—4.7 là mặc định mới cho công việc tuyến đầu.

Claude Opus 4.7 vs Opus 4.6: So sánh nhanh

Bottom line: Opus 4.7 mang lại cảm giác “Opus 4.6 nhưng bỏ giới hạn và tinh luyện hơn.” Nó loại bỏ các hạn chế thỉnh thoảng xuất hiện ở 4.6 (ví dụ bỏ dở tác vụ sớm, thị giác kém sắc) đồng thời bổ sung hiệu quả nhờ suy luận thích ứng. Người dùng cho biết model “có chính kiến” hơn và hợp tác hơn—giống làm việc với một kỹ sư cấp cao tự kiểm tra lại công việc của mình.

Vì sao Claude Opus 4.7 quan trọng trong năm 2026

Ngày 16 tháng 4 năm 2026, Anthropic âm thầm phát hành model khả dụng rộng rãi mạnh nhất của họ: Claude Opus 4.7. Chỉ vài tuần sau Mythos Preview bị giới hạn (tập trung cho an ninh mạng), Opus 4.7 giành lại ngôi cho khối lượng công việc sản xuất đồng thời giữ nguyên mức giá như Opus 4.6.

Các nhà phát triển và doanh nghiệp không còn cần “trông trẻ” những tác vụ lập trình khó nhất. Người dùng cho biết có thể bàn giao “những việc trước đây cần giám sát chặt” cho 4.7 với sự tin tưởng. Model nay tự kiểm chứng đầu ra, tuân thủ chỉ dẫn theo nghĩa đen, và duy trì các vòng chạy tác tử nhiều giờ với ít lỗi công cụ hơn và khả năng phục hồi lỗi tốt hơn.

Model xuất sắc ở:

  • Tác vụ dài, nghiêm ngặt với tự kiểm chứng tích hợp (Plan → Execute → Verify → Report).
  • Tuân thủ chỉ dẫn theo nghĩa đen—không còn diễn giải lỏng lẻo kiểu “consider” hay “you might.”
  • Thị giác vượt trội (cạnh dài tới 2,576 px ≈ 3.75 MP, hơn 3× độ phân giải trước).
  • Gu thẩm mỹ và sáng tạo cao hơn trong sản phẩm chuyên nghiệp như giao diện, slide và tài liệu.
  • Bộ nhớ hệ thống tệp cải thiện cho khả năng tự chủ đa phiên thực thụ.

Tính năng mới gồm mức nỗ lực xhigh (giữa high và max), ngân sách tác vụ trên Platform API, và tích hợp công cụ Claude Design. Model ID giờ là claude-opus-4-7. Giá không đổi chính thức, nhưng cải thiện hiệu quả token thường làm giảm chi phí thực trên mỗi tác vụ.

Cải tiến năng lực cốt lõi – Rốt cuộc đã thay đổi gì

Kỹ nghệ phần mềm nâng cao & lập trình dạng tác tử

Opus 4.7 tỏa sáng ở những bài toán khó nhất. Trên benchmark nội bộ 93 tác vụ lập trình, model đạt nâng 13% so với 4.6, giải được bốn tác vụ mà 4.6 và Sonnet 4.6 đều không xử lý nổi. Rakuten-SWE-Bench cho thấy gấp 3× số tác vụ đạt chuẩn sản xuất được giải mà không cần can thiệp con người. CursorBench (quy trình IDE thực) tăng +12 điểm lên 70%.

Benchmark nội bộ 93 tác vụ cho thấy nâng 13%, giải được bốn tác vụ mà 4.6 và Sonnet 4.6 đều không xử lý nổi. Trong quy trình tác tử, Box báo cáo giảm 2× lượt gọi LLM (7.1 so với 16.3) và giảm 30% sử dụng AI Unit cho cùng đầu ra—chuyển hóa trực tiếp thành lợi ích chi phí và độ trễ.

Vì sao quan trọng với nhà phát triển: Giờ bạn có thể tin cậy Opus 4.7 với “công việc lập trình khó nhất” vốn trước đây cần giám sát. Model chú ý chuẩn xác tới chỉ dẫn, tự kiểm chứng đầu ra, và tái sử dụng bộ nhớ hệ thống tệp qua các phiên—hoàn hảo cho tự động refactor trong nhiều ngày.

Thành tựu thực tế gồm:

  • Tạo động cơ chuyển văn bản thành giọng nói bằng Rust tự động từ một prompt.
  • Sửa lỗi race condition và lỗi đồng thời từng làm các model trước bế tắc trên Terminal-Bench 2.0 (+4.0 pp).
  • Tăng 10–15% tỷ lệ thành công tác vụ Factory Droids với số lỗi công cụ giảm 1/3.
  • Cải thiện hai chữ số về chất lượng code, chất lượng kiểm thử, và độ chính xác review (CodeRabbit, Qodo).

Nỗ lực thấp của 4.7 giờ tương đương chất lượng nỗ lực trung bình của 4.6, nên bạn hoàn thành nhiều việc hơn với cùng (hoặc ít hơn) chi tiêu token.

Bước nhảy về Thị giác & Đa phương thức

Đây là nâng cấp lớn nhất. Độ phân giải ảnh tối đa tăng từ 1.15 MP (1568 px) lên 3.75 MP (2576 px ở cạnh dài) — tăng 3,3× số pixel với ánh xạ tọa độ 1:1. Không còn phải tính tỉ lệ cho ảnh chụp màn hình hay sơ đồ.

Kết quả:

  • Benchmark thị lực: 98.5% so với 54.5% trên 4.6.
  • CharXiv-R (không công cụ): +13.4 pp; có công cụ: +13.6 pp.
  • Mở khóa tác tử sử dụng máy tính pixel-perfect, phân tích ảnh chụp màn hình dày đặc, phân tích cấu trúc hóa học, và review UI/UX.

Quy trình tác tử, độ tin cậy & Tuân thủ chỉ dẫn

Opus 4.7 giới thiệu tự kiểm chứng bản địa—model lập kế hoạch, thực thi, kiểm chứng, rồi báo cáo. Điều này giảm mạnh các câu trả lời tự tin nhưng sai ở tác vụ dài. Cải thiện bộ nhớ hệ thống tệp cho phép tự chủ nhiều ngày thực sự.

Tuân thủ chỉ dẫn nghiêm và theo nghĩa đen hơn. Prompt tinh chỉnh cho phong cách “lỏng” của 4.6 có thể cần rà soát—cụm như “consider” giờ được xem như yêu cầu cứng. Đây là lợi thế cho công việc đòi hỏi độ chính xác, nhưng đòi hỏi di trú prompt.

Lưu ý về thoái lui: Truy xuất needle trong ngữ cảnh dài (MRCR) giảm đáng kể (ví dụ 91.9% → 59.2% ở 256K). Anthropic cho biết họ đang loại dần các bài test tổng hợp kiểu này để ưu tiên chỉ số GraphWalks ứng dụng, nơi hiểu mã thực vẫn mạnh.

Mức nỗ lực xhigh mới + Ngân sách tác vụ

Opus 4.7 bổ sung xhigh giữa high và max để điều khiển chi tiết hơn. Claude Code nay mặc định xhigh xuyên suốt kế hoạch. task_budget (public beta) mới cho phép model theo dõi tổng token của cả vòng lặp tác tử và kết thúc một cách êm ái.

Tuân thủ chỉ dẫn, Tự kiểm chứng & Bộ nhớ

Opus 4.7 diễn giải prompt theo nghĩa đen hơn—tuyệt vời cho độ chính xác, nhưng prompt mơ hồ cũ có thể cần siết lại. Model nay tự đề ra bước kiểm chứng (Plan → Execute → Verify → Report) và tái sử dụng bộ nhớ hệ thống tệp qua nhiều phiên tốt hơn 4.6. Với các đội xây dựng tác tử bền bỉ, đây là một trong những nâng cấp hữu dụng nhất vì giảm việc phải giải thích lại, nạp lại, và lập kế hoạch lại.

Cập nhật tokenizer

Tokenizer mới cải thiện chất lượng nhưng có thể tiêu thụ nhiều token hơn 1.0–1.35× (tối đa +35%). Điểm cuối đếm token nay trả về số khác. Hiệu ứng ròng: chất lượng cao hơn trên mỗi tác vụ thường bù lại mức tăng, nhất là ở mức nỗ lực thấp hơn.

An toàn, Căn chỉnh & An ninh mạng

Hồ sơ an toàn tương tự 4.6 (độ lệch thấp), với cải thiện khiêm tốn về tính trung thực và kháng prompt-injection.

Claude Opus 4.7 vs Claude Opus 4.6: Hướng dẫn về các cải tiến và chuyển đổi

Opus 4.7 đi kèm biện pháp bảo vệ Project Glasswing: chặn theo thời gian thực các mục đích sử dụng mạng bị cấm/nguy cơ cao. Điểm CyberGym giữ ổn định có chủ đích. Hành vi lệch giảm nhẹ so với 4.6. Thẻ hệ thống đầy đủ có trên trang Anthropic.

Giá, Hiệu quả token & Tiết kiệm với CometAPI

Giá chính thức giống hệt, nhưng chi phí hiệu dụng trên mỗi tác vụ giảm vì nỗ lực thấp 4.7 ≈ chất lượng nỗ lực trung bình 4.6, và tỷ lệ thành công cao hơn đồng nghĩa ít thử lại hơn. Tokenizer mới tăng token đầu vào 0–35% cho cùng văn bản, nhưng mức sử dụng ròng thường thuận lợi ở chất lượng tương ứng.

Lợi thế CometAPI: Truy cập cả hai model với $4 input / $20 output trên mỗi triệu token—rẻ hơn chính thức 20%—cùng khả năng chuyển đổi liền mạch giữa 500+ model (GPT-5.4, Gemini 3.1, v.v.) qua một điểm cuối tương thích OpenAI hoặc Anthropic Messages. Không downtime nếu nhà cung cấp đổi giá. Không khóa chặt nhà cung cấp. Playground dùng thử và thanh toán hợp nhất giúp di trú không nỗ lực.

Phân tích chuyên sâu benchmark so sánh cạnh nhau

Claude Opus 4.7 vs Claude Opus 4.6: Hướng dẫn về các cải tiến và chuyển đổi

Dưới đây là đối đầu 14 benchmark đầy đủ từ dữ liệu ra mắt của Anthropic (được đối tác xác minh):

Coding Benchmarks

  • SWE-bench Verified: 80.8% → 87.6% (+6.8 pp)
  • SWE-bench Pro: 53.4% → 64.3% (+10.9 pp)
  • Terminal-Bench 2.0: 65.4% → 69.4% (+4.0 pp)

Agentic & Tool-Use

  • MCP-Atlas: 62.7% → 77.3% (+14.6 pp) — mức tăng lớn nhất
  • OSWorld-Verified: 72.7% → 78.0% (+5.3 pp)
  • Finance Agent: 60.7% → 64.4% (+3.7 pp)

Reasoning & Knowledge

  • GPQA Diamond: 91.3% → 94.2% (+2.9 pp)
  • HLE (no tools): 40.0% → 46.9% (+6.9 pp)
  • MMMLU: 91.1% → 91.5% (+0.4 pp)

Vision

  • CharXiv-R (no tools): 68.7% → 82.1% (+13.4 pp)
  • CharXiv-R (tools): 77.4% → 91.0% (+13.6 pp)

Regressions (minh bạch)

  • BrowseComp: 84.0% → 79.3% (–4.7 pp) — nhạy với harness
  • CyberGym: 73.8% → 73.1% (–0.7 pp) — chủ đích vì an toàn

Internal Research-Agent Benchmark: 0.715 tổng thể (đồng hạng cao nhất), với mô-đun Finance tăng từ 0.767 lên 0.813.

Hiệu năng thực tế & Trường hợp sử dụng

Kiểm thử quy trình tác tử của Box cho thấy Opus 4.7 hoàn thành tác vụ với 7.1 lượt gọi LLM so với 16.3 của 4.6 (ít hơn 2.3×) và giảm 30% sử dụng AI Unit. Độ trễ giảm từ 242 s xuống 183 s median.

Đối tác doanh nghiệp (Harvey, Databricks, Hebbia, Ramp, Genspark) báo cáo:

  • Giảm 21% lỗi trong suy luận tài liệu.
  • Điều phối đa tác tử tốt hơn trong nhiều giờ.
  • Tích hợp chặt chẽ hơn giữa slide, bảng tính và mã.

Ai nên nâng cấp ngay?

  • Đội kỹ nghệ phần mềm dùng Cursor/Claude Code.
  • Nhà xây dựng tác tử AI cần tự chủ bền bỉ dài hạn đáng tin cậy.
  • Quy trình nặng về thị giác (ảnh chụp màn hình, sơ đồ, review UI).
  • Tự động hóa tài chính, pháp lý và công việc tri thức.

Thay đổi API, Hướng dẫn di trú & Ví dụ mã

Breaking Changes (Messages API)

  • Extended thinking budgets removed → use thinking: {"type": "adaptive"}.
  • Sampling params (temperature, etc.) no longer accepted → use prompting.
  • Thinking content omitted by default.
  • New tokenizer requires headroom in max_tokens.

Hướng dẫn di trú + Ví dụ mã (CometAPI)

Step 1: Update model name to claude-opus-4-7 (or CometAPI alias).

Step 2: Audit prompts for literal interpretation.

Step 3: Test effort levels (start with xhigh for coding).

Step 4: Use task budgets to cap spend.

Đây là ví dụ Python sẵn chạy dùng điểm cuối tương thích Anthropic của CometAPI (cũng hoạt động với SDK chính thức):

(Python)

import anthropic
import os

client = anthropic.Anthropic(
    api_key=os.getenv("COMETAPI_KEY"),  # Your CometAPI sk- key
    base_url="https://www.cometapi.com/console/"  # CometAPI base
)

message = client.messages.create(
    model="claude-opus-4-7",  # or "claude-opus-4-6" for comparison
    max_tokens=4096,
    temperature=0.7,
    effort="xhigh",  # New level for deep reasoning
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Refactor this legacy Python module into clean, type-hinted, testable code. Follow instructions literally: use Pydantic v2, add comprehensive tests, no external deps beyond stdlib + pydantic. Verify your changes before responding."},
                {"type": "image", "source": {"type": "base64", "media_type": "image/png", "data": "iVBORw0KGgoAAAANSUhEUg..."} }  # High-res screenshot support
            ]
        }
    ]
)

print(message.content[0].text)

Self-verification demo prompt (works far better on 4.7):

(text):

Plan → Execute → Verify → Report:
1. Analyze the attached codebase.
2. Propose refactors.
3. Implement changes in a new file.
4. Run mental unit tests and edge cases.
5. Only output final verified code if all checks pass.

Chạy thử nghiệm A/B trên chính khối lượng công việc của bạn—đa số đội ngũ thấy giảm 20–40% số vòng lặp.

Note:

Trước hết, tokenizer mới tạo ra nhiều token hơn từ cùng một văn bản. Opus 4.7 giới thiệu tokenizer mới, cải thiện cách model xử lý văn bản. Đánh đổi là cùng một đầu vào sẽ ánh xạ tới nhiều token hơn; con số chính xác tùy loại nội dung, nhưng xấp xỉ từ 1.0 đến 1.35 lần.

Thứ hai, mức nỗ lực cao hơn cho phép cân nhắc toàn diện hơn, đặc biệt trong kịch bản tác tử đa lượt.

Điều này dẫn đến độ tin cậy tốt hơn, nhưng cũng làm tăng số token đầu ra.

Giải pháp chính thức đưa ra ba cách tiếp cận:

  • Điều chỉnh mức nỗ lực bằng tham số efficiency
  • Giới hạn ngân sách bằng task budgets
  • Bảo model “trả lời ngắn gọn hơn” trong prompt.

Giới hạn đã biết và ghi chú di trú

  • Extended thinking budgets removed → use thinking: {"type": "adaptive"}. thinking: {type: "enabled", budget_tokens: N} không còn được hỗ trợ; hãy dùng adaptive thinking.
  • Sampling params (temperature, etc.) no longer accepted → use prompting. temperature, top_p, và top_k cần được loại khỏi request khi di trú sang Opus 4.7.
  • Model được mô tả là sát nghĩa đen và trực diện hơn Opus 4.6, hữu ích cho độ chính xác nhưng có thể cần prompt sắc nét hơn.
  • New tokenizer requires headroom in max_tokens. Anthropic khuyến nghị kiểm tra lại dư địa max_tokens vì Opus 4.7 có thể tạo số token cao hơn cho cùng văn bản.
  • Thinking content omitted by default.

Kết luận & Khuyến nghị

Claude Opus 4.7 là lựa chọn vượt trội cho bất kỳ khối lượng công việc lập trình, tác tử, hay thị giác nghiêm túc nào trong năm 2026. Tăng trưởng không chỉ gia tăng nhỏ—mà mang tính chuyển hóa sản xuất. Nếu bạn đang ở Opus 4.6, hãy di trú trong tuần này. Kết hợp chất lượng cao hơn, ít lượt gọi hơn, và giá giống hệt (hoặc rẻ hơn qua CometAPI) khiến quyết định trở nên hiển nhiên.

Các bước hành động:

  • Thử 4.7 trên Playground của CometAPI với khối lượng công việc thực tế của bạn.
  • Cập nhật một dịch vụ trước (Cursor hoặc framework tác tử của bạn).
  • Theo dõi mức sử dụng token trong tuần đầu.
  • Mở rộng tự tin với quyền truy cập hợp nhất, rẻ hơn trên 500+ model.

Sẵn sàng giảm 20% chi phí phát triển AI?

Bắt đầu miễn phí trong vài phút. Bao gồm tín dụng dùng thử miễn phí. Không cần thẻ tín dụng.

Đọc thêm