Claude Opus 4.5 là mô hình “Opus-class” mới nhất của Anthropic (ra mắt vào cuối tháng 11 năm 2025). Mô hình này được định vị là một mô hình hàng đầu cho kỹ thuật phần mềm chuyên nghiệp, quy trình tác tử dài hạn và các tác vụ doanh nghiệp có mức độ quan trọng cao, và Anthropic đã chủ động định giá để giúp năng lực cao trở nên dễ tiếp cận hơn với người dùng production. Dưới đây, tôi sẽ phân tích Claude Opus 4.5 API là gì, mô hình này thể hiện ra sao trên các benchmark kỹ thuật thực tế, chính xác cách hoạt động của giá (API và gói thuê bao), cách nó so sánh với các mô hình Anthropic đời trước và các đối thủ (OpenAI, Google Gemini), cùng các thực tiễn tốt nhất để chạy workload production với chi phí hiệu quả. Tôi cũng kèm theo mã hỗ trợ và một bộ công cụ nhỏ để benchmark & tính chi phí mà bạn có thể sao chép và chạy.
Claude Opus 4.5 API là gì?
Claude Opus 4.5 là mô hình Opus-class mới nhất: một mô hình đa phương thức có năng lực cao, được tinh chỉnh đặc biệt cho kỹ thuật phần mềm chuyên nghiệp, sử dụng công cụ theo kiểu tác tử (tức là gọi và phối hợp các công cụ bên ngoài), và các tác vụ điều khiển máy tính. Nó giữ lại khả năng extended-thinking (lập luận nội bộ từng bước một cách minh bạch mà bạn có thể stream) và bổ sung các cơ chế điều khiển thời gian chạy chi tiết (đáng chú ý là tham số effort). Anthropic định vị mô hình này là phù hợp cho các tác tử production, di chuyển / tái cấu trúc mã, và các workflow doanh nghiệp đòi hỏi độ ổn định cao cùng số vòng lặp thấp hơn.
Năng lực cốt lõi của API và trải nghiệm nhà phát triển
Opus 4.5 hỗ trợ:
- Sinh văn bản tiêu chuẩn + tuân thủ chỉ dẫn với độ chính xác cao.
- Chế độ Extended Thinking / lập luận nhiều bước (hữu ích cho lập trình, tài liệu dài).
- Dùng công cụ (tìm kiếm web, thực thi mã, công cụ tùy chỉnh), bộ nhớ và prompt caching.
- “Claude Code” và các luồng tác tử (tự động hóa tác vụ nhiều bước trên các codebase).
Claude Opus 4.5 hoạt động như thế nào?
Opus 4.5 là state-of-the-art trên các benchmark kỹ thuật phần mềm — đạt ~80.9% trên SWE-bench Verified, và có điểm số mạnh trên các benchmark “computer-use” như OSWorld. Opus 4.5 có thể đạt hoặc vượt hiệu năng của Sonnet 4.5 với mức sử dụng token thấp hơn (tức là hiệu quả token hơn).
Các benchmark kỹ thuật phần mềm (SWE-bench / Terminal Bench / Aider Polyglot): Anthropic cho biết Opus 4.5 dẫn đầu trên SWE-bench Verified, cải thiện Terminal Bench khoảng ~15% so với Sonnet 4.5, và tăng 10.6% trên Aider Polyglot so với Sonnet 4.5 (theo so sánh nội bộ của họ).
Lập trình tự động đường dài: Theo Anthropic, Opus 4.5 giữ hiệu năng ổn định trong các phiên lập trình tự động kéo dài 30 phút và gặp ít ngõ cụt hơn trong các workflow nhiều bước. Đây là một phát hiện nội bộ lặp lại trong các bài kiểm tra tác tử của họ.
Cải thiện trên tác vụ thực tế (Vending-Bench / BrowseComp-Plus, v.v.): Anthropic cho biết có mức tăng +29% trên Vending-Bench (các tác vụ dài hạn) so với Sonnet 4.5 và cải thiện các chỉ số tìm kiếm theo kiểu tác tử trên BrowseComp-Plus.

Một vài điểm rút ra cụ thể từ các báo cáo:
- Dẫn đầu về lập trình: Opus 4.5 thường vượt các biến thể Opus/Sonnet trước đó và nhiều mô hình đối thủ cùng thời trên các tổng hợp benchmark kỹ thuật phần mềm (SWE-bench Verified và các biến thể Terminal-bench).
- Tự động hóa công việc văn phòng: các reviewer nhấn mạnh khả năng tạo bảng tính và PowerPoint tốt hơn — những cải thiện giúp giảm khối lượng chỉnh sửa hậu kỳ cho các nhóm phân tích và sản phẩm.
- Độ tin cậy của tác tử & công cụ: Opus 4.5 cải thiện trong các workflow tác tử nhiều bước và các tác vụ chạy dài, giảm lỗi trong các pipeline nhiều lần gọi.
Claude Opus 4.5 có giá bao nhiêu?
Đây là câu hỏi trọng tâm bạn đã đặt ra. Dưới đây tôi sẽ phân tích theo cấu trúc giá API, các gói thuê bao, ví dụ tính chi phí, và ý nghĩa thực tế của nó.
Cấu trúc giá API — những gì Anthropic công bố
Anthropic đặt giá API của Opus 4.5 như sau:
- Input (token): 5 USD cho mỗi 1.000.000 token đầu vào
- Output (token): 25 USD cho mỗi 1.000.000 token đầu ra
Anthropic nêu rõ rằng mức giá này là một sự giảm giá có chủ đích để giúp hiệu năng Opus-class dễ tiếp cận rộng rãi hơn. Định danh mô hình dành cho nhà phát triển là chuỗi claude-opus-4-5-20251101.
Trên CometAPI, Claude Opus 4.5 API có giá 4 USD / 1M token đầu vào và 20 USD / 1M token đầu ra cho Opus 4.5, rẻ hơn khoảng 20% so với giá chính thức của Google.
Bảng giá (đơn giản hóa, USD trên một triệu token)
| Mô hình | Input ($ / MTok) | Output ($ / MTok) | Ghi chú |
|---|---|---|---|
| Claude Opus 4.5 (base) | $5.00 | $25.00 | Giá niêm yết của Anthropic. |
| Claude Opus 4.1 | $15.00 | $75.00 | Bản phát hành Opus cũ hơn — giá niêm yết cao hơn. |
| Claude Sonnet 4.5 | $3.00 | $15.00 | Dòng rẻ hơn cho nhiều tác vụ. |
Lưu ý quan trọng: đây là giá tính theo token (không phải theo mỗi request). Bạn sẽ bị tính phí dựa trên số token mà request của bạn tiêu thụ — gồm cả input (prompt + context) và output (token do mô hình sinh ra).
Gói thuê bao và các hạng ứng dụng (consumer/Pro/Team)
API rất phù hợp cho các hệ thống tùy chỉnh, trong khi gói thuê bao Claude đi kèm quyền truy cập Opus 4.5 cùng các công cụ UI, loại bỏ lo ngại về mức sử dụng tính theo từng token trong các tình huống tương tác. Gói miễn phí ($0) bị giới hạn ở chat cơ bản và mô hình Haiku/Sonnet, không bao gồm Opus.
Gói Pro ($20 mỗi tháng hoặc $17 mỗi năm) và gói Max ($100 mỗi người mỗi tháng, cung cấp mức sử dụng gấp 5 đến 20 lần Pro) mở khóa Opus 4.5, Claude Code, thực thi tệp và số lượng project không giới hạn.
Làm thế nào để tôi tối ưu mức sử dụng token?
- Dùng
effortphù hợp: chọnlowcho câu trả lời thông thường, chỉ dùnghighkhi thật sự cần. - Ưu tiên đầu ra có cấu trúc & schema để tránh trao đổi dài dòng qua lại.
- Sử dụng Files API để tránh phải gửi lại các tài liệu lớn trong prompt.
- Nén hoặc tóm tắt context theo chương trình trước khi gửi.
- Cache các phản hồi lặp lại và tái sử dụng khi đầu vào prompt giống hệt hoặc tương tự.
Quy tắc thực tế: theo dõi mức sử dụng ngay từ sớm (track token trên mỗi request), chạy load test với các prompt đại diện, và tính chi phí trên mỗi tác vụ thành công (không chỉ chi phí trên mỗi token) để việc tối ưu nhắm đúng ROI thực tế.
Mẫu mã nhanh: gọi Claude Opus 4.5 + tính chi phí
Dưới đây là các ví dụ sẵn để sao chép: (1) curl, (2) Python dùng SDK của Anthropic, và (3) một helper Python nhỏ để tính chi phí dựa trên số token input/output đo được.
Quan trọng: hãy lưu API key của bạn một cách an toàn trong biến môi trường. Các đoạn mã giả định rằng
ANTHROPIC_API_KEYđã được thiết lập. ID mô hình được dùng ở đây làclaude-opus-4-5-20251101(Anthropic).
1) Ví dụ cURL (prompt đơn giản)
curl https://api.anthropic.com/v1/complete \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model":"claude-opus-4-5-20251101",
"prompt":"You are an assistant. Given the following requirements produce a minimal Python function that validates emails. Return only code.",
"max_tokens": 600,
"temperature": 0.0
}'
2) Python (SDK anthropic) — request cơ bản
# pip install anthropic
import os
from anthropic import Anthropic, HUMAN_PROMPT, AI_PROMPT
client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))
prompt = HUMAN_PROMPT + "Given the following requirements produce a minimal Python function that validates emails. Return only code.\n\nRequirements:\n- Python 3.10\n- Use regex\n" + AI_PROMPT
resp = client.completions.create(
model="claude-opus-4-5-20251101",
prompt=prompt,
max_tokens_to_sample=600,
temperature=0.0
)
print(resp.completion) # model output
Lưu ý: tên SDK Python và chữ ký lời gọi của Anthropic có thể khác nhau; ví dụ trên tuân theo các mẫu phổ biến trong SDK và tài liệu công khai của họ — hãy kiểm tra tài liệu của phiên bản bạn đã cài để biết chính xác tên phương thức. GitHub+1
3) Bộ tính chi phí (Python) — tính chi phí từ token
def compute_claude_cost(input_tokens, output_tokens,
input_price_per_m=5.0, output_price_per_m=25.0):
"""
Compute USD cost for Anthropic Opus 4.5 given token counts.
input_price_per_m and output_price_per_m are dollars per 1,000,000 tokens.
"""
cost_input = (input_tokens / 1_000_000) * input_price_per_m
cost_output = (output_tokens / 1_000_000) * output_price_per_m
return cost_input + cost_output
# Example: 20k input tokens and 5k output tokens
print(compute_claude_cost(20000, 5000)) # => ~0.225 USD
Mẹo: đo token cho các request thực tế bằng log máy chủ / telemetry của nhà cung cấp. Nếu bạn cần số lượng token chính xác ở local, hãy dùng tokenizer tương thích với sơ đồ tokenization của Claude hoặc dựa vào bộ đếm token của nhà cung cấp khi có sẵn.
Khi nào nên chọn Opus 4.5 thay vì các mô hình rẻ hơn?
Dùng Opus 4.5 khi:
- Bạn có các workload kỹ thuật mang tính trọng yếu mà độ đúng ngay lần đầu có giá trị rõ rệt (sinh mã phức tạp, gợi ý kiến trúc, các phiên tác tử dài).
- Tác vụ của bạn cần điều phối công cụ hoặc lập luận sâu nhiều bước trong một workflow duy nhất. Gọi công cụ theo chương trình là một điểm khác biệt quan trọng.
- Bạn đang cố giảm các vòng review thủ công — độ chính xác cao hơn ngay lần đầu của mô hình có thể giảm thời gian xử lý bởi con người ở giai đoạn sau và do đó giảm tổng chi phí.
Cân nhắc Sonnet / Haiku hoặc mô hình đối thủ khi:
- Trường hợp sử dụng của bạn là tóm tắt nhiều tương tác, khối lượng lớn, rủi ro thấp nơi token rẻ hơn và thông lượng cao hơn quan trọng hơn. Sonnet (cân bằng) hoặc Haiku (gọn nhẹ) có thể hiệu quả chi phí hơn.
- Bạn cần mức xử lý rẻ nhất tuyệt đối trên mỗi token và sẵn sàng đánh đổi một phần năng lực/độ chính xác (ví dụ: tóm tắt đơn giản, trợ lý cơ bản).
Tôi nên thiết kế prompt cho Opus 4.5 như thế nào?
Những vai trò message và chiến lược prefill nào hoạt động tốt nhất?
Hãy dùng mẫu ba phần:
- System (role: system): chỉ dẫn toàn cục — giọng điệu, guardrail, vai trò.
- Assistant (tùy chọn): ví dụ dựng sẵn hoặc nội dung priming.
- User (role: user): yêu cầu trực tiếp hiện tại.
Hãy prefill message system với các ràng buộc (định dạng, độ dài, chính sách an toàn, JSON schema nếu bạn muốn đầu ra có cấu trúc). Đối với tác tử, hãy đưa vào đặc tả công cụ và ví dụ sử dụng để Opus 4.5 có thể gọi các công cụ đó một cách chính xác.
Làm thế nào để dùng context compaction và prompt caching để tiết kiệm token?
- Context compaction: nén các phần cũ hơn của cuộc trò chuyện thành các bản tóm tắt ngắn gọn mà mô hình vẫn có thể sử dụng. Opus 4.5 hỗ trợ tự động hóa để nén context mà không làm mất các khối lập luận quan trọng.
- Prompt caching: cache phản hồi của mô hình cho các prompt lặp lại (Anthropic cung cấp các mẫu prompt caching để giảm độ trễ/chi phí).
Cả hai tính năng này đều làm giảm lượng token của các tương tác dài và được khuyến nghị cho các workflow tác tử chạy dài cũng như các trợ lý production.
Thực tiễn tốt nhất: đạt kết quả cấp Opus trong khi vẫn kiểm soát chi phí
1) Tối ưu prompt và context
- Giảm bớt context không cần thiết — chỉ gửi lịch sử thực sự cần thiết. Cắt gọn và tóm tắt các đoạn hội thoại trước đó khi bạn dự kiến sẽ có trao đổi kéo dài.
- Dùng retrieval/embedding + RAG để chỉ lấy những tài liệu cần cho một truy vấn cụ thể (thay vì gửi toàn bộ kho tài liệu dưới dạng token trong prompt). Tài liệu của Anthropic khuyến nghị RAG và prompt caching để giảm chi tiêu token.
2) Cache và tái sử dụng phản hồi khi có thể
Prompt caching: Nếu nhiều request có prompt giống hệt hoặc gần giống nhau, hãy cache output và trả về bản đã cache thay vì gọi lại mô hình mỗi lần. Anthropic có nhấn mạnh prompt caching như một cách tối ưu chi phí.
3) Chọn đúng mô hình cho đúng công việc
- Dùng Opus 4.5 cho các tác vụ quan trọng đối với doanh nghiệp, có giá trị cao, nơi việc con người phải làm lại sẽ tốn kém.
- Dùng Sonnet 4.5 hoặc Haiku 4.5 cho các tác vụ khối lượng lớn, rủi ro thấp. Chiến lược phối hợp nhiều mô hình này mang lại tỷ lệ giá/hiệu năng tốt hơn trên toàn bộ hệ thống.
4) Kiểm soát max token và streaming
Giới hạn max_tokens_to_sample cho output khi bạn không cần câu trả lời quá dài. Dùng streaming khi được hỗ trợ để dừng sinh sớm và tiết kiệm chi phí token đầu ra.
Kết luận: có nên áp dụng Opus 4.5 ngay bây giờ không?
Opus 4.5 là một bước tiến đáng kể đối với các tổ chức cần lập luận có độ trung thực cao hơn, chi phí token thấp hơn cho các tương tác dài, và hành vi tác tử an toàn hơn, ổn định hơn. Nếu sản phẩm của bạn phụ thuộc vào lập luận kéo dài (các tác vụ mã phức tạp, tác tử tự động, tổng hợp nghiên cứu chuyên sâu, hoặc tự động hóa Excel nặng), Opus 4.5 mang lại thêm các cơ chế điều chỉnh (effort, extended thinking, xử lý công cụ được cải thiện) để tinh chỉnh hiệu năng và chi phí trong môi trường thực tế.
Nhà phát triển có thể truy cập Claude Opus 4.5 API thông qua CometAPI. Để bắt đầu, hãy khám phá các năng lực mô hình của CometAPI trong Playground và tham khảo hướng dẫn API để biết các chỉ dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để hỗ trợ bạn tích hợp.
Sẵn sàng bắt đầu? → Đăng ký CometAPI ngay hôm nay!
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
