Anthropic đã phát hành Claude Opus 4.5 vào cuối tháng 11 năm 2025 như một mẫu thuộc dòng Opus có năng lực cao hơn, hiệu quả hơn, hướng tới kỹ thuật phần mềm chuyên nghiệp, quy trình mang tính tác nhân và các nhiệm vụ tầm dài. Mẫu này có trên nền tảng dành cho nhà phát triển của Anthropic và qua CometAPI, đồng thời giới thiệu các điều khiển API mới (đáng chú ý là tham số effort), bộ công cụ sử dụng máy tính được cải thiện, tư duy mở rộng và các cải tiến về hiệu quả token quan trọng trong môi trường sản xuất.
Dưới đây là hướng dẫn thực tiễn, chuyên nghiệp: những thay đổi chính, cách lấy quyền truy cập, cách dùng các điều khiển mới (effort, tư duy mở rộng, tool use, tệp/sử dụng máy tính), hướng dẫn chi phí & tối ưu hóa, cân nhắc an toàn/quản trị, và các mẫu tích hợp thực tế.
Chính xác Claude Opus 4.5 là gì và vì sao quan trọng?
Claude Opus 4.5 là thành viên mới nhất của dòng mẫu Opus (phát hành 24–25/11/2025), tập trung vào khả năng suy luận và viết mã tối đa đồng thời cải thiện hiệu quả token và cung cấp các điều khiển API mới để cân bằng chi phí so với mức độ kỹ lưỡng. Anthropic định vị Opus 4.5 là “mẫu thông minh nhất” họ đã phát hành, nhắm tới các tác vụ kỹ thuật phần mềm phức tạp, tác nhân chạy dài, tự động hóa bảng tính/Excel, và các nhiệm vụ đòi hỏi suy luận đa bước bền bỉ.
Những cập nhật lớn trong Opus 4.5 là gì?
Anthropic thiết kế Opus 4.5 để cải thiện chiều sâu suy luận và hành vi mang tính tác nhân, đồng thời trao cho nhà phát triển quyền kiểm soát tốt hơn với đánh đổi chi phí/độ trễ. Điểm nổi bật của bản phát hành:
- Tham số Effort (beta): một “núm vặn” API cấp một điều khiển mức “ngân sách suy nghĩ” Claude dùng cho một yêu cầu (thường là
low,medium,high). Nó ảnh hưởng tới suy luận, các lần gọi công cụ và token “suy nghĩ” nội bộ, giúp bạn tinh chỉnh tốc độ so với mức độ kỹ lưỡng theo từng lần gọi thay vì phải đổi mẫu. Đây là năng lực đặc trưng của Opus 4.5. - Dàn nhạc tác nhân và công cụ tốt hơn: chính xác hơn trong việc chọn công cụ, lệnh gọi công cụ có cấu trúc tốt hơn và luồng tool-result vững chắc hơn để xây dựng tác nhân và pipeline đa bước. Anthropic cung cấp tài liệu và hướng dẫn SDK cho luồng “tool use”.
- Hiệu quả token/chi phí — Anthropic báo cáo giảm tới khoảng 50% mức sử dụng token cho một số quy trình so với Sonnet 4.5, ít lỗi gọi công cụ hơn và ít lần lặp lại hơn cho các tác vụ kỹ thuật phức tạp.
- Khả năng đa phương thức nâng cao: cải thiện toàn diện về thị giác, suy luận và toán học.
- Cửa sổ ngữ cảnh mở rộng tới 200K token, hỗ trợ hội thoại dài sâu và phân tích tài liệu phức tạp.
Năng lực thực tiễn nào đã được cải thiện?
Nâng cấp hiệu năng
- Dàn nhạc tác nhân và công cụ tốt hơn: chính xác hơn trong lựa chọn công cụ, cấu trúc lệnh gọi công cụ tốt hơn và luồng tool-result vững chắc hơn để xây dựng tác nhân và pipeline đa bước. Cải thiện xử lý ngữ cảnh, các trợ giúp nén cho những lần chạy tác nhân dài, và SDK công cụ cấp một để đăng ký/kiểm tra công cụ giúp Opus 4.5 phù hợp hơn để xây dựng tác nhân chạy không giám sát qua nhiều bước.
- Khả năng đa phương thức nâng cao: cải thiện toàn diện về thị giác, suy luận và toán học.
- Cửa sổ ngữ cảnh mở rộng tới 200K token, hỗ trợ hội thoại dài sâu và phân tích tài liệu phức tạp.
Lập trình và công việc tầm dài
Opus 4.5 tiếp tục dựa vào benchmark cho tác vụ viết mã; nó giảm số lần lặp và lỗi gọi công cụ trong các job dài (di trú mã, tái cấu trúc, gỡ lỗi đa bước). Những báo cáo ban đầu và thẻ hệ thống của Anthropic ghi nhận hiệu năng bền vững tốt hơn trên các benchmark kỹ thuật và mức tăng hiệu quả ấn tượng trong pipeline dẫn động bởi công cụ.
Trong SWE-bench, Opus 4.5 báo cáo điểm dẫn đầu trên các benchmark kỹ thuật phần mềm (Anthropic liệt kê 80,9% trên SWE-bench Verified trong tài liệu ra mắt), và khách hàng ghi nhận cải thiện ở gỡ lỗi, chỉnh sửa đa tệp, và các tác vụ mã tầm dài.

Chi phí và hiệu quả
Anthropic thiết kế Opus 4.5 để cải thiện chiều sâu suy luận và hành vi mang tính tác nhân, đồng thời trao cho nhà phát triển quyền kiểm soát tốt hơn với đánh đổi chi phí/độ trễ:
- Giảm giá so với opus 4.1: $5 (input) / $25 (output) trên mỗi triệu token.
- Cải thiện mức dùng token: giảm trung bình 50–75% mức tiêu thụ trong khi vẫn duy trì hiệu năng.
- một “núm vặn” API cấp một điều khiển mức “ngân sách suy nghĩ” Claude dùng cho một yêu cầu (thường là
low,medium,high). Nó ảnh hưởng tới suy luận, các lần gọi công cụ và token “suy nghĩ” nội bộ, giúp bạn tinh chỉnh tốc độ so với mức độ kỹ lưỡng theo từng lần gọi thay vì phải đổi mẫu. Đây là năng lực đặc trưng của Opus 4.5 (So với Sonnet 4.5: Medium Effort → giảm 76% token, hiệu năng tương đương; High Effort → hiệu năng tăng 4,3%, mức dùng token giảm 48%).
Tôi truy cập và dùng API Claude Opus 4.5 thế nào?
Làm sao để có quyền truy cập và khóa?
- Tạo tài khoản Nhà phát triển Anthropic/Claude. Đăng ký tại cổng dành cho nhà phát triển của Claude/Anthropic và tạo khóa API qua Console (có luồng tổ chức/quản trị cho nhóm). Messages API là endpoint chính cho tương tác kiểu chat/trợ lý.
- Đối tác đám mây: Opus 4.5 cũng có trên các marketplace đám mây lớn Google Vertex AI, CometAPI (nền tảng tổng hợp API AI, cần dùng xác thực của chính nền tảng). Trên CometAPI, bạn có thể truy cập API Claude opus 4.5 theo định dạng Anthropic Messages và định dạng Chat.
Tôi nên xác thực yêu cầu như thế nào?
Dùng bearer token tiêu chuẩn: thêm header Authorization: Bearer $_API_KEY vào mọi lệnh gọi API. Yêu cầu là JSON qua HTTPS; Messages API nhận danh sách thông điệp có cấu trúc (system + user + assistant).
Bắt đầu nhanh — Python (SDK chính thức)
Cài đặt SDK:
pip install anthropic
Ví dụ tối thiểu (đồng bộ):
import os
from anthropic import Anthropic
# expects ANTHROPIC_API_KEY in env
client = Anthropic(api_key=os.environ)
resp = client.messages.create(
model="claude-opus-4-5-20251101",
messages=,
max_tokens=512,
)
print(resp.content.text) # SDK returns structured content blocks
Lệnh gọi này dùng định danh mẫu Opus 4.5 chuẩn. Với endpoint do nhà cung cấp quản lý (Vertex, CometAPI, Foundry) hãy theo tài liệu của nhà cung cấp để tạo client và cung cấp url/khóa của nhà cung cấp (ví dụ, https://api.cometapi.com/v1/messages cho CometAPI).
Bắt đầu nhanh — Python (CometAPI)
Bạn cần đăng nhập CometAPI và lấy khóa.
curl
--location
--request POST 'https://api.cometapi.com/v1/messages' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{ "model": "claude-opus-4-5-20251101", "max_tokens": 1000, "thinking": { "type": "enabled", "budget_tokens": 1000 }, "messages": }'
Tôi dùng tham số effort và tư duy mở rộng như thế nào?
Effort là gì và đặt thế nào?
Tham số effort là một điều khiển API cấp một được giới thiệu cùng Opus 4.5, điều chỉnh mức tính toán nội bộ và ngân sách token mà mẫu dùng để tạo đầu ra. Giá trị điển hình là low, medium và high. Dùng nó để cân bằng độ trễ và chi phí so với mức độ kỹ lưỡng:
low— trả lời nhanh, tiết kiệm token cho tự động hóa khối lượng lớn và tác vụ thường lệ.medium— cân bằng chất lượng/chi phí cho sản phẩm.high— phân tích sâu, suy luận đa bước, hoặc khi độ chính xác là tối quan trọng.
Anthropic giới thiệu effort cho Opus 4.5 (beta). Bạn phải thêm header beta (ví dụ, effort-2025-11-24) và chỉ định output_config: { "effort": "low|medium|high" } (ví dụ bên dưới). high là hành vi mặc định. Giảm effort sẽ giảm mức dùng token và độ trễ nhưng có thể giảm nhẹ mức độ kỹ lưỡng. Hãy dùng cho các tác vụ thông lượng cao hoặc nhạy cảm độ trễ.
Ví dụ:
# Example using the beta messages API shown in Anthropic docs
from anthropic import Anthropic
import os
client = Anthropic(api_key=os.getenv("ANTHROPIC_API_KEY"))
response = client.beta.messages.create(
model="claude-opus-4-5-20251101",
betas=, # required beta header
messages=,
max_tokens=1500,
output_config={"effort": "medium"} # low | medium | high
)
print(response)
Khi nào dùng mức nào: dùng low cho pipeline tự động (ví dụ, phân loại email), medium cho trợ lý tiêu chuẩn, và high cho sinh mã, nghiên cứu sâu, hoặc tác vụ rủi ro cao. Anthropic nhấn mạnh tham số này như một điều khiển chủ chốt cho Opus 4.5.
Trong kiểm thử SWE-bench:
- Ở chế độ Medium Effort: hiệu năng tương đương Sonnet 4.5, nhưng token đầu ra giảm 76%;
- Ở chế độ High Effort: hiệu năng vượt Sonnet 4.5 khoảng 4,3 điểm phần trăm, và token giảm 48%.

Extended Thinking là gì và cách gọi?
Extended Thinking (còn gọi là “extended thinking” hoặc “thinking blocks”) cho phép mẫu thực hiện các chuỗi suy nghĩ trung gian hoặc lập luận theo bước, đồng thời tùy chọn bảo toàn hoặc tóm tắt các khối suy nghĩ nội bộ. Messages API hỗ trợ hành vi này và Anthropic đã thêm điều khiển để bảo toàn các khối suy nghĩ trước đó, nhờ đó tác nhân đa lượt có thể tái sử dụng suy luận trước mà không phải tính toán đắt đỏ lặp lại. Hãy dùng tư duy mở rộng khi tác vụ yêu cầu lập kế hoạch đa bước, giải quyết vấn đề tầm dài, hoặc dàn nhạc công cụ.
Tôi tích hợp công cụ và xây dựng tác nhân với Opus 4.5 như thế nào?
Một trong những điểm mạnh lớn của Opus 4.5 là “tool use” được cải tiến: định nghĩa công cụ trong client, để Claude quyết định khi nào gọi chúng, thực thi công cụ và trả lại tool_result — Claude sẽ dùng kết quả đó trong phản hồi cuối. Anthropic cung cấp Agent SDK giúp bạn đăng ký các hàm công cụ có kiểu (ví dụ, run_shell, call_api, search_docs) mà Claude có thể phát hiện và gọi trong quá trình tư duy mở rộng. Nền tảng chuyển định nghĩa công cụ thành các hàm có thể gọi mà mẫu có thể gọi và nhận kết quả. Đây là cách bạn xây dựng quy trình mang tính tác nhân an toàn (với đầu vào/đầu ra được kiểm soát).
Dưới đây là mô hình thực tế và ví dụ Python đầu-cuối.
Mô hình sử dụng công cụ (khái niệm)
- Client cung cấp metadata
toolsvới tên, mô tả và JSON schema (input_schema). - Mẫu trả về một khối
tool_use(chỉ dẫn có cấu trúc để gọi công cụ cụ thể với đầu vào cụ thể). Trườngstop_reasontrong phản hồi API có thể làtool_use. - Client thực thi công cụ (mã của bạn gọi API ngoài hoặc hàm cục bộ).
- Client gửi thông điệp tiếp theo với
role:"user"và một khối nội dungtool_resultchứa đầu ra của công cụ. - Mẫu tiêu thụ kết quả công cụ và trả lời cuối hoặc gọi thêm công cụ.
Luồng này cho phép kiểm soát phía client an toàn đối với những gì mẫu thực thi (mẫu chỉ “đề xuất” gọi công cụ; bạn quyết định có chạy hay không).
Ví dụ đầu-cuối — Python (công cụ thời tiết đơn giản)
# 1) Define tools metadata and send initial request
from anthropic import Anthropic
import os, json
client = Anthropic(api_key=os.environ)
tools = [
{
"name": "get_weather",
"description": "Return the current weather for a given city.",
"input_schema": {"type":"object","properties":{"city":{"type":"string"}},"required":}
}
]
resp = client.messages.create(
model="claude-opus-4-5-20251101",
messages=,
tools=tools,
max_tokens=800,
)
# 2) Check if Claude wants a tool call
stop_reason = resp.stop_reason # SDK field
if stop_reason == "tool_use":
# Extract the tool call (format varies by SDK; this is schematic)
tool_call = resp.tool_calls # e.g., {"name":"get_weather", "input":{"city":"Tokyo"}}
tool_name = tool_call
tool_input = tool_call
# 3) Execute the tool client-side (here: stub)
def get_weather(city):
# Replace this stub with a real weather API call
return {"temp_c": 12, "condition": "Partly cloudy"}
tool_result = get_weather(tool_input)
# 4) Send tool_result back to Claude
follow_up = client.messages.create(
model="claude-opus-4-5-20251101",
messages=[
{"role":"user", "content":[{"type":"tool_result",
"tool_use_id": resp.tool_use_id,
"content": json.dumps(tool_result)}]}
],
max_tokens=512,
)
print(follow_up.content.text)
else:
print(resp.content.text)
Nên cấu trúc tác nhân thế nào để đáng tin cậy?
- Khử độc đầu vào cho công cụ (tránh injection qua prompt).
- Xác thực đầu ra công cụ trước khi đưa lại cho mẫu (kiểm tra schema).
- Giới hạn phạm vi công cụ (nguyên tắc đặc quyền tối thiểu).
- Dùng trợ giúp nén (từ các SDK của Anthropic) để giữ ngữ cảnh gọn gàng trong các lần chạy dài.
Tôi nên thiết kế prompt & cấu trúc thông điệp cho Opus 4.5 ra sao?
Vai trò thông điệp và chiến lược prefill nào hiệu quả nhất?
Dùng mẫu ba phần:
- System (role: system): chỉ dẫn toàn cục — giọng điệu, rào chắn, vai trò.
- Assistant (tùy chọn): ví dụ có sẵn hoặc nội dung mồi.
- User (role: user): yêu cầu tức thời.
Điền trước thông điệp hệ thống bằng ràng buộc (định dạng, độ dài, chính sách an toàn, JSON schema nếu bạn muốn đầu ra có cấu trúc). Với tác nhân, thêm đặc tả công cụ và ví dụ dùng để Opus 4.5 gọi công cụ đúng cách.
Tôi dùng nén ngữ cảnh và bộ nhớ đệm prompt để tiết kiệm token như thế nào?
- Nén ngữ cảnh: nén các phần cũ của hội thoại thành tóm tắt súc tích mà mẫu vẫn dùng được. Opus 4.5 hỗ trợ tự động hóa nén ngữ cảnh mà không mất các khối suy luận quan trọng.
- Bộ nhớ đệm prompt: lưu cache phản hồi của mẫu cho các prompt lặp lại (Anthropic cung cấp mẫu bộ nhớ đệm prompt để giảm độ trễ/chi phí).
Cả hai đều giảm dấu chân token của tương tác dài và được khuyến nghị cho tác nhân chạy dài và trợ lý sản xuất.
Xử lý lỗi và thực hành tốt
Dưới đây là khuyến nghị thực tiễn về độ tin cậy và an toàn cho tích hợp sản xuất với Opus 4.5.
Độ tin cậy & thử lại
- Xử lý giới hạn tốc độ (HTTP 429) với exponential backoff và jitter (bắt đầu 500–1000ms).
- Tính idempotent: với lệnh gọi LLM không gây thay đổi, bạn có thể thử lại an toàn, nhưng hãy cẩn trọng trong quy trình nơi mẫu kích hoạt hiệu ứng phụ bên ngoài (gọi công cụ) — khử trùng lặp bằng cách theo dõi
tool_use_idhoặc ID yêu cầu của riêng bạn. - Ổn định khi streaming: xử lý luồng bị cắt và kết nối lại một cách êm; nếu bị gián đoạn, ưu tiên thử lại toàn bộ yêu cầu hoặc tiếp tục bằng trạng thái cấp ứng dụng để tránh tương tác công cụ không nhất quán.
Bảo mật & an toàn
- Prompt injection & an toàn công cụ: không bao giờ cho phép mẫu trực tiếp thực thi lệnh shell hoặc mã tùy ý mà không kiểm chứng. Luôn xác thực đầu vào công cụ và khử độc đầu ra. Mẫu đề xuất lệnh gọi công cụ; mã của bạn quyết định có chạy hay không. Thẻ hệ thống và tài liệu của Anthropic mô tả các ràng buộc căn chỉnh và mức an toàn — hãy tuân theo cho miền rủi ro cao.
- Xử lý dữ liệu & tuân thủ: xử lý prompt và đầu vào/đầu ra công cụ chứa PII hoặc dữ liệu được quản lý theo chính sách pháp lý/tuân thủ của bạn. Dùng kiểm soát VPC/doanh nghiệp của nhà cung cấp nếu bạn cần cư trú dữ liệu hoặc yêu cầu kiểm toán chặt (Bedrock / Vertex / Foundry cung cấp tùy chọn doanh nghiệp).
Quan sát & kiểm soát chi phí
- Ghi log metadata yêu cầu/phản hồi (không ghi nội dung nhạy cảm gốc trừ khi được phép) — số token, mức
effort, độ trễ, id mẫu và nhà cung cấp. Các số liệu này rất quan trọng cho phân bổ chi phí và gỡ lỗi. - Dùng effort để kiểm soát chi phí theo lần gọi: ưu tiên
lowcho tóm tắt thường lệ hoặc endpoint QPS cao; dùnghighcho gỡ lỗi sâu hoặc điều tra. Giám sát chất lượng so với mức dùng token để chọn mặc định cho từng endpoint.
Kết luận — Khi nào (và như thế nào) nên chọn Opus 4.5?
Claude Opus 4.5 là lựa chọn tự nhiên khi sản phẩm của bạn cần:
- suy luận đa bước sâu (chuỗi logic dài, nghiên cứu, hoặc gỡ lỗi),
- dàn nhạc tác nhân/công cụ vững chắc (quy trình phức tạp gọi API bên ngoài), hoặc
- trợ lý viết mã cấp sản xuất trên các codebase lớn.
Về vận hành, dùng effort để tinh chỉnh ngân sách theo từng lần gọi; dựa vào mô hình tool-use để giữ an toàn thực thi và chọn đối tác đám mây (hoặc API Anthropic trực tiếp) theo nhu cầu tuân thủ của bạn. Hãy benchmark bằng tập dữ liệu của riêng bạn: số liệu nhà cung cấp (SWE-bench, v.v.) là tín hiệu hữu ích nhưng nhiệm vụ và dữ liệu thực của bạn mới quyết định ROI. Về an toàn, tuân theo thẻ hệ thống Opus 4.5 và đặt rào chắn quanh thực thi công cụ và xử lý PII.
Nhà phát triển có thể truy cập Claude Opus 4.5 API qua CometAPI. Để bắt đầu, hãy khám phá năng lực của CometAPI trong Playground và tham khảo hướng dẫn API để biết chỉ dẫn chi tiết. Trước khi truy cập, hãy đảm bảo bạn đã đăng nhập CometAPI và lấy khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng bắt đầu? → Sign up for CometAPI today!
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
