Claude Sonnet 4.5 — có gì mới, hiệu suất như thế nào và tại sao bạn nên chọn nó

CometAPI
AnnaDec 2, 2025
Claude Sonnet 4.5 — có gì mới, hiệu suất như thế nào và tại sao bạn nên chọn nó

Claude Sonnet 4.5 (thường được viết tắt là Claude 4.5) là bản phát hành Frontier của Anthropic ra mắt ngày 29 tháng 9 năm 2025, tập trung vào công việc đại diện dài hạn, mã hóa và "sử dụng máy tính" (tự động hóa các tác vụ nhiều bước trên nhiều công cụ). Phiên bản này mang đến những bước nhảy vọt đáng kể về thời lượng mã hóa tự động, việc sử dụng công cụ và hành vi được điều chỉnh, đồng thời vẫn giữ nguyên mức giá cho mỗi token như bản phát hành Sonnet trước đó. Đối với các nhóm xây dựng quy trình làm việc đại diện, bộ công cụ năng suất dành cho nhà phát triển và các ứng dụng doanh nghiệp được quản lý, Claude 4.5 là một lựa chọn hấp dẫn và tiết kiệm chi phí.


Điều gì Bài thơ Sonnet 4.5 của Claude is

Claude Sonnet 4.5 là phiên bản nâng cấp lớn tiếp theo của mô hình Claude (mang tên thương hiệu “Sonnet 4.5”) của Anthropic, được thiết kế để chạy các tác vụ nhiều bước phức tạp hơn, dài hơn, vận hành các công cụ phần mềm thay mặt người dùng và thực hiện mã hóa và lập luận ở cấp độ sản xuất cho khách hàng doanh nghiệp. Phiên bản này nhấn mạnh vào khả năng của agentic (các mô hình có thể hoạt động tự động trên nhiều bước và công cụ), sự liên kết/an toàn chặt chẽ hơn, và các chức năng trong ứng dụng phong phú hơn như thực thi mã và tạo tệp (bảng tính, slide, tài liệu).

Những đột phá và tính năng chính

1. Khả năng hoạt động lâu dài, bền vững của đại lý

Anthropic báo cáo Claude Sonnet 4.5 có thể duy trì hoạt động tập trung, nhiều bước cho nhiều hơn 30 giờ đối với các tác vụ phức tạp — một bước thay đổi đột phá cho các quy trình làm việc đòi hỏi AI phải điều phối nhiều tác vụ phụ và xử lý bối cảnh thay đổi trong thời gian dài. Đây là trọng tâm trong các trường hợp sử dụng "tác nhân" mà Anthropic hướng đến.

2. Hiệu suất mã hóa và sử dụng máy tính tiên tiến

Claude 4.5 đạt kết quả cao nhất trên SWE-Bench Verified (một chuẩn mực mã hóa của ngành) và cho thấy những tiến bộ lớn trong khả năng thực sự của mô hình sử dụng máy tính (thực thi lệnh gọi công cụ, quản lý quy trình làm việc của terminal/IDE, xây dựng ứng dụng). Báo chí Anthropic và Independent mô tả đây là mô hình hàng đầu cho các tác vụ mã hóa và "tốt nhất thế giới" về một số tiêu chí kỹ thuật phần mềm. Điều này bao gồm những cải tiến về khả năng tạo mã tự động, gỡ lỗi và các phiên thực thi mã liên tục.

3. Cải thiện việc phối hợp công cụ, quản lý ngữ cảnh và bộ nhớ

Để hỗ trợ các tác nhân chạy dài, Claude Sonnet 4.5 giới thiệu công cụ quản lý ngữ cảnh tốt hơn (tự động "chỉnh sửa ngữ cảnh" để xóa các kết quả đầu ra của công cụ cũ) cùng với công cụ bộ nhớ được sao lưu bằng tệp cho phép mô hình duy trì và truy xuất trạng thái qua các phiên. Các tính năng hệ thống này giúp giảm thiểu tình trạng quá tải ngữ cảnh và giúp các tác nhân duy trì "nhiệm vụ" trong các quy trình làm việc dài.

4. Tương tác hệ thống / hệ điều hành tốt hơn

Trong các thử nghiệm nội bộ do Anthropic mô tả và được các kênh truyền thông đưa tin, phiên bản Claude Sonnet 4.5 mới cho thấy sự cải thiện đáng kể về điểm chuẩn sử dụng hệ thống (ví dụ: Anthropic báo cáo mức độ thành thạo trong tác vụ điểm chuẩn hệ điều hành tăng từ ~40% lên ~60%), nghĩa là mô hình này tương tác và kiểm soát phần mềm khác tốt hơn đáng kể. Điều này rất hữu ích khi bạn muốn mô hình vận hành các công cụ (chỉnh sửa tệp, chạy bản dựng, gọi API) một cách đáng tin cậy.

5. Công cụ và tích hợp dành cho nhà phát triển

Anthropic đang cung cấp bộ công cụ dành cho nhà phát triển cùng với Claude Sonnet 4.5: SDK Claude Agent, tích hợp VS Code gốc, quy trình làm việc terminal/IDE và các tích hợp sản phẩm như triển khai lên GitHub Copilot (bản xem trước Copilot Pro/Enterprise). Những tích hợp này rút ngắn con đường từ nguyên mẫu đến sản xuất cho các nhóm kỹ thuật.

6. Cải thiện sự liên kết và an toàn

Anthropic gọi Claude Sonnet 4.5 là “mô hình biên giới phù hợp nhất” mà nó đã phát hành; nó được triển khai theo Mức độ an toàn AI 3 (ASL-3) các biện pháp bảo vệ và bao gồm các bộ phân loại và phòng thủ được cải thiện (ví dụ, chống lại việc tiêm thuốc ngay lập tức), với việc giảm các hành vi có vấn đề được Anthropic báo cáo.

Tiêu chuẩn hiệu suất — ý nghĩa của các con số

Thông báo của Anthropic công bố một số số liệu tiêu biểu (SWE-bench, OSWorld, điểm chuẩn thiết bị đầu cuối/đại lý nội bộ). Các số liệu chính được Anthropic công bố:

  • SWE-bench đã xác minh: 77.2% (Ngân sách suy nghĩ 200K, dàn giáo + công cụ); 78.2% trong bối cảnh 1M; 82.0% được báo cáo cho chế độ lựa chọn ứng viên “tính toán cao”.
  • OSWorld (nhiệm vụ máy tính): 61.4% cho Sonnet 4.5 so với 42.2% cho Sonnet 4 (bốn tháng trước).
  • Độ dài tự chủ (kiểm tra nội bộ): Hoạt động mã hóa/tác nhân tự động liên tục >30 giờ (thế hệ trước ~7 giờ).
  • Tiêu chuẩn hệ điều hành/công cụ: Anthropic báo cáo mức tăng vọt lên ~60% so với ~40% của phiên bản tiền nhiệm trên điểm chuẩn tương tác hệ điều hành — cho thấy độ tin cậy được cải thiện khi mô hình kiểm soát phần mềm.

Claude Sonnet 4.5 — có gì mới, hiệu suất như thế nào và tại sao bạn nên chọn nó

Giá cả (nhà phát triển / API)

Danh sách nhân chủng học Sonnet 4.5 giá nhà phát triển phù hợp với Sonnet 4: 3 đô la cho một triệu mã thông báo đầu vào15 đô la cho mỗi triệu mã thông báo đầu ra (với các khoản tiết kiệm tiêu chuẩn có sẵn thông qua bộ nhớ đệm nhanh và xử lý hàng loạt). Sonnet 4.5 có sẵn thông qua API Claude và các ứng dụng Claude. Các mức chiết khấu/hạng sản phẩm dành cho doanh nghiệp và số lượng lớn (Pro/Max/Team/Enterprise) có sẵn thông qua các kênh thương mại của Anthropic.

Tại sao nên chọn Claude Sonnet 4.5? Những trường hợp sử dụng mà nó tỏa sáng

Tự động hóa và điều phối Agentic

Nếu bạn cần các mô hình chạy quy trình làm việc dài (nhiều giờ/nhiều ngày), quản lý bộ nhớ theo từng bước, phối hợp các tác nhân phụ hoặc vận hành tự động các công cụ (thiết bị đầu cuối, giao diện người dùng web, bảng tính), thì Sonnet 4.5 tập trung vào tính nhất quán bền vững và SDK tác nhân chuyên dụng là một lợi thế lớn.

Mã hóa sản xuất và năng suất của nhà phát triển

Các báo cáo đối tác và điểm chuẩn của Anthropic (ví dụ: tích hợp GitHub Copilot) cho thấy Sonnet 4.5 có thể xử lý các chỉnh sửa cơ sở mã nhiều tệp, thử nghiệm và các phiên gỡ lỗi dài—hữu ích khi các nhà phát triển muốn có một trợ lý có thể biên soạn, thử nghiệm và lặp lại với ít sự nhắc nhở của con người hơn.

Bối cảnh được quản lý và doanh nghiệp

Sự liên kết chặt chẽ hơn và việc triển khai ASL-3 khiến Sonnet 4.5 trở nên hấp dẫn đối với các nhóm tài chính, pháp lý, an ninh và chăm sóc sức khỏe, những nhóm cần các biện pháp bảo vệ cao hơn và các quy trình an toàn được ghi chép lại. Anthropic định vị rõ ràng mô hình này hướng đến khách hàng doanh nghiệp.

Sử dụng sản xuất nhạy cảm với chi phí

Vì Sonnet 4.5 vẫn giữ nguyên mức giá ở mức Sonnet (khoảng 3 đô la/15 đô la cho mỗi triệu mã thông báo), nên sự đánh đổi về chi phí/hiệu suất cho khối lượng công việc đại lý nặng có vẻ thuận lợi hơn so với một số mô hình biên giới có giá cao hơn—đặc biệt là khi bạn tính đến bộ nhớ đệm nhanh chóng và các tối ưu hóa nền tảng khác

Hãy cân nhắc các giải pháp thay thế nếu:

  • Ưu tiên của bạn là độ trễ thấp nhất có thể hoặc suy luận rẻ nhất trên mỗi mã thông báo cho Q&A cơ bản; các mô hình nhẹ hơn hoặc các mô hình tinh gọn của các nhà cung cấp khác có thể rẻ hơn/nhanh hơn cho khối lượng công việc đơn giản. (Giá cả và cấu trúc chi phí có thể khác nhau; hãy so sánh giá đầu ra trên mỗi mã thông báo và các chiến lược lưu trữ đệm.)

Khi nào nên chọn Claude Sonnet 4.5 — hướng dẫn thực tế

Chọn Claude Sonnet 4.5 nếu:

  • Bạn cần có bằng LLM để vận hành các công cụ đáng tin cậy trên các chuỗi dài (điều phối tác nhân, quy trình tự động hóa, trợ lý tự động).
  • Khối lượng công việc chính của bạn là kỹ thuật phần mềm ở quy mô lớn (mã hóa tự động, phiên gỡ lỗi dài, tác vụ tích hợp liên tục) — Sonnet 4.5 được báo cáo là vượt trội trên SWE-Bench và các chuẩn mực mã liên quan.
  • Bạn làm việc trong các lĩnh vực được quản lý hoặc rủi ro cao (pháp lý, tài chính, an ninh) và cần một mô hình được điều chỉnh để có hành vi dễ dự đoán, dễ kiểm toán hơn và kết quả đầu ra an toàn hơn. Anthropic nhấn mạnh vào độ tin cậy và an toàn của doanh nghiệp.

Hãy cân nhắc các giải pháp thay thế nếu:

Ưu tiên của bạn là độ trễ thấp nhất có thể hoặc suy luận rẻ nhất trên mỗi mã thông báo cho Q&A cơ bản; các mô hình nhẹ hơn hoặc các mô hình tinh gọn của các nhà cung cấp khác có thể rẻ hơn/nhanh hơn cho khối lượng công việc đơn giản. (Giá cả và cấu trúc chi phí có thể khác nhau; hãy so sánh giá đầu ra trên mỗi mã thông báo và các chiến lược lưu trữ đệm.)

Cách truy cập Claude Sonnet 4.5

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Các nhà phát triển có thể truy cập Bài thơ Sonnet 4.5 của ClaudeBài thơ Sonnet 4 của Claude thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !

Kết luận

Claude Sonnet 4.5 là một sự phát triển có mục tiêu: nó không chỉ "trò chuyện tốt hơn một chút". Anthropic đã thiết kế nó để trở thành một nhà xây dựng đại lý đáng tin cậy — một giải pháp có thể hoạt động liên tục trong thời gian dài, điều phối công cụ và mã hóa, cũng như xử lý các quy trình công việc phức tạp (pháp lý, tài chính, an ninh mạng và kỹ thuật). Nếu các trường hợp sử dụng sản xuất của bạn yêu cầu điều phối công cụ mạnh mẽ, tính ổn định ngữ cảnh mở rộng và hiệu suất mã hóa hàng đầu — và bạn muốn duy trì mức giá dự đoán được cho mỗi token — Claude 4.5 xứng đáng được dùng thử kỹ thuật chính thức trong môi trường của bạn.

SHARE THIS BLOG

500+ Mô hình trong Một API

Giảm giá lên đến 20%