GPT-5.1 so với Claude Sonnet 4.5 — Loại nào dẫn đầu năm 2025?

CometAPI
AnnaDec 2, 2025
GPT-5.1 so với Claude Sonnet 4.5 — Loại nào dẫn đầu năm 2025?

OpenAI's GPT-5.1 là bản cập nhật gia tăng nhưng tập trung vào sản phẩm, giới thiệu hai biến thể có hương vị sử dụng (Instant và Thinking), bộ nhớ đệm nhắc nhở mở rộng và các công cụ dành cho nhà phát triển mới; Anthropic Bài thơ Sonnet 4.5 của Claude là một bản nâng cấp có mục tiêu hướng đến mã hóa, quy trình làm việc của agent và các tác vụ dài hạn, đòi hỏi nhiều công cụ. Cả hai đều thúc đẩy khả năng của agent và cải thiện tính an toàn, nhưng chúng có những đánh đổi khác nhau về giá cả, công thái học và cách chúng phơi bày "suy nghĩ" so với "hành động".

GPT-5.1 là gì và những tính năng nổi bật của nó là gì?

GPT-5.1 là bản cập nhật OpenAI (phát hành tháng 11 năm 2025) cho dòng GPT-5. OpenAI tiếp thị 5.1 như một nâng cấp giúp cải thiện sự ấm áp trong giao tiếp và khả năng sử dụng, đồng thời giới thiệu hai phương án phân phối: GPT-5.1 tức thì (ấm áp hơn, trò chuyện nhiều hơn, độ trễ thấp hơn) và Suy nghĩ GPT-5.1 (lý luận dài hơn, sâu hơn khi cần). Bản cập nhật cũng mở rộng các cài đặt trước về tính cách của ChatGPT và giới thiệu các điều khiển dành cho nhà phát triển tốt hơn như reasoning_effort núm (bao gồm một cái mới 'none' cài đặt cho khối lượng công việc nhạy cảm với độ trễ).

GPT-5.1 — các tính năng đáng chú ý của nhà phát triển và kỹ thuật

  • Suy luận thích ứng/biến đổi: GPT-5.1 thay đổi linh hoạt số lượng token "dành cho việc suy nghĩ" dựa trên độ khó của tác vụ; các truy vấn đơn giản trả về nhanh hơn với ít token suy luận hơn, trong khi các truy vấn phức tạp cần nhiều suy xét nội bộ hơn. OpenAI báo cáo tốc độ tăng đáng kể ở nửa nhiệm vụ ChatGPT dễ hơn.
  • Hai chế độ (Tức thì / Suy nghĩ): Tự động định tuyến và kiểm soát của nhà phát triển cho phép trải nghiệm sản phẩm ưu tiên độ trễ thấp hoặc lý luận sâu hơn.
  • Công cụ phát triển mới: apply_patch để chỉnh sửa mã một cách đáng tin cậy và shell công cụ chạy lệnh shell từ đường ống mô hình (cải thiện quy trình làm việc của tác nhân và tự động hóa theo chương trình).
  • Khả năng điều khiển / tính cách: Các cài đặt trước mở rộng (Chuyên nghiệp, Thân thiện, Thẳng thắn, Kỳ quặc, v.v.) và các thiết lập cho phép người mẫu thay đổi tông điệu và tính cách.
  • Hỗ trợ đa phương thức và tích hợp công cụ: GPT-5.1 có trí thông minh đa phương thức (văn bản, hình ảnh và tích hợp công cụ/web phong phú hơn), cũng như chức năng gọi công cụ và tìm kiếm web tích hợp dành cho nhà phát triển.

Báo cáo cải tiến của nhà phát triển/điểm chuẩn

OpenAI và các đối tác ban đầu báo cáo rằng GPT-5.1 vượt trội hơn GPT-5 trên nhiều bộ mã và bộ suy luận, và chạy nhanh hơn GPT-5 gấp 2–3 lần trong một số bối cảnh đòi hỏi nhiều công cụ, đồng thời sử dụng ít mã thông báo hơn cho nhiều tác vụ. Các số liệu chuẩn mực đại diện được công bố cho thấy sự cải thiện trên các biến thể SWE-bench và GPQA (chi tiết bên dưới).

Claude Sonnet 4.5 là gì và có những tính năng nổi bật nào?

Claude Sonnet 4.5 (phát hành ngày 29 tháng 9 năm 2025) là mô hình tiên phong của lớp Sonnet của Anthropic. Anthropic định vị Sonnet 4.5 là mô hình có khả năng nhất để mã hóa, nhiệm vụ đại lý và "sử dụng máy tính" — nghĩa là nó được tối ưu hóa rõ ràng cho các hành động như chỉnh sửa tệp, chạy mã, tương tác với trang web, bảng tính và các quy trình làm việc dài, nhiều bước của agentic. Anthropic nhấn mạnh vào việc cải thiện sự liên kết (giảm sự nịnh hót, lừa dối, v.v.) cùng với khả năng duy trì lâu dài hơn.

Claude Sonnet 4.5 — tính năng kỹ thuật và sản phẩm nổi bật

  • Nhiệm vụ bền bỉ / chạy dài: Sonnet 4.5 có thể duy trì công việc tự chủ liên tục trong hơn 30 giờ về các tác vụ kỹ thuật thực tế — một bước tiến lớn so với các mô hình Opus trước đây vốn chỉ quản lý theo giờ thay vì theo ngày. Đây là trọng tâm của bài thuyết trình "các tác nhân xây dựng phần mềm".
  • Mã hóa và 'sử dụng máy tính' tốt nhất trong lớp: Sonnet 4.5 cho thấy hiệu suất cao nhất trong các tiêu chuẩn đánh giá kỹ thuật phần mềm (điểm cao nhất trong SWE-bench) và bổ sung các tính năng sản phẩm như Claude Code được cải tiến với các điểm kiểm tra, tính năng tạo tệp tích hợp (bảng tính, slide) và tính năng thực thi mã.
  • Căn chỉnh và an toàn: Anthropic báo cáo rằng Sonnet 4.5 là "mô hình biên giới phù hợp nhất" của họ, với các quy trình đào tạo và bộ phân loại an toàn nội bộ nhằm mục đích giảm các hành vi có vấn đề và ngăn ngừa việc sử dụng sai mục đích (phân loại ASL-3 cho các danh mục nhạy cảm được tham chiếu).
  • Hiểu biết đa phương thức và tài liệu: Claude hỗ trợ nhập văn bản và hình ảnh, cải thiện khả năng trích xuất từ ​​các tài liệu chứa nhiều hình ảnh (các thử nghiệm ban đầu của Box cho thấy độ chính xác trích xuất hình ảnh được cải thiện) và API thông qua Anthropic, AWS Bedrock và Vertex AI. Hỗ trợ âm thanh/video ít được nhấn mạnh công khai hơn so với các tuyên bố đa phương thức rộng hơn của OpenAI, mặc dù Anthropic vẫn tiếp tục mở rộng các phương thức.

Kiến trúc và khả năng của chúng khác nhau như thế nào?

Kiến trúc và phong cách suy luận (cấp cao)

  • OpenAI / GPT-5.1: Được xây dựng như một hệ thống lý luận lai điều chỉnh nỗ lực lý luận theo yêu cầu. OpenAI mô tả mô hình có khả năng cân bằng giữa độ trễ, mức tiêu thụ mã thông báo và độ tin cậy thông qua reasoning_effortGPT-5.1 tích hợp chặt chẽ với các tính năng của nền tảng OpenAI (giao diện người dùng ChatGPT, API, tìm kiếm web, gọi công cụ) và giới thiệu các công cụ chuyên biệt cho quy trình làm việc của nhà phát triển (apply_patch, shell). Điều này cho thấy một thiết kế tối ưu hóa cả trải nghiệm người dùng tương tác (UX) và các tác nhân lập trình.
  • Anthropic / Claude Sonnet 4.5: Được thiết kế như một mô hình lấy tác nhân làm trung tâm, nhấn mạnh rõ ràng vào "sử dụng máy tính" và quy trình làm việc trạng thái dài hạn. Độ bền của Sonnet (30 giờ) và các tính năng như điểm kiểm tra và thực thi mã cho thấy kiến ​​trúc và đào tạo ưu tiên quản lý ngữ cảnh liên tục, điều phối công cụ mạnh mẽ và khả năng chỉnh sửa mã mạnh mẽ. Kỹ thuật đặt an toàn lên hàng đầu của Anthropic (ví dụ: bộ phân loại, điều chỉnh căn chỉnh) được tích hợp vào hành vi của mô hình.

Công cụ, điều phối tác nhân và kiểm soát môi trường

  • GPT-5.1 cung cấp các công cụ kiểm soát dành cho nhà phát triển hàng đầu để cân bằng giữa lý luận và độ trễ, cùng các công cụ mới để chỉnh sửa mã và chạy lệnh shell; cùng với ngân sách "suy nghĩ" được cải thiện, mã hóa mục tiêu và quy trình làm việc của tác nhân. Hệ sinh thái sản phẩm của OpenAI (ChatGPT, chế độ tác nhân trình duyệt Atlas mới, hợp tác với Microsoft) giúp nó trở thành một công cụ tích hợp mạnh mẽ cho các ứng dụng đòi hỏi nhiều công cụ.
  • Bài thơ Sonnet 4.5 của Claude được quảng cáo rõ ràng là tốt nhất trong lớp về mã hóa và xây dựng tác nhân; được tối ưu hóa để vận hành các công cụmôi trường kiểm soát—những cải tiến của Claude Agent SDK và Claude Code (điểm kiểm tra, tạo tệp, thực thi mã) phản ánh sự tập trung vào tự động hóa nhiều bước đáng tin cậy và tính bền vững an toàn.

Cửa sổ ngữ cảnh, bộ nhớ và xử lý phiên

  • Họ GPT (OpenAI): GPT-5/5.1 hỗ trợ cửa sổ ngữ cảnh mã thông báo 400K—cụ thể là 272K mã thông báo đầu vào và 128K mã thông báo đầu ra; kết hợp xử lý ngữ cảnh đầu vào/đầu ra và bộ nhớ đệm có thể đẩy thời lượng phiên hiệu quả lên cao hơn. GPT-5.1 bổ sung bộ nhớ đệm nhắc nhở mở rộng (lên đến 24 giờ) để cải thiện hiệu suất theo dõi.
  • Claude Sonnet 4.5 (Nhân loại): Claude Sonnet 4.5 sử dụng cửa sổ ngữ cảnh gồm 200,000 đơn vị từ vựng (có thể mở rộng lên 1 triệu đơn vị từ vựng cho các ứng dụng cụ thể) để xử lý dữ liệu đầu vào và duy trì trạng thái hội thoại trong giới hạn này, nhưng Sonnet 4.5 có thể duy trì các lần chạy tự động kéo dài (lên đến 3 giờ) và duy trì trạng thái nội bộ tốt hơn trên các tệp/phiên.

Các phương pháp tiếp cận an toàn và căn chỉnh

Cả hai công ty đều tiếp tục lồng ghép sự đồng bộ vào quá trình đào tạo và triển khai. Anthropic dựa nhiều vào khuôn khổ hiến pháp và nhóm đỏ, đồng thời kêu gọi giảm thiểu sự nịnh hót hoặc hành vi lừa đảo trong Sonnet 4.5; OpenAI nhấn mạnh việc tuân theo hướng dẫn, giảm ảo giác và các điều khiển tính cách/cài đặt sẵn có thể cấu hình trong 5.1.

Tóm lại: GPT-5.1 tối ưu hóa tính công thái học của sản phẩm và luồng phát triển; Sonnet 4.5 tối ưu hóa độ tin cậy của tác nhân, chất lượng mã hóa và khả năng sử dụng công cụ bền vững. Các kiến ​​trúc cơ bản là độc quyền và tương tự nhau về mặt Transformer cấp cao + tinh chỉnh lệnh, nhưng các lựa chọn thiết kế và tích hợp thì khác nhau.

So sánh các tiêu chuẩn công khai

lưu ý: phương pháp chuẩn mực khác nhau; kết quả "có công cụ" so với "không có công cụ" khác nhau

Ảnh chụp nhanh chuẩn (số đại diện)

Danh mục chuẩn mựcGPT-5Bài thơ Sonnet 4.5 của ClaudeNgười chiến thắng
Mã hóa (đã được SWE-bench xác minh)74.9%77.2% (82.0% song song)Claude
Toán học (AIME 2025)94.6%100% (với Python)Claude
Đa phương thức (MMMU)84.2%77.8%GPT-5
Kiến thức chung (MMLU)84% (ước tính)89.1%Claude
Lý luận khoa học (GPQA)78% (ước tính)83.4%Claude
Chẩn đoán y tế (HealthBench)46.2%N/AGPT-5
Sử dụng máy tính (OSWorld)<40% (ước tính)61.4%Claude
Tạo mã (HumanEval)92.3%~90% (ước tính)GPT-5
Gọi hàm (BFCL)94.7%~88% (ước tính)GPT-5

Kết quả định tính thực tế

  • Các số liệu cụ thể cho từng nhiệm vụ (tác nhân/chân trời dài hạn): Sonnet 4.5 nhấn mạnh những cải tiến rất lớn cho các tác vụ tác nhân dài hạn (khả năng duy trì quy trình làm việc kéo dài nhiều giờ hoặc cả ngày). Anthropic và các phóng viên trích dẫn Sonnet duy trì khoảng 30 giờ hoạt động tự động; GPT-5.1 nhấn mạnh độ trễ tác vụ nhỏ nhanh hơn và hiệu quả mã thông báo cho các tác vụ hội thoại và gọi công cụ. Đây là những trục khác nhau (độ bền so với độ trễ tương tác).
  • Mã hóa và chỉnh sửa mã: Sonnet tuyên bố tỷ lệ lỗi bằng không trên một số điểm chuẩn chỉnh sửa nội bộ trước đây có lỗi khoảng 9%; GPT-5.1 báo cáo các cải tiến và công cụ mới (apply_patch) Cả hai nhà cung cấp đều tập trung mạnh vào độ tin cậy của mã hóa trong chu kỳ này.
  • Sự khác biệt về chế độ: Nhiều số liệu benchmark phụ thuộc vào việc công cụ (môi trường thực thi, công cụ Python) có được phép truy cập trong quá trình đánh giá hay không. Hiệu suất của các công cụ có thể khác biệt đáng kể. OpenAI/GPT-5.1 ghi rõ các thiết lập "reasoning_effort" (nỗ lực suy luận) để thay đổi hành vi; Anthropic ghi rõ các chế độ lai (suy nghĩ gần như tức thời so với suy nghĩ mở rộng) cho các họ Sonnet/Haiku/Opus.

Bài học thực tế: Nếu khối lượng công việc của bạn quá nặng mã có cấu trúc, có thể kiểm tra và thực thi tác nhân tự độngSonnet 4.5 cho thấy những lợi thế đáng kể. Nếu bạn cần một nền tảng trò chuyện đa năng và khả năng lặp lại nhanh chóng cho nhà phát triển, GPT-5.1 tập trung vào lĩnh vực sản phẩm đó.

Khả năng đa phương thức của chúng so sánh như thế nào?

GPT-5.1: đa phương thức rộng + tích hợp công cụ

Gia đình GPT-5 của OpenAI (và GPT-5.1) hỗ trợ văn bản + hình ảnh + âm thanh + video đầu vào trong quy trình làm việc của ChatGPT, và tiếp tục mở rộng các tính năng âm thanh và duyệt/tác nhân trong các sản phẩm ChatGPT (ví dụ: trình duyệt Atlas + chế độ tác nhân). Thiết kế của GPT-5.1 chủ ý kết hợp hiểu biết đa phương thức với việc gọi công cụ (tìm kiếm trên web, gọi hàm), lý tưởng cho các trợ lý tương tác cần kết hợp hình ảnh, văn bản và kiến ​​thức bên ngoài.

Claude Sonnet 4.5: tầm nhìn trưởng thành + trích xuất tài liệu; tác nhân cho “việc sử dụng máy tính”

Sonnet 4.5 hỗ trợ đầu vào văn bản và hình ảnh, đồng thời hoạt động hiệu quả trong việc trích xuất tài liệu chứa nhiều hình ảnh (Box báo cáo độ chính xác ~80% so với 67% của Sonnet trước đó). Điểm độc đáo của Sonnet 4.5 nằm ở cách các đầu vào đa phương thức này được sử dụng trong các phiên tác nhân dài (ví dụ: kiểm tra ảnh chụp màn hình, chạy lệnh, tạo mã và lặp lại).

Sự khác biệt thực tế

  • Nếu quy trình làm việc của bạn cần hiểu biết âm thanh/video rộng rãi ngay lập tức cùng với khả năng duyệt web và trò chuyện đa phương thức → Vị trí sản phẩm và tích hợp (ChatGPT Atlas/trình duyệt, tìm kiếm trên web) của GPT-5.1 khiến nó trở thành một lựa chọn mạnh mẽ.
  • Nếu quy trình làm việc của bạn tập trung nhiều vào mã, tự động hóa tài liệu và các phiên tác nhân dài tương tác với tệp và giao diện người dùng → Claude Sonnet 4.5 được thiết kế riêng cho khối lượng công việc "sử dụng máy tính" và hiện đang được quảng cáo là có khả năng bền bỉ hơn trong thời gian dài, phối hợp công cụ.

Giá của GPT-5.1 API và Claude Sonnet 4.5 API là bao nhiêu?

MẫuGiá đầu vào (trên 1 triệu token)Giá đầu ra (trên 1 triệu token)Ghi chú / giá bộ nhớ đệm
OpenAI GPT-5.11.25 đô la/1 triệu10.00 đô la/1 triệuOpenAI liệt kê các bản giảm dữ liệu đầu vào được lưu trong bộ nhớ đệm và các phiên bản mini/nano riêng biệt.
Sonnet Claude nhân loại 4.53 đô la/1 triệu15 đô la/1 triệuBảng giá của Anthropic bao gồm các tầng lưu trữ đệm (ví dụ: dữ liệu đầu vào được lưu trữ đệm rẻ hơn) và Sonnet là SKU biên giới có chi phí cao hơn; Haiku (rẻ hơn) dành cho khối lượng công việc nhạy cảm với chi phí.

Diễn dịch: Theo giá niêm yết, GPT-5.1 rẻ hơn đáng kể cho mỗi mã thông báo đầu vào và đầu ra so với Sonnet 4.5 (rẻ hơn khoảng ~2–3 lần về đầu ra theo giá niêm yết), nhưng chi phí thực tế phụ thuộc vào bộ nhớ đệm, xử lý theo lô và số lượng mã thông báo mà mô hình sử dụng (OpenAI tuyên bố GPT-5.1 sử dụng ít mã thông báo hơn trên nhiều truy vấn đơn giản).

Sao chổiAPI cung cấp quyền truy cập vào cả hai GPT-5.1 API và Claude Sonnet 4.5 APIvà giá API bằng 20% ​​giá chính thức. Bạn có thể sử dụng cả hai mô hình trên CometAPI mà không cần thay đổi nhà cung cấp.

Hướng dẫn lựa chọn chi phí

  • Nếu chi phí danh sách thô cho mỗi mã thông báo là yếu tố chính, GPT-5.1 rẻ hơn so với giá niêm yết. Nếu khối lượng công việc của bạn hiệu quả về mã thông báo (ít mã thông báo cho mỗi cuộc gọi) và nhạy cảm với độ trễ, GPT-5.1 reasoning_effort các tùy chọn có thể giảm thêm hóa đơn bằng cách chi ít mã thông báo nội bộ hơn cho các truy vấn dễ dàng.
  • Nếu khối lượng công việc của bạn yêu cầu chạy các phiên tác nhân mở rộng thực hiện nhiều thay đổi trạng thái nội bộ, chỉnh sửa tệp hoặc các quy trình đường chân trời dài khó lưu vào bộ nhớ đệm, Bài thơ Sonnet 4.5 của Claude có thể cung cấp giá trị hoàn thành nhiệm vụ tốt hơn mặc dù giá niêm yết cho mỗi mã thông báo cao hơn vì nó được tối ưu hóa cho công việc nhiều bước kéo dài và tăng năng suất của nhà phát triển

Bạn nên chọn mô hình nào cho những trường hợp sử dụng cụ thể?

Trường hợp sử dụng: chatbot tương tác, hỗ trợ khách hàng, tính đồng thời cao, độ trễ thấp

Khuyến nghị: GPT-5.1.
Lý do tại sao: Độ trễ thấp hơn của GPT-5.1 Instant, hiệu quả mã thông báo trên các tác vụ đơn giản và khả năng điều khiển (cài đặt trước tính cách) khiến nó phù hợp với các chatbot khối lượng lớn và trải nghiệm khách hàng, nơi độ trễ theo yêu cầu và chi phí là yếu tố quan trọng. OpenAI reasoning_effort='none' tùy chọn này được thiết kế riêng cho khối lượng công việc nhạy cảm với độ trễ.

Trường hợp sử dụng: năng suất của nhà phát triển, chỉnh sửa mã, tự động hóa tác nhân dài (CI, cơ sở hạ tầng, quy trình làm việc dài)

Khuyến nghị: Bài thơ Sonnet Claude 4.5.
Lý do tại sao: Kỹ thuật rõ ràng của Sonnet dành cho "việc sử dụng máy tính", các điểm kiểm tra trong Claude Code và hoạt động tự động kéo dài đã được chứng minh (~30 giờ) khiến nó trở nên thuận lợi cho các nhiệm vụ kỹ thuật bền vững và tự động hóa tác nhân phải duy trì ngữ cảnh trong nhiều bước và nhiều giờ.

Trường hợp sử dụng: trích xuất tài liệu đa phương thức / quy trình làm việc nhiều hình ảnh

Khuyến nghị: Cả hai đều có tính cạnh tranh — hãy lựa chọn dựa trên môi trường.
Lý do tại sao: Cả hai nhà cung cấp đều hỗ trợ quy trình làm việc đa phương thức. Sonnet đã chứng minh được những cải tiến đáng kể trong việc trích xuất dữ liệu có cấu trúc từ hình ảnh/tài liệu; GPT-5.1 nhấn mạnh vào việc tích hợp đa phương thức + công cụ rộng hơn và duyệt web. Nếu quy trình làm việc của bạn bao gồm tìm kiếm trên web + trò chuyện đa phương thức, GPT-5.1 có thể dễ dàng hơn; nếu quy trình làm việc của bạn đòi hỏi tự động hóa tệp và thao tác bảng tính phức tạp, Sonnet có thể vượt trội hơn.

Kết luận — “Cái nào tốt hơn?”

Không có câu trả lời duy nhất. Bài thơ Sonnet 4.5 của Claude trông giống như nhà lãnh đạo thực tế khi nhu cầu chính của bạn là công việc tự chủ, chạy lâu dài, tập trung vào mã (các tác nhân sử dụng tệp, thực thi, kiểm tra và lặp lại). GPT-5.1 là bản nâng cấp được sản xuất hóa và trau chuốt hơn về mặt hội thoại của dòng GPT với tính năng công thái học dành cho nhà phát triển (bộ nhớ đệm mở rộng, công cụ mới), lý tưởng cho các trợ lý hội thoại đa năng, quy trình làm việc nhanh chóng của nhà phát triển. Đối với bất kỳ quyết định sản xuất nào, hãy chạy một bản thử nghiệm ngắn, mang tính đại diện và mô hình hóa chi phí từ đầu đến cuối — cả hai kiến ​​trúc đều mạnh mẽ, nhưng lựa chọn phù hợp phụ thuộc vào việc bạn ưu tiên công cụ + độ tin cậy của tác nhân (Sonnet) hay UX đàm thoại + tích hợp hệ sinh thái (GPT-5.1).

Về câu hỏi—— GPT-5.1 so với Claude Sonnet 4.5: cái nào tốt hơn— nếu bạn muốn tự mình tìm câu trả lời, hãy truy cập  API GPT-5.1Claude Sonnet 4.5 API thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VKX và Discord!

SHARE THIS BLOG

500+ Mô hình trong Một API

Giảm giá lên đến 20%