GPT 5.2 Codex ra mắt: Tính năng, điểm chuẩn và quyền truy cập

OpenAI đã phát hành GPT-5.2-Codex, một phiên bản GPT-5.2 tối ưu cho Codex được thiết kế riêng cho các tác vụ lập trình tầm xa mang tính agentic, các tái cấu trúc và di trú quy mô lớn, sử dụng công cụ đáng tin cậy trong môi trường terminal, hành vi thuần Windows được cải thiện và năng lực an ninh mạng mạnh hơn. Các benchmark như SWE-Bench Pro và Terminal-Bench 2.0 xếp GPT-5.2-Codex vào hàng tiên tiến nhất trong số các mô hình lập trình agentic.

GPT-5.2-Codex là gì?

GPT-5.2-Codex là biến thể chuyên biệt của gia đình GPT-5.2 từ OpenAI, được tối ưu rõ ràng cho quy trình lập trình agentic. Trong bối cảnh này, “agentic” nghĩa là mô hình được thiết kế để hoạt động bền bỉ như một tác nhân tự động hoặc bán tự động trong môi trường nhà phát triển thực: thực thi lệnh terminal, tương tác với kho mã, gọi công cụ phát triển và duy trì ngữ cảnh xuyên suốt các tác vụ nhiều bước và phiên làm việc dài. Mô hình kế thừa năng lực suy luận và khoa học tổng quát của GPT-5.2 đồng thời tiếp nối thế mạnh về tính agentic và terminal lần đầu lộ diện ở GPT-5.1-Codex-Max.

4 tính năng nổi bật của GPT-5.2-Codex

Nén ngữ cảnh tầm xa và hiệu quả sử dụng token

Một cải tiến kỹ thuật mang tính định nghĩa ở GPT-5.2-Codex là nén ngữ cảnh: khi phiên làm việc kéo dài, hệ thống tự động nén phần ngữ cảnh cũ thành các tóm tắt tiết kiệm token nhưng vẫn trung thành về ngữ nghĩa. Điều này cho phép mô hình giữ được tri thức cấp dự án xuyên suốt tương tác kéo dài (hàng giờ hoặc thậm chí nhiều ngày), điều tối quan trọng khi thực hiện tái cấu trúc hoặc di trú lớn trên những codebase rất lớn. Kết quả là giảm mất ngữ cảnh và ít thất bại do “quên” hơn trong các kế hoạch nhiều bước.

Độ tin cậy cao hơn cho các thay đổi mã lớn

OpenAI nhấn mạnh rằng GPT-5.2-Codex tốt hơn rõ rệt ở các thay đổi mã lớn — như tái cấu trúc ở quy mô kho, di trú xuyên module và viết lại tính năng. Mô hình thể hiện khả năng tạo bản vá mạch lạc hơn, duy trì các bất biến của dự án và tiếp tục lặp khi kiểm thử thất bại — tiếp tục quy trình thay vì bắt đầu lại. Điều này giúp nó phù hợp hơn với các nhiệm vụ bảo trì codebase vốn trước đây dễ vỡ với các mô hình agentic cũ.

Hành vi thuần Windows và hiệu năng terminal tốt hơn

Điểm đau thường gặp của một số đội kỹ thuật là hành vi không nhất quán trong môi trường Windows (quy ước đường dẫn, khác biệt shell, công cụ). GPT-5.2-Codex bao gồm các tối ưu có mục tiêu cho sử dụng agentic thuần Windows, giảm ma sát cho các đội phát triển trên hoặc triển khai lên stack Windows. Nó cũng cải thiện độ tin cậy terminal nói chung trên Bash, PowerShell và các shell khác khi mô hình cần chạy lệnh, biên dịch hoặc điều phối môi trường.

Khả năng thị giác và diễn giải giao diện mạnh hơn

Codex trước đây có thể đọc ảnh; GPT-5.2-Codex cải thiện hơn nữa, cho phép diễn giải chính xác hơn các ảnh chụp màn hình, sơ đồ kỹ thuật, mockup và artifact giao diện được chia sẻ trong quá trình gỡ lỗi hoặc bàn giao thiết kế. Điều đó giúp nhà phát triển chuyển đổi mock thiết kế thành nguyên mẫu hoạt động và giúp đội an ninh diễn giải bằng chứng giao diện đáng tin cậy hơn trong quá trình phân loại.

Hiệu năng của GPT-5.2-Codex trên benchmark và thử nghiệm thực tế

Kết quả benchmark cho thấy điều gì

GPT-5.2-Codex trên hai benchmark lập trình agentic được thiết kế để mô phỏng các tác vụ của nhà phát triển thực:

SWE-Bench Pro — đánh giá ở mức kho mã, nơi mô hình phải tạo các bản vá giải quyết tác vụ kỹ thuật thực tế. GPT-5.2-Codex ghi điểm cao nhất, thể hiện độ chính xác và chất lượng bản vá được cải thiện.
Terminal-Bench 2.0 — đánh giá cho việc sử dụng terminal agentic bao gồm biên dịch, huấn luyện, thiết lập máy chủ và các quy trình terminal tương tác khác. GPT-5.2-Codex cũng dẫn đầu tại đây, phản ánh sát các kịch bản nhà phát triển agentic thực tế.

SWE-Bench Pro đạt 56.4% accuracy cho GPT-5.2-Codex (so với 55.6% cho GPT-5.2 và 50.8% cho GPT-5.1), và Terminal-Bench 2.0 đạt 64.0% (so với 62.2% cho GPT-5.2 và 58.1% cho GPT-5.1-Codex-Max). Những con số đó minh họa mức tăng đo được, có ý nghĩa trong hiệu năng kỹ thuật agentic.

Điều đó chuyển hóa thế nào vào công việc kỹ thuật thực tế?

Các benchmark tập trung vào năng lực agentic có giá trị vì chúng kiểm thử khả năng của mô hình trong việc xâu chuỗi thao tác, phản ứng với trạng thái hệ thống và tạo đầu ra có thể thực thi — gần với giá trị mà nhà phát triển thực sự tìm kiếm từ một trợ lý có thể vận hành có ý nghĩa trong môi trường của họ. Điểm benchmark cao hơn thường tương quan với ít lần gọi công cụ thất bại hơn, ít phải cứu nguy thủ công bởi kỹ sư hơn và luồng bảo trì tốt hơn khi thực hiện thay đổi ở quy mô kho.

GPT-5.2-Codex so với GPT-5.1-Codex-Max như thế nào?

GPT-5.1-Codex-Max được thiết kế để làm gì?

GPT-5.1-Codex-Max là sản phẩm Codex tập trung trước đây của OpenAI, nhấn mạnh vào lập trình tầm xa, hiệu quả token và sử dụng công cụ agentic được cải thiện. Nó đã mang lại bước nhảy năng suất lớn trong tạo bản vá và quy trình terminal, và là nền tảng cho các tối ưu của GPT-5.2-Codex. OpenAI cho biết việc sử dụng quy trình Codex nội bộ đã tăng thông lượng kỹ sư và tốc độ PR trong thời kỳ GPT-5.1.

Khác biệt cụ thể là gì?

OpenAI định vị GPT-5.2-Codex là một nâng cấp lặp nhưng có ý nghĩa so với GPT-5.1-Codex-Max. Biến thể mới này kết hợp khả năng suy luận nền tảng được cải thiện của GPT-5.2 với năng lực kỹ thuật agentic được giới thiệu ở 5.1-Codex-Max. Các cải thiện chính gồm:

Xử lý ngữ cảnh dài hơn, ổn định hơn — 5.2-Codex duy trì kế hoạch xuyên suốt tương tác dài hơn so với các biến thể 5.1.
Độ trung thực terminal trên Windows được cải thiện — nơi các phiên bản Codex trước đôi khi xử lý sai đặc thù nền tảng, 5.2-Codex được tinh chỉnh để hành xử giống một người vận hành Windows hơn.
Hiệu quả token tốt hơn — nghĩa là có thể suy luận với ít token hơn và nhường ngữ cảnh cho trạng thái kho mã quan trọng.
Hiệu năng benchmark cao hơn trên các bài test agentic.

GPT-5.1-Codex-Max vẫn có giá trị ở đâu?

GPT-5.1-Codex-Max đã giới thiệu thế hệ đầu tiên của các mô hình Codex có khả năng agentic và terminal; nó vẫn hữu ích và đang chạy sản xuất tại nhiều đội, đặc biệt ở nơi đã đầu tư vào quy trình hoặc tích hợp công cụ tùy biến được tinh chỉnh riêng cho mô hình đó. Trên thực tế, 5.2-Codex nên được xem như cơ hội để di trú khi đội cần phiên dài hơn, hỗ trợ Windows tốt hơn hoặc hành vi nhạy cảm an ninh được cải thiện — nhưng không phải là một sự thay thế trực tiếp trong mọi môi trường nếu chưa thử nghiệm.

GPT-5.2-Codex vs GPT-5.1-Codex-Max (khác biệt thực tiễn)

Trên thực tế, những người trước đây đã thử nghiệm với GPT-5.1-Codex-Max sẽ nhận thấy:

Hỗ trợ phân loại bảo mật vững chắc hơn, giúp kỹ sư an ninh tăng tốc tái tạo lỗ hổng và phân loại trong khi OpenAI áp dụng kiểm soát truy cập nghiêm ngặt hơn cho các trường hợp sử dụng rủi ro.

Ít phiên bị đặt lại hơn: GPT-5.2-Codex ít có khả năng “quên” ý đồ dự án sau nhiều vòng lặp.

Tỷ lệ thành công cao hơn trên các tác vụ terminal và vòng lặp build/test tự động, giảm thời gian vòng lặp thủ công cho các tác vụ CI.

Nếu đội của bạn đã dùng GPT-5.1-Codex-Max, chuyển sang GPT-5.2-Codex sẽ mang lại cảm giác nâng cấp tăng dần nhưng hữu ích: ít gián đoạn hơn ở các tác vụ dài, tự động hóa đầu-cuối được cải thiện và là đối tác an toàn, đáng tin cậy hơn cho các hoạt động liên quan đến bảo mật. Với các đội chưa dùng Codex, GPT-5.2-Codex giảm ma sát kỹ thuật cho tự động hóa lớn và rủi ro hơn vì nó được tinh chỉnh để giữ trạng thái và ý đồ qua những chuỗi tương tác dài.

Trường hợp sử dụng: từ tạo nguyên mẫu đến hỗ trợ sản xuất

Tạo nguyên mẫu nhanh và chuyển mock thành mã

Đội thiết kế có thể bàn giao mockup hoặc ảnh chụp màn hình; Codex có thể diễn giải và tạo nguyên mẫu hoạt động, giúp vòng lặp UX → kỹ thuật nhanh hơn. Khả năng thị giác và phân tích UI được cải thiện giúp các chuyển đổi này trung thành hơn và ít thủ công hơn.

Tái cấu trúc và di trú lớn

Các đội duy trì codebase sống lâu (monorepo, kiến trúc đa dịch vụ) có thể tận dụng Codex cho các tái cấu trúc và di trú theo kế hoạch. Tính mạch lạc của bản vá và bộ nhớ phiên được cải thiện giúp giữ nguyên ý đồ qua các thay đổi nhiều bước, giảm số lần phải quay lui do con người.

Khắc phục sự cố CI tự động và điều phối terminal

Codex có thể chạy chuỗi build, tái hiện lỗi, đề xuất và áp dụng sửa lỗi, rồi chạy lại kiểm thử — tất cả trong môi trường được giám sát. Điều đó khiến nó hữu dụng cho phân loại CI và các quy trình khắc phục theo lô khi có giám sát của con người.

Nghiên cứu và phân loại an ninh phòng thủ

OpenAI nhấn mạnh an ninh mạng phòng thủ là một trường hợp ưu tiên: các nhà nghiên cứu được thẩm định tham gia chương trình thí điểm truy cập tin cậy có thể dùng Codex để thiết lập bộ khung fuzzing, suy luận về bề mặt tấn công và tăng tốc tạo bản chứng minh khái niệm cho công bố có trách nhiệm. Công ty chỉ ra những ví dụ thực tế nơi quy trình hỗ trợ bởi Codex giúp phát hiện vấn đề chưa từng được biết đến.

Tăng cường code review và thực thi chính sách

Codex cung cấp code review giàu ngữ cảnh kho (repo-aware) hơn, có thể kiểm tra PR so với ý đồ đã nêu, chạy kiểm thử để xác nhận thay đổi hành vi và hỗ trợ gợi ý khắc phục — hoạt động như một người review thông minh có thể mở rộng trên nhiều pull request.

Nơi con người vẫn cần giám sát

Dù đã tiến bộ, GPT-5.2-Codex không thay thế kỹ sư hay đội an ninh chuyên nghiệp. Chuyên gia con người vẫn cần để xác nhận ngữ nghĩa, đảm bảo phù hợp kiến trúc, xác minh yêu cầu phi chức năng và phê duyệt các thay đổi lên sản xuất. Với an ninh, các review red-team và mô hình mối đe dọa vẫn bắt buộc để tránh phơi lộ hoặc lạm dụng ngoài ý muốn. Kế hoạch triển khai của chính OpenAI — triển khai dần cho người dùng trả phí và chương trình thí điểm an ninh theo thư mời — phản ánh lập trường thận trọng này.

Bắt đầu với GPT-5.2-Codex như thế nào ngay hôm nay?

Các bước tức thì cho người dùng Codex

Nếu bạn là người dùng ChatGPT trả phí: GPT-5.2-Codex hiện khả dụng trên các bề mặt Codex (CLI, IDE extension, Codex web). Codex CLI và IDE sẽ mặc định gpt-5.2-codex cho người dùng đã đăng nhập; bạn có thể chọn mô hình từ menu thả xuống hoặc thay đổi Codex config.toml để đổi mặc định.
Nếu bạn phụ thuộc vào API: OpenAI đang làm việc để bật truy cập API trong “những tuần tới.” Trong lúc chờ, hãy cân nhắc chạy thí điểm trong Codex IDE/CLI để đánh giá hành vi trên kho đại diện và pipeline CI của bạn.
Nếu bạn là nhà nghiên cứu an ninh: bày tỏ quan tâm tới chương trình thí điểm truy cập tin cậy của OpenAI nếu công việc của bạn mang tính phòng thủ và bạn có lịch sử công bố có trách nhiệm. OpenAI đang onboard những người tham gia đã được thẩm định để mở rộng năng lực một cách an toàn cho mục đích phòng thủ.

Kết luận

GPT-5.2-Codex đại diện cho một bước tiến thực dụng, tập trung vào kỹ thuật trong AI agentic cho phát triển phần mềm. Nó mang đến các cải tiến nhắm đích — nén ngữ cảnh cho tác vụ dài, tăng độ vững khi thực hiện thay đổi mã lớn, hỗ trợ Windows tốt hơn và năng lực an ninh mạng nâng cao — đồng thời OpenAI cố gắng cân bằng khả dụng với quản trị cẩn trọng và truy cập theo giai đoạn. Với các đội dựa nhiều vào monorepo lớn, tự động hóa sâu và phân phối liên tục, GPT-5.2-Codex có thể giảm ma sát ở các tác vụ nhiều bước và tăng tốc quy trình của nhà phát triển. Đồng thời, bản phát hành cũng nhắc lại rằng mô hình là công cụ cần tích hợp kỷ luật: kiểm soát con người-trong-vòng lặp, sandboxing và khả năng quan sát vẫn là điều thiết yếu.

Để bắt đầu, hãy khám phá năng lực của GPT-5.1 Codex max và GPT-5.1 Codex trong Playground và tham khảo Hướng dẫn API để có chỉ dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Dùng thử miễn phí dòng GPT-5 Codex !