GPT-5-Codex là phiên bản GPT-5 mới, tập trung vào kỹ thuật của OpenAI, được tinh chỉnh đặc biệt cho kỹ thuật phần mềm agentic trong dòng sản phẩm Codex. Nó được thiết kế để xử lý các quy trình công việc kỹ thuật thực tế lớn: tạo dự án hoàn chỉnh từ đầu, thêm tính năng và kiểm thử, gỡ lỗi, tái cấu trúc và thực hiện đánh giá mã trong khi tương tác với các công cụ và bộ kiểm thử bên ngoài. Bản phát hành này đại diện cho một sự tinh chỉnh sản phẩm có mục tiêu chứ không phải là một mô hình nền tảng hoàn toàn mới: OpenAI đã tích hợp GPT-5-Codex vào Codex CLI, tiện ích mở rộng Codex IDE, Codex Cloud, quy trình công việc GitHub và trải nghiệm di động ChatGPT; API đã được lên kế hoạch nhưng chưa được triển khai ngay lập tức.
GPT-5-Codex là gì — và tại sao nó lại tồn tại?
GPT-5-Codex là GPT-5 “chuyên biệt cho lập trình”. Thay vì là một trợ lý đàm thoại chung chung, nó được tinh chỉnh và đào tạo với học tăng cường và các tập dữ liệu chuyên biệt về kỹ thuật để hỗ trợ tốt hơn các tác vụ lập trình lặp đi lặp lại, được hỗ trợ bởi công cụ (ví dụ: chạy thử nghiệm, lặp lại lỗi, tái cấu trúc mô-đun và tuân thủ các quy ước PR). OpenAI định hình nó là phiên bản kế thừa của các nỗ lực Codex trước đó nhưng được xây dựng trên nền tảng GPT-5 để cải thiện độ sâu của lý luận về các cơ sở mã lớn và thực hiện các tác vụ kỹ thuật nhiều bước một cách đáng tin cậy hơn.
Động lực này rất thực tế: quy trình làm việc của nhà phát triển ngày càng phụ thuộc vào các tác nhân có thể làm được nhiều việc hơn là chỉ gợi ý bằng một đoạn mã đơn lẻ. Bằng cách điều chỉnh mô hình theo vòng lặp "tạo → chạy thử nghiệm → sửa → lặp lại" và theo các chuẩn mực quan hệ công chúng của tổ chức, OpenAI hướng đến việc tạo ra một AI mang lại cảm giác như một đồng đội chứ không phải là nguồn hoàn thành một lần. Sự chuyển đổi từ "tạo hàm" sang "phát hành tính năng" chính là giá trị độc đáo của mô hình.
GPT-5-Codex được thiết kế và đào tạo như thế nào?
Kiến trúc cấp cao
GPT-5-Codex là một biến thể của kiến trúc GPT-5 (dòng GPT-5 rộng hơn) chứ không phải là một kiến trúc hoàn toàn mới. Điều này có nghĩa là nó kế thừa thiết kế cốt lõi dựa trên bộ biến đổi, các thuộc tính mở rộng và cải tiến về mặt suy luận của GPT-5, nhưng bổ sung thêm khả năng huấn luyện đặc thù của Codex và tinh chỉnh dựa trên RL nhắm vào các tác vụ kỹ thuật phần mềm. Phụ lục của OpenAI mô tả GPT-5-Codex được huấn luyện trên các tác vụ kỹ thuật phức tạp, thực tế và nhấn mạnh vào học tăng cường trong các môi trường thực thi và xác thực mã.
Nó được đào tạo và tối ưu hóa cho mã như thế nào?
Chế độ đào tạo của GPT-5-Codex nhấn mạnh nhiệm vụ kỹ thuật thực tếCodex sử dụng phương pháp tinh chỉnh theo kiểu học tăng cường trên các tập dữ liệu và môi trường được xây dựng từ các quy trình phát triển phần mềm hữu hình: tái cấu trúc đa tệp, chênh lệch PR, chạy bộ kiểm thử, phiên gỡ lỗi và tín hiệu đánh giá của con người. Mục tiêu đào tạo là tối đa hóa độ chính xác trong các lần chỉnh sửa mã, vượt qua các bài kiểm tra và tạo ra các bình luận đánh giá có độ chính xác và liên quan cao. Trọng tâm này là điểm khác biệt của Codex so với phương pháp tinh chỉnh hướng trò chuyện thông thường: các hàm mất mát, khai thác đánh giá và tín hiệu khen thưởng được căn chỉnh theo kết quả kỹ thuật (kiểm tra vượt qua, chênh lệch chính xác, ít bình luận sai hơn).
Đào tạo "đại lý" trông như thế nào
- Tinh chỉnh theo hướng thực hiện: Mô hình được đào tạo trong bối cảnh mã được tạo ra được thực thi, kiểm tra và đánh giá. Các vòng lặp phản hồi đến từ kết quả kiểm tra và tín hiệu sở thích của con người, khuyến khích mô hình lặp lại cho đến khi bộ kiểm tra đạt yêu cầu.
- Học tăng cường từ phản hồi của con người (RLHF): Về tinh thần, tương tự như công trình RLHF trước đây, nhưng được áp dụng cho các tác vụ mã hóa nhiều bước (tạo PR, chạy thử nghiệm, sửa lỗi), do đó mô hình học cách phân bổ tín dụng tạm thời theo một chuỗi hành động.
- Bối cảnh quy mô kho lưu trữ: Đào tạo và đánh giá bao gồm các kho lưu trữ lớn và các công cụ tái cấu trúc, giúp mô hình học cách suy luận giữa các tệp, quy ước đặt tên và tác động ở cấp độ cơ sở mã. ()
GPT-5-Codex xử lý việc sử dụng công cụ và tương tác với môi trường như thế nào?
Một tính năng kiến trúc quan trọng là khả năng gọi và phối hợp các công cụ được cải thiện của mô hình. Codex trước đây đã kết hợp đầu ra của mô hình với một hệ thống runtime/agent nhỏ có thể chạy thử nghiệm, mở tệp hoặc tìm kiếm lệnh gọi. GPT-5-Codex mở rộng khả năng này bằng cách học thời điểm gọi công cụ và tích hợp tốt hơn phản hồi thử nghiệm vào quá trình tạo mã tiếp theo—thực sự khép kín vòng lặp giữa tổng hợp và xác minh. Điều này đạt được bằng cách huấn luyện trên các quỹ đạo mà mô hình vừa đưa ra các hành động (như "chạy thử nghiệm X") vừa đặt điều kiện cho các thế hệ sau dựa trên đầu ra thử nghiệm và các phép so sánh.
GPT-5-Codex thực sự có thể làm gì — các tính năng của nó là gì?
Một trong những cải tiến sản phẩm mang tính quyết định là thời lượng tư duy thích ứngGPT-5-Codex điều chỉnh mức độ suy luận ẩn mà nó thực hiện: các yêu cầu đơn giản chạy nhanh và tiết kiệm chi phí, trong khi các tác vụ phức tạp hoặc chạy dài cho phép mô hình "suy nghĩ" lâu hơn nhiều. Đồng thời, đối với các lượt tương tác nhỏ, mô hình sử dụng ít token hơn nhiều so với một phiên bản GPT-5 đa năng. Tiết kiệm 93.7% token (bao gồm cả suy luận và đầu ra) so với GPT-5. Chiến lược suy luận biến đổi này nhằm mục đích tạo ra các phản hồi nhanh chóng khi cần và thực thi sâu sắc, toàn diện khi cần thiết.
Khả năng cốt lõi
- Tạo dự án và khởi động dự án: Tạo toàn bộ khung dự án với CI, các bài kiểm tra và tài liệu cơ bản từ các lời nhắc cấp cao.
- Kiểm tra và lặp lại tác nhân: Tạo mã, chạy thử nghiệm, phân tích lỗi, vá mã và chạy lại cho đến khi thử nghiệm thành công — tự động hóa hiệu quả các phần trong vòng lặp chỉnh sửa → thử nghiệm → sửa lỗi của nhà phát triển.
- Tái cấu trúc quy mô lớn: Thực hiện tái cấu trúc hệ thống trên nhiều tệp trong khi vẫn duy trì hành vi và các bài kiểm tra. Đây là một phạm vi tối ưu hóa đã được nêu rõ cho GPT-5-Codex so với GPT-5 chung.
- Đánh giá mã và tạo PR: Tạo mô tả PR, đề xuất thay đổi với sự khác biệt và xem xét các bình luận phù hợp với quy ước của dự án và kỳ vọng đánh giá của con người.
- Suy luận mã ngữ cảnh lớn: Tốt hơn trong việc điều hướng và lập luận về cơ sở mã nhiều tệp, biểu đồ phụ thuộc và ranh giới API so với các mô hình trò chuyện chung.
- Đầu vào và đầu ra trực quan: Khi làm việc trên nền tảng đám mây, GPT-5-Codex có thể chấp nhận hình ảnh/ảnh chụp màn hình, kiểm tra trực quan tiến trình và đính kèm các hiện vật trực quan (ảnh chụp màn hình giao diện người dùng đã xây dựng) vào các tác vụ — một lợi ích thiết thực cho quy trình gỡ lỗi giao diện người dùng và quy trình đảm bảo chất lượng trực quan.
Tích hợp trình soạn thảo và quy trình làm việc
Codex được tích hợp sâu vào quy trình làm việc của nhà phát triển:
- Bộ luật CLI — tương tác đầu cuối, hỗ trợ ảnh chụp màn hình, theo dõi việc cần làm và phê duyệt tác nhân. CLI là mã nguồn mở và được tinh chỉnh cho quy trình mã hóa tác nhân.
- Phần mở rộng Codex IDE — nhúng tác nhân vào VS Code (và nhánh) để bạn có thể xem trước sự khác biệt cục bộ, tạo tác vụ đám mây và di chuyển công việc giữa ngữ cảnh đám mây và cục bộ với trạng thái được bảo toàn.
- Codex Cloud / GitHub — các tác vụ đám mây có thể được cấu hình để tự động xem xét PR, tạo các vùng chứa tạm thời để thử nghiệm và đính kèm nhật ký tác vụ và ảnh chụp màn hình vào luồng PR.
Những hạn chế và đánh đổi đáng chú ý
- Tối ưu hóa hẹp: Một số đánh giá sản xuất không mã hóa thấp hơn một chút đối với GPT-5-Codex so với biến thể GPT-5 chung — một lời nhắc nhở rằng tính chuyên môn hóa có thể đánh đổi tính tổng quát.
- Kiểm tra sự phụ thuộc: Hành vi của agent phụ thuộc vào các bài kiểm tra tự động có sẵn. Các cơ sở mã có phạm vi kiểm tra kém sẽ bộc lộ những hạn chế trong việc xác minh tự động và có thể cần sự giám sát của con người.
GPT-5-Codex thực sự tốt hoặc kém trong những loại nhiệm vụ nào?
Giỏi ở: các công cụ tái cấu trúc phức tạp, tạo nền tảng cho các dự án lớn, viết và sửa các bài kiểm tra, tuân theo kỳ vọng của PR và chẩn đoán các sự cố thời gian chạy nhiều tệp.
Ít giỏi hơn ở: các nhiệm vụ đòi hỏi kiến thức nội bộ độc quyền hoặc cập nhật liên tục không được cung cấp trong không gian làm việc, hoặc những nhiệm vụ đòi hỏi độ chính xác cao mà không cần sự đánh giá của con người (các hệ thống quan trọng về an toàn vẫn cần chuyên gia). Các đánh giá độc lập cũng ghi nhận một bức tranh trái chiều về chất lượng mã thô so với các mô hình mã hóa chuyên biệt khác—điểm mạnh trong quy trình làm việc của agentic không đồng nhất với độ chính xác tốt nhất trong mọi tiêu chuẩn.
Điểm chuẩn tiết lộ điều gì về hiệu suất của GPT-5-Codex?
SWE-bench / SWE-bench đã được xác minh: OpenAI tuyên bố rằng GPT-5-Codex vượt trội hơn GPT-5 trên các chuẩn mã hóa đại lý như SWE-bench Verified, và cho thấy sự cải thiện trong các tác vụ tái cấu trúc mã được lấy từ các kho lưu trữ lớn. Trên tập dữ liệu SWE-bench Verified, bao gồm 500 tác vụ kỹ thuật phần mềm thực tế, GPT-5-Codex đạt tỷ lệ thành công 74.5%. Con số này vượt trội hơn mức 5% của GPT-72.8 trên cùng chuẩn, cho thấy khả năng được cải thiện của đại lý. 500 tác vụ lập trình từ các dự án nguồn mở thực tế. Trước đây, chỉ có thể kiểm tra 477 tác vụ, nhưng giờ đây có thể kiểm tra tất cả 500 tác vụ → kết quả hoàn thiện hơn.

từ các thiết lập GPT-5 trước đó đến GPT-5-Codex, điểm đánh giá tái cấu trúc mã đã tăng đáng kể — các con số như sự thay đổi từ ~34% lên ~51% trên một số liệu tái cấu trúc có độ chi tiết cao cụ thể đã được nêu bật trong các phân tích ban đầu). Những lợi ích đó có ý nghĩa ở chỗ chúng phản ánh sự cải thiện về các bản tái cấu trúc thực tế, lớn thay vì các ví dụ đồ chơi — nhưng vẫn còn những lưu ý về khả năng tái tạo và dây thử nghiệm chính xác.
Các nhà phát triển và nhóm có thể truy cập GPT-5-Codex bằng cách nào?
OpenAI đã triển khai GPT-5-Codex vào các sản phẩm của Codex: nó hoạt động ở mọi nơi Codex hiện đang chạy (ví dụ: Codex CLI và các trải nghiệm Codex tích hợp). Đối với các nhà phát triển sử dụng Codex thông qua CLI và đăng nhập ChatGPT, trải nghiệm Codex được cập nhật sẽ hiển thị mô hình GPT-5-Codex. OpenAI cho biết mô hình này sẽ sớm được cung cấp trong API mở rộng cho những người sử dụng khóa API, nhưng ở giai đoạn triển khai ban đầu, đường dẫn truy cập chính là thông qua các công cụ Codex thay vì điểm cuối API công khai.
Bộ luật CLI
Cho phép Codex xem xét các bản thảo PR trong kho lưu trữ được bảo mật để bạn có thể đánh giá chất lượng bình luận mà không gặp rủi ro. Hãy sử dụng các chế độ phê duyệt một cách thận trọng.
- Được thiết kế lại theo quy trình mã hóa tác nhân.
- Hỗ trợ đính kèm hình ảnh (như khung dây, thiết kế và ảnh chụp màn hình lỗi UI) cung cấp bối cảnh cho các mô hình.
- Đã thêm tính năng danh sách tác vụ để theo dõi tiến độ của các tác vụ phức tạp.
- Cung cấp hỗ trợ công cụ bên ngoài (tìm kiếm trên web, kết nối MCP).
- Giao diện thiết bị đầu cuối mới cải thiện chức năng gọi công cụ và định dạng diff, đồng thời chế độ cấp phép đã được đơn giản hóa thành ba cấp độ (chỉ đọc, tự động và truy cập đầy đủ).

Phần mở rộng IDE
Tích hợp vào quy trình làm việc IDE: Thêm tiện ích mở rộng Codex IDE cho các nhà phát triển muốn xem trước nội tuyến và lặp lại nhanh hơn. Việc di chuyển các tác vụ giữa đám mây và cục bộ với ngữ cảnh được bảo toàn có thể giảm thiểu sự chồng chéo trong các tính năng phức tạp.
- Hỗ trợ VS Code, Cursor và nhiều hơn nữa.
- Gọi Codex trực tiếp từ trình soạn thảo để tận dụng ngữ cảnh của tệp và mã đang mở để có kết quả chính xác hơn.
- Chuyển đổi tác vụ giữa môi trường cục bộ và môi trường đám mây một cách liền mạch, duy trì tính liên tục theo ngữ cảnh.
- Xem và làm việc với kết quả tác vụ đám mây ngay trong trình soạn thảo mà không cần chuyển đổi nền tảng.

Tích hợp GitHub và Chức năng đám mây
- Đánh giá PR tự động: Tự động kích hoạt tiến trình từ bản nháp đến khi hoàn thành.
- Hỗ trợ các nhà phát triển yêu cầu đánh giá mục tiêu trực tiếp trong phần @codex của PR.
- Cơ sở hạ tầng đám mây nhanh hơn đáng kể: Giảm thời gian phản hồi tác vụ xuống 90% thông qua bộ nhớ đệm container.
- Cấu hình môi trường tự động: Thực thi các tập lệnh thiết lập và cài đặt các phụ thuộc (ví dụ: cài đặt pip).
- Tự động chạy trình duyệt, kiểm tra các triển khai giao diện người dùng và đính kèm ảnh chụp màn hình vào các tác vụ hoặc PR.

Những cân nhắc về an toàn, bảo mật và hạn chế là gì?
OpenAI nhấn mạnh nhiều lớp giảm thiểu cho các tác nhân Codex:
- Đào tạo cấp độ mô hình: đào tạo an toàn có mục tiêu để chống lại việc tiêm thuốc ngay lập tức và hạn chế các hành vi có hại hoặc rủi ro cao.
- Kiểm soát cấp độ sản phẩm: hành vi mặc định được bảo vệ trong môi trường thử nghiệm (sandboxed), quyền truy cập mạng có thể cấu hình, chế độ phê duyệt để chạy lệnh, nhật ký thiết bị đầu cuối và trích dẫn để truy xuất nguồn gốc, cùng khả năng yêu cầu sự phê duyệt của con người đối với các hành động nhạy cảm. OpenAI cũng đã xuất bản một "phụ lục thẻ hệ thống" mô tả các biện pháp giảm thiểu này và đánh giá rủi ro của chúng, đặc biệt là đối với các năng lực trong lĩnh vực sinh học và hóa học.
Các biện pháp kiểm soát đó phản ánh thực tế rằng một tác nhân có khả năng chạy lệnh và cài đặt các phần phụ thuộc có bề mặt tấn công và rủi ro thực tế — phương pháp của OpenAI là kết hợp đào tạo mô hình với các ràng buộc của sản phẩm để hạn chế việc sử dụng sai mục đích.
Những hạn chế đã biết là gì?
- Không thay thế cho người đánh giá: OpenAI khuyến nghị rõ ràng Codex là một bổ sung Người đánh giá, không phải người thay thế. Sự giám sát của con người vẫn rất quan trọng, đặc biệt là đối với các quyết định về bảo mật, cấp phép và kiến trúc.
- Cần đọc kỹ các tiêu chuẩn và tuyên bố sau: Các nhà đánh giá đã chỉ ra sự khác biệt trong các tập hợp con đánh giá, cài đặt mức độ chi tiết và sự đánh đổi về chi phí khi so sánh các mô hình. Các thử nghiệm độc lập ban đầu cho thấy kết quả trái chiều: Codex cho thấy hành vi tác nhân mạnh mẽ và cải tiến mạnh mẽ trong việc tái cấu trúc, nhưng độ chính xác tương đối so với các nhà cung cấp khác thay đổi tùy theo điểm chuẩn và cấu hình.
- Ảo giác và hành vi bất thường: Giống như tất cả các LLM khác, Codex có thể gây ảo giác (tạo ra URL, biểu đồ phụ thuộc sai lệch) và việc chạy tác nhân nhiều giờ vẫn có thể gặp phải sự cố trong các trường hợp đặc biệt. Hãy chuẩn bị xác thực kết quả đầu ra bằng các bài kiểm tra và đánh giá của con người.
Những tác động rộng hơn đối với kỹ thuật phần mềm là gì?
GPT-5-Codex chứng minh sự thay đổi hoàn thiện trong thiết kế LLM: thay vì chỉ cải thiện khả năng ngôn ngữ trần, các nhà cung cấp đang tối ưu hóa hành vi cho các tác vụ dài, mang tính đại lý (thực thi nhiều giờ, phát triển theo hướng kiểm thử, quy trình đánh giá tích hợp). Điều này thay đổi đơn vị năng suất từ một đoạn mã được tạo duy nhất thành nhiệm vụ hoàn thành — khả năng của mô hình trong việc tiếp nhận phiếu yêu cầu, chạy một bộ kiểm thử và lặp đi lặp lại việc tạo ra một bản triển khai đã được xác thực. Nếu các tác nhân này trở nên mạnh mẽ và được quản lý tốt, chúng sẽ định hình lại quy trình làm việc (ít thao tác lại thủ công hơn, chu kỳ PR nhanh hơn, thời gian của nhà phát triển tập trung vào thiết kế và chiến lược). Tuy nhiên, quá trình chuyển đổi này đòi hỏi thiết kế quy trình cẩn thận, giám sát của con người và quản lý an toàn.
Kết luận — Bạn nên rút ra điều gì?
GPT-5-Codex là một bước tập trung hướng tới cấp kỹ sư LLM: một biến thể GPT-5 được đào tạo, tinh chỉnh và sản xuất để hoạt động như một tác nhân mã hóa có năng lực trong hệ sinh thái Codex. Nó mang lại những hành vi mới hữu hình — thời gian suy luận thích ứng, thời gian chạy tự động dài, thực thi sandbox tích hợp và cải tiến đánh giá mã có mục tiêu — đồng thời vẫn duy trì những hạn chế quen thuộc của các mô hình ngôn ngữ (cần có sự giám sát của con người, các sắc thái đánh giá và đôi khi là ảo giác). Đối với các nhóm, con đường thận trọng là thử nghiệm có đo lường: thí điểm trên các kho lưu trữ an toàn, theo dõi các số liệu kết quả và dần dần tích hợp tác nhân vào quy trình làm việc của người đánh giá. Khi OpenAI mở rộng quyền truy cập API và các điểm chuẩn của bên thứ ba ngày càng phổ biến, chúng ta nên mong đợi những so sánh rõ ràng hơn và hướng dẫn cụ thể hơn về chi phí, độ chính xác và quản trị thực tiễn tốt nhất.
Bắt đầu
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như loạt GPT của OpenAI, Google Gemini, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Các nhà phát triển có thể truy cập API GPT-5-Codex Thông qua CometAPI, các mô hình mới nhất của cometAPI được liệt kê tính đến ngày bài viết được xuất bản. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API.



