GPT 5.2 Codex เปิดตัวแล้ว: ฟีเจอร์, เบนช์มาร์ก และการเข้าถึง

OpenAI เปิดตัว GPT-5.2-Codex ซึ่งเป็นรุ่นของ GPT-5.2 ที่ปรับแต่งสำหรับ Codex โดยเฉพาะ ออกแบบมาเฉพาะสำหรับงานเขียนโค้ดแบบระยะยาวเชิงเอเจนต์ งานรีแฟกเตอร์และไมเกรชันขนาดใหญ่ การใช้เครื่องมือในสภาพแวดล้อมเทอร์มินัลอย่างเชื่อถือได้ พฤติกรรมแบบ Windows เนทีฟที่ดีขึ้น และความสามารถด้านไซเบอร์ซีเคียวริตี้ที่แข็งแกร่งยิ่งขึ้น มาตรฐานอย่าง SWE-Bench Pro และ Terminal-Bench 2.0 จัดให้ GPT-5.2-Codex อยู่ในระดับแนวหน้าของโมเดลเขียนโค้ดเชิงเอเจนต์

GPT-5.2-Codex คืออะไร?

GPT-5.2-Codex เป็นรุ่นเฉพาะทางของตระกูล GPT-5.2 จาก OpenAI ที่ปรับให้เหมาะกับเวิร์กโฟลว์การเขียนโค้ดแบบ agentic อย่างชัดเจน ในบริบทนี้ “agentic” หมายถึง โมเดลถูกออกแบบให้ทำงานได้อย่างมั่นคงในฐานะตัวกระทำอัตโนมัติหรือกึ่งอัตโนมัติภายในสภาพแวดล้อมนักพัฒนาจริง: รันคำสั่งเทอร์มินัล โต้ตอบกับรีโพซิทอรี เรียกใช้เครื่องมือนักพัฒนา และรักษาบริบทข้ามงานหลายขั้นและเซสชันยาวๆ โมเดลนี้ต่อยอดจากความสามารถด้านการให้เหตุผลทั่วไปและด้านวิทยาศาสตร์ของ GPT-5.2 พร้อมสืบทอดจุดแข็งด้าน agentic และการทำงานกับเทอร์มินัลที่เปิดเผยครั้งแรกโดย GPT-5.1-Codex-Max

4 คุณสมบัติเด่นของ GPT-5.2-Codex

การย่อบริบทสำหรับระยะยาวและประสิทธิภาพการใช้โทเค็น

หนึ่งในความก้าวหน้าทางเทคนิคสำคัญของ GPT-5.2-Codex คือ context compaction: เมื่อเซสชันยาวขึ้น ระบบจะบีบอัดบริบทเก่าให้เป็นสรุปที่ใช้โทเค็นอย่างมีประสิทธิภาพแต่ยังคงความหมายครบถ้วน ช่วยให้โมเดลรักษาความรู้ระดับโปรเจกต์ตลอดการโต้ตอบที่ยาวนาน (เป็นชั่วโมงหรือแม้แต่เป็นวัน) ซึ่งสำคัญอย่างยิ่งเมื่อทำรีแฟกเตอร์หรือไมเกรชันขนาดใหญ่บนฐานโค้ดขนาดมหึมา ผลลัพธ์คือการสูญเสียบริบทลดลงและความล้มเหลวจากการ “ลืม” ในแผนงานหลายขั้นลดลง

ความน่าเชื่อถือที่ดีขึ้นสำหรับการเปลี่ยนแปลงโค้ดขนาดใหญ่

OpenAI ชี้ว่า GPT-5.2-Codex ดีขึ้นอย่างชัดเจนในการทำ การเปลี่ยนแปลงโค้ดขนาดใหญ่ — เช่น รีแฟกเตอร์ระดับรีโพซิทอรี ไมเกรชันข้ามโมดูล และการเขียนฟีเจอร์ใหม่ โมเดลแสดงความสามารถที่ดีขึ้นในการสร้างแพตช์ที่สอดคล้องกัน รักษาอินวาเรียนต์ของโปรเจกต์ และทำซ้ำเมื่อการทดสอบล้มเหลว — เดินหน้าต่อในเวิร์กโฟลว์แทนที่จะเริ่มใหม่ ทำให้เหมาะกับงานบำรุงรักษาฐานโค้ดที่ก่อนหน้านี้ยังเปราะบางสำหรับโมเดลเชิงเอเจนต์รุ่นก่อน

พฤติกรรมแบบ Windows เนทีฟและประสิทธิภาพเทอร์มินัลที่ดียิ่งขึ้น

ประเด็นที่สร้างความยุ่งยากให้ทีมวิศวกรรมจำนวนไม่น้อยคือพฤติกรรมที่ไม่สม่ำเสมอในสภาพแวดล้อม Windows (ข้อกำหนดเส้นทาง เปลือกคำสั่ง ความต่างของเครื่องมือ) GPT-5.2-Codex มาพร้อมการปรับแต่งเฉพาะสำหรับการใช้งานเชิงเอเจนต์บน Windows แบบเนทีฟ ลดแรงเสียดทานสำหรับทีมที่พัฒนาหรือดีพลอยบนสแต็ก Windows นอกจากนี้ยังปรับปรุงความน่าเชื่อถือของเทอร์มินัลโดยรวมทั้งบน Bash, PowerShell และเชลล์อื่นๆ เมื่อต้องรันคำสั่ง คอมไพล์ หรือจัดการสภาพแวดล้อม

ความสามารถด้านภาพและการตีความ UI ที่แข็งแกร่งขึ้น

Codex รุ่นก่อนสามารถรับภาพเข้าได้; GPT-5.2-Codex พัฒนาต่อเนื่อง ช่วยให้ตีความ ภาพหน้าจอ แผนผังทางเทคนิค ม็อกอัป และสิ่งประดิษฐ์ UI ได้แม่นยำยิ่งขึ้นเมื่อแชร์ระหว่างการดีบักหรือส่งมอบงานออกแบบ สิ่งนี้ช่วยให้นักพัฒนานำดีไซน์ม็อกไปสู่โปรโตไทป์ที่ใช้งานได้จริง และช่วยให้ทีมความปลอดภัยตีความหลักฐานจาก UI ได้อย่างเชื่อถือได้มากขึ้นระหว่างการไตรอาจ

ผลการทำงานของ GPT-5.2-Codex บนเบนช์มาร์กและการทดสอบในโลกจริง

ผลลัพธ์จากเบนช์มาร์กบอกอะไร

GPT-5.2-Codex บนเบนช์มาร์กการเขียนโค้ดเชิงเอเจนต์สองชุดที่ออกแบบมาให้จำลองงานของนักพัฒนาจริง:

SWE-Bench Pro — การประเมินในระดับรีโพซิทอรีที่โมเดลต้องสร้างแพตช์โค้ดเพื่อแก้โจทย์วิศวกรรมที่สมจริง GPT-5.2-Codex ทำคะแนนระดับต้นๆ แสดงให้เห็นถึงความแม่นยำและคุณภาพแพตช์ที่ดีขึ้น
Terminal-Bench 2.0 — การประเมินการใช้งานเทอร์มินัลเชิงเอเจนต์ที่รวมงานอย่างการคอมไพล์ เทรนนิง การตั้งค่าเซิร์ฟเวอร์ และเวิร์กโฟลว์เทอร์มินัลแบบอินเทอร์แอกทีฟอื่นๆ GPT-5.2-Codex นำอยู่ในชุดนี้เช่นกัน ซึ่งสอดคล้องอย่างใกล้ชิดกับสถานการณ์นักพัฒนาเชิงเอเจนต์ในโลกจริง

SWE-Bench Pro ที่ 56.4% accuracy สำหรับ GPT-5.2-Codex (เทียบกับ 55.6% สำหรับ GPT-5.2 และ 50.8% สำหรับ GPT-5.1) และ Terminal-Bench 2.0 ที่ 64.0% (เทียบกับ 62.2% สำหรับ GPT-5.2 และ 58.1% สำหรับ GPT-5.1-Codex-Max) ตัวเลขเหล่านี้สะท้อนความก้าวหน้าแบบค่อยเป็นค่อยไปที่วัดได้ในสมรรถนะด้านวิศวกรรมเชิงเอเจนต์

แล้วสิ่งนี้สะท้อนสู่งานวิศวกรรมจริงอย่างไร?

เบนช์มาร์กที่เน้นความสามารถเชิงเอเจนต์มีคุณค่าเพราะทดสอบความสามารถของโมเดลในการเชื่อมโยงการปฏิบัติการ ตอบสนองต่อสถานะระบบ และสร้างผลลัพธ์ที่รันได้จริง — ซึ่งใกล้เคียงกับคุณค่าจริงที่นักพัฒนาคาดหวังจากผู้ช่วยที่ควรทำงานได้อย่างมีความหมายภายในสภาพแวดล้อมของตน คะแนนเบนช์มาร์กที่สูงกว่ามักสัมพันธ์กับการเรียกใช้เครื่องมือที่ล้มเหลวน้อยลง การที่วิศวกรต้องเข้ามาช่วยเหลือน้อยลง และโฟลว์บำรุงรักษาที่ดีขึ้นเมื่อทำการเปลี่ยนแปลงระดับรีโพซิทอรี

GPT-5.2-Codex เทียบกับ GPT-5.1-Codex-Max อย่างไร?

GPT-5.1-Codex-Max ถูกออกแบบมาเพื่ออะไร?

GPT-5.1-Codex-Max เป็นข้อเสนอที่มุ่งเน้น Codex รุ่นก่อนของ OpenAI โดยเน้นการเขียนโค้ดระยะยาว การใช้โทเค็นอย่างมีประสิทธิภาพ และการใช้เครื่องมือเชิงเอเจนต์ มันนำมาซึ่งการเพิ่มผลิตภาพครั้งใหญ่ในการสร้างแพตช์และเวิร์กโฟลว์เทอร์มินัล และเป็นฐานให้กับการปรับแต่งใหม่ใน GPT-5.2-Codex OpenAI รายงานว่าการใช้งานเวิร์กโฟลว์ Codex ภายในทำให้ประสิทธิภาพวิศวกรและความเร็วในการส่ง Pull Request เพิ่มขึ้นในยุค GPT-5.1

ความแตกต่างที่เป็นรูปธรรมมีอะไรบ้าง?

OpenAI วางตำแหน่ง GPT-5.2-Codex ให้เป็นการอัปเกรดแบบค่อยเป็นค่อยไปแต่มีนัยสำคัญเหนือ GPT-5.1-Codex-Max รุ่นใหม่นี้นำการให้เหตุผลพื้นฐานที่ดีขึ้นของ GPT-5.2 มาจับคู่กับความสามารถด้านวิศวกรรมเชิงเอเจนต์ที่เปิดตัวใน 5.1-Codex-Max ความแตกต่างสำคัญประกอบด้วย:

การจัดการบริบทที่ยาวและเสถียรกว่า — 5.2-Codex รักษาแผนงานข้ามการโต้ตอบที่ยาวกว่ารุ่น 5.1
ความเที่ยงตรงของเทอร์มินัลบน Windows ที่ดีขึ้น — ที่ผ่านมา Codex บางรุ่นจัดการรายละเอียดเฉพาะแพลตฟอร์มได้ไม่ดีนัก 5.2-Codex ถูกจูนให้ทำงานเหมือนผู้ใช้ Windows มนุษย์มากขึ้น
ประสิทธิภาพการใช้โทเค็นที่ดีกว่า — ทำให้สามารถให้เหตุผลโดยใช้โทเค็นน้อยลง และสงวนบริบทสำหรับสถานะสำคัญของรีโพซิทอรีได้มากขึ้น
ประสิทธิภาพบนเบนช์มาร์กเชิงเอเจนต์สูงกว่า

GPT-5.1-Codex-Max ยังมีคุณค่าในจุดใด?

GPT-5.1-Codex-Max เปิดตัวรุ่นแรกของโมเดล Codex ที่มีความสามารถเชิงเอเจนต์และเทอร์มินัล; มันยังคงมีประโยชน์และถูกใช้งานจริงโดยหลายทีม โดยเฉพาะทีมที่ได้ลงทุนในเวิร์กโฟลว์หรือการบูรณาการเครื่องมือแบบกำหนดเองที่จูนเฉพาะกับโมเดลนั้น ในทางปฏิบัติ 5.2-Codex ควรถูกมองเป็นโอกาสสำหรับการย้ายรุ่นเมื่อทีมต้องการเซสชันที่ยาวขึ้น การรองรับ Windows ที่ดีขึ้น หรือพฤติกรรมที่ปลอดภัยขึ้น — แต่ไม่ใช่การแทนที่แบบเสียบแล้วใช้ได้ทันทีในทุกสภาพแวดล้อมโดยไม่ทดสอบ

GPT-5.2-Codex vs GPT-5.1-Codex-Max (ความแตกต่างเชิงปฏิบัติ)

ในการใช้งานจริง ผู้ที่เคยทดลองใช้ GPT-5.1-Codex-Max มาก่อนจะสังเกตได้ว่า:

ความช่วยเหลือด้านการไตรอาจความปลอดภัยที่แข็งแกร่งขึ้น ช่วยให้วิศวกรด้านความปลอดภัยเร่งการทำซ้ำช่องโหว่และการไตรอาจ ขณะที่ OpenAI บังคับใช้นโยบายควบคุมการเข้าถึงที่เข้มงวดยิ่งขึ้นสำหรับกรณีใช้งานที่มีความเสี่ยง

การรีเซ็ตเซสชันน้อยลง: GPT-5.2-Codex มีแนวโน้ม “ลืม” เจตนาของโปรเจกต์น้อยลงหลังจากทำงานไปหลายรอบ

อัตราความสำเร็จสูงขึ้น ในงานเทอร์มินัลและรอบการ build/test อัตโนมัติ ลดเวลาวนงานด้วยมือสำหรับงาน CI

หากทีมของคุณใช้งาน GPT-5.1-Codex-Max อยู่แล้ว การเปลี่ยนไปใช้ GPT-5.2-Codex ควรให้ความรู้สึกเป็นการอัปเกรดแบบค่อยเป็นค่อยไปแต่เป็นผลดี: การหยุดชะงักน้อยลงในงานระยะยาว ระบบอัตโนมัติ end-to-end ที่ดีขึ้น และคู่หูที่ปลอดภัยเชื่อถือได้มากขึ้นสำหรับกิจกรรมที่เกี่ยวข้องกับความปลอดภัย สำหรับทีมที่ยังไม่ได้ใช้ Codex GPT-5.2-Codex ลดแรงเสียดทานทางเทคนิคสำหรับระบบอัตโนมัติที่ใหญ่และมีความเสี่ยงมากขึ้น เพราะมันถูกจูนให้รักษาสถานะและเจตนาตลอดลำดับการโต้ตอบที่ยาว

กรณีใช้งาน: ตั้งแต่การทำต้นแบบจนถึงการสนับสนุนระบบโปรดักชัน

การทำต้นแบบอย่างรวดเร็วและการแปลงม็อกจากดีไซน์เป็นโค้ด

ทีมออกแบบสามารถส่งมอบม็อกอัปหรือภาพหน้าจอ; Codex สามารถตีความและสร้างโปรโตไทป์ที่ทำงานได้จริง ช่วยให้รอบ UX → วิศวกรรมเร็วขึ้น ความสามารถด้านภาพและการแยกวิเคราะห์ UI ที่ดีขึ้นทำให้การแปลงเหล่านี้ถูกต้องสมจริงและใช้แรงคนลดลง

การรีแฟกเตอร์และไมเกรชันขนาดใหญ่

ทีมที่ดูแลฐานโค้ดที่มีอายุยาว (monorepos, สถาปัตยกรรมแบบหลายบริการ) สามารถใช้ Codex สำหรับการรีแฟกเตอร์และไมเกรชันตามแผน โมเดลที่สร้างแพตช์ได้สอดคล้องและมีหน่วยความจำเซสชันที่ดีขึ้นช่วยรักษาเจตนาตลอดการเปลี่ยนแปลงหลายขั้น ลดจำนวนการย้อนกลับโดยมนุษย์

การแก้ปัญหา CI อัตโนมัติและการจัดการเทอร์มินัล

Codex สามารถรันลำดับการ build ทำซ้ำความล้มเหลว เสนอและปรับใช้การแก้ไข และรันทดสอบซ้ำ — ทั้งหมดนี้ภายในสภาพแวดล้อมที่มีการทำเครื่องมือไว้ ทำให้มีประโยชน์ต่อการไตรอาจ CI และเวิร์กโฟลว์การแก้ปัญหาแบบชุดเมื่อมีการกำกับดูแลโดยมนุษย์

การวิจัยด้านความปลอดภัยเชิงป้องกันและการไตรอาจ

OpenAI เน้นย้ำความปลอดภัยทางไซเบอร์เชิงป้องกันเป็นกรณีใช้งานสำคัญ: นักวิจัยที่ผ่านการคัดกรองซึ่งใช้โปรแกรม trusted access สามารถใช้ Codex เพื่อจัดตั้งเฟรมเวิร์ก fuzzing ให้เหตุผลเกี่ยวกับพื้นผิวโจมตี และเร่งการสร้างตัวอย่างพิสูจน์แนวคิดของช่องโหว่เพื่อการเปิดเผยอย่างรับผิดชอบ บริษัทชี้ถึงตัวอย่างจริงที่เวิร์กโฟลว์ซึ่งได้รับความช่วยเหลือจาก Codex ช่วยค้นพบประเด็นที่ยังไม่เป็นที่ทราบมาก่อน

การเสริมศักยภาพ code review และการบังคับใช้นโยบาย

Codex ขับเคลื่อนการรีวิวโค้ดที่รวยขึ้นและรับรู้บริบทรีโพซิทอรี สามารถตรวจ PR ให้สอดคล้องกับเจตนาที่ระบุ รันทดสอบเพื่อยืนยันการเปลี่ยนแปลงเชิงพฤติกรรม และช่วยเสนอแนวทางแก้ไข — ทำหน้าที่เสมือนรีวิวเวอร์อัจฉริยะที่ขยายไปได้ครอบคลุม PR หลายรายการ

ที่ที่การกำกับดูแลโดยมนุษย์ยังคงจำเป็น

แม้จะมีความก้าวหน้า GPT-5.2-Codex ก็ยัง ไม่ ใช้แทนวิศวกรหรือทีมความปลอดภัยมืออาชีพ ผู้เชี่ยวชาญมนุษย์ยังจำเป็นสำหรับการยืนยันความหมาย การทำให้สอดคล้องกับสถาปัตยกรรม การตรวจสอบข้อกำหนดที่ไม่ใช่ฟังก์ชัน และการอนุมัติการเปลี่ยนแปลงในโปรดักชัน สำหรับความปลอดภัย ยังต้องมีการทบทวนโดยทีมแดงและการทำ threat modeling เพื่อหลีกเลี่ยงการเปิดเผยหรือการใช้ผิดพลาดโดยไม่ตั้งใจ แผนการเปิดตัวของ OpenAI เอง — การปล่อยแบบค่อยเป็นค่อยไปสู่ผู้ใช้แบบชำระเงินและโครงการความปลอดภัยแบบเชิญเท่านั้น — สะท้อนแนวทางที่ระมัดระวังนี้

จะเริ่มต้นใช้ GPT-5.2-Codex ได้อย่างไรวันนี้?

ขั้นตอนทันทีสำหรับผู้ใช้ Codex

หากคุณเป็นผู้ใช้ ChatGPT แบบชำระเงิน: GPT-5.2-Codex พร้อมใช้งานแล้วบนทุกผิวสัมผัสของ Codex (CLI, ส่วนขยาย IDE, Codex บนเว็บ) Codex CLI และ IDE จะตั้งค่าเริ่มต้นเป็น gpt-5.2-codex สำหรับผู้ใช้ที่ลงชื่อเข้าใช้; คุณสามารถเลือกโมเดลจากเมนูแบบดรอปดาวน์หรือแก้ไข config.toml ของ Codex เพื่อสลับค่าเริ่มต้น
หากคุณพึ่งพา API: OpenAI กำลังดำเนินการเปิดให้เข้าถึง API ใน “ไม่กี่สัปดาห์ข้างหน้า” ในระหว่างนี้ พิจารณาทดลองใช้งานภายใน Codex IDE/CLI เพื่อประเมินพฤติกรรมบนรีโพซิทอรีตัวแทนและไปป์ไลน์ CI
หากคุณเป็นนักวิจัยด้านความปลอดภัย: แจ้งความสนใจเข้าร่วมโครงการ trusted access ของ OpenAI หากงานของคุณเป็นเชิงป้องกันและมีประวัติการเปิดเผยอย่างรับผิดชอบ OpenAI กำลังรับผู้เข้าร่วมที่ผ่านการตรวจสอบเพื่อขยายความสามารถสำหรับการใช้งานเชิงป้องกันอย่างปลอดภัย

บทสรุป

GPT-5.2-Codex แทนความก้าวหน้าเชิงปฏิบัติการที่มุ่งเน้นวิศวกรรมใน AI เชิงเอเจนต์สำหรับการพัฒนาซอฟต์แวร์ มันนำการปรับปรุงเฉพาะจุด—การย่อบริบทสำหรับงานยาว ความทนทานที่เพิ่มขึ้นเมื่อทำการเปลี่ยนแปลงโค้ดขนาดใหญ่ การรองรับ Windows ที่ดีขึ้น และความสามารถด้านไซเบอร์ซีเคียวริตี้ที่ยกระดับ—ในขณะที่ OpenAI พยายามสร้างสมดุลระหว่างการเข้าถึงกับการกำกับดูแลอย่างรอบคอบและการเปิดให้ใช้แบบเป็นขั้นเป็นตอน สำหรับทีมที่พึ่งพา monorepos ระบบอัตโนมัติขนาดใหญ่ และการส่งมอบอย่างต่อเนื่อง GPT-5.2-Codex สามารถลดแรงเสียดทานในงานวิศวกรรมหลายขั้นและเร่งเวิร์กโฟลว์นักพัฒนา ไปพร้อมกันนั้น การเปิดตัวนี้ย้ำว่าโมเดลคือเครื่องมือที่ต้องการการบูรณาการอย่างมีวินัย: การมีมนุษย์ในวงจร แซนด์บ็อกซ์ และการสังเกตการณ์ยังคงเป็นสิ่งจำเป็น

เริ่มต้นได้โดยสำรวจ GPT-5.1 Codex max และ GPT-5.1 Codex ใน Playground และดู API guide สำหรับคำแนะนำโดยละเอียด ก่อนเข้าถึง โปรดตรวจสอบว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับ API key แล้ว CometAPI มีราคาที่ต่ำกว่าราคาอย่างเป็นทางการอย่างมากเพื่อช่วยให้คุณบูรณาการได้

พร้อมเริ่มหรือยัง?→ ทดลองใช้ฟรีของชุด GPT-5 Codex !