GPT-5-Codex ialah varian OpenAI baharu yang memfokuskan kejuruteraan bagi GPT-5, ditala khusus untuk kejuruteraan perisian agen dalam keluarga produk Codex. Ia direka bentuk untuk mengambil aliran kerja kejuruteraan dunia sebenar yang besar: mencipta projek penuh dari awal, menambah ciri dan ujian, nyahpepijat, refactor dan melaksanakan semakan kod semasa berinteraksi dengan alatan luaran dan suite ujian. Keluaran ini mewakili penghalusan produk yang disasarkan dan bukannya model asas yang serba baharu: OpenAI telah menyepadukan GPT-5-Codex ke dalam Codex CLI, sambungan IDE Codex, Codex Cloud, aliran kerja GitHub dan pengalaman mudah alih ChatGPT; Ketersediaan API dirancang tetapi tidak serta-merta.
Apakah GPT-5-Codex — dan mengapa ia wujud?
GPT-5-Codex ialah GPT-5 "khusus untuk pengekodan." Daripada menjadi pembantu perbualan umum, ia ditala dan dilatih dengan pembelajaran pengukuhan dan set data khusus kejuruteraan untuk menyokong lebih baik tugas pengekodan berbantukan alat (fikirkan: jalankan ujian, ulangi kegagalan, modul refactor dan ikut konvensyen PR). OpenAI membingkainya sebagai pengganti kepada usaha Codex yang terdahulu tetapi dibina di atas tulang belakang GPT-5 untuk meningkatkan kedalaman penaakulan tentang pangkalan kod yang besar dan untuk melaksanakan tugas kejuruteraan berbilang langkah dengan lebih dipercayai.
Motivasinya adalah praktikal: aliran kerja pembangun semakin bergantung pada ejen yang boleh melakukan lebih daripada cadangan coretan tunggal. Dengan menjajarkan model secara khusus kepada gelung "jana → jalankan ujian → betulkan → ulangi" dan kepada norma PR organisasi, OpenAI menyasarkan untuk menjadikan AI yang dirasakan seperti rakan sepasukan dan bukannya sumber penyiapan sekali sahaja. Peralihan daripada "jana fungsi" kepada "menghantar ciri" ialah nilai unik model.
Bagaimanakah GPT-5-Codex diarkitek dan dilatih?
Seni bina peringkat tinggi
GPT-5-Codex ialah varian seni bina GPT-5 (keturunan GPT-5 yang lebih luas) dan bukannya seni bina baharu asas. Ini bermakna ia mewarisi reka bentuk berasaskan pengubah teras GPT-5, sifat penskalaan dan penambahbaikan penaakulan, tetapi menambah latihan khusus Codex dan penalaan halus berasaskan RL yang disasarkan pada tugas kejuruteraan perisian. Adendum OpenAI menerangkan GPT-5-Codex sebagai terlatih mengenai tugas kejuruteraan dunia sebenar yang kompleks dan menekankan pembelajaran pengukuhan pada persekitaran di mana kod dilaksanakan dan disahkan.
Bagaimanakah ia dilatih dan dioptimumkan untuk kod?
Rejimen latihan GPT-5-Codex menekankan tugas kejuruteraan dunia sebenar. Ia menggunakan penalaan halus gaya pembelajaran pengukuhan pada set data dan persekitaran yang dibina daripada aliran kerja pembangunan perisian ketara: pemfaktor semula berbilang fail, perbezaan PR, menjalankan suite ujian, sesi penyahpepijatan dan isyarat semakan manusia. Objektif latihan adalah untuk memaksimumkan ketepatan merentas suntingan kod, lulus ujian dan menghasilkan ulasan ulasan yang membawa ketepatan dan perkaitan yang tinggi. Fokus inilah yang membezakan Codex daripada penalaan halus berorientasikan sembang umum: fungsi kehilangan, abah-abah penilaian dan isyarat ganjaran diselaraskan dengan hasil kejuruteraan (ujian lulus, perbezaan betul, kurang komen palsu).
Seperti apa latihan "agentik".
- Penalaan halus dipacu pelaksanaan: Model dilatih dalam konteks di mana kod yang dihasilkan dilaksanakan, diuji dan dinilai. Gelung maklum balas datang daripada hasil ujian dan isyarat keutamaan manusia, menggalakkan model untuk berulang sehingga suite ujian lulus.
- Pembelajaran pengukuhan daripada maklum balas manusia (RLHF): Semangat yang serupa dengan kerja RLHF sebelumnya, tetapi digunakan pada tugas pengekodan berbilang langkah (buat PR, jalankan ujian, baiki kegagalan), jadi model mempelajari penetapan kredit sementara melalui urutan tindakan.
- Konteks skala repositori: Latihan dan penilaian termasuk repositori dan refactor yang besar, membantu model mempelajari penaakulan silang fail, konvensyen penamaan dan kesan peringkat pangkalan kod. ()
Bagaimanakah GPT-5-Codex mengendalikan penggunaan alat dan interaksi persekitaran?
Ciri seni bina utama ialah keupayaan model yang dipertingkatkan untuk memanggil dan menyelaraskan alatan. Output model gabungan Codex dari segi sejarah dengan sistem masa jalan/ejen kecil yang boleh menjalankan ujian, membuka fail atau carian panggilan. GPT-5-Codex memanjangkannya dengan mempelajari masa untuk memanggil alatan dan dengan menyepadukan maklum balas ujian yang lebih baik ke dalam penjanaan kod berikutnya—secara berkesan menutup gelung antara sintesis dan pengesahan. Ini dicapai dengan latihan tentang trajektori yang mana model mengeluarkan tindakan (seperti "jalankan ujian X") dan keadaan generasi kemudian pada output ujian dan perbezaan.
Apakah yang sebenarnya boleh dilakukan oleh GPT-5-Codex — apakah ciri-cirinya?
Salah satu inovasi produk yang menentukan ialah tempoh pemikiran adaptif. GPT-5-Codex melaraskan jumlah penaakulan tersembunyi yang dilakukannya: permintaan remeh berjalan dengan pantas dan murah, manakala refactor kompleks atau tugas berjalan lama membolehkan model "berfikir" lebih lama. Pada masa yang sama, untuk lilitan interaktif yang kecil, model menggunakan jauh lebih sedikit token daripada contoh GPT-5 tujuan umum, Menjimatkan 93.7% token (termasuk inferens dan output) berbanding dengan GPT-5. Strategi penaakulan boleh ubah ini bertujuan untuk menghasilkan respons pantas apabila diperlukan dan pelaksanaan yang mendalam dan menyeluruh apabila diperlukan.
Keupayaan teras
- Penjanaan projek & bootstrap: Cipta keseluruhan rangka projek dengan CI, ujian dan dokumentasi asas daripada gesaan peringkat tinggi.
- Ujian & lelaran agen: Jana kod, jalankan ujian, analisis kegagalan, kod tampalan dan jalankan semula sehingga ujian lulus — mengautomasikan bahagian suntingan pembangun → ujian → betulkan gelung dengan berkesan.
- Pemfaktoran semula berskala besar: Lakukan refactor sistematik merentas banyak fail sambil mengekalkan tingkah laku dan ujian. Ini ialah kawasan pengoptimuman yang dinyatakan untuk GPT-5-Codex lwn. GPT-5 generik.
- Semakan kod dan penjanaan PR: Hasilkan penerangan PR, cadangan perubahan dengan perbezaan dan semak ulasan yang sejajar dengan konvensyen projek dan jangkaan semakan manusia.
- Penaakulan kod konteks besar: Lebih baik dalam menavigasi dan membuat alasan tentang pangkalan kod berbilang fail, graf pergantungan dan sempadan API berbanding dengan model sembang generik.
- Input dan output visual: Apabila bekerja di awan, GPT-5-Codex boleh menerima imej/tangkapan skrin, memeriksa kemajuan secara visual dan melampirkan artifak visual (tangkapan skrin UI terbina) pada tugasan — faedah praktikal untuk penyahpepijatan bahagian hadapan dan aliran kerja QA visual.
Penyepaduan editor dan aliran kerja
Codex disepadukan secara mendalam ke dalam aliran kerja pembangun:
- Codex CLI — interaksi terminal-utama, menyokong tangkapan skrin, penjejakan tugasan dan kelulusan ejen. CLI adalah sumber terbuka dan ditala untuk aliran kerja pengekodan agen.
- Sambungan IDE Codex — membenamkan ejen dalam Kod VS (dan garpu) supaya anda boleh pratonton perbezaan setempat, mencipta tugas awan dan mengalihkan kerja antara awan dan konteks setempat dengan keadaan terpelihara.
- Codex Cloud / GitHub — tugas awan boleh dikonfigurasikan untuk menyemak semula PR secara automatik, menghasilkan bekas sementara untuk ujian dan melampirkan log tugas dan tangkapan skrin pada utas PR.
Had dan pertukaran yang ketara
- Pengoptimuman sempit: Sesetengah eval pengeluaran bukan pengekodan adalah lebih rendah sedikit untuk GPT-5-Codex berbanding untuk varian GPT-5 umum — peringatan bahawa pengkhususan boleh menukar keluasan.
- Menguji pergantungan: Tingkah laku agen bergantung pada ujian automatik yang tersedia. Pangkalan kod dengan liputan ujian yang lemah akan mendedahkan had dalam pengesahan automatik dan mungkin memerlukan pengawasan manusia.
Apakah jenis tugas GPT-5-Codex terutamanya baik atau buruk?
Baik dalam: refactor kompleks, mencipta perancah untuk projek besar, menulis dan membetulkan ujian, mengikut jangkaan PR dan mendiagnosis isu masa jalan berbilang fail.
Kurang mahir dalam: tugas yang memerlukan pengetahuan dalaman terkini atau proprietari yang tidak disediakan di ruang kerja, atau tugas yang menuntut ketepatan jaminan tinggi tanpa semakan manusia (sistem kritikal keselamatan masih memerlukan pakar). Ulasan bebas juga mencatatkan gambaran bercampur pada kualiti kod mentah berbanding dengan model pengekodan khusus lain—kekuatan dalam aliran kerja agen tidak secara seragam diterjemahkan kepada ketepatan terbaik dalam kelas merentas setiap penanda aras.
Apakah yang didedahkan oleh penanda aras tentang prestasi GPT-5-Codex?
SWE-bench / SWE-bench Disahkan: OpenAI menyatakan bahawa GPT-5-Codex mengatasi GPT-5 pada penanda aras pengekodan agen seperti SWE-bench Verified, dan menunjukkan keuntungan pada tugas refactor kod yang diambil daripada repositori besar. Pada set data SWE-bench Verified, yang mengandungi 500 tugas kejuruteraan perisian dunia sebenar, GPT-5-Codex mencapai kadar kejayaan 74.5%. Ini mengatasi 5% GPT-72.8 pada penanda aras yang sama, menyerlahkan keupayaan ejen yang dipertingkatkan. 500 tugas pengaturcaraan daripada projek sumber terbuka sebenar. Sebelum ini, hanya 477 tugasan boleh diuji, tetapi kini kesemua 500 tugasan boleh diuji → keputusan yang lebih lengkap.

daripada tetapan GPT-5 yang lebih awal kepada GPT-5-Codex , markah penilaian pemfaktoran semula kod telah meningkat secara material — nombor seperti peralihan daripada ~34% kepada ~51% pada metrik refactor verbositi tinggi tertentu telah diserlahkan dalam analisis awal). Keuntungan tersebut bermakna kerana ia mencerminkan peningkatan refactor besar dan realistik dan bukannya contoh mainan — tetapi kaveat kekal tentang kebolehulangan dan abah-abah ujian yang tepat.
Bagaimanakah pembangun dan pasukan boleh mengakses GPT-5-Codex?
OpenAI telah melancarkan GPT-5-Codex ke dalam permukaan produk Codex: ia disiarkan secara langsung di mana sahaja Codex dijalankan hari ini (contohnya, Codex CLI dan pengalaman Codex bersepadu). Untuk pembangun yang menggunakan Codex melalui log masuk CLI dan ChatGPT, pengalaman Codex yang dikemas kini akan memaparkan model GPT-5-Codex. OpenAI telah berkata model itu akan disediakan dalam API yang lebih luas "tidak lama lagi" untuk mereka yang menggunakan kunci API, tetapi pada pelancaran awal laluan akses utama adalah melalui alat Codex dan bukannya titik akhir API awam.
Codex CLI
Dayakan Codex untuk menyemak draf PR dalam repo kotak pasir supaya anda boleh menilai kualiti ulasan tanpa risiko. Gunakan mod kelulusan secara konservatif.
- Direka semula mengikut aliran kerja pengekodan agen.
- Sokongan untuk melampirkan imej (seperti wireframe, reka bentuk dan tangkapan skrin pepijat UI) menyediakan konteks untuk model.
- Menambahkan ciri senarai tugas untuk menjejaki kemajuan tugas yang kompleks.
- Menyediakan sokongan alat luaran (carian web, sambungan MCP).
- Antara muka terminal baharu meningkatkan penggunaan alat dan pemformatan berbeza, dan mod kebenaran telah dipermudahkan kepada tiga peringkat (baca sahaja, automatik dan akses penuh).

Sambungan IDE
Sepadukan ke dalam aliran kerja IDE: tambahkan sambungan IDE Codex untuk pembangun yang mahukan pratonton sebaris dan lelaran yang lebih pantas. Mengalihkan tugas antara awan dan setempat dengan konteks yang dipelihara boleh mengurangkan geseran pada ciri yang kompleks.
- Menyokong Kod VS, Kursor dan banyak lagi.
- Guna Codex terus daripada editor untuk memanfaatkan konteks fail dan kod yang sedang dibuka untuk hasil yang lebih tepat.
- Tukar tugas dengan lancar antara persekitaran tempatan dan awan, mengekalkan kesinambungan kontekstual.
- Lihat dan kerjakan hasil tugasan awan terus dalam editor, tanpa menukar platform.

Integrasi GitHub dan Fungsi Awan
- Semakan PR Automatik: Secara automatik mencetuskan kemajuan daripada draf kepada sedia.
- Menyokong pembangun untuk meminta semakan yang disasarkan terus di bahagian @codex PR.
- Infrastruktur awan yang jauh lebih pantas: Kurangkan masa tindak balas tugas sebanyak 90% melalui caching kontena.
- Konfigurasi Persekitaran Automatik: Melaksanakan skrip persediaan dan memasang kebergantungan (cth, pemasangan pip).
- Menjalankan penyemak imbas secara automatik, menyemak pelaksanaan bahagian hadapan dan melampirkan tangkapan skrin pada tugasan atau PR.

Apakah pertimbangan keselamatan, keselamatan dan had?
OpenAI menekankan berbilang lapisan mitigasi untuk ejen Codex:
- Latihan peringkat model: latihan keselamatan yang disasarkan untuk menahan suntikan segera dan untuk mengehadkan tingkah laku yang berbahaya atau berisiko tinggi.
- Kawalan peringkat produk: tingkah laku lalai kotak pasir, akses rangkaian boleh dikonfigurasikan, mod kelulusan untuk menjalankan arahan, log terminal dan petikan untuk kebolehkesanan dan keupayaan untuk memerlukan kelulusan manusia untuk tindakan sensitif. OpenAI juga telah menerbitkan "adendum kad sistem" yang menerangkan pengurangan ini dan penilaian risikonya, terutamanya untuk keupayaan domain biologi dan kimia.
Kawalan tersebut mencerminkan hakikat bahawa ejen yang mampu menjalankan arahan dan memasang kebergantungan mempunyai permukaan serangan dan risiko dunia sebenar — pendekatan OpenAI adalah untuk menggabungkan latihan model dengan kekangan produk untuk mengehadkan penyalahgunaan.
Apakah batasan yang diketahui?
- Bukan pengganti untuk pengulas manusia: OpenAI secara eksplisit mengesyorkan Codex sebagai tambahan pengulas, bukan pengganti. Pengawasan manusia kekal kritikal, terutamanya untuk keputusan keselamatan, pelesenan dan seni bina.
- Penanda aras dan tuntutan memerlukan pembacaan yang teliti: pengulas telah menunjukkan perbezaan dalam subset penilaian, tetapan verbositi dan pertukaran kos apabila membandingkan model. Ujian bebas awal mencadangkan hasil yang bercampur-campur: Codex menunjukkan tingkah laku agenik yang kuat dan penambahbaikan pemfaktoran semula tetapi ketepatan relatif berbanding vendor lain berbeza mengikut penanda aras dan konfigurasi.
- Halusinasi dan tingkah laku mengelupas: seperti semua LLM, Codex boleh berhalusinasi (mencipta URL, salah nyatakan graf pergantungan), dan ejen berbilang jam berjalan mungkin masih menghadapi kerapuhan dalam kes tepi. Berharap untuk mengesahkan outputnya dengan ujian dan semakan manusia.
Apakah implikasi yang lebih luas untuk kejuruteraan perisian?
GPT-5-Codex menunjukkan anjakan matang dalam reka bentuk LLM: daripada hanya meningkatkan keupayaan bahasa kasar, vendor mengoptimumkan tingkah laku untuk tugas-tugas agen yang panjang (pelaksanaan berbilang jam, pembangunan dipacu ujian, saluran paip semakan bersepadu). Ini menukar unit produktiviti daripada satu coretan yang dijana kepada penyiapan tugas — keupayaan model untuk mengambil tiket, menjalankan satu set ujian, dan secara berulang menghasilkan pelaksanaan yang disahkan. Jika ejen ini menjadi mantap dan ditadbir dengan baik, mereka akan membentuk semula aliran kerja (kurang faktor semula manual, kitaran PR yang lebih pantas, masa pembangun tertumpu pada reka bentuk dan strategi). Tetapi peralihan memerlukan reka bentuk proses yang teliti, pengawasan manusia, dan tadbir urus keselamatan.
Kesimpulan - Apa yang perlu anda ambil?
GPT-5-Codex ialah langkah tertumpu ke arah gred jurutera LLM: varian GPT-5 yang dilatih, ditala dan dihasilkan untuk bertindak sebagai ejen pengekodan yang berkebolehan dalam ekosistem Codex. Ia membawa gelagat baharu yang ketara — masa penaakulan adaptif, larian autonomi yang panjang, pelaksanaan kotak pasir bersepadu dan penambahbaikan semakan kod yang disasarkan — sambil mengekalkan kaveat biasa model bahasa (keperluan untuk pengawasan manusia, nuansa penilaian dan halusinasi sekali-sekala). Untuk pasukan, laluan berhemat diukur percubaan: perintis pada repo selamat, pantau metrik hasil dan lipat ejen ke dalam aliran kerja penyemak secara berperingkat. Apabila OpenAI mengembangkan akses API dan penanda aras pihak ketiga semakin berkembang, kita harus mengharapkan perbandingan yang lebih jelas dan panduan yang lebih konkrit tentang kos, ketepatan dan tadbir urus amalan terbaik.
Bermula
CometAPI ialah platform API bersatu yang mengagregatkan lebih 500 model AI daripada pembekal terkemuka—seperti siri GPT OpenAI, Google Gemini, Anthropic's Claude, Midjourney, Suno dan banyak lagi—ke dalam satu antara muka mesra pembangun. Dengan menawarkan pengesahan yang konsisten, pemformatan permintaan dan pengendalian respons, CometAPI secara dramatik memudahkan penyepaduan keupayaan AI ke dalam aplikasi anda. Sama ada anda sedang membina chatbots, penjana imej, komposer muzik atau saluran paip analitik terdorong data, CometAPI membolehkan anda mengulangi dengan lebih pantas, mengawal kos dan kekal sebagai vendor-agnostik—semuanya sambil memanfaatkan penemuan terkini merentas ekosistem AI.
Pembangun boleh mengakses API GPT-5-Codex melalui CometAPI, model terbaru cometAPI yang disenaraikan adalah pada tarikh penerbitan artikel. Sebelum mengakses, sila pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API.
