OpenAI Melancarkan Siri GPT-5.4: Apa yang diubah oleh GPT-5.4

Keluaran terkini OpenAI, GPT-5.4, hadir sebagai keluarga model “kerja profesional” yang disasar dengan dua varian utama — GPT-5.4 Thinking dan GPT-5.4 Pro — serta penekanan kuat pada kerja dokumen berkonteks panjang, keupayaan penggunaan komputer asli (agen), dan peningkatan kefaktualan serta prestasi tugasan merentas aliran kerja pejabat, perundangan dan kewangan. Keluaran ini menyusuli kemas kini terdahulu dalam siri GPT-5 (terutamanya GPT-5.3 Instant dan GPT-5.3-Codex) dan membawa penambahbaikan yang boleh diukur pada penanda aras dalaman dan awam, integrasi alat yang lebih mendalam (termasuk pemalam ChatGPT untuk Excel), serta konteks disokong yang lebih besar (hingga 1 juta token).

Kini CometAPI menyokong GPT-5.4 dan GPT-5.4 Pro, serta menawarkannya dengan diskaun.

Apakah GPT-5.4?

Kedudukan dan varian

GPT-5.4 dipersembahkan oleh OpenAI sebagai model siri GPT-5 paling berkebolehan yang ditala untuk aliran kerja yang profesional, sarat dokumen, dan berasaskan agen. Ia ditawarkan sekurang-kurangnya dalam dua varian yang diterbitkan:

GPT-5.4 Thinking — varian berfokus penaakulan yang mendedahkan lebih banyak proses pemikiran model dan dioptimumkan untuk penaakulan berbilang langkah serta tugasan agen (tersedia dalam ChatGPT sebagai mod “Thinking”).
GPT-5.4 Pro — peringkat inferens keutamaan/komput lebih tinggi untuk beban kerja perusahaan berkeperluan kadar hampagas tinggi atau latensi sensitif, dengan harga API lebih tinggi (mencerminkan komput tambahan).

OpenAI menonjolkan keupayaan penggunaan komputer asli GPT-5.4 — membolehkan model mengendalikan perisian melalui tindakan tetikus/papan kekunci berprogram dan menyelaras jujukan berbilang alat — yang diposisikan sebagai lonjakan untuk membina agen yang menyiapkan tugasan sebenar.

Keupayaan baharu dan ditekankan

Sokongan konteks panjang: GPT-5.4 dilaporkan menyokong konteks yang sangat besar (hingga 1,000,000 token dalam konteks ChatGPT dan Codex), membolehkan model mengekalkan projek besar, buku, pangkalan kod atau set data “dalam ingatan” sepanjang sesi. Ini mengubah permainan bagi semakan dokumen, kontrak perundangan, dan projek kejuruteraan berbilang fail.
Penggunaan komputer asli / agen: GPT-5.4 ialah model tujuan umum pertama OpenAI dengan keupayaan penggunaan komputer asli — ia boleh menjana jujukan tindakan UI dan kod untuk mengendalikan perisian (cth., melalui Playwright atau dengan mengeluarkan arahan tetikus/papan kekunci berpandukan tangkapan skrin). Keupayaan ini direka untuk membolehkan pembangun membina agen yang menyiapkan tugasan merentas aplikasi web dan desktop.
Penambahbaikan kemahiran pejabat: Penekanan ketara pada hamparan, pembentangan dan dokumen — dengan penanda aras dalaman menunjukkan lonjakan besar dalam pemodelan hamparan, estetika pembentangan dan kualiti draf dokumen.
Kefaktualan dan pengurangan halusinasi: OpenAI melaporkan pengurangan ralat faktual berbanding model terdahulu pada set penilaian tersusun dalaman (lihat penanda aras di bawah).

Dibandingkan dengan model sebelumnya seperti GPT-5.2 Thinking dan GPT-5.3 Codex, GPT-5.4 menggabungkan keupayaan ini ke dalam satu model yang direka untuk mengendalikan tugasan berjalan lama dan aliran kerja kompleks dengan campur tangan pengguna minimum.

Ciri utama dan sorotan teknikal GPT-5.4

1) Tetingkap konteks besar (hingga 1,000,000 token)

Keupayaan yang paling ketara ialah sokongan untuk tetingkap konteks hingga 1,000,000 token melalui API. Ini memperluas apa yang boleh dimuatkan oleh satu sesi model: keseluruhan buku, pangkalan kod panjang, atau keseluruhan dossier berbilang dokumen tanpa perlu memecahkannya merentas banyak panggilan. Untuk aliran kerja perusahaan berintensif pengetahuan (penemuan undang-undang, sintesis penyelidikan, analisis kod berskala besar), kebolehan mengekalkan konteks sejuta token mengurangkan “gam” kejuruteraan dan meningkatkan koheren.

Implikasi: aliran kerja yang sebelum ini memerlukan orkestrasi (pengambilan, pemecahan, memori luaran) kini boleh mengekalkan lebih banyak konteks mentah dalam memori kerja model — memudahkan talian paip dan menurunkan pertukaran latensi/konsistensi.

2. Penggunaan komputer dan alat asli

OpenAI menonjolkan keupayaan lebih kukuh untuk mengendalikan alat dan penyambung perisian (cth., hamparan, penyunting dokumen, persekitaran pelaksanaan kod) berbanding model terdahulu. GPT-5.4 memperluas kerja “penggunaan alat” sebelumnya dengan:

Pemilihan alat dan pemparametan alat yang lebih baik.
Perancangan jujukan yang lebih boleh dipercayai apabila memanggil API luaran atau melalui tindakan mirip UI.
Overhed token yang dikurangkan untuk aliran kerja agen melalui seni bina panggilan alat yang lebih pintar.

Keupayaan pembangun dan agen:

Automasi desktop dan web: Dengan sokongan jelas untuk mengeluarkan tindakan tetikus dan papan kekunci berpandukan tangkapan skrin, GPT-5.4 boleh dibenamkan dalam agen yang mengendalikan aliran kerja perisian sebenar (contohnya mengisi borang, menavigasi papan pemuka, atau menjalankan prosedur berbilang langkah). OpenAI melaporkan keputusan termaju pada penanda aras gaya OS.
Antara muka alat dan keboleharah: GPT-5.4 lebih mudah diarahkan melalui mesej pembangun dan boleh memutuskan dengan lebih baik bila dan bagaimana memanggil alat, penyambung dan API luaran — keupayaan penting untuk membina agen berbilang alat yang boleh dipercayai yang meminimumkan tindakan tidak perlu atau berisiko.

Kesan praktikal: Tugasan automasi (cth., “buka hamparan ini, kira jadual pangsi ini, jana nota slaid”) memerlukan kitaran gagal/cuba semula yang lebih sedikit dan pengawasan manusia yang lebih rendah.

3) Lima tahap usaha penaakulan, mod ekstrem

OpenAI menunjukkan pelbagai tahap usaha penaakulan — membolehkan pengguna menukar latensi/kos untuk pengiraan rantaian pemikiran dalaman yang lebih mendalam (mod kadang-kadang dirujuk secara tidak formal sebagai xhigh atau penaakulan ekstrem). Ini ditujukan untuk masalah di mana pertimbangan dalaman yang lebih mendalam meningkatkan ketepatan secara material (bukti kompleks, transformasi kod panjang, analisis kewangan berbilang langkah). Harga dan logik pengebilan API mencerminkan kerja model tambahan di bawah mod ini.

Kesan praktikal: Pemisahan ini membolehkan pelanggan memilih pertukaran yang sesuai dengan beban kerja mereka, bukannya meminta satu model menjadi “serba boleh”.

4) Produktiviti dan penghasilan kandungan

Pemodelan hamparan: GPT-5.4 menunjukkan penambahbaikan kukuh pada tugasan hamparan yang mungkin digunakan dalam pengauditan, kewangan dan aliran kerja analisis. OpenAI melaporkan skor min 87.3% pada tugasan gaya “pemodelan perbankan pelaburan” dalaman untuk GPT-5.4 berbanding 68.4% untuk GPT-5.2. Itu peningkatan dramatik pada ketepatan tugasan untuk pemodelan angka dan pembinaan formula.
Pembentangan dan output visual: Penilai manusia memilih pembentangan yang dijana GPT-5.4 sebanyak 68.0% berbanding GPT-5.2 kerana estetika, kepelbagaian, dan integrasi dengan penjanaan imej yang lebih baik. Ini mencerminkan penambahbaikan kandungan dan bentuk untuk menghasilkan dek slaid.
Draf dokumen dan penulisan panjang: GPT-5.4 dioptimumkan untuk mengekalkan konsistensi merentas dokumen panjang, tingkah laku sitasi yang lebih baik dan lebih sedikit percanggahan dalaman ketika mengendalikan konteks besar, hasil daripada tetingkap konteks yang diperluas dan talaan penaakulan khusus.

5) Keselamatan, mitigasi dan pertimbangan siber

Pengurangan halusinasi: OpenAI melaporkan bahawa pada set prompt dinyahpengenal di mana pengguna menandakan ralat faktual, tuntutan individu daripada GPT-5.4 adalah 33% kurang berkemungkinan palsu, dan respons penuh adalah 18% kurang berkemungkinan mengandungi sebarang ralat, berbanding GPT-5.2 — metrik penting untuk penerimaan perusahaan yang mementingkan ketepatan fakta.
Mitigasi keselamatan siber (varian Thinking): GPT-5.4 Thinking menonjolkan set mitigasi diperluas untuk risiko siber, berasaskan perlindungan yang digunakan untuk model Codex/5.3 sebelum ini. GPT-5.4 Thinking direka dengan penghadang tambahan untuk senario penyalahgunaan berkeupayaan tinggi.

Penanda aras prestasi — apa yang dikatakan angka

OpenAI dan beberapa penerbit menerbitkan keputusan penanda aras awal sebagai sebahagian daripada pelancaran. Memandangkan penanda aras berbeza menguji keupayaan berbeza (navigasi web vs. pengetahuan domain vs. keselamatan), adalah berguna untuk mengumpulkan angka utama dan maknanya.

OpenAI Melancarkan Siri GPT-5.4: Apa yang diubah oleh GPT-5.4

Keputusan yang dilaporkan menunjukkan peningkatan ketara berbanding ahli keluarga GPT-5.x terdahulu dan persaingan rapat dengan model peringkat teratas lain.

Penanda aras interaksi web dan desktop

WebArena-Verified (ujian penggunaan pelayar): GPT-5.4 mencapai 67.3% kejayaan apabila menggunakan kedua-dua isyarat DOM dan tangkapan skrin, berbanding 65.4% untuk GPT-5.2 — peningkatan ketara tetapi tidak mendadak. Ini mengukur tugasan di mana model mesti berinteraksi dengan halaman langsung dan elemen UI.
Online-Mind2Web (tugasan pelayar berasaskan tangkapan skrin): GPT-5.4 mencapai 92.8% kejayaan menggunakan pemerhatian tangkapan skrin sahaja — peningkatan yang sangat kuat berbanding garis dasar gaya agen sebelumnya (OpenAI membandingkannya dengan prestasi Agent Mode ChatGPT Atlas).
OSWorld-Verified (navigasi desktop): pelaporan bebas menunjukkan GPT-5.4 memperoleh 75.0% pada penanda aras yang menilai navigasi persekitaran desktop dan penyelesaian tugasan. Keputusan itu meletakkan 5.4 mendahului banyak garis dasar awam untuk tugasan automasi hujung ke hujung.

Kesimpulan: Peningkatan 5.4 paling ketara apabila pemahaman konteks visual, keupayaan UI, dan jujukan tindakan panjang penting — iaitu, aliran kerja berasaskan agen.

Penanda aras kesihatan, keselamatan dan pengetahuan

Laporan keselamatan penggelaran OpenAI menunjukkan isyarat bercampur:

HealthBench: GPT-5.4 mencatat 62.6% pada HealthBench (penurunan sederhana daripada 63.3% GPT-5.2), menunjukkan pertukaran halus antara keupayaan dan metrik penilaian berkaitan kesihatan tertentu dalam ujian petikan yang dilaporkan OpenAI.
Hard: GPT-5.4 mencatat 40.1% pada suite penilaian “Hard” (sedikit turun daripada 42.0%).
Consensus: GPT-5.4 mencatat 96.6% pada “Consensus,” metrik yang mencerminkan kesepakatan dengan jawapan konsensus tersusun (peningkatan kira-kira ~2.1 mata).

OpenAI juga menyatakan perubahan pada purata panjang respons dalam penilaian kesihatan (GPT-5.4 berpurata ~3,311 aksara berbanding 2,676 untuk GPT-5.2), yang boleh mempengaruhi cara model membingkaikan topik sensitif.

Interpretasi: Metrik keselamatan dan kesihatan menunjukkan bahawa 5.4 secara keseluruhan meningkatkan penjajaran konsensus dan mengubah kepanjangan jawapan, walaupun beberapa skor kesihatan khusus menurun sedikit. Corak itu selalunya mencerminkan pengimbangan semula objektif model — jawapan yang lebih tegas dan panjang mungkin membantu utiliti dan konsensus sambil memerlukan pemantauan teliti pada domain sensitif.

Contoh dan dakwaan khusus domain

Ujian awal menyediakan dakwaan konkrit yang didomainkan (OpenAI dan sumber pihak ketiga):

Penanda aras penaakulan undang-undang (BigLaw Bench) — GPT-5.4 mencapai ~91% pada bahagian penaakulan undang-undang dalam ujian awal, isyarat kukuh untuk tugasan analisis dokumen; ambil perhatian ini angka awal, belum semakan rakan sebaya.
Pengurangan halusinasi: Respons GPT-5.4 adalah ~33% kurang berkemungkinan mengandungi tuntutan palsu dan ~18% kurang berkemungkinan mengandungi ralat faktual berbanding garis dasar tertentu sebelumnya. Peratusan ini diketengahkan dalam pelaporan sekunder dan komunikasi syarikat; seperti mana-mana dakwaan sedemikian, ia bergantung pada suite penanda aras dan metodologi pensampelan.

Cara mendapatkan dan membayar GPT-5.4

Peringkat ChatGPT dan akses perusahaan

Menurut OpenAI dan pelaporan produk:

Pengguna ChatGPT Plus / Team / Pro ialah kumpulan segera yang menerima GPT-5.4 Thinking dalam produk. Pentadbir Enterprise dan Education boleh mendayakan akses awal melalui kawalan admin. Pengguna Free/Go tidak dijamin akses serta-merta. Pembangun boleh memanggil titik akhir gpt-5.4 dan gpt-5.4-pro melalui API.

Pandangan harga API (harga pembangun yang diterbitkan)

Harga pembangun OpenAI menyenaraikan GPT-5.4 sebagai model hadapan dengan caj per token. Seperti yang diterbitkan pada halaman harga awam ketika pengumuman, kadar sampel untuk GPT-5.4 adalah kira-kira:

Model	Input	Cached input	Output
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30.00		$180.00
gpt-5.4-pro (>272K context length)	$60.00		$270.00

Dalam CometAPI (platform agregasi sehenti untuk API model besar):

Model	Comet Price (USD / M Tokens)	Official Price (USD / M Tokens)	Discount
gpt-5.4	Input:$2/M; Output:$16/M	Input:$2.5/M; Output:$20/M	-20%
gpt-5.4-pro	Input:$24/MOutput:$192/M	Input:$30/MOutput:$240/M	-20%

Oleh itu, saya amat mengesyorkan CometAPI, kerana ia boleh mengurangkan kos API dengan ketara.

Pertimbangan pengurusan kos

Jika anda merancang untuk menggunakan model pada skala, khususnya dalam tetapan dokumen panjang atau throughput tinggi, anda harus mempertimbangkan:

Caching dan nyahgandaan input (untuk menggunakan harga input cache jika boleh).
Kejuruteraan prompt untuk memampatkan konteks dan mengelakkan token berulang.
Strategi pembungkusan dan pasca pemprosesan yang meminimumkan penjanaan output yang mahal.
Memantau penggunaan mod penaakulan, kerana mod penaakulan lebih mendalam boleh membawa kos pengiraan yang lebih tinggi.

Perbandingan: GPT-5.4 vs GPT-5.3

Tempat GPT-5.4 memperbaiki GPT-5.3

Kedalaman penaakulan dan orkestrasi alat: 5.4 Thinking ditala secara eksplisit untuk mengatasi 5.3 pada kegunaan penaakulan berbilang langkah dan berasaskan agen. Ini jelas pada penanda aras interaksi web/desktop dan metrik kejayaan agen.
Kapasiti konteks: Tawaran 1M token 5.4 ialah langkah teknikal jelas melangkaui apa yang disediakan 5.3 dalam ketersediaan API arus perdana, membolehkan kelas tugasan sesi tunggal baharu.
Lonjakan prestasi domain: Nombor awal OpenAI dan laporan pihak ketiga menunjukkan peningkatan pada penanda aras undang-undang dan dokumen tertentu, di mana konteks lebih panjang 5.4 dan talaan khusus membantu.

Pertukaran dan tempat 5.3 mungkin masih lebih sesuai

Penggunaan perbualan ringan: GPT-5.3 Instant kekal dioptimumkan untuk aliran perbualan yang pantas dan menjimatkan; organisasi yang mencari latensi/kos paling kecil untuk interaksi chat pendek mungkin menggemarinya.
Kestabilan metrik keselamatan: beberapa skor penilaian kesihatan dan “hard” menunjukkan sedikit penurunan untuk 5.4 berbanding 5.2 dalam petikan OpenAI; perusahaan dalam domain sensitif terkawal harus mengesahkan model pada suite penilaian mereka sendiri sebelum pelaksanaan penuh.

Kes penggunaan dan implikasi industri

Gabungan penaakulan mendalam, ingatan konteks panjang, dan penggunaan alat dalam GPT-5.4 membuka beberapa peluang praktikal dan strategik.

1. Perkhidmatan profesional dan perundingan

Firma yang menghasilkan hasil kerja panjang (cth., hujah perundangan, laporan perundingan berbilang bab, pek ketekunan wajar M&A) boleh mengekalkan keseluruhan dokumen dan set data dalam konteks, membolehkan sintesis merentas dokumen yang koheren, QA automatik, dan penjanaan ringkasan eksekutif tanpa sambungan cebisan manual. Kemenangan penanda aras pada APEX-Agents sejajar dengan kedudukan ini.

2. Kejuruteraan perisian dan penaakulan pangkalan kod

Konteks lebih panjang bermaksud satu panggilan model boleh merangkumi keseluruhan repositori atau jejak log panjang. Penambahbaikan penanda aras SWE GPT-5.4 menunjukkan prestasi lebih baik untuk nyahpepijat, penstrukturan semula, dan aliran kerja semakan kod — terutamanya apabila digandingkan dengan Pro untuk beban berterusan.

3. Agen autonomi dan automasi perusahaan

Sistem agen yang beroperasi di atas alat (hamparan, sistem tiket, antara muka web) mendapat manfaat daripada pemilihan alat yang dipertingkat, overhed token yang dikurangkan untuk aliran kerja agen, dan pemeliharaan keadaan jangka panjang yang lebih baik. Ini menjadikan GPT-5.4 menarik untuk saluran automasi perusahaan dan “pembantu yang bertindak” merentas pelbagai sistem.

Intinya — apa yang GPT-5.4 ubah

GPT-5.4 mewakili kemajuan pragmatik dan didorong keupayaan ke arah model yang boleh menangani penaakulan panjang dan berbilang dokumen, melaksanakan aliran kerja berasaskan agen dengan kebolehpercayaan lebih tinggi, dan boleh diskalakan ke dalam talian paip profesional melalui kontrak Pro. Bagi organisasi yang aliran kerjanya berjangka panjang dan bergantung pada alat, GPT-5.4 ialah lonjakan dalam potensi produktiviti

Pembangun boleh mengakses GPT-5.4, GPT-5.4-pro, dan GPT 5.3 Chat melalui CometAPI sekarang. Untuk bermula, terokai keupayaan model dalam Playground dan rujuk API guide untuk arahan terperinci. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda mengintegrasi.

Sedia untuk bermula?→ Daftar GPT-5.4 hari ini !

Jika anda ingin mengetahui lebih banyak tip, panduan dan berita tentang AI, ikuti kami di VK, X dan Discord!