OpenAI Merilis Seri GPT-5.4: apa yang berubah di GPT-5.4

Rilis terbaru OpenAI, GPT-5.4, hadir sebagai keluarga model bertarget “pekerjaan profesional” dengan dua varian utama — GPT-5.4 Thinking dan GPT-5.4 Pro — serta penekanan besar pada pekerjaan dokumen berkonteks panjang, kapabilitas penggunaan komputer native (agen), dan peningkatan kefaktualan serta kinerja tugas di alur kerja perkantoran, legal, dan keuangan. Rilis ini mengikuti pembaruan sebelumnya di lini GPT-5 (terutama GPT-5.3 Instant dan GPT-5.3-Codex) dan menghadirkan peningkatan terukur pada tolok ukur internal dan publik, integrasi alat yang lebih dalam (termasuk plug-in ChatGPT untuk Excel), serta dukungan konteks yang lebih besar (mengutip hingga 1 juta token).

Kini CometAPI mendukung GPT-5.4 dan GPT-5.4 Pro, dan menawarkannya dengan diskon.

Apa itu GPT-5.4?

Posisi dan varian

GPT-5.4 dihadirkan oleh OpenAI sebagai model paling mumpuni di seri GPT-5 yang disetel untuk alur kerja profesional, padat dokumen, dan agentic. Model ini ditawarkan dalam setidaknya dua varian yang telah dipublikasikan:

GPT-5.4 Thinking — varian berfokus pada penalaran yang menampilkan lebih banyak proses berpikir model dan dioptimalkan untuk penalaran multi-langkah serta tugas-tugas agentic (tersedia di ChatGPT sebagai mode “Thinking”).
GPT-5.4 Pro — tier inferensi prioritas/komputasi lebih tinggi untuk beban kerja perusahaan ber-throughput tinggi atau sensitif terhadap latensi, dengan harga API lebih tinggi (mencerminkan komputasi tambahan).

OpenAI menyoroti kapabilitas penggunaan komputer native GPT-5.4 — memungkinkan model mengoperasikan perangkat lunak melalui aksi mouse/keyboard terprogram dan mengorkestrasi rangkaian multi-alat — yang diposisikan sebagai lompatan bagi pembangunan agen yang benar-benar menyelesaikan tugas.

Kemampuan baru dan yang ditegaskan

Dukungan konteks panjang: GPT-5.4 dilaporkan mendukung konteks yang sangat besar (mendukung hingga 1,000,000 token dalam konteks ChatGPT dan Codex), memungkinkan model menyimpan proyek raksasa, buku, basis kode, atau dataset “di memori” selama sesi. Ini transformasional untuk telaah dokumen, kontrak legal, dan proyek engineering multi-berkas.
Penggunaan komputer/keagenan native: GPT-5.4 adalah model tujuan umum pertama dari OpenAI dengan kapabilitas penggunaan komputer native — dapat menghasilkan rangkaian aksi UI dan kode untuk mengoperasikan perangkat lunak (misalnya melalui Playwright atau dengan menerbitkan perintah mouse/keyboard berdasarkan tangkapan layar). Kapabilitas ini dirancang agar pengembang dapat membangun agen yang menuntaskan tugas di aplikasi web dan desktop.
Peningkatan keterampilan perkantoran: Penekanan signifikan pada spreadsheet, presentasi, dan dokumen — dengan tolok ukur internal menunjukkan lompatan besar dalam pemodelan spreadsheet, estetika presentasi, dan kualitas penyusunan dokumen.
Kefaktualan dan pengurangan halusinasi: OpenAI melaporkan penurunan kesalahan faktual dibanding model sebelumnya pada set evaluasi terkurasi internal (lihat tolok ukur di bawah).

Dibandingkan model sebelumnya seperti GPT-5.2 Thinking dan GPT-5.3 Codex, GPT-5.4 melebur kapabilitas ini ke satu model yang dirancang untuk menangani tugas jangka panjang dan alur kerja kompleks dengan intervensi pengguna minimal.

Fitur kunci dan sorotan teknis GPT-5.4

1) Jendela konteks masif (hingga 1,000,000 token)

Kemampuan paling terlihat segera adalah dukungan untuk jendela konteks hingga 1,000,000 token melalui API. Ini memperluas apa yang dapat disimpan satu sesi model: seluruh buku, basis kode panjang, atau keseluruhan dossier multi-dokumen tanpa pemecahan ke banyak panggilan. Untuk alur kerja enterprise yang padat pengetahuan (legal discovery, sintesis riset, analisis kode skala besar), kemampuan mempertahankan konteks sejuta token mengurangi “lem” rekayasa dan meningkatkan koherensi.

Implikasi: alur kerja yang sebelumnya memerlukan orkestrasi (retrieval, chunking, memori eksternal) kini dapat menyimpan lebih banyak konteks mentah dalam memori kerja model — menyederhanakan pipeline dan menurunkan trade-off latensi/konsistensi.

2. Penggunaan komputer dan alat native

OpenAI menyoroti kemampuan lebih kuat untuk mengoperasikan alat dan konektor perangkat lunak (misalnya spreadsheet, editor dokumen, lingkungan eksekusi kode) secara lebih andal dibanding model sebelumnya. GPT-5.4 memperluas pekerjaan “penggunaan alat” sebelumnya dengan:

Pemilihan alat dan parameterisasi alat yang lebih baik.
Perencanaan rangkaian yang lebih andal saat memanggil API eksternal atau menapaki aksi mirip UI.
Pengurangan overhead token untuk alur kerja agentic melalui arsitektur pemanggilan alat yang lebih cerdas.

Kapabilitas agentic dan pengembang:

Otomasi desktop dan web: Dengan dukungan eksplisit untuk menerbitkan aksi mouse dan keyboard berdasarkan observasi tangkapan layar, GPT-5.4 dapat ditanamkan pada agen yang mengoperasikan alur kerja perangkat lunak nyata (misalnya mengisi formulir, menavigasi dasbor, atau menjalankan prosedur multi-langkah). OpenAI melaporkan hasil terbaik pada tolok ukur gaya OS.
Antarmuka tooling dan kemampuan pengarahan: GPT-5.4 lebih mudah diarahkan melalui pesan pengembang dan lebih baik memutuskan kapan dan bagaimana memanggil alat, konektor, serta API eksternal — kemampuan krusial untuk membangun agen multi-alat yang andal dan meminimalkan aksi yang tidak perlu atau berisiko.

Dampak praktis: Tugas otomasi (misalnya “buka spreadsheet ini, hitung pivot ini, buat catatan slide”) memerlukan lebih sedikit siklus gagal/coba ulang dan pengawasan manusia yang lebih rendah.

3) Lima tingkat upaya penalaran, mode ekstrem

OpenAI menunjukkan beberapa tingkat upaya penalaran — memungkinkan pengguna menukar latensi/biaya demi perhitungan rantai-penalaran internal yang lebih dalam (mode yang kadang disebut tidak resmi sebagai xhigh atau penalaran ekstrem). Ini ditujukan untuk masalah di mana perenungan internal lebih dalam secara material meningkatkan kebenaran (pembuktian kompleks, transformasi kode panjang, analisis finansial multi-langkah). Logika penetapan harga dan penagihan API mencerminkan pekerjaan model tambahan yang dilakukan dalam mode ini.

Dampak praktis: Pemisahan ini memungkinkan pelanggan memilih trade-off yang sesuai dengan beban kerja mereka alih-alih meminta satu model menjadi “segalanya.”

4) Produktivitas dan pembuatan konten

Pemodelan spreadsheet: GPT-5.4 menunjukkan peningkatan kuat pada tugas spreadsheet yang mungkin digunakan dalam audit, keuangan, dan alur kerja analisis. OpenAI melaporkan skor rata-rata 87.3% pada tugas gaya “pemodelan investment banking” internal untuk GPT-5.4 vs. 68.4% untuk GPT-5.2. Ini lompatan dramatis pada akurasi tingkat tugas untuk pemodelan numerik dan konstruksi formula.
Presentasi dan keluaran visual: Penilai manusia lebih memilih presentasi yang dihasilkan GPT-5.4 sebesar 68.0% dibanding GPT-5.2 karena estetika yang lebih baik, variasi, dan integrasi dengan pembuatan gambar. Ini mencerminkan perbaikan bentuk dan isi dalam memproduksi slide deck.
Perancangan dokumen dan penulisan panjang: GPT-5.4 dioptimalkan untuk mempertahankan konsistensi di dokumen panjang, perilaku sitasi yang lebih baik, dan lebih sedikit kontradiksi internal saat menangani konteks besar, berkat jendela konteks yang diperluas dan penyetelan penalaran khusus.

5) Keamanan, mitigasi, dan pertimbangan siber

Pengurangan halusinasi: OpenAI melaporkan bahwa pada sekumpulan prompt yang dianonimkan di mana pengguna menandai kesalahan faktual, klaim individual dari GPT-5.4 33% lebih kecil kemungkinannya salah, dan respons penuh 18% lebih kecil kemungkinannya mengandung kesalahan dibanding GPT-5.2 — metrik kunci untuk adopsi enterprise di mana akurasi faktual penting.
Mitigasi keamanan siber (varian Thinking): GPT-5.4 Thinking menyoroti rangkaian mitigasi yang diperluas untuk risiko siber, membangun proteksi yang digunakan pada model Codex/5.3 sebelumnya. GPT-5.4 Thinking dirancang dengan pagar pembatas tambahan untuk skenario penyalahgunaan berkapabilitas tinggi.

Tolok ukur kinerja — apa kata angkanya

OpenAI dan beberapa outlet menerbitkan hasil tolok ukur awal sebagai bagian dari peluncuran. Karena tolok ukur berbeda menguji kapabilitas berbeda (navigasi web vs. pengetahuan domain vs. keamanan), ada baiknya mengumpulkan angka utama dan maknanya.

OpenAI Merilis Seri GPT-5.4: apa yang berubah di GPT-5.4

Hasil yang dilaporkan menunjukkan peningkatan mencolok vs. anggota keluarga GPT-5.x sebelumnya dan persaingan ketat dengan model papan atas lainnya.

Tolok ukur interaksi web dan desktop

WebArena-Verified (tes penggunaan browser): GPT-5.4 mencapai 67.3% keberhasilan saat menggunakan sinyal DOM dan tangkapan layar, dibanding 65.4% milik GPT-5.2 — peningkatan terlihat meski tidak besar. Ini mengukur tugas di mana model harus berinteraksi dengan halaman live dan elemen UI.
Online-Mind2Web (tugas browser berbasis tangkapan layar): GPT-5.4 mencapai 92.8% keberhasilan hanya dengan observasi tangkapan layar — peningkatan sangat kuat relatif terhadap baseline gaya agen sebelumnya (OpenAI membandingkan ini dengan kinerja Agent Mode milik ChatGPT Atlas).
OSWorld-Verified (navigasi desktop): pelaporan independen menunjukkan GPT-5.4 mencetak 75.0% pada tolok ukur yang menilai navigasi lingkungan desktop dan penyelesaian tugas. Hasil itu menempatkan 5.4 di depan banyak baseline publik untuk tugas otomasi end-to-end.

Kesimpulan: Peningkatan 5.4 paling terasa di area yang menuntut pemahaman konteks visual, affordance UI, dan rangkaian aksi panjang — yakni alur kerja agentic.

Tolok ukur kesehatan, keamanan, dan pengetahuan

Pelaporan keamanan penempatan OpenAI menunjukkan sinyal campuran:

HealthBench: GPT-5.4 mencetak 62.6% pada HealthBench (sedikit turun dari 63.3% milik GPT-5.2), menunjukkan trade-off halus antara kapabilitas dan metrik evaluasi terkait kesehatan tertentu dalam snapshot yang dilaporkan OpenAI.
Hard: GPT-5.4 mencetak 40.1% pada suite evaluasi “Hard” (sedikit turun dari 42.0%).
Consensus: GPT-5.4 membukukan 96.6% pada “Consensus,” metrik yang merefleksikan kesesuaian dengan jawaban konsensus terkurasi (naik sekitar ~2.1 poin).

OpenAI juga mencatat perubahan panjang respons rata-rata pada evaluasi kesehatan (GPT-5.4 rata-rata ~3,311 karakter vs. 2,676 untuk GPT-5.2), yang dapat memengaruhi cara model membingkai topik sensitif.

Interpretasi: Metrik keamanan dan kesehatan menunjukkan bahwa 5.4 secara keseluruhan meningkatkan keselarasan terhadap konsensus dan mengubah verbositas jawaban, meski beberapa skor kesehatan yang sempit sedikit menurun. Pola itu sering mencerminkan penyeimbangan ulang objektif model — jawaban yang lebih tegas dan panjang dapat membantu utilitas dan konsensus sambil membutuhkan pemantauan hati-hati di domain sensitif.

Contoh dan klaim spesifik domain

Tes awal menyediakan klaim konkret dan terdoman (OpenAI dan sumber pihak ketiga):

Tolok ukur penalaran legal (BigLaw Bench) — GPT-5.4 mencapai ~91% pada irisan penalaran legal dalam tes awal, sinyal kuat untuk tugas analisis dokumen; catatan: ini angka awal, belum ditelaah sejawat.
Pengurangan halusinasi: Respons GPT-5.4 ~33% lebih kecil kemungkinannya mengandung klaim salah dan ~18% lebih kecil kemungkinannya mengandung kesalahan faktual dibanding baseline tertentu sebelumnya. Persentase ini disorot dalam pelaporan sekunder dan komunikasi perusahaan; seperti klaim serupa, ini bergantung pada suite tolok ukur dan metodologi sampling.

Cara mendapatkan dan membayar GPT-5.4

Tingkatan ChatGPT dan akses enterprise

Menurut OpenAI dan pelaporan produk:

Pengguna ChatGPT Plus / Team / Pro adalah kelompok pertama yang menerima GPT-5.4 Thinking di produk. Administrator Enterprise dan Education dapat mengaktifkan akses awal melalui kontrol admin. Pengguna Free/Go tidak dijamin akses segera. Pengembang dapat memanggil endpoint gpt-5.4 dan gpt-5.4-pro melalui API.

Cuplikan harga API (harga pengembang yang dipublikasikan)

Harga pengembang OpenAI mencantumkan GPT-5.4 sebagai model frontier dengan biaya per token. Seperti dipublikasikan di halaman harga publik saat pengumuman, tarif contoh untuk GPT-5.4 kira-kira:

Model	Input	Cached input	Output
gpt-5.4 (<272K context length)	$2.50	$0.25	$15.00
gpt-5.4 (>272K context length)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K context length)	$30.00		$180.00
gpt-5.4-pro (>272K context length)	$60.00		$270.00

Di CometAPI (platform agregasi serba satu untuk API model besar):

Model	Comet Price (USD / M Tokens)	Official Price (USD / M Tokens)	Discount
gpt-5.4	Input:$2/M; Output:$16/M	Input:$2.5/M; Output:$20/M	-20%
gpt-5.4-pro	Input:$24/MOutput:$192/M	Input:$30/MOutput:$240/M	-20%

Karena itu, saya sangat merekomendasikan CometAPI, karena dapat sangat mengurangi biaya API.

Pertimbangan pengelolaan biaya

Jika Anda berencana menggunakan model dalam skala besar, khususnya pada pengaturan dokumen panjang atau throughput tinggi, pertimbangkan:

Caching dan deduplikasi input (untuk memanfaatkan harga input yang di-cache jika memungkinkan).
Prompt engineering untuk mengompresi konteks dan menghindari token redundan.
Strategi batching dan pascapemrosesan yang meminimalkan keluaran mahal.
Memantau penggunaan mode penalaran, karena mode penalaran lebih dalam dapat membawa biaya komputasi lebih tinggi.

Perbandingan: GPT-5.4 vs GPT-5.3

Di mana GPT-5.4 lebih baik daripada GPT-5.3

Kedalaman penalaran dan orkestrasi alat: 5.4 Thinking secara eksplisit disetel untuk mengungguli 5.3 pada penalaran multi-langkah dan use case agentic. Ini terlihat pada tolok ukur interaksi web/desktop dan metrik keberhasilan agen.
Kapasitas konteks: Penawaran 1M token pada 5.4 merupakan langkah teknis jelas melampaui apa yang disediakan 5.3 di ketersediaan API arus utama, memungkinkan kelas tugas satu-sesi baru.
Kenaikan kinerja domain: Angka awal OpenAI dan laporan pihak ketiga menunjukkan peningkatan pada tolok ukur legal dan dokumen tertentu, di mana konteks lebih panjang dan penyetelan khusus 5.4 membantu.

Kompromi dan kapan 5.3 mungkin masih lebih disukai

Percakapan ringan: GPT-5.3 Instant tetap dioptimalkan untuk arus percakapan cepat dan ekonomis; organisasi yang mencari latensi/biaya terkecil untuk interaksi chat pendek mungkin lebih menyukainya.
Stabilitas metrik keamanan: beberapa skor evaluasi kesehatan dan “hard” menunjukkan sedikit penurunan pada 5.4 dibanding 5.2 dalam snapshot OpenAI; enterprise di domain regulasi sensitif sebaiknya memvalidasi model pada suite evaluasi mereka sebelum peluncuran penuh.

Kasus penggunaan dan implikasi industri

Kombinasi penalaran mendalam, memori konteks panjang, dan penggunaan alat pada GPT-5.4 membuka sejumlah peluang praktis dan strategis.

1. Jasa profesional dan konsultasi

Firma yang memproduksi deliverable panjang (misalnya, legal brief, laporan konsultasi multi-bab, paket uji tuntas M&A) dapat menyimpan seluruh dokumen dan dataset dalam konteks, memungkinkan sintesis lintas dokumen yang koheren, QA otomatis, dan pembuatan ringkasan eksekutif tanpa penjahitan chunk manual. Kemenangan tolok ukur pada APEX-Agents selaras dengan positioning ini.

2. Rekayasa perangkat lunak dan penalaran basis kode

Konteks lebih panjang berarti satu panggilan model dapat memuat keseluruhan repositori atau rangkaian log panjang. Peningkatan tolok ukur SWE GPT-5.4 menunjukkan kinerja lebih baik untuk debugging, refactoring, dan alur kerja code review — terutama jika dipadukan dengan Pro untuk beban berkelanjutan.

3. Agen otonom dan otomasi enterprise

Sistem agentic yang beroperasi di atas alat (spreadsheet, sistem tiket, antarmuka web) mendapat manfaat dari pemilihan alat yang lebih baik di GPT-5.4, overhead token yang berkurang untuk alur kerja agen, dan pelestarian state jangka panjang yang lebih baik. Ini membuat GPT-5.4 menarik untuk pipeline otomasi enterprise dan “asisten yang bertindak” di berbagai sistem.

Intinya — apa yang diubah oleh GPT-5.4

GPT-5.4 merepresentasikan kemajuan yang pragmatis dan didorong kapabilitas menuju model yang dapat menangani penalaran panjang multi-dokumen, mengeksekusi alur kerja agentic dengan reliabilitas lebih besar, dan dapat diskalakan ke pipeline profesional melalui kontrak Pro. Bagi organisasi dengan alur kerja horizon panjang dan bergantung pada alat, GPT-5.4 adalah lompatan potensi produktivitas.

Pengembang dapat mengakses GPT-5.4, GPT-5.4-pro, dan GPT 5.3 Chat melalui CometAPI sekarang. Untuk memulai, jelajahi kapabilitas model di Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga jauh lebih rendah daripada harga resmi untuk membantu integrasi Anda.

Siap mulai?→ Daftar untuk GPT-5.4 hari ini !

Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X dan Discord!