OpenAI GPT-5.1 adalah pembaruan bertahap namun berfokus pada produk yang memperkenalkan dua varian rasa penggunaan (Instan dan Berpikir), caching prompt yang diperluas, dan alat pengembang baru; Anthropic Claude Soneta 4.5 adalah peningkatan yang ditargetkan untuk pengodean, alur kerja agen, dan tugas-tugas yang berjalan lama dan membutuhkan banyak alat. Keduanya mendorong kapabilitas agen dan meningkatkan keselamatan, tetapi keduanya memiliki pertimbangan yang berbeda dalam hal harga, ergonomi, dan bagaimana mereka mengekspos "berpikir" versus "melakukan".
Apa itu GPT-5.1 dan apa saja fitur utamanya?
GPT-5.1 adalah pembaruan OpenAI (dirilis November 2025) untuk lini GPT-5. OpenAI memasarkan 5.1 sebagai meningkatkan yang meningkatkan kehangatan percakapan dan kegunaan, dan memperkenalkan dua varian pengiriman: GPT-5.1 Instan (lebih hangat, lebih banyak percakapan, latensi lebih rendah) dan Berpikir GPT-5.1 (penalaran yang lebih panjang dan mendalam bila diperlukan). Pembaruan ini juga memperluas preset kepribadian ChatGPT dan memperkenalkan kontrol pengembang yang lebih baik seperti reasoning_effort kenop (termasuk yang baru 'none' pengaturan untuk beban kerja yang sensitif terhadap latensi).
GPT-5.1 — fitur rekayasa dan pengembang yang penting
- Penalaran adaptif/variabel: GPT-5.1 secara dinamis memvariasikan jumlah token yang "dihabiskan untuk berpikir" berdasarkan tingkat kesulitan tugas; kueri sederhana menghasilkan jawaban yang lebih cepat dengan token penalaran yang jauh lebih sedikit, sementara kueri kompleks mendapatkan lebih banyak pertimbangan internal. OpenAI melaporkan peningkatan kecepatan yang substansial pada separuh tugas ChatGPT representatif yang lebih mudah.
- Dua mode (Instan / Berpikir): Pengalihan otomatis dan kontrol pengembang memungkinkan pengalaman produk mengutamakan latensi rendah atau penalaran yang lebih mendalam.
- Alat pengembang baru:
apply_patchuntuk mengedit kode dengan andal danshellalat untuk menjalankan perintah shell dari jalur model (meningkatkan alur kerja agen dan otomatisasi terprogram). - Kemampuan kemudi / kepribadian: Prasetel yang diperluas (Profesional, Ramah, Jujur, Unik, dll.) dan pengaturan yang memungkinkan model mengubah nada dan kepribadian.
- Dukungan multimoda & integrasi alat: GPT-5.1 memiliki kecerdasan multimoda (teks, gambar, dan integrasi web/alat yang lebih kaya), serta pemanggilan alat dan pencarian web bawaan untuk pengembang.
Peningkatan pengembang/benchmark yang dilaporkan
OpenAI dan mitra awal melaporkan bahwa GPT-5.1 mengungguli GPT-5 pada berbagai rangkaian kode dan penalaran, dan berjalan 2–3 kali lebih cepat daripada GPT-5 dalam beberapa konteks yang membutuhkan banyak alat, sekaligus menggunakan lebih sedikit token untuk banyak tugas. Angka-angka tolok ukur representatif yang dipublikasikan menunjukkan peningkatan pada varian SWE-bench dan GPQA (rinciannya di bawah).
Apa itu Claude Sonnet 4.5 dan apa saja fitur utamanya?
Claude Sonnet 4.5 (dirilis 29 September 2025) adalah model perintis kelas Sonnet Anthropic. Anthropic memposisikan Sonnet 4.5 sebagai model paling mumpuni untuk pengkodean, tugas agen, dan “menggunakan komputer” — artinya dioptimalkan secara eksplisit untuk tindakan seperti mengedit berkas, menjalankan kode, berinteraksi dengan halaman web, spreadsheet, dan alur kerja agen multi-langkah yang panjang. Antropik menekankan peningkatan keselarasan (mengurangi penjilatan, penipuan, dll.) di samping persistensi jangka panjang yang lebih baik.
Claude Sonnet 4.5 — teknik dan fitur produk yang luar biasa
- Daya tahan agen / tugas jangka panjang: Soneta 4.5 dapat mempertahankan pekerjaan otonom berkelanjutan untuk lebih dari 30 jam pada tugas-tugas rekayasa yang realistis — sebuah lompatan besar dari model-model Opus sebelumnya yang mengelola waktu berjam-jam, alih-alih berhari-hari. Hal ini menjadi inti dari promosi "agen yang membangun perangkat lunak".
- Pengkodean & 'penggunaan komputer' terbaik di kelasnya: Sonnet 4.5 menunjukkan kinerja terbaik pada tolok ukur rekayasa perangkat lunak (skor tinggi SWE-bench) dan menambahkan fitur produk seperti Claude Code yang ditingkatkan dengan titik pemeriksaan, pembuatan file terintegrasi (spreadsheet, slide), dan fitur eksekusi kode.
- Penyelarasan dan keamanan: Laporan Antropik Soneta 4.5 adalah “model perbatasan yang paling selaras”, dengan prosedur pelatihan dan pengklasifikasi keselamatan internal yang ditujukan untuk mengurangi perilaku bermasalah dan mencegah penyalahgunaan (klasifikasi ASL-3 untuk kategori sensitif dirujuk).
- Pemahaman multimodal dan dokumen: Claude mendukung input teks dan gambar, ekstraksi yang lebih baik dari dokumen yang banyak mengandung gambar (uji coba awal Box menunjukkan peningkatan akurasi ekstraksi gambar), dan API melalui Anthropic, AWS Bedrock, dan Vertex AI. Dukungan audio/video kurang ditekankan secara publik dibandingkan klaim multimoda OpenAI yang lebih luas, meskipun Anthropic terus memperluas modalitasnya.
Bagaimana arsitektur dan kemampuan mereka berbeda?
Arsitektur dan gaya inferensi (tingkat tinggi)
- OpenAI / GPT-5.1: Dibangun sebagai sistem penalaran hibrida yang menyesuaikan upaya penalaran per permintaanOpenAI menggambarkan model tersebut sebagai model yang mampu memperdagangkan latensi, konsumsi token, dan keandalan melalui
reasoning_effortGPT-5.1 terintegrasi erat dengan fitur-fitur platform OpenAI (UI ChatGPT, API, pencarian web, pemanggilan alat) dan memperkenalkan alat-alat khusus untuk alur kerja pengembang (apply_patch, shell). Hal ini menunjukkan desain yang mengoptimalkan UX interaktif dan agen terprogram. - Antropik / Claude Soneta 4.5: Direkayasa sebagai model yang berpusat pada agen dengan penekanan eksplisit pada "penggunaan komputer" dan alur kerja stateful yang berjalan lama. Daya tahan Sonnet (30 jam) dan fitur-fitur seperti titik pemeriksaan dan eksekusi kode menunjukkan arsitektur dan pelatihan yang mengutamakan manajemen konteks persisten, orkestrasi alat yang andal, dan kemampuan pengeditan kode yang kuat. Rekayasa Anthropic yang mengutamakan keselamatan (misalnya, pengklasifikasi, penyetelan penyelarasan) terintegrasi ke dalam perilaku model.
Perkakas, orkestrasi agen, dan kontrol lingkungan
- GPT-5.1 Menyediakan kontrol pengembang kelas satu untuk kompromi penalaran/latensi dan alat baru untuk mengedit kode dan menjalankan perintah shell; ditambah anggaran "berpikir" yang ditingkatkan, pengodean target, dan alur kerja agen. Ekosistem produk OpenAI (ChatGPT, mode agen peramban Atlas baru, kemitraan dengan Microsoft) menjadikannya integrator yang andal untuk aplikasi yang membutuhkan banyak alat.
- Claude Soneta 4.5 secara eksplisit ditagih sebagai yang terbaik di kelasnya untuk pengkodean dan konstruksi agen; dioptimalkan untuk mengoperasikan alat dan lingkungan kontrol—peningkatan Claude Agent SDK dan Claude Code (titik pemeriksaan, pembuatan file, eksekusi kode) mencerminkan fokus pada otomatisasi multi-langkah yang andal dan persistensi yang aman.
Jendela konteks, memori, dan penanganan sesi
- Keluarga GPT (OpenAI): GPT-5/5.1 mendukung jendela konteks token 400K—khususnya 272K token input dan 128K token output; penanganan input/output dan konteks ter-cache gabungan yang dapat meningkatkan durasi sesi efektif. GPT-5.1 menambahkan cache prompt yang diperluas (hingga 24 jam) untuk meningkatkan kinerja tindak lanjut.
- Claude Soneta 4.5 (Antropik): Claude Sonnet 4.5 menggunakan jendela konteks 200,000 unit leksikal (dapat diperluas hingga 1 juta unit leksikal untuk aplikasi tertentu) untuk memproses masukan dan mempertahankan status dialog dalam batasan ini, tetapi Sonnet 4.5 dapat mempertahankan proses otonom yang diperpanjang (hingga 3 jam) dan mempertahankan status internal yang lebih baik di seluruh file/sesi.
Pendekatan keselamatan dan penyelarasan
Kedua perusahaan terus menerapkan penyelarasan dalam pelatihan dan penerapan. Antropik sangat bergantung pada kerangka kerja konstitusional dan tim merah, serta menekankan pengurangan perilaku menjilat atau menipu di Sonnet 4.5; OpenAI menekankan kepatuhan terhadap instruksi, pengurangan halusinasi, dan kontrol kepribadian/preset yang dapat dikonfigurasi di Sonnet 5.1.
Intinya: GPT-5.1 mengoptimalkan ergonomi produk dan alur pengembang; Sonnet 4.5 mengoptimalkan keandalan agensi, kualitas pengkodean, dan penggunaan alat yang berkelanjutan. Arsitektur yang mendasarinya bersifat hak milik dan serupa dalam hal penyetelan instruksi Transformer + tingkat tinggi, tetapi pilihan desain dan integrasinya berbeda.
Tolok ukur publik membandingkan
catatan: metodologi benchmark bervariasi; hasil “menggunakan alat” vs “tanpa alat” berbeda
Snapshot tolok ukur (angka representatif)
| Kategori Tolok Ukur | GPT-5 | Claude Soneta 4.5 | Pemenang |
|---|---|---|---|
| Pengkodean (Terverifikasi SWE-bench) | 74.9% | 77.2% (82.0% paralel) | Claude |
| Matematika (AIME 2025) | 94.6% | 100% (dengan Python) | Claude |
| Multimoda (MMMU) | 84.2% | 77.8% | GPT-5 |
| Pengetahuan Umum (MMLU) | 84% (perkiraan) | 89.1% | Claude |
| Penalaran Ilmiah (GPQA) | 78% (perkiraan) | 83.4% | Claude |
| Diagnosis Medis (HealthBench) | 46.2% | N / A | GPT-5 |
| Penggunaan Komputer (OSWorld) | <40% (perkiraan) | 61.4% | Claude |
| Pembuatan Kode (HumanEval) | 92.3% | ~90% (perkiraan) | GPT-5 |
| Pemanggilan Fungsi (BFCL) | 94.7% | ~88% (perkiraan) | GPT-5 |
Hasil kualitatif dunia nyata
- Metrik khusus tugas (agentik/horizon panjang): Sonnet 4.5 menyoroti peningkatan yang sangat besar untuk tugas-tugas agensi yang berjalan lama (kemampuan untuk mempertahankan alur kerja multi-jam atau skala harian). Antropik dan para reporter menyebutkan Sonnet mempertahankan sekitar 30 jam operasi otonom; GPT-5.1 menekankan latensi tugas kecil yang lebih cepat dan efisiensi token untuk tugas-tugas percakapan dan pemanggilan alat. Ini adalah sumbu yang berbeda (ketahanan vs latensi interaktif).
- Pengkodean dan pengeditan kode: Sonnet mengklaim tingkat kesalahan nol pada tolok ukur suntingan internal tertentu yang sebelumnya memiliki kesalahan ~9%; GPT-5.1 melaporkan peningkatan dan alat baru (apply_patch) Kedua vendor sangat berfokus pada keandalan pengkodean siklus ini.
- Perbedaan mode: Banyak angka benchmark bergantung pada apakah akses alat (lingkungan eksekusi, alat Python) diizinkan selama evaluasi. Performa dengan alat bisa sangat berbeda. OpenAI/GPT-5.1 secara eksplisit mendokumentasikan pengaturan "reasoning_effort" yang mengubah perilaku; Anthropic mendokumentasikan mode hibrida (pemikiran hampir instan vs. pemikiran luas) untuk keluarga Soneta/Haiku/Opus-nya.
Hal praktis yang bisa diambil: Jika beban kerja Anda berat kode terstruktur, dapat diuji, dan eksekusi agen otonomSoneta 4.5 menunjukkan keunggulan yang terukur. Jika Anda membutuhkan fitur obrolan serbaguna yang luas dan iterabilitas pengembang yang cepat, GPT-5.1 berfokus pada ruang produk tersebut.
Bagaimana kemampuan multimodanya dibandingkan?
GPT-5.1: multimodalitas luas + integrasi alat
Keluarga GPT-5 OpenAI (dan GPT-5.1) mendukung teks + visi + audio + video masukan dalam alur kerja ChatGPT, dan terus memperluas fitur audio dan penelusuran/agen dalam produk ChatGPT (misalnya, mode peramban Atlas + agen). Desain GPT-5.1 sengaja memadukan pemahaman multimoda dengan pemanggilan alat (pencarian web, pemanggilan fungsi), yang ideal untuk asisten interaktif yang harus menggabungkan penglihatan, teks, dan pengetahuan eksternal.
Claude Sonnet 4.5: visi matang + ekstraksi dokumen; agen untuk “penggunaan komputer”
Sonnet 4.5 mendukung input teks dan gambar serta berkinerja tinggi dalam ekstraksi dokumen yang banyak mengandung gambar (Box melaporkan akurasi ~80% vs 67% untuk Sonnet sebelumnya). Sudut pandang unik Sonnet 4.5 terletak pada bagaimana input multimoda tersebut digunakan dalam sesi agen yang panjang (misalnya, memeriksa tangkapan layar, menjalankan perintah, menghasilkan kode, dan melakukan iterasi).
Perbedaan praktis
- Jika alur kerja Anda memerlukan pemahaman audio/video yang luas dan segera ditambah penelusuran web dan obrolan multimodal → Penempatan produk dan integrasi GPT-5.1 (ChatGPT Atlas/agen peramban, pencarian web) menjadikannya pilihan yang ampuh.
- Jika alur kerja Anda berfokus pada kode, otomatisasi dokumen, dan sesi agensi panjang yang berinteraksi dengan file dan UI → Claude Sonnet 4.5 dirancang khusus untuk beban kerja "penggunaan komputer" dan saat ini mengiklankan ketahanan orkestrasi alat jangka panjang yang lebih kuat.
Berapa biaya API GPT-5.1 dan API Claude Sonnet 4.5?
| Pilih Model | Harga input (per 1 juta token) | Harga keluaran (per 1 juta token) | Catatan / harga cache |
|---|---|---|---|
| OpenAI GPT-5.1 | Rp 1.25 / 1 juta | Rp 10.00 / 1 juta | OpenAI mencantumkan pengurangan masukan yang di-cache dan versi mini/nano yang terpisah. |
| Antropik Claude Soneta 4.5 | Rp 3 / 1 juta | Rp 15 / 1 juta | Tabel harga Anthropic mencakup tingkatan caching (misalnya, input yang di-cache lebih murah), dan Sonnet adalah SKU perbatasan dengan biaya lebih tinggi; Haiku (lebih murah) ada untuk beban kerja yang sensitif terhadap biaya. |
Interpretasi: Pada harga daftar, GPT-5.1 jauh lebih murah per token untuk input dan output daripada Sonnet 4.5 (kira-kira ~2–3× lebih murah pada output berdasarkan harga daftar), tetapi biaya sebenarnya bergantung pada caching, batching, dan berapa banyak token yang digunakan model (OpenAI mengklaim GPT-5.1 menggunakan lebih sedikit token pada banyak kueri sederhana).
API Komet menyediakan akses ke keduanya GPT-5.1 API dan Claude Soneta 4.5 API, dan harga API-nya 20% dari harga resmi. Anda dapat menggunakan kedua model di CometAPI tanpa mengubah vendor Anda.
Panduan pemilihan biaya
- Jika biaya per token mentah adalah faktor utama, GPT-5.1 lebih murah pada tarif daftar. Jika beban kerja Anda efisien token (sedikit token per panggilan) dan sensitif terhadap latensi, GPT-5.1
reasoning_effortopsi dapat lebih mengurangi tagihan dengan menghabiskan lebih sedikit token internal pada pertanyaan mudah. - Jika beban kerja Anda memerlukan menjalankan sesi agen yang diperpanjang yang melakukan banyak perubahan status internal, pengeditan file, atau proses jangka panjang yang sulit di-cache, Claude Soneta 4.5 dapat memberikan nilai penyelesaian tugas yang lebih baik meskipun harga per token lebih tinggi karena dioptimalkan untuk pekerjaan multi-langkah yang panjang dan peningkatan produktivitas pengembang
Model mana yang harus Anda pilih untuk kasus penggunaan tertentu?
Kasus penggunaan: chatbot interaktif, dukungan pelanggan, konkurensi tinggi, latensi rendah
Rekomendasi: GPT-5.1.
Mengapa: Latensi GPT-5.1 Instant yang lebih rendah, efisiensi token pada tugas-tugas sederhana, dan kemampuan kendali (preset kepribadian) menjadikannya pilihan yang tepat untuk chatbot bervolume tinggi dan pengalaman pelanggan yang mengutamakan latensi dan biaya per permintaan. OpenAI reasoning_effort='none' Opsi ini dirancang khusus untuk beban kerja yang sensitif terhadap latensi.
Kasus penggunaan: produktivitas pengembang, pengeditan kode, otomatisasi agen jangka panjang (CI, infrastruktur, alur kerja panjang)
Rekomendasi: Claude Soneta 4.5.
Mengapa: Rekayasa eksplisit Sonnet untuk "penggunaan komputer", titik pemeriksaan dalam Kode Claude, dan operasi otonom yang telah terbukti berjalan lama (~30 jam) membuatnya cocok untuk tugas rekayasa berkelanjutan dan otomatisasi agensi yang harus menjaga konteks selama banyak langkah dan jam.
Kasus penggunaan: ekstraksi dokumen multimodal / alur kerja yang banyak mengandung gambar
Rekomendasi: Keduanya kompetitif — pilih berdasarkan lingkungan.
Mengapa: Kedua vendor mendukung alur kerja multimoda. Sonnet telah menunjukkan peningkatan yang signifikan dalam mengekstraksi data terstruktur dari gambar/dokumen; GPT-5.1 menekankan integrasi multimoda + alat yang lebih luas dan penelusuran web. Jika alur kerja Anda mencakup pencarian web + obrolan multimoda, GPT-5.1 mungkin lebih mudah; jika alur kerja Anda mencakup otomatisasi berkas dan manipulasi spreadsheet yang berat, Sonnet mungkin lebih unggul.
Kesimpulan — “Mana yang lebih baik?”
Tidak ada jawaban tunggal. Claude Soneta 4.5 terlihat seperti pemimpin yang praktis ketika kebutuhan utama Anda adalah pekerjaan yang otonom, berjangka panjang, dan berpusat pada kode (agen yang menggunakan berkas, mengeksekusi, menguji, dan mengulangi). GPT-5.1 adalah peningkatan keluarga GPT yang lebih produktif dan dipoles secara percakapan dengan ergonomi pengembang (caching yang diperluas, alat-alat baru), menjadikannya ideal untuk asisten percakapan yang luas dan alur kerja pengembang yang cepat. Untuk setiap keputusan produksi, jalankan uji coba singkat yang representatif dan modelkan biaya secara menyeluruh — kedua arsitekturnya kuat, tetapi pilihan yang tepat bergantung pada apakah Anda memprioritaskan perkakas agen + keandalan (Sonnet) atau integrasi UX percakapan + ekosistem (GPT-5.1).
Mengenai pertanyaan—— GPT-5.1 vs Claude Sonnet 4.5: mana yang lebih baik— jika Anda ingin menemukan jawabannya sendiri, kunjungi API GPT-5.1 dan Claude Soneta 4.5 API melalui CometAPI, versi model terbaru selalu diperbarui dengan situs web resmi. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.
Siap untuk berangkat?→ Daftar ke CometAPI hari ini !
Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X dan Discord!



