Gemini 3 Pro vs Claude 4.5 Sonnet untuk Coding: Mana yang Lebih Baik pada 2025

Baik Gemini 3 Pro (Google/DeepMind) maupun Claude Sonnet 4.5 (Anthropic) adalah model flagship era 2025 yang dioptimalkan untuk alur kerja agentik, jangka panjang, dan menggunakan alat — dan keduanya sangat menekankan pada pengodean. Klaim keunggulannya berbeda: Google memasarkan Gemini 3 Pro sebagai penalar multimodal serbaguna yang juga unggul dalam pengodean agentik, sementara Anthropic memposisikan Sonnet 4.5 sebagai model coding/agen terbaik di dunia dengan keberhasilan edit/alat yang sangat kuat dan agen yang berjalan lama.

Jawaban singkat di awal: keduanya adalah model papan atas untuk tugas rekayasa perangkat lunak di akhir 2025. Claude Sonnet 4.5 sedikit unggul pada beberapa metrik tolok ukur rekayasa perangkat lunak murni, sementara Gemini 3 Pro (Preview) dari Google adalah mesin multimodal, agentik yang lebih luas—terutama saat Anda peduli pada konteks visual, penggunaan alat, pekerjaan berkonteks panjang, dan alur kerja agen yang mendalam.

Saya saat ini menggunakan kedua model tersebut, dan masing-masing memiliki keunggulan berbeda di lingkungan pengembangan. Saya akan membandingkannya dalam artikel ini.

Gemini 3 Pro hanya tersedia bagi pelanggan Google AI Ultra dan pengguna berbayar Gemini API. Namun, kabar baiknya adalah CometAPI, sebagai platform AI serba ada, telah mengintegrasikan Gemini 3 Pro, dan Anda bisa mencobanya secara gratis.

Apa itu Gemini 3 Pro Preview dan apa fitur utamanya?

Ikhtisar

Gemini 3 Pro (tersedia awalnya sebagai gemini-3-pro-preview) adalah LLM “frontier” terbaru dari Google/DeepMind dalam keluarga Gemini 3. Model ini diposisikan sebagai model berpenalaran tinggi dan multimodal yang dioptimalkan untuk alur kerja agentik (yakni, model yang dapat menggunakan alat, mengorkestrasi subagen, dan berinteraksi dengan sumber eksternal). Model ini menekankan penalaran yang lebih kuat, multimodalitas (gambar, bingkai video, PDF), dan kontrol API eksplisit untuk kedalaman “pemikiran” internal.

Poin fitur utama (untuk pengembang)

Agentic tool use: pemanggilan fungsi dan alat bawaan (eksekusi kode, web grounding, konteks file & URL, penggunaan terminal/alat).
Dukungan “Thinking” / Chain-of-Thought: primitif “thinking” untuk perencanaan multi-langkah dan tanda tangan pemikiran internal agar penalaran multi-langkah lebih eksplisit.
Input/output multimodal: teks, gambar, audio, video, dan output terstruktur dengan penanganan konteks panjang.
Alat eksekusi kode & integrasi IDE: alat eksekusi kode terkelola (hosted) dan integrasi ke IDE serta Google Antigravity, IDE agentik baru untuk pengodean otonom kolaboratif. Antigravity saat ini pratinjau publik.
Kontrol thinking tingkat tinggi/lanjutan (parameter thinking_level) sehingga Anda bisa menukar latensi dengan penalaran internal yang lebih dalam. high adalah default untuk Gemini 3 Pro.
Kontrol multimodal granular (media_resolution) untuk menyetel fidelitas gambar/video vs biaya — berguna ketika Anda ingin model membaca teks kecil di tangkapan layar atau menganalisis bingkai.

Di mana Gemini 3 Pro unggul untuk pengodean

Pengembangan agentik: mengorkestrasi tugas multi-langkah di editor/terminal/peramban. Sistem artefak Antigravity + alat Gemini membuatnya sangat baik untuk pekerjaan fitur yang lebih besar dan otomasi.
Kombinasi visual + kode: memperbaiki bug UI dari tangkapan layar, membuat harness uji UI, atau mengonversi desain gambar menjadi kode berkat pemahaman gambar-ke-kode yang kuat.

Apa itu Claude Sonnet 4.5 dan apa fitur utamanya?

Claude Sonnet 4.5 adalah rilis Anthropic tahun 2025 yang dipasarkan Anthropic sebagai model terkuatnya untuk pengodean, alur kerja agentik dan “menggunakan komputer” (mengendalikan alat, peramban, terminal, spreadsheet, dsb.). Model ini menekankan peningkatan kemampuan edit, keberhasilan alat, thinking yang diperluas, koherensi agen yang berjalan lama (30+ jam eksekusi tugas otonom dalam demonstrasi), dan tingkat kesalahan pengeditan kode yang lebih rendah dibanding generasi sebelumnya. Anthropic menyebut Sonnet 4.5 sebagai “model pengodean terbaik” mereka dengan peningkatan besar dalam keandalan edit dan koherensi tugas jangka panjang.

Fitur utama (untuk pengembang)

Akurasi pengodean tinggi pada tolok ukur engineering dunia nyata: Anthropic melaporkan skor SWE-bench Verified terbaik di kelasnya dan mengklaim peningkatan besar pada tingkat kesalahan edit dan keberhasilan agen berbasis alat.
Peningkatan agentik dan penggunaan komputer: Sonnet 4.5 dirancang untuk menjalankan banyak alat (bash, pengeditan file, otomasi peramban) dan mengorkestrasi sub-agen melalui Claude Agent SDK. Anthropic menyoroti “30+ jam” kerja multi-langkah berkelanjutan dalam evaluasi internal mereka.
Jendela konteks besar: default 200k token untuk sebagian besar pelanggan, dengan 1M token konteks tersedia dalam beta untuk organisasi tingkat tinggi (kapabilitas 1M yang sama ditawarkan Gemini dalam preview).
Alat eksekusi kode & file API: alat dalam produk dan API memungkinkan eksekusi kode yang aman, pembuatan/pengeditan file, dan loop uji-jalankan.

Di mana Sonnet 4.5 unggul untuk pengodean

Tolok ukur rekayasa perangkat lunak murni dan tugas kode terstruktur (pembuatan unit test, refactor se-repositori) di mana ketelitian algoritmik model dan stabilitas jangka panjang penting.
CLI yang berorientasi kode dan alur “asisten kode” seperti Claude Code, di mana integrasi terminal yang rapat dan pemindaian repositori disediakan secara langsung.

Tabel Perbandingan Cepat

Aspek	Gemini 3 Pro (Preview)	Claude Sonnet 4.5
Model / status rilis	`gemini-3-pro-preview` — model frontier Google / DeepMind (preview). Dirilis Nov 2025 (preview).	`claude-sonnet-4-5` — model frontier kelas Sonnet Anthropic (GA / diumumkan 29 Sep 2025).
Posisi target (pengodean & agen)	Model frontier serbaguna dengan penekanan pada penalaran + multimodal + alur kerja agentik; diposisikan sebagai model coding/agen teratas Google.	Dispesialisasi untuk pengodean, agen jangka panjang, dan penggunaan komputer (model Anthropic “terbaik untuk pengodean & agen kompleks”).
Fitur utama untuk pengembang	Kontrol `thinking_level` untuk penalaran internal yang lebih dalam; integrasi alat Google bawaan (Search grounding, eksekusi kode, konteks file/URL); varian gambar khusus untuk alur kerja teks+gambar.	Agent SDK, integrasi VS Code (Claude Code), alat file & eksekusi kode, peningkatan agen jangka panjang (dites eksplisit untuk sesi multi-jam). Penekanan pada alur edit/jalankan/tes iteratif dan checkpointing.
Jendela konteks (input / output)	1,000,000 token input / 64k token output untuk `gemini-3-pro-preview`	1,000,000 token input / 64k token output
Harga (dasar yang dipublikasikan)	$2 / $12 per 1M token (input / output) untuk tier <200k; tarif lebih tinggi untuk >200k (menunjukkan $4 / $18 untuk >200k).	Baseline yang dipublikasikan Anthropic: $3 / $15 per 1M token (input / output) untuk Sonnet 4.5;
Kemampuan multimodal (visi/video/audio)	Dukungan multimodal penuh: teks, gambar, audio, bingkai video dengan parameter resolusi gambar/video yang dapat dikonfigurasi; `gemini-3-pro-image-preview` khusus. Penekanan kuat pada OCR/ekstraksi visual untuk UI/kode dari tangkapan layar.	Mendukung input visi (teks+gambar) dan menggunakan visi untuk mendukung alur kerja pengodean; penekanan utama adalah integrasi agentik (menggunakan konteks visual dalam alur agen, bukan paritas generasi gambar).
Kinerja agentik jangka panjang & persistensi	Primitif “Thinking” untuk penalaran internal multi-langkah yang eksplisit; matematika/penalaran & penalaran multimodal yang kuat. Bagus dalam menguraikan tugas algoritmik kompleks. Terbaik untuk penalaran sekali respons yang berat + analisis multimodal.	Anthropic menekankan koherensi agentik jangka panjang — Sonnet 4.5 dalam pengujian internal mempertahankan penggunaan alat multi-langkah yang koheren selama 30+ jam dan meningkatkan stabilitas agen berkelanjutan dibanding model sebelumnya. Cocok untuk otomasi persisten dan alur agen gaya CI.
Kualitas output untuk pengodean (edit, tes, keandalan)	Penalaran sekali tembak yang sangat kuat + generasi kode; alat bawaan untuk menjalankan kode melalui peralatan Google; skor tinggi pada tolok ukur algoritmik menurut klaim vendor. Keunggulan praktis ketika alur kerja mencampurkan spesifikasi visual + kode.	Dirancang untuk loop edit→jalan→tes iteratif; Sonnet 4.5 menonjolkan peningkatan keandalan “patching” (attempt paralel / rejection sampling / penilaian untuk memilih patch yang tangguh) dan perkakas yang mendukung alur pengembang iteratif (checkpoint, tes).

Bagaimana perbandingan arsitektur dan kapabilitas inti keduanya?

Arsitektur dan maksud desain (tingkat tinggi)

Gemini 3 Pro: disajikan sebagai model fondasi multimodal serbaguna dengan rekayasa eksplisit untuk “thinking” dan penggunaan alat: desainnya menekankan penalaran mendalam, pemahaman video/audio, dan orkestrasi agentik melalui pemanggilan fungsi bawaan dan lingkungan eksekusi kode. Google membingkai Gemini 3 Pro sebagai yang “paling cerdas” di keluarga Gemini 3, dioptimalkan untuk berbagai tugas di luar kode (meski pengodean agentik tetap prioritas).

Claude Sonnet 4.5: dioptimalkan khusus untuk alur kerja agentik dan kode: Anthropic menekankan pemenuhan instruksi, keandalan alat, kemahiran edit/koreksi, dan manajemen state jangka panjang. Fokus rekayasa adalah meminimalkan edit destruktif atau halusinatif dan membuat interaksi komputer dunia nyata yang tangguh.

Kesimpulan: Gemini 3 Pro diposisikan sebagai generalis papan atas yang didorong kuat pada penalaran multimodal dan integrasi agentik; Sonnet 4.5 diposisikan sebagai spesialis untuk pengodean dan penggunaan alat agentik dengan jaminan edit/koreksi yang ditingkatkan.

Perkakas dan integrasi

Gemini: set alat Google bawaan termasuk Search grounding, pencarian file, eksekusi kode, dan parameter gambar/video kelas satu; parameter thinking_level untuk mengontrol trade-off komputasi internal/latensi. Integrasi mendalam ke infrastruktur Google memudahkan tim yang sudah berada di Google Cloud.
Claude: Agent SDK yang kuat dan penekanan pada komputasi jangka panjang yang stabil (koherensi 30+ jam yang dilaporkan Sonnet). Anthropic juga menyediakan eksekusi kode, file API, dan UX pengeditan “checkpoints” baru di Claude Code serta ekstensi VS Code — fitur yang secara material meningkatkan alur pengodean iteratif.

Apa kata spesifikasi teknis dan tolok ukur?

Gemini 3 Pro vs Claude 4.5 Sonnet

Tolok ukur bervariasi sedikit tergantung evaluator dan konfigurasi (satu percobaan vs multi-percobaan, akses alat, pengaturan thinking yang diperluas). Di bawah ini adalah analisis data tolok ukur kemampuan pengodean:

SWE-bench Verified (uji rekayasa perangkat lunak dunia nyata)

Claude Sonnet 4.5 (dilaporkan Anthropic): 77.2% (anggaran thinking 200k; 78.2% dalam konfigurasi 1M). Anthropic juga melaporkan skor komputasi-tinggi 82.0% menggunakan percobaan paralel/rejection sampling.

Gemini 3 Pro (pelaporan DeepMind / papan peringkat terkait): ~76.2% satu percobaan pada SWE-bench (tabel vendor). Papan peringkat publik bervariasi (Gemini dan Sonnet saling bergantian dengan margin tipis).

Terminal-Bench & tugas agentik

Gemini 3 Pro: angka tolok ukur Terminal/agentik (tabel vendor) menunjukkan kinerja yang kuat (mis., Terminal-Bench 54.2% dalam tabel vendor), bersaing dengan keunggulan agentik Sonnet.

Sonnet 4.5: unggul dalam orkestrasi alat agentik (Anthropic melaporkan peningkatan substansial pada OSWorld dan tolok ukur gaya Terminal dan menyoroti kinerja tugas berkelanjutan yang lebih lama).

Kesimpulan: kedua model sangat berdekatan pada tolok ukur pemahaman kode dan generasi kode modern; Sonnet 4.5 memiliki keunggulan tipis pada beberapa suite verifikasi rekayasa perangkat lunak (angka yang dipublikasikan Anthropic), sementara Gemini 3 Pro sangat kompetitif dan sering memimpin pada tolok ukur multimodal dan beberapa kompetisi pengodean. Selalu validasi dengan konfigurasi evaluasi yang tepat (akses alat, ukuran konteks, anggaran thinking), karena pengaturan tersebut secara material memengaruhi skor.

Bagaimana perbandingan kapabilitas multimodal mereka?

Visi & penanganan gambar

Gemini 3 Pro: kontrol multimodal yang halus dengan media_resolution gambar/video (anggaran token rendah/sedang/tinggi per gambar/bingkai), pembuatan/edit gambar (model preview gambar terpisah), dan panduan eksplisit untuk OCR/detail visual. Ini membuat Gemini sangat kuat ketika tugas pengodean membutuhkan pembacaan tangkapan layar, mockup UI, atau bingkai video.
Claude Sonnet 4.5: mendukung multimodal teks+gambar dan integrasi produk Anthropic (aplikasi Claude) mengekspos alur kerja visual; fokus di Sonnet 4.5 adalah mengintegrasikan konteks visual ke dalam alur agentik, bukan paritas sintesis gambar mentah.

Kapan multimodalitas penting untuk pengodean

Jika alur kerja Anda sangat bergantung pada tangkapan layar UI, spesifikasi desain dalam gambar, atau walkthrough video yang harus dianalisis model untuk menghasilkan atau memodifikasi kode, kontrol resolusi gambar khusus Gemini dan varian pembuatan gambar dapat menjadi keunggulan praktis. Jika pipeline Anda adalah otomasi berbasis agen (mengklik, menjalankan perintah, mengedit file di berbagai alat), Agent SDK dan perkakas eksekusi kode milik Claude adalah kelas satu.

Penalaran lanjutan & perencanaan jangka panjang — mana yang lebih baik?

Sonnet 4.5: daya tahan dan penyelarasan

Sonnet 4.5 dapat mempertahankan pekerjaan yang koheren selama lebih dari 30 jam melintasi tugas multi-tahap yang kompleks (perencanaan, riset, penyusunan dokumen litigasi, tugas kode jangka panjang). Daya tahan ini ditambah penekanan penyelarasan (alignment) Anthropic menjadikan Sonnet pilihan menarik untuk otomasi ujung-ke-ujung di mana model harus melacak tujuan dan menjaga perilaku aman.

Gemini 3 Pro: penalaran mendalam + orkestrasi agen

Gemini 3 Pro memperkenalkan varian “Deep Think” dan API thinking internal yang lebih kaya untuk perencanaan multi-langkah, dipadukan dengan IDE agentik Google. Dalam praktiknya ini berarti Gemini dapat baik merencanakan maupun mengeksekusi langkah agentik di berbagai alat (editor, shell, web). Jika otomasi Anda memerlukan akses alat eksternal dengan pembuatan artefak, perkakas agentik terintegrasi Gemini (Antigravity) adalah nilai tambah yang kuat. Catatan: Deep Think menukar latensi dengan kedalaman.

Perbandingan Perencanaan Jangka Panjang: Vending-Bench 2

Dalam uji simulasi “Vending-Bench 2”, Gemini 3 mengungguli Claude 4.5 dengan menjalankan perusahaan virtual selama setahun dan tetap menghasilkan keuntungan. Dalam pengujian jangka pendek, data Gemini 3 Pro dan Claude 4 Sonnet serupa, tetapi perbedaannya menjadi lebih nyata selama periode pengujian yang lebih panjang.

Gemini 3 Pro vs Claude 4.5 Sonnet untuk Coding: Mana yang Lebih Baik pada 2025

Perbedaan praktis

Untuk tugas penalaran sekali respons yang tinggi (debug algoritmik kompleks, bukti logis mendalam yang tertanam dalam kode), thinking_level dan Deep Think Gemini menjanjikan kedalaman sekali respons yang lebih besar.
Untuk otomasi berbasis alat berdurasi panjang (agen persisten yang menjalankan banyak perintah, menulis tes, beriterasi, dan mengelola state), fokus jangka panjang Sonnet 4.5 dan Agent SDK adalah pembedanya yang kuat.

Bagaimana akses API dan harga dibandingkan untuk penggunaan pengembang?

Gemini 3 Pro (Google) — akses dan harga

Akses: Gemini 3 Pro preview tersedia melalui Google AI Studio dan Vertex AI (model garden). SDK mencakup google-genai untuk Python/JS/Go/dll., plus lapisan kompatibel OpenAI untuk migrasi yang lebih mudah, dengan endpoint REST dan pemanggilan fungsi / alat eksekusi kode. Antigravity menyediakan permukaan IDE yang menggunakan Gemini 3 Pro dalam preview.
Harga: Harga preview tercantum pada dokumen Google: $2 / $12 per 1M token (input / output) untuk tier <200k; tarif lebih tinggi untuk >200k (contoh di dokumen menunjukkan $4 / $18 untuk >200k).

Claude Sonnet 4.5 — akses dan harga

API & SDK: Anthropic menyediakan Claude API, Claude Agent SDK untuk membangun alur kerja agentik, file API, dan alat eksekusi kode (ekstensi VS Code native, peningkatan Claude Code, dan fitur “checkpoint”).
Harga: jendela konteks default 200k token, 1M token konteks dalam beta untuk perusahaan; harga $3 / $15 per 1M token (masing-masing input/output)

Sebagai pengembang, Anda harus memilih model berdasarkan kebutuhan dan karakteristiknya, bukan sekadar yang termurah. Jika tugas bisa ditangani oleh dua model, putuskan berdasarkan konteks.

Jika Anda ingin menggunakan dua model secara bersamaan, saya merekomendasikan CometAPI, yang menyediakan Gemini 3 Pro Preview API dan Claude Sonnet 4.5 API, dan dihargai 20% dari harga resmi.


	Gemini 3 Pro Preview	GPT-5.1
Input Tokens	$1.60	$2.4.00
Output Tokens	$9.60	$12.00

Pemikiran akhir

Gemini 3 Pro (Preview) dan Claude Sonnet 4.5 keduanya adalah pilihan mutakhir untuk asisten pengodean di akhir 2025. Sonnet 4.5 unggul tipis atas Gemini pada tolok ukur verifikasi rekayasa perangkat lunak tertentu dan stamina pada tugas jangka panjang, sementara Gemini 3 Pro menghadirkan pemahaman multimodal yang lebih kuat dan perkakas agentik mendalam yang dapat mengeksekusi di lingkungan editor/terminal/peramban. Pilihan yang tepat bergantung pada apakah kebutuhan utama Anda adalah penalaran kode murni dan verifikasi (Sonnet), atau pengembangan multimodal, agentik, yang ditopang alat (Gemini). Untuk penerapan tingkat perusahaan, banyak tim akan secara wajar mengadopsi pendekatan hibrida, menggunakan model yang paling kuat untuk setiap tahap alur kerja pengembangan.

Pengembang dapat mengakses Gemini 3 Pro Preview API dan Claude Sonnet 4.5 API melalui CometAPI. Untuk memulai, jelajahi kapabilitas model dari[CometAPI] di Playground dan baca panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda sudah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.

Siap mulai?→ Uji coba gratis model Gemini 3 pro dan GPT-5.1 !

Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X dan Discord!