Baik Gemini 3 Pro (Google/DeepMind) maupun Claude Sonnet 4.5 (Anthropic) adalah model unggulan era 2025 yang dioptimalkan untuk alur kerja agenik, berjangka panjang, dan menggunakan alat — dan keduanya sangat menekankan pengodean. Klaim keunggulan berbeda: Google memasarkan Gemini 3 Pro sebagai penalar multimodal serbaguna yang juga unggul dalam pengodean agenik, sementara Anthropic memposisikan Sonnet 4.5 sebagai model coding/agent terbaik di dunia dengan keberhasilan edit/alat yang sangat kuat dan agen berjangka panjang.
Jawaban singkat di awal: kedua model berada di tingkat teratas untuk tugas rekayasa perangkat lunak pada akhir 2025. Claude Sonnet 4.5 sedikit unggul pada beberapa metrik tolok ukur rekayasa perangkat lunak murni, sementara Gemini 3 Pro (Preview) dari Google adalah kekuatan besar yang lebih luas, multimodal, dan agentic—terutama ketika Anda peduli pada konteks visual, penggunaan alat, pekerjaan konteks panjang, dan alur kerja agen yang mendalam.
Saat ini saya menggunakan kedua model, dan masing-masing memiliki keunggulan berbeda dalam lingkungan pengembangan. Saya akan membandingkannya dalam artikel ini.
Gemini 3 Pro hanya tersedia untuk pelanggan Google AI Ultra dan pengguna berbayar Gemini API. Namun, kabar baiknya, CometAPI sebagai platform AI serba ada telah mengintegrasikan Gemini 3 Pro, dan Anda dapat mencobanya secara gratis.
Apa itu Gemini 3 Pro Preview dan apa fitur utamanya?
Ikhtisar
Gemini 3 Pro (tersedia awalnya sebagai gemini-3-pro-preview) adalah LLM “frontier” terbaru dari Google/DeepMind dalam keluarga Gemini 3. Model ini diposisikan sebagai model dengan penalaran tinggi, multimodal, yang dioptimalkan untuk alur kerja agen (yaitu, model yang dapat beroperasi dengan penggunaan alat, mengorkestrasi subagen, dan berinteraksi dengan sumber daya eksternal). Model ini menekankan penalaran yang lebih kuat, multimodalitas (gambar, frame video, PDF), dan kontrol API eksplisit untuk kedalaman “pemikiran” internal.
Poin fitur utama (untuk pengembang)
- Penggunaan alat agen: panggilan fungsi dan alat bawaan (eksekusi kode, web grounding, konteks file & URL, penggunaan terminal/alat).
- Dukungan Thinking/Chain-of-Thought: primitif “thinking” untuk perencanaan multi-langkah dan tanda tangan pemikiran internal agar penalaran multi-langkah lebih eksplisit.
- Masukan/keluaran multimodal: teks, gambar, audio, video, dan keluaran terstruktur dengan penanganan konteks panjang.
- Alat eksekusi kode & integrasi IDE: alat eksekusi kode terhosting dan integrasi ke IDE serta Google Antigravity, IDE agenik baru untuk pengodean otonom kolaboratif. Antigravity saat ini dalam pratinjau publik.
- Kontrol thinking tingkat tinggi/ekstensi (parameter
thinking_level) sehingga Anda dapat menukar latensi dengan penalaran internal yang lebih mendalam.highadalah default untuk Gemini 3 Pro. - Kontrol multimodal yang granular (
media_resolution) untuk menyetel fidelitas gambar/video vs biaya — berguna saat Anda ingin model membaca teks kecil dalam tangkapan layar atau menganalisis frame.
Di mana Gemini 3 Pro unggul untuk pengodean
- Pengembangan agenik: mengorkestrasi tugas multi-langkah di editor/terminal/peramban. Sistem artefak Antigravity + alat Gemini menjadikannya sangat baik untuk pekerjaan fitur besar dan otomatisasi.
- Kombinasi visual + kode: memperbaiki bug UI dari tangkapan layar, menghasilkan kerangka uji UI, atau mengonversi gambar desain menjadi kode karena pemahaman image-to-code yang kuat.
Apa itu Claude Sonnet 4.5 dan apa fitur utamanya?
Claude Sonnet 4.5 adalah rilis 2025 dari Anthropic yang dipasarkan sebagai model terkuat mereka untuk pengodean, alur kerja agen, dan “menggunakan komputer” (mengontrol alat, peramban, terminal, spreadsheet, dll.). Model ini menekankan peningkatan kemampuan edit, keberhasilan alat, thinking yang diperluas, koherensi agen yang berjalan lama (lebih dari 30 jam eksekusi tugas otonom dalam demonstrasi), serta tingkat kesalahan pengeditan kode yang lebih rendah dibanding generasi sebelumnya. Anthropic menyebut Sonnet 4.5 sebagai “model coding terbaik” mereka dengan peningkatan besar dalam keandalan edit dan koherensi tugas berjangka panjang.
Fitur utama (untuk pengembang)
- Akurasi pengodean tinggi pada tolok ukur rekayasa dunia nyata: Anthropic melaporkan skor SWE-bench Verified terkini dan mengklaim peningkatan besar dalam tingkat kesalahan edit serta keberhasilan agen berbasis alat.
- Peningkatan agenik dan penggunaan komputer: Sonnet 4.5 dirancang untuk menjalankan banyak alat (bash, pengeditan file, otomasi peramban) dan mengorkestrasi subagen melalui Claude Agent SDK. Anthropic menyoroti “lebih dari 30 jam” pekerjaan multi-langkah berkelanjutan dalam evaluasi internal mereka.
- Jendela konteks besar: default 200k tokens untuk sebagian besar pelanggan, dengan 1M-token context tersedia dalam beta untuk organisasi tingkat lebih tinggi (kapabilitas 1M yang sama seperti yang ditawarkan Gemini dalam pratinjau).
- Alat eksekusi kode & API file: alat dalam produk dan API memungkinkan eksekusi kode yang aman, pembuatan/pengeditan file, dan loop menjalankan uji.
Di mana Sonnet 4.5 unggul untuk pengodean
- Tolok ukur rekayasa perangkat lunak murni dan tugas kode terstruktur (pembuatan unit test, refactor seluruh repositori) di mana ketelitian algoritmik dan stabilitas jangka panjang model sangat penting.
- CLI berorientasi kode dan alur “asisten kode” seperti Claude Code yang menyediakan integrasi terminal ketat dan pemindaian repositori secara bawaan.
Tabel Perbandingan Cepat
| Aspek | Gemini 3 Pro (Preview) | Claude Sonnet 4.5 |
|---|---|---|
| Model / status rilis | gemini-3-pro-preview — model frontier Google / DeepMind (pratinjau). Dirilis Nov 2025 (pratinjau). | claude-sonnet-4-5 — model frontier kelas Sonnet Anthropic (GA / diumumkan 29 Sep 2025). |
| Posisi target (coding & agen) | Model frontier serbaguna dengan penekanan pada penalaran + multimodal + alur kerja agen; diposisikan sebagai model coding/agen teratas Google. | Dikhususkan untuk pengodean, agen berjangka panjang, dan penggunaan komputer (“terbaik untuk coding & agen kompleks” menurut Anthropic). |
| Fitur utama untuk pengembang | Kontrol thinking_level untuk penalaran internal yang lebih dalam; integrasi alat bawaan Google (Search grounding, eksekusi kode, konteks file/URL); varian gambar khusus untuk alur kerja teks+gambar. | SDK agen, integrasi VS Code (Claude Code), alat file & eksekusi kode, peningkatan agen berjangka panjang (dites eksplisit untuk menjalankan berjam-jam). Penekanan pada alur kerja edit/jalankan/uji iteratif dan checkpointing. |
| Jendela konteks (input / output) | 1,000,000 tokens input / 64k tokens output untuk gemini-3-pro-preview | 1,000,000 tokens input / 64k tokens output |
| Harga (baseline yang dipublikasikan) | $2 / $12 per 1M tokens (input / output) untuk tier <200k; tarif lebih tinggi untuk >200k (menunjukkan $4 / $18 untuk >200k). | Baseline yang dipublikasikan Anthropic: $3 / $15 per 1M tokens (input / output) untuk Sonnet 4.5; |
| Kapabilitas multimodal (visi/video/audio) | Dukungan multimodal penuh: teks, gambar, audio, frame video dengan parameter resolusi gambar/video yang dapat dikonfigurasi; gemini-3-pro-image-preview khusus. Penekanan kuat pada OCR/ekstraksi visual untuk UI/screenshot pengodean. | Mendukung visi (teks+gambar) dan menggunakan visi untuk mendukung alur kerja pengodean; fokus utama adalah integrasi agenik (menggunakan konteks visual di dalam alur agen alih-alih paritas generasi gambar). |
| Kinerja agenik jangka panjang & persistensi | Primitif “Thinking” untuk penalaran internal multi-langkah yang eksplisit; matematika/penalaran yang kuat & penalaran multimodal yang mendalam. Baik dalam mendekomposisi tugas algoritmik kompleks. Terbaik untuk penalaran sekali respons berat + analisis multimodal. | Anthropic menekankan koherensi agenik jangka panjang — Anthropic melaporkan pengujian internal di mana Sonnet 4.5 mempertahankan penggunaan alat multi-langkah yang koheren selama 30+ jam dan meningkatkan stabilitas agen berkelanjutan vs generasi sebelumnya. Cocok untuk otomatisasi persisten dan alur kerja agen gaya CI. |
| Kualitas keluaran untuk pengodean (edit, uji, keandalan) | Penalaran sekali-tembak yang sangat kuat + generasi kode; alat bawaan untuk menjalankan kode melalui tooling Google; nilai tinggi pada tolok ukur algoritmik menurut klaim vendor. Keunggulan praktis saat alur kerja menggabungkan spesifikasi visual + kode. | Dirancang untuk loop edit→jalankan→uji iteratif; Sonnet 4.5 menyoroti peningkatan keandalan “patching” (teknik rejection sampling / scoring untuk memilih patch yang tangguh) dan tooling yang mendukung alur kerja pengembang iteratif (checkpoint, uji). |
Bagaimana arsitektur dan kapabilitas inti mereka dibandingkan?
Arsitektur dan maksud desain (tingkat tinggi)
Gemini 3 Pro: disajikan sebagai model fondasi multimodal serbaguna dengan rekayasa eksplisit untuk “thinking” dan penggunaan alat: desainnya menekankan penalaran mendalam, pemahaman video/audio, dan orkestrasi agen melalui panggilan fungsi bawaan serta lingkungan eksekusi kode. Google membingkai Gemini 3 Pro sebagai yang “paling cerdas” dalam keluarga, dioptimalkan untuk beragam tugas di luar kode (meski pengodean agen adalah prioritas).
Claude Sonnet 4.5: dioptimalkan khusus untuk alur kerja agen dan kode: Anthropic menekankan kepatuhan instruksi, keandalan alat, kemampuan edit/koreksi, dan manajemen status jangka panjang. Fokus rekayasa adalah meminimalkan edit yang destruktif atau halusinatif serta membuat interaksi komputer dunia nyata yang tangguh.
Kesimpulan: Gemini 3 Pro diposisikan sebagai generalis top yang didorong kuat pada penalaran multimodal dan integrasi agen; Sonnet 4.5 diposisikan sebagai spesialis untuk pengodean dan penggunaan alat agen dengan jaminan edit/koreksi yang ditingkatkan.
Tooling dan integrasi
- Gemini: set alat bawaan Google termasuk Search grounding, pencarian file, eksekusi kode, dan parameter gambar/video kelas pertama; parameter
thinking_leveluntuk mengontrol trade-off komputasi/latensi internal. Integrasi mendalam ke infrastruktur Google membuatnya nyaman bagi tim yang sudah di Google Cloud. - Claude: SDK agen yang kuat dan penekanan pada komputasi jangka panjang yang stabil (koherensi 30+ jam yang dilaporkan Sonnet). Anthropic juga mengekspose eksekusi kode, API file, dan UX “checkpoints” pengeditan baru di Claude Code dan ekstensi VS Code — fitur yang secara material meningkatkan alur kerja pengodean iteratif.
Apa kata spesifikasi teknis dan tolok ukur?

Tolok ukur sedikit bervariasi tergantung penilai dan konfigurasi (upaya tunggal vs. multi-upaya, akses alat, pengaturan thinking yang diperluas). Di bawah ini adalah analisis data tolok ukur kemampuan pengodean:
SWE-bench Verified (uji rekayasa perangkat lunak dunia nyata)
Claude Sonnet 4.5 (laporan Anthropic): 77.2% (anggaran thinking 200k; 78.2% dalam konfigurasi 1M). Anthropic juga melaporkan skor komputasi tinggi 82.0% menggunakan upaya paralel/rejection sampling.
Gemini 3 Pro (laporan DeepMind / leaderboard terkait): ~76.2% percobaan tunggal pada SWE-bench (tabel vendor). Leaderboard publik bervariasi (Gemini dan Sonnet saling unggul tipis).
Terminal-Bench & tugas agenik
Gemini 3 Pro: angka tolok ukur terminal/agenik (tabel vendor) menunjukkan performa kuat (mis., Terminal-Bench 54.2% dalam tabel vendor), kompetitif dengan kekuatan agenik Sonnet.
Sonnet 4.5: unggul dalam orkestrasi alat agenik (Anthropic melaporkan peningkatan substansial pada OSWorld dan tolok ukur bergaya Terminal serta menyoroti performa tugas berkelanjutan yang lebih lama).
Kesimpulan: kedua model sangat dekat pada tolok ukur pemahaman kode dan generasi kode modern; Sonnet 4.5 memiliki sedikit keunggulan pada beberapa suite verifikasi rekayasa perangkat lunak (angka yang dipublikasikan Anthropic), sementara Gemini 3 Pro sangat kompetitif dan sering unggul pada multimodal serta beberapa leaderboard gaya kompetisi pengodean. Selalu validasi dengan konfigurasi evaluasi yang tepat (akses alat, ukuran konteks, anggaran thinking), karena pengaturan tersebut secara material mengubah skor.
Bagaimana kapabilitas multimodal mereka dibandingkan?
Visi & penanganan gambar
- Gemini 3 Pro: kontrol multimodal granular dengan
media_resolutiongambar/video (anggaran token rendah/sedang/tinggi per gambar/frame), generasi/penyuntingan gambar (model pratinjau gambar terpisah), dan panduan eksplisit untuk OCR/detail visual. Ini membuat Gemini sangat kuat ketika tugas pengodean memerlukan pembacaan tangkapan layar, mockup UI, atau frame video. - Claude Sonnet 4.5: mendukung multimodal teks+gambar dan integrasi produk Anthropic (aplikasi Claude) mengekspose alur kerja visual; fokus Sonnet 4.5 adalah mengintegrasikan konteks visual ke dalam alur agenik alih-alih paritas sintesis gambar mentah.
Saat multimodalitas penting untuk pengodean
Jika alur kerja Anda sangat bergantung pada tangkapan layar UI, spesifikasi desain dalam gambar, atau walkthrough video yang harus dianalisis model untuk menghasilkan atau memodifikasi kode, kontrol resolusi gambar khusus Gemini dan varian generasi gambar dapat menjadi keunggulan praktis. Jika pipeline Anda adalah otomasi berbasis agen (mengklik, menjalankan perintah, mengedit file di berbagai alat), SDK agen dan alat eksekusi kode Claude adalah kelas satu.
Penalaran tingkat lanjut & perencanaan jangka panjang — mana yang lebih baik?
Sonnet 4.5: daya tahan dan alignment
Sonnet 4.5 dapat mempertahankan pekerjaan yang koheren selama lebih dari 30 jam melintasi tugas multi-tahap yang kompleks (perencanaan, riset, penyusunan litigasi, tugas kode jangka panjang). Daya tahan ini ditambah penekanan alignment Anthropic menjadikan Sonnet pilihan menarik untuk otomatisasi end-to-end di mana model harus melacak tujuan dan mempertahankan perilaku yang aman.
Gemini 3 Pro: penalaran mendalam + orkestrasi agen
Gemini 3 Pro memperkenalkan varian “Deep Think” dan API thinking internal yang lebih kaya untuk perencanaan multi-langkah, dipadukan dengan IDE agenik Google. Dalam praktiknya ini berarti Gemini dapat merencanakan dan mengeksekusi langkah agenik di berbagai alat (editor, shell, web). Jika otomasi Anda memerlukan akses alat eksternal dengan pembuatan artefak, tooling agenik terintegrasi Gemini (Antigravity) adalah nilai tambah yang kuat. Catatan: Deep Think menukar latensi dengan kedalaman.
Perbandingan Perencanaan Jangka Panjang: Vending-Bench 2
Dalam uji simulasi “Vending-Bench 2”, Gemini 3 melampaui Claude 4.5 dengan menjalankan perusahaan virtual selama satu tahun penuh dan tetap menghasilkan laba. Dalam uji jangka pendek, data Gemini 3 Pro dan Claude 4 Sonnet serupa, tetapi perbedaannya menjadi lebih nyata seiring periode pengujian yang lebih panjang.

Perbedaan praktis
- Untuk tugas penalaran tinggi sekali-tembak (debugging algoritmik kompleks, bukti logis mendalam yang tertanam dalam kode),
thinking_leveldan Deep Think pada Gemini menjanjikan kedalaman respons tunggal yang lebih besar. - Untuk otomasi berdurasi panjang berbasis alat (agen persisten yang menjalankan banyak perintah, menulis uji, beriterasi, dan mengelola status), fokus jangka panjang dan SDK agen Sonnet 4.5 menjadi pembeda kuat.
Bagaimana akses API dan harga dibandingkan untuk penggunaan pengembang?
Gemini 3 Pro (Google) — akses dan harga
- Akses: pratinjau Gemini 3 Pro tersedia melalui Google AI Studio dan Vertex AI (model garden). SDK mencakup google-genai untuk Python/JS/Go/dll., plus lapisan kompatibel OpenAI untuk memudahkan migrasi, dengan endpoint REST dan function calling / alat eksekusi kode. Antigravity menyediakan permukaan IDE yang menggunakan Gemini 3 Pro dalam pratinjau.
- Harga: harga pratinjau tercantum di dokumen Google: $2 / $12 per 1M tokens (input / output) untuk tier <200k; tarif lebih tinggi untuk >200k (contoh di dokumen menunjukkan $4 / $18 untuk >200k).
Claude Sonnet 4.5 — akses dan harga
- API & SDK: Anthropic menyediakan Claude API, Claude Agent SDK untuk membangun alur kerja agenik, API file, dan alat eksekusi kode (ekstensi VS Code native, peningkatan Claude Code, dan fitur “checkpoint”).
- Harga: jendela konteks 200k tokens default, konteks 1M-token dalam beta untuk perusahaan; harga $3 / $15 per 1M tokens (masing-masing input/output).
Sebagai pengembang, Anda harus memilih model berdasarkan kebutuhan dan karakteristiknya, bukan hanya yang termurah. Jika suatu tugas dapat ditangani oleh dua model, putuskan berdasarkan konteks.
Jika Anda ingin menggunakan dua model secara bersamaan, saya merekomendasikan CometAPI, yang menyediakan Gemini 3 Pro Preview API dan Claude Sonnet 4.5 API, dengan harga sebesar 20% dari harga resmi.
| Gemini 3 Pro Preview | GPT-5.1 | |
| Token Input | $1.60 | $2.4.00 |
| Token Output | $9.60 | $12.00 |
Kesimpulan akhir
Gemini 3 Pro (Preview) dan Claude Sonnet 4.5 adalah pilihan state-of-the-art untuk asisten pengodean pada akhir 2025. Sonnet 4.5 sedikit mengungguli Gemini pada tolok ukur verifikasi rekayasa perangkat lunak tertentu dan stamina pada tugas jangka panjang, sementara Gemini 3 Pro menghadirkan pemahaman multimodal yang lebih kuat dan tooling agenik mendalam yang dapat mengeksekusi di lingkungan editor/terminal/peramban. Pilihan yang tepat bergantung pada apakah kebutuhan utama Anda adalah penalaran kode murni dan verifikasi (Sonnet), atau pengembangan multimodal, agenik, yang diperkuat alat (Gemini). Untuk penyebaran tingkat perusahaan, banyak tim secara wajar akan mengadopsi pendekatan hibrida, menggunakan model mana pun yang paling kuat untuk tahap tertentu dalam alur kerja pengembangan.
Pengembang dapat mengakses Gemini 3 Pro Preview API dan Claude Sonnet 4.5 API melalui CometAPI. Untuk memulai, jelajahi kapabilitas model di CometAPI pada Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.
Siap jalan?→ Uji coba gratis model Gemini 3 pro dan GPT-5.1 !
Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X dan Discord!
