Baik Gemini 3 Pro (Google/DeepMind) dan Claude Sonnet 4.5 (Anthropic) ialah model perdana era 2025 yang dioptimumkan untuk aliran kerja berorientasikan agen, berjangka panjang dan menggunakan alat — dan kedua-duanya memberi penekanan berat pada pengekodan. Kekuatan yang didakwa berbeza: Google memposisikan Gemini 3 Pro sebagai penaakul multimodal serba guna yang juga cemerlang dalam pengekodan berorientasikan agen, manakala Anthropic memposisikan Sonnet 4.5 sebagai model coding/agent terbaik di dunia dengan kejayaan edit/alatan yang sangat kukuh dan agen yang berjalan lama.
Jawapan ringkas di hadapan: kedua-dua model adalah bertaraf tinggi untuk tugas kejuruteraan perisian pada akhir 2025. Claude Sonnet 4.5 mendahului sedikit pada beberapa metrik penanda aras kejuruteraan perisian tulen, manakala Gemini 3 Pro (Pratonton) dari Google ialah kuasa multimodal yang berorientasikan agen — terutamanya apabila anda mementingkan konteks visual, penggunaan alat, kerja konteks panjang dan aliran kerja agen yang mendalam.
Saya kini menggunakan kedua-dua model, dan masing-masing mempunyai kelebihan berbeza dalam persekitaran pembangunan. Saya akan membandingkan mereka dalam artikel ini.
Gemini 3 Pro hanya tersedia untuk pelanggan Google AI Ultra dan pengguna berbayar API Gemini. Namun, berita baiknya ialah CometAPI, sebagai platform AI sehenti, telah mengintegrasikan Gemini 3 Pro, dan anda boleh mencubanya secara percuma.
Apakah Gemini 3 Pro Preview dan apakah ciri utamanya?
Gambaran keseluruhan
Gemini 3 Pro (tersedia pada mulanya sebagai gemini-3-pro-preview) ialah LLM “barisan hadapan” terbaharu Google/DeepMind dalam keluarga Gemini 3. Ia diposisikan sebagai model penaakulan tinggi, multimodal yang dioptimumkan untuk aliran kerja berorientasikan agen (iaitu, model yang boleh beroperasi dengan penggunaan alat, mengorkestrakan subagen dan berinteraksi dengan sumber luaran). Ia menekankan penaakulan yang lebih kukuh, multimodaliti (imej, bingkai video, PDF), dan kawalan API eksplisit untuk kedalaman “pemikiran” dalaman.
Mata ciri utama (untuk pembangun)
- Penggunaan alat berorientasikan agen: pemanggilan fungsi dan alat terbina dalam (pelaksanaan kod, web grounding, konteks fail & URL, penggunaan terminal/alatan).
- Sokongan Thinking / Chain-of-Thought: primitif “pemikiran” untuk perancangan berbilang langkah dan tandatangan pemikiran dalaman untuk menjadikan penaakulan berbilang langkah lebih eksplisit.
- Input/output multimodal: teks, imej, audio, video, dan output berstruktur dengan pengendalian konteks panjang.
- Alat pelaksanaan kod & integrasi IDE: alat pelaksanaan kod dihoskan dan integrasi ke dalam IDE serta IDE berorientasikan agen Google Antigravity baharu untuk pengkodan autonomi kolaboratif. Antigravity kini pratonton awam.
- Kawalan pemikiran tinggi/dilanjutkan (parameter
thinking_level) supaya anda boleh menukar kependaman untuk pemikiran dalaman yang lebih mendalam.highialah lalai untuk Gemini 3 Pro. - Kawalan multimodal berbutir (
media_resolution) untuk menala ketepatan imej/video berbanding kos — berguna apabila anda mahu model membaca teks kecil dalam tangkapan skrin atau menganalisis bingkai.
Di mana Gemini 3 Pro menonjol untuk pengekodan
- Pembangunan berorientasikan agen: mengorkestrakan tugas berbilang langkah merentas editor/terminal/pelayar. Sistem artifak Antigravity + alat Gemini menjadikannya cemerlang untuk kerja ciri yang lebih besar dan automasi.
- Gabungan visual + kod: membaiki pepijat UI daripada tangkapan skrin, menjana rangka ujian UI, atau menukar imej reka bentuk kepada kod kerana pemahaman imej-ke-kod yang kukuh.
Apakah Claude Sonnet 4.5 dan apakah ciri utamanya?
Claude Sonnet 4.5 ialah keluaran 2025 Anthropic yang dipasarkan sebagai model terkuat untuk pengekodan, aliran kerja berorientasikan agen dan “menggunakan komputer” (mengawal alat, pelayar, terminal, hamparan, dll.). Ia menekankan keupayaan edit yang dipertingkat, kejayaan alat, pemikiran lanjutan, koheren agen berjalan lama (30+ jam pelaksanaan tugas autonomi dalam demonstrasi), dan kadar ralat penyuntingan kod yang lebih rendah berbanding generasi sebelumnya. Anthropic menyatakan Sonnet 4.5 sebagai “model pengekodan terbaik” mereka dengan peningkatan besar dalam kebolehpercayaan edit dan koheren tugas jangka panjang.
Ciri utama (untuk pembangun)
- Ketepatan pengekodan tinggi pada penanda aras kejuruteraan dunia sebenar: Anthropic melaporkan skor SWE-bench Verified bertaraf tertinggi dan mendakwa peningkatan besar dalam kadar ralat edit dan kejayaan agen berasaskan alat.
- Penambahbaikan berorientasikan agen dan penggunaan komputer: Sonnet 4.5 direka untuk menjalankan pelbagai alat (bash, pengeditan fail, automasi pelayar) dan untuk mengorkestrakan subagen melalui Claude Agent SDK. Anthropic menonjolkan “30+ jam” kerja berterusan berbilang langkah dalam penilaian dalaman mereka.
- Tetingkap konteks besar: lalai 200k token untuk kebanyakan pelanggan, dengan konteks 1M token tersedia dalam beta untuk organisasi peringkat lebih tinggi (keupayaan 1M yang sama yang ditawarkan Gemini dalam pratonton).
- Alat pelaksanaan kod & API fail: alat dalam produk dan API membolehkan pelaksanaan kod yang selamat, penciptaan/penyuntingan fail, dan gelung larian ujian.
Di mana Sonnet 4.5 menonjol untuk pengekodan
- Penanda aras kejuruteraan perisian tulen dan tugas kod berstruktur (penjanaan ujian unit, refaktor seluruh repositori) di mana ketelitian algoritma model dan kestabilan jangka panjang adalah penting.
- CLI berfokus kod dan aliran “pembantu kod” seperti Claude Code di mana integrasi terminal yang ketat dan pengimbasan repositori disediakan terus.
Jadual Perbandingan Pantas
| Aspek | Gemini 3 Pro (Pratonton) | Claude Sonnet 4.5 |
|---|---|---|
| Model / status keluaran | gemini-3-pro-preview — model barisan hadapan Google / DeepMind (pratonton). Dikeluarkan Nov 2025 (pratonton). | claude-sonnet-4-5 — model barisan hadapan kelas Sonnet Anthropic (GA / diumumkan 29 Sep 2025). |
| Pemposisian sasaran (pengekodan & agen) | Model barisan hadapan serba guna dengan penekanan pada penaakulan + multimodal + aliran kerja berorientasikan agen; diposisikan sebagai model pengekodan/agen teratas Google. | Dioptimumkan untuk pengekodan, agen jangka panjang dan penggunaan komputer (“terbaik untuk pengekodan & agen kompleks” menurut Anthropic). |
| Ciri pembangun utama | Kawalan thinking_level untuk pemikiran dalaman lebih mendalam; integrasi alat Google terbina dalam (Search grounding, pelaksanaan kod, konteks fail/URL); varian imej khusus untuk aliran kerja teks+imej. | SDK Agen, integrasi VS Code (Claude Code), alat fail & pelaksanaan kod, penambahbaikan agen jangka panjang (dihasilkan dengan ujian larian berbilang jam). Penekanan pada aliran edit→lari→uji berulang dan titik semak. |
| Tetingkap konteks (input / output) | 1,000,000 token input / 64k token output untuk gemini-3-pro-preview | 1,000,000 token input / 64k token output |
| Harga (asas diterbitkan) | $2 / $12 per 1M token (input / output) untuk peringkat <200k; kadar lebih tinggi untuk >200k (papar $4 / $18 untuk >200k). | Asas diterbitkan Anthropic: $3 / $15 per 1M token (input / output) untuk Sonnet 4.5; |
| Keupayaan multimodal (visi/video/audio) | Sokongan multimodal penuh: teks, imej, audio, bingkai video dengan parameter resolusi imej/video boleh dikonfigurasi; gemini-3-pro-image-preview khusus. Penekanan kuat pada OCR imej/ekstraksi visual untuk UI/tangkapan skrin pengekodan. | Menyokong input visi (teks+imej) dan menggunakan visi untuk menyokong aliran kerja pengekodan; penekanan utama ialah integrasi berorientasikan agen (menggunakan konteks visual dalam aliran agen daripada kesetaraan penjanaan imej). |
| Prestasi agen jangka panjang & ketekalan | Primitif “pemikiran” untuk penaakulan dalaman berbilang langkah yang eksplisit; matematik/penaakulan & penaakulan multimodal yang kuat. Baik dalam menghuraikan tugas algoritma kompleks. Terbaik untuk penaakulan sekali gus berat + analisis multimodal. | Anthropic menekankan koheren agen jangka panjang — Anthropic melaporkan ujian dalaman di mana Sonnet 4.5 mengekalkan penggunaan alat berbilang langkah yang koheren selama 30+ jam dan meningkatkan kestabilan agen berterusan berbanding model terdahulu. Sesuai untuk automasi berterusan dan aliran kerja agen gaya CI. |
| Kualiti output untuk pengekodan (edit, ujian, kebolehpercayaan) | Penaakulan sekali gus yang sangat kuat + penjanaan kod; alat terbina dalam untuk menjalankan kod melalui alat Google; markah tinggi pada penanda aras algoritma menurut tuntutan vendor. Kelebihan praktikal apabila aliran kerja mencampurkan spesifikasi visual + kod. | Direka untuk gelung edit→lari→uji berulang; Sonnet 4.5 menonjolkan kebolehpercayaan “patching” yang dipertingkat (teknik penskoran/pensampelan penolakan untuk memilih patch teguh) dan peralatan yang menyokong aliran kerja pembangun berulang (titik semak, ujian). |
Bagaimana seni bina dan keupayaan teras mereka berbanding?
Seni bina dan niat reka bentuk (paras tinggi)
Gemini 3 Pro: dibentangkan sebagai model asas multimodal serba guna dengan kejuruteraan eksplisit untuk “pemikiran” dan penggunaan alat: reka bentuk menekankan penaakulan mendalam, pemahaman video/audio, dan orkestrasi berorientasikan agen melalui pemanggilan fungsi terbina dalam dan persekitaran pelaksanaan kod. Google membingkaikan Gemini 3 Pro sebagai yang “paling pintar” dalam keluarga, dioptimumkan untuk tugas luas melangkaui kod (walaupun pengekodan berorientasikan agen adalah keutamaan).
Claude Sonnet 4.5: dioptimumkan khusus untuk aliran kerja berorientasikan agen dan kod: Anthropic menekankan pematuhan arahan, kebolehpercayaan alat, kecekapan edit/pembetulan, dan pengurusan keadaan jangka panjang. Fokus kejuruteraan adalah meminimumkan edit yang merosakkan atau berhalusinasi dan menjadikan interaksi komputer dunia nyata lebih teguh.
Kesimpulan: Gemini 3 Pro diposisi sebagai generalis teratas yang didorong kuat pada penaakulan multimodal dan integrasi berorientasikan agen; Sonnet 4.5 diposisi sebagai pakar untuk pengekodan dan penggunaan alat berorientasikan agen dengan jaminan edit/pembetulan yang dipertingkat.
Peralatan dan integrasi
- Gemini: set alat Google terbina dalam termasuk Search grounding, carian fail, pelaksanaan kod, dan parameter imej/video kelas pertama; parameter
thinking_leveluntuk mengawal pertukaran pengiraan dalaman/kependaman. Integrasi mendalam ke dalam infrastruktur Google menjadikannya mudah untuk pasukan sedia ada di Google Cloud. - Claude: SDK agen yang kukuh dan penekanan pada pengiraan larian panjang yang stabil (koheren 30+ jam yang dilaporkan Sonnet). Anthropic turut mendedahkan pelaksanaan kod, API fail, dan UX “titik semak” baharu dalam Claude Code dan sambungan VS Code — ciri yang menambah baik aliran kerja pengekodan berulang secara material.
Apakah spesifikasi teknikal dan penanda aras katakan?

Penanda aras berbeza sedikit bergantung pada penilai dan konfigurasi (usaha tunggal vs. berbilang usaha, akses alat, tetapan pemikiran lanjutan). Di bawah ialah analisis data penanda aras keupayaan pengekodan:
SWE-bench Verified (ujian kejuruteraan perisian dunia sebenar)
Claude Sonnet 4.5 (dilaporkan Anthropic): 77.2% (bajet pemikiran 200k; 78.2% dalam konfigurasi 1M). Anthropic turut melaporkan skor komputasi tinggi 82.0% menggunakan percubaan selari/pensampelan penolakan.
Gemini 3 Pro (pelaporan DeepMind / papan pendahulu berkaitan): ~76.2% usaha tunggal pada SWE-bench (jadual vendor). Papan pendahulu awam berbeza (Gemini dan Sonnet saling mengatasi dengan margin kecil).
Terminal-Bench & tugas berorientasikan agen
Gemini 3 Pro: angka bench terminal/agen (jadual vendor) menunjukkan prestasi kukuh (cth., Terminal-Bench 54.2% dalam jadual vendor), kompetitif dengan kekuatan agen Sonnet.
Sonnet 4.5: cemerlang dalam orkestrasi alat berorientasikan agen (Anthropic melaporkan peningkatan besar pada OSWorld dan penanda aras gaya Terminal serta menonjolkan prestasi tugas berterusan yang lebih lama).
Kesimpulan: kedua model sangat rapat pada penanda aras pemahaman kod dan penjanaan kod moden; Sonnet 4.5 mempunyai sedikit kelebihan pada beberapa set pengesahan kejuruteraan perisian (nombor yang diterbitkan Anthropic), manakala Gemini 3 Pro sangat kompetitif dan kerap mendahului pada penanda aras multimodal dan beberapa gaya pertandingan kod. Sentiasa sahkan dengan konfigurasi penilaian yang tepat (akses alat, saiz konteks, bajet pemikiran), kerana tombol tersebut secara material mengubah skor.
Bagaimana keupayaan multimodal mereka berbanding?
Visi & pengendalian imej
- Gemini 3 Pro: kawalan multimodal terperinci dengan
media_resolutionimej/video (bajet token rendah/sederhana/tinggi per imej/bingkai), penjanaan/penyuntingan imej (model pratonton imej berasingan), dan panduan eksplisit untuk OCR/perincian visual. Ini menjadikan Gemini sangat kuat apabila tugas pengekodan memerlukan membaca tangkapan skrin, lakaran UI, atau bingkai video. - Claude Sonnet 4.5: menyokong multimodaliti teks+imej dan integrasi produk Anthropic (aplikasi Claude) mendedahkan aliran kerja visual; fokus dalam Sonnet 4.5 ialah mengintegrasikan konteks visual ke dalam aliran berorientasikan agen dan bukannya kesetaraan sintesis imej mentah.
Bila multimodaliti penting untuk pengekodan
Jika aliran kerja anda sangat bergantung pada tangkapan skrin UI, spesifikasi reka bentuk dalam imej, atau panduan video yang perlu dianalisis model untuk menghasilkan atau mengubah kod, kawalan resolusi imej khusus Gemini dan varian penjanaan imej boleh menjadi kelebihan praktikal. Jika talian paip anda ialah automasi dipacu agen (mengklik sekitar, menjalankan arahan, mengedit fail merentas alat), SDK agen Claude dan alat pelaksanaan kod adalah kelas pertama.
Penaakulan lanjutan & perancangan jangka panjang — mana lebih baik?
Sonnet 4.5: ketahanan dan penjajaran
Sonnet 4.5 boleh mengekalkan kerja yang koheren selama lebih 30 jam merentas tugas berbilang peringkat yang kompleks (perancangan, penyelidikan, draf litigasi, tugas kod jangka panjang). Ketahanan ini ditambah penekanan penjajaran Anthropic menjadikan Sonnet pilihan menarik untuk automasi hujung ke hujung di mana model mesti menjejak matlamat dan mengekalkan tingkah laku selamat.
Gemini 3 Pro: penaakulan mendalam + orkestrasi agen
Gemini 3 Pro memperkenalkan varian “Deep Think” dan API pemikiran dalaman yang lebih kaya untuk perancangan berbilang langkah, digandingkan dengan IDE berorientasikan agen Google. Secara praktiknya ini bermakna Gemini boleh merancang dan melaksanakan langkah agen merentas alat (editor, shell, web). Jika automasi anda memerlukan akses alat luaran dengan penciptaan artifak, peralatan berorientasikan agen bersepadu Gemini (Antigravity) adalah nilai tambah yang kuat. Nota: Deep Think menukar kependaman untuk kedalaman.
Perbandingan Perancangan Jangka Panjang: Vending-Bench 2
Dalam ujian simulasi “Vending-Bench 2”, Gemini 3 mengatasi Claude 4.5 dengan menjalankan syarikat maya selama setahun penuh dan kekal menguntungkan. Dalam ujian jangka pendek, data Gemini 3 Pro dan Claude 4 Sonnet adalah serupa, tetapi perbezaan menjadi lebih ketara pada tempoh ujian yang lebih panjang.

Perbezaan praktikal
- Untuk tugas penaakulan tinggi sekali gus (nyahpepijat algoritma kompleks, bukti logik mendalam tertanam dalam kod),
thinking_leveldan Deep Think Gemini menjanjikan kedalaman respons sekali gus yang lebih besar. - Untuk automasi dipacu alat berjangka panjang (agen berterusan yang menjalankan banyak arahan, menulis ujian, beriterasi, dan mengurus keadaan), fokus jangka panjang dan SDK agen Claude Sonnet 4.5 ialah pembeza utama.
Bagaimana akses API dan harga berbanding untuk penggunaan pembangun?
Gemini 3 Pro (Google) — akses dan harga
- Akses: Pratonton Gemini 3 Pro tersedia melalui Google AI Studio dan Vertex AI (model garden). SDK termasuk google-genai untuk Python/JS/Go/dll., ditambah lapisan serasi OpenAI untuk migrasi lebih mudah, dengan endpoint REST dan pemanggilan fungsi / alat pelaksanaan kod. Antigravity menyediakan permukaan IDE yang menggunakan Gemini 3 Pro dalam pratonton.
- Harga: Harga pratonton disenaraikan pada dokumentasi Google: $2 / $12 per 1M token (input / output) untuk peringkat <200k; kadar lebih tinggi untuk >200k (contoh dalam dokumen menunjukkan $4 / $18 untuk >200k).
Claude Sonnet 4.5 — akses dan harga
- API & SDK: Anthropic menyediakan Claude API, Claude Agent SDK untuk membina aliran kerja berorientasikan agen, API fail, dan alat pelaksanaan kod (sambungan VS Code asli, penambahbaikan Claude Code, dan ciri “titik semak”).
- Harga: tetingkap konteks 200k token lalai, konteks 1M token dalam beta untuk perusahaan; harga $3 / $15 per 1M token (masing-masing input/output)
Sebagai pembangun, anda harus memilih model berdasarkan keperluan anda dan ciri-cirinya, bukan semata-mata yang paling murah. Jika tugas boleh ditangani oleh dua model, putuskan berdasarkan konteks.
Jika anda mahu menggunakan dua model serentak, saya mengesyorkan CometAPI, yang menyediakan Gemini 3 Pro Preview API dan Claude Sonnet 4.5 API, serta berharga 20% daripada harga rasmi.
| Gemini 3 Pro Preview | GPT-5.1 | |
| Input Tokens | $1.60 | $2.4.00 |
| Output Tokens | $9.60 | $12.00 |
Kesimpulan akhir
Gemini 3 Pro (Pratonton) dan Claude Sonnet 4.5 kedua-duanya termaju untuk pembantu pengekodan pada akhir 2025. Sonnet 4.5 mendahului Gemini dalam penanda aras pengesahan kejuruteraan perisian tertentu dan ketahanan pada tugas jangka panjang, manakala Gemini 3 Pro membawa pemahaman multimodal yang lebih kuat dan peralatan berorientasikan agen yang mendalam yang boleh melaksanakan dalam persekitaran editor/terminal/pelayar. Pilihan yang tepat bergantung pada sama ada keperluan utama anda ialah penaakulan kod tulen dan pengesahan (Sonnet), atau pembangunan multimodal, berorientasikan agen, diperkukuh alat (Gemini). Untuk penggunaan bertaraf perusahaan, banyak pasukan akan wajar mengamalkan pendekatan hibrid, menggunakan model yang paling kuat untuk peringkat tertentu dalam aliran kerja pembangunan.
Pembangun boleh mengakses Gemini 3 Pro Preview API dan Claude Sonnet 4.5 API melalui CometAPI. Untuk bermula, teroka keupayaan model CometAPI dalam Playground dan rujuk panduan API untuk arahan terperinci. Sebelum mengakses, pastikan anda telah log masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga rasmi untuk membantu anda mengintegrasi.
Sedia untuk bermula?→ Percubaan percuma model Gemini 3 pro dan GPT-5.1 !
Jika anda mahu mengetahui lebih banyak petua, panduan dan berita tentang AI ikuti kami di VK, X dan Discord!
