Gemini 3.1 Pro: Fitur, Performa Benchmark dan Analisis Harga

Google dan divisi risetnya DeepMind secara diam-diam (dan kemudian tidak begitu diam-diam) mendorong langkah besar lain dalam peta jalan Gemini: Gemini 3.1 Pro. Rilis ini, yang digulirkan di permukaan yang berhadapan dengan konsumen CometAPI, diposisikan sebagai peningkatan kinerja dan penalaran untuk keluarga Gemini 3 — menjanjikan penalaran bentuk panjang yang jauh lebih kuat, pemahaman multimodal yang lebih baik, dan skalabilitas yang lebih baik untuk aplikasi dunia nyata.

Model terbaru Google — apa itu Gemini 3.1 Pro?

Gemini 3.1 Pro adalah pembaruan inkremental pertama dalam keluarga Gemini 3 yang diposisikan sebagai model penalaran “paling mumpuni” yang dioptimalkan untuk tugas multi-langkah, multimodal, dan agen. Dirilis ke pratinjau publik pada pertengahan Februari 2026 (pratinjau diumumkan 19–20 Feb 2026), model ini secara eksplisit ditargetkan pada skenario yang memerlukan rantai pemikiran berkelanjutan, penggunaan alat, dan pemahaman konteks panjang — misalnya: sintesis riset skala besar, agen rekayasa yang mengoordinasikan alat dan sistem, dan analisis multimodal atas dokumen yang menggabungkan teks, gambar, audio, dan video.

Pada tingkat tinggi, Gemini 3.1 Pro digambarkan oleh para pengembangnya sebagai:

Secara native multimodal — mampu menerima dan menalar atas teks, gambar, audio, dan video.
Dibangun untuk konteks panjang — mendukung jendela konteks yang sangat besar, cocok untuk seluruh basis kode, berkas multi-dokumen, atau transkrip panjang.
Dioptimalkan untuk penalaran yang andal dan alur kerja berbasis agen, artinya disetel untuk merencanakan, memanggil alat, dan memverifikasi keluaran di tugas multi-langkah.

Mengapa ini penting sekarang: organisasi dan pengembang bergerak dari “asisten percakapan yang baik” ke “agen pendukung keputusan dan riset berisiko tinggi” (perancangan legal, sintesis R&D, pemahaman dokumen multimodal). Gemini 3.1 Pro secara eksplisit dirancang untuk koridor tersebut — mengurangi halusinasi, menghasilkan penalaran yang dapat ditelusuri, dan berintegrasi dengan CometAPI untuk prototyping maupun produksi.

Apa saja sorotan teknis dan fitur Gemini 3.1 Pro?

Multimodal native dan jendela konteks ekstrem

Gemini 3.1 Pro melanjutkan fokus lini Gemini pada multimodalitas. Menurut kartu model dan catatan produk, model ini menerima dan menalar atas teks, gambar, audio, dan video dalam pipeline yang sama — kemampuan yang menyederhanakan alur kerja saat tipe data bercampur (misalnya deposisi hukum dengan audio + transkrip + pemindaian). Yang menonjol, model ini mendukung jendela konteks 1,000,000-token dan dapat menghasilkan keluaran panjang (catatan yang dipublikasikan menempatkan batas keluaran pada ukuran yang sangat besar, sesuai tugas bentuk panjang). Skala ini membuatnya cocok untuk kasus penggunaan seperti menganalisis seluruh repositori kode, dokumen multi-bab, atau transkrip panjang tanpa perlu chunking.

“Dynamic thinking”: penalaran yang ditingkatkan & perencanaan bertahap

Google menggambarkan 3.1 Pro memiliki “pemikiran” yang lebih baik — yaitu penanganan rantai pemikiran internal yang lebih baik dan pemilihan strategi penalaran secara dinamis tergantung kompleksitas tugas. Model ini disetel untuk terlibat dalam perencanaan multi-langkah eksplisit saat diperlukan, dan tetap hemat token saat melakukannya. Dalam praktik, ini berarti lebih sedikit halusinasi untuk masalah kompleks yang bertahap dan konsistensi faktual yang meningkat pada tolok ukur penalaran multi-langkah.

Alur kerja agen & penggunaan alat

Fokus desain utama 3.1 Pro adalah kinerja berbasis agen: mengoordinasikan alat, memanggil grounding web atau penelusuran, menulis dan mengeksekusi potongan kode, serta memverifikasi keluaran melalui lintasan sekunder. Google telah mengintegrasikan 3.1 Pro ke dalam produk yang mengutamakan agen (misalnya lingkungan pengembangan Antigravity) untuk memungkinkan model menjalankan tugas yang melibatkan editor, terminal, dan peramban — serta merekam artefak seperti tangkapan layar dan rekaman peramban untuk memverifikasi kemajuan. Fitur-fitur ini bertujuan mengurangi jarak antara model “pemberi saran” dan model yang benar-benar menjalankan alur kerja multi-alat secara andal.

Submode khusus (Deep Research, Deep Think)

Google memasangkan 3.1 Pro dengan “Deep Research” dan merujuk pada varian “Deep Think” yang akan datang. Submode ini ditargetkan masing-masing untuk tugas riset dengan cakupan tinggi dan kedalaman penalaran maksimal (dengan biaya komputasi dan latensi tambahan). Mereka ditujukan bagi analis, peneliti, dan pengembang yang membutuhkan keluaran lebih saksama dan berkualitas tinggi daripada respons yang paling cepat dan murah.

Bagaimana kinerja Gemini 3.1 Pro pada benchmark?

Gemini 3.1 Pro mencapai peningkatan kuat dibanding hasil Gemini 3 Pro sebelumnya, sering memimpin pada rangkaian luas ukuran penalaran multi-langkah dan multimodal — tetapi tertinggal dari beberapa pesaing pada tugas khusus tertentu (terutama beberapa pengkodean tingkat lanjut atau paket soal tingkat ahli). Singkatnya: peningkatan luas dengan keunggulan sempit pesaing pada benchmark spesialis.

Klaim benchmark kunci dan angka utama

Gemini 3.1 Pro: Fitur, Performa Benchmark dan Analisis Harga

ARC-AGI-2 (penalaran abstrak / teka-teki sains multi-langkah): Peningkatan yang dilaporkan untuk Gemini 3.1 Pro menunjukkan perbaikan substansial dari versi Gemini 3 Pro sebelumnya; satu suite uji komunitas mengindikasikan peningkatan lebih dari dua kali lipat pada ARC-AGI-2 dibanding baseline Gemini 3 Pro sebelumnya dalam uji singkat yang terfokus. Skor spesifik yang dilaporkan (uji komunitas) menempatkan Gemini 3.1 Pro di ~77.1% pada beberapa agregasi gaya ARC (pelaporan publik).
GPQA Diamond dan tolok ukur sains tingkat pascasarjana: Data laporan menunjukkan Gemini 3.1 Pro mencapai rekor tertinggi pada GPQA Diamond (tolok ukur QA sains tingkat pascasarjana), melampaui model Gemini sebelumnya dan menetapkan penanda baru tertinggi untuk keluarga ini dalam run independen. Pencapaian ini mencerminkan tuning rantai pemikiran dan penalaran bertahap yang ditingkatkan.
“Humanity’s Last Exam” dengan alat diaktifkan (multi-alat, penalaran ber-grounding): Dalam perbandingan langsung dengan Claude Opus 4.6 dari Anthropic, Claude mencapai 53.1% pada benchmark kompleks berkemampuan alat ini sementara Gemini 3.1 Pro mencapai 51.4% pada putaran pengujian yang sama — menunjukkan Gemini sangat dekat namun belum teratas pada ujian multi-alat tersebut.
Benchmark pengodean & terminal (Terminal-Bench 2.0, SWE-Bench Pro): Benchmark pengodean spesialis menunjukkan perbedaan lebih besar. Pada Terminal-Bench 2.0 dengan harness tertentu, varian GPT-5.3-Codex mencetak sekitar 77.3% vs ~68.5% untuk Gemini 3.1 Pro pada perbandingan yang sama. Pada hasil yang dilaporkan publik untuk SWE-Bench Pro, Gemini 3.1 Pro mencetak ~54.2% vs 56.8% untuk GPT-5.3-Codex — lebih dekat, tetapi keluarga Codex milik OpenAI mempertahankan keunggulan pada tugas pemrograman khusus dalam run tersebut.
GDPval-AA Elo (peringkat tugas ahli): Dalam peringkat agregat bergaya Elo untuk tugas ahli, varian Claude Sonnet/Opus mencetak lebih tinggi (mis. ~1606–1633 poin) sementara satu laporan publik menempatkan Gemini 3.1 Pro pada ~1317 poin pada dataset yang sama — menunjukkan ruang untuk peningkatan pada domain ahli tertentu yang sempit.

Hasil uji coba dunia nyata dan pengujian langsung

Hands-on analyst writeups show Gemini 3.1 Pro particularly excels at:

Ringkasan konteks panjang dan sintesis multi-dokumen, di mana jendela 1M token menghindari chunking yang rawan artefak.
Tugas pemahaman multimodal di mana pengikatan citra + teks meningkatkan ekstraksi faktual.
Otomasi berbasis agen (mis., mengoordinasikan rantai alat sederhana) — dengan uji Antigravity menunjukkan orkestrasi tugas multi-agen dapat dilakukan dengan artefak yang merekam setiap langkah.

Di mana Gemini 3.1 Pro masih tertinggal (apa kata angka)

Tidak ada model yang unggul secara seragam. Komentar independen dan pengujian komunitas menyoroti kesenjangan spesifik:

Benchmark rekayasa perangkat lunak dan pemeliharaan kode (SWE-Bench Pro dan serupa) — Gemini 3.1 Pro tertinggal dari pesaing (Claude Opus 4.6 dari Anthropic) pada tugas yang menguji kemampuan rekayasa perangkat lunak praktik: refaktor berskala besar, triase bug pada basis kode yang berantakan dan beberapa tipe perbaikan program otomatis. Dengan kata lain, untuk pemeliharaan engineering sehari-hari, model khusus masih memegang keunggulan di beberapa testbed.
Tugas mikro sensitif latensi — karena Gemini 3.1 Pro disetel untuk kedalaman, tugas yang memerlukan latensi sangat rendah dan throughput tinggi (mis., inferensi mikro untuk UI percakapan ringan) mungkin lebih cocok dilayani oleh varian “Flash” atau varian lain yang dioptimalkan dalam keluarga Gemini.

Berapa harga Gemini 3.1 Pro?

Anda dapat mengakses Gemini 3.1 Pro dengan dua cara — langganan konsumen atau API pengembang — dan harga berbeda untuk masing-masing.

Konsumen (aplikasi Gemini / Google AI Pro): Akses ke Gemini 3.1 Pro disertakan dalam langganan Google AI Pro, yang di AS adalah $19.99 / month (Google juga menawarkan tingkat “AI Plus” yang lebih rendah dan tingkat “AI Ultra” yang lebih tinggi). Google.
Pengembang / API (berdasarkan token): Jika Anda memanggil model Gemini melalui API pengembang Gemini/AI, harga diukur per token. Untuk pratinjau Gemini 3.x Pro harga pengembang yang dipublikasikan kira-kira: $2.00 per 1M input tokens dan $12.00 per 1M output tokens untuk pita standar (≤200k prompts) — dengan tingkat lebih tinggi (mis. $4/$18 per 1M) untuk konteks yang sangat besar. (Lihat tabel harga Gemini API untuk detail lengkap dan harga batch.)
Jika Anda menggunakan Gemini 3.1 Pro melalui CometAPI:

Harga Comet (USD / M Tokens)	Harga Resmi (USD / M Tokens)
Input:$1.6/M; Output:$9.6/M	Input:$2/M; Output:$12/M

Harga langganan konsumen (aplikasi Gemini)

Untuk paket pengguna akhir di dalam aplikasi Gemini, Google menyusun tingkatan yang membatasi akses ke varian model dan fitur ekstra: Google AI Pro dan Google AI Ultra. Harga bervariasi menurut pasar dan mata uang; contoh yang dipublikasikan menunjukkan Google AI Pro sebesar $19.99/bulan (dengan uji coba promosi tersedia) dan penetapan harga mata uang bertingkat ditampilkan pada halaman produk (termasuk penawaran uji coba dan tarif diskon jangka pendek). AI Ultra membundel akses lebih tinggi (mis., akses prioritas ke inovasi baru, kredit lebih besar untuk pembuatan video) pada tarif bulanan yang lebih tinggi. Harga paket konsumen ini kompetitif dengan langganan AI konsumen kelas atas lainnya dan diposisikan untuk memberikan pengguna daya individu atau tim kecil akses ke fitur 3.1 Pro tanpa integrasi API.

Tips praktis prompt & penggunaan (apa yang akan saya lakukan)

Gunakan ini untuk hasil yang andal dan dapat diulang:

Perencana langkah eksplisit
Pola prompt: 1) Give a 3-step plan you will follow to complete X. 2) Execute step 1 and show artifact. 3) Confirm step 1 succeeded, then continue to step 2. Ini memanfaatkan eksekusi bertahap 3.1 Pro yang lebih kuat dan memberi Anda titik pemeriksaan.
Keluaran terstruktur dengan skema
Minta JSON dengan skema dan strict: true. Karena 3.1 Pro lebih andal menghasilkan keluaran panjang yang mematuhi skema, Anda akan mendapatkan respons tunggal yang lebih besar yang dapat diparse di hilir.
Sandwich pemeriksaan alat
Saat memanggil alat eksternal (API, eksekutor kode), minta model menghasilkan: rencana → pemanggilan alat yang persis (siap salin/tempel) → langkah validasi. Lalu verifikasi langkah validasi di luar model sebelum melanjutkan.
Waspadai kepercayaan satu langkah
Bahkan jika model menulis kode atau perintah yang tampak sempurna, jalankan validasi independen (tes, linter, eksekusi sandbox) — terutama untuk tindakan berbasis agen/otonom.

Hands-On dengan Gemini 3.1 Pro

Kasus uji 1: Asisten riset konteks panjang (NotebookLM / Deep Research)

Tujuan: Mengevaluasi kemampuan model untuk menyintesis 10–50 dokumen panjang (mis., laporan, whitepaper) menjadi ringkasan eksekutif multi-halaman dengan sitasi dan item tindakan.

Penyiapan: Berikan korpus total 200k–800k token; tugaskan model untuk menghasilkan ringkasan 2–4 halaman dengan sitasi eksplisit dan rekomendasi “langkah berikutnya”. Gunakan templat prompt yang dapat diulang dan ukur waktu, penggunaan token (biaya), serta akurasi faktual.

Hasil: Ringkasan ujung-ke-ujung lebih cepat dengan lebih sedikit artefak akibat chunking dibanding model lama, fidelitas sitasi lebih tinggi dalam ringkasan, dan koherensi yang lebih baik pada skala — dengan biaya penggunaan token yang signifikan (jadi rencanakan anggaran). Benchmark dan uji langsung menunjukkan Gemini 3.1 Pro unggul dalam sintesis multi-dokumen berkat jendela 1M token.

Kasus uji 2: Asisten pengodean berbasis agen (Antigravity + GitHub Copilot)

Tujuan: Mengukur pengurangan waktu selesai untuk tugas pengembang multi-langkah (mis., mengimplementasikan fitur di beberapa berkas, menjalankan tes, memperbaiki tes yang gagal).

Penyiapan: Gunakan Antigravity atau GitHub Copilot dalam pratinjau dengan Gemini 3.1 Pro terpilih. Definisikan tugas yang dapat direproduksi (pembuatan isu → implementasi → jalankan tes), log langkah dan artefak agen, dan bandingkan dengan baseline manusia saja.

Hasil: Orkestrasi tugas multi-langkah yang lebih baik (perekaman artefak, saran otomatis kandidat patch), penalaran lintas berkas yang lebih baik daripada Gemini 3 Pro sebelumnya, dan penghematan waktu terukur pada pekerjaan fitur rutin. Tugas debugging sistem tingkat rendah yang khusus mungkin masih lebih cocok untuk model yang khusus kode (hasil komunitas menunjukkan selisih vs beberapa varian GPT-Codex pada benchmark terminal tertentu).

Kasus uji 3: Telaah dokumen hukum/medis multimodal

Tujuan: Gunakan model untuk memasukkan korpus campuran (PDF hasil pemindaian, gambar, transkrip audio), mengekstrak fakta kunci, dan menghasilkan matriks risiko serta tindakan prioritas.

Penyiapan: Sediakan dataset dengan gambar hasil pemindaian dan teks OCR, plus audio pendukung. Ukur presisi dalam ekstraksi entitas bernama, tingkat positif palsu, dan kemampuan model untuk merujuk artefak sumber.

hasil: Penalaran terintegrasi yang lebih kuat di berbagai modalitas dan keluaran yang lebih dapat ditelusuri (kemampuan menunjuk ke gambar/halaman/stempel waktu audio yang mendukung suatu pernyataan). Jendela konteks yang panjang mengurangi kebutuhan pemotongan manual dan referensi silang. Namun, di domain teregulasi, keluaran harus divalidasi oleh pakar domain dan pipeline grounding/verifikasi harus digunakan.

Kesan pertama (apa yang terasa berbeda)

Penalaran bertahap lebih dalam. Tugas yang sebelumnya memerlukan bolak-balik — mis., sintesis multi-dokumen, matematika/logika multi-langkah — cenderung selesai dalam lebih sedikit putaran dan dengan keluaran bergaya rantai pemikiran yang lebih jelas (tanpa mengekspos teks instruksi internal). Ini adalah tajuk utama yang ditekankan Google.
Keluaran terstruktur yang lebih panjang dan berkualitas lebih tinggi. JSON dan otomasi bentuk panjang lebih konsisten dan sering kali jauh lebih panjang (beberapa pengguna melaporkan ukuran keluaran jauh lebih besar daripada 3.0). Itu membuatnya hebat untuk pekerjaan generator di mana Anda menginginkan satu payload besar. Harapkan untuk menangani keluaran yang lebih besar dan streaming.
Penanganan token/konteks yang lebih efisien. Efisiensi token yang ditingkatkan dan perilaku yang lebih “grounded, konsisten secara faktual” untuk skenario penggunaan alat. Itu terlihat pada lebih sedikit halusinasi saat pencarian fakta singkat.

Analisis akhir: Apakah Gemini 3.1 Pro layak diadopsi sekarang?

Gemini 3.1 Pro merepresentasikan langkah maju yang berarti dalam keluarga Gemini dengan peningkatan yang dapat ditunjukkan pada penalaran, pengodean, dan benchmark berbasis agen — didukung kartu model yang dipublikasikan Google dan pelacak independen yang mengutip lonjakan besar pada papan peringkat tertentu. Bagi tim yang membutuhkan penalaran lanjutan, koordinasi alat berbasis agen, atau kemampuan multimodal berkonteks panjang, 3.1 Pro adalah kandidat yang menarik.

Pengembang dapat mengakses Gemini 3.1 Pro melalui CometAPI sekarang. Untuk memulai, jelajahi kemampuan model di Playground dan lihat panduan API untuk instruksi terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.

Siap mulai?→ Daftar untuk Gemini 3.1 Pro hari ini !

Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI ikuti kami di VK, X dan Discord!