Cara Menggunakan Gemini 3.5 Flash API

Google meluncurkan Gemini 3.5 Flash di Google I/O 2026 sebagai model terbaru dalam seri Flash, menghadirkan kecerdasan tingkat terdepan dengan kecepatan dan biaya setara Flash. Dirilis sekitar 19 Mei 2026, model ini menggabungkan penalaran maju, kemampuan agenik yang kuat, dan pemahaman multimodal sambil menjaga latensi tetap rendah.

Model ini menonjol bagi developer, perusahaan, dan pembuat AI yang membutuhkan AI berkinerja tinggi tanpa overhead dari model "Pro" yang lebih besar. Model ini menyaingi atau melampaui model Pro sebelumnya pada tolok ukur agenik dan pengodean utama sekaligus menawarkan kecepatan dan efisiensi yang superior.

Key Highlights (Struktur Cuplikan Unggulan):

Performance: Mengungguli Gemini 3.1 Pro pada Terminal-Bench 2.1 (76.2% vs. 70.3%), MCP Atlas (83.6%), dan lainnya.
Speed: Latensi tingkat Flash untuk kasus penggunaan real-time dan volume tinggi.
Context: Hingga 1M token input, 64k token output.
Multimodal: Menangani teks, gambar, video, audio, PDF secara native.
Pricing: Sekitar $1.50 / 1M token input dan $9 / 1M token output (bervariasi menurut penyedia/platform).

Untuk integrasi yang mulus, CometAPI menyediakan proxy terpadu dan andal ke model Gemini (dan banyak lainnya) dengan limit laju yang ditingkatkan, penagihan yang disederhanakan, routing fallback, dan analitik penggunaan—ideal untuk aplikasi produksi yang melakukan skala dengan Gemini 3.5 Flash.

Apa itu Gemini 3.5 Flash?

Gemini 3.5 Flash adalah model tingkat Flash paling cerdas dari Google, direkayasa untuk kinerja terdepan yang berkelanjutan pada tugas agenik dan pengodean dalam skala besar. Model ini dibangun di atas seri Gemini 3, menggabungkan penalaran layaknya Pro dengan efisiensi setara Flash.

Tidak seperti varian "Lite" yang berfokus murni pada biaya, atau model Pro yang lebih berat dengan prioritas kecerdasan maksimum, 3.5 Flash unggul dalam skenario dunia nyata multi-langkah: menerapkan sub-agen, iterasi pengodean cepat ("vibe coding"), penggunaan alat paralel, dan alur kerja jangka panjang yang memerlukan pemeliharaan konteks selama banyak giliran.

Core Capabilities:

Multimodal Inputs: Teks, gambar, video, audio, PDF.
Tools & Agentic Features: Pemanggilan fungsi, eksekusi kode, grounding pencarian, pencarian file, konteks URL. (Computer Use belum didukung.)
Thinking Modes: Tingkat usaha yang dapat dikonfigurasi untuk menyeimbangkan kedalaman vs. kecepatan.
Production-Ready: Status GA dengan penomoran versi stabil (gemini-3.5-flash).

Model ini mendukung konteks 1M token, memungkinkan pemrosesan dokumen besar, basis kode, atau riwayat percakapan—kritis untuk agen kompleks.

Apa yang Baru di Gemini 3.5 Flash

Dibandingkan Gemini 3 Flash dan 3.1 Pro, 3.5 Flash menghadirkan peningkatan signifikan:

Improved Agentic Performance: 42% lebih baik pada benchmark siber multi-giliran jarak jauh dengan pengurangan token 72% dalam beberapa kasus.
Better Coding: Memimpin pada varian Terminal-Bench dan SWE-Bench untuk alur kerja developer dunia nyata.
Enhanced Multimodal Reasoning: Skor teratas pada CharXiv (84.2%) dan MMMU-Pro.
Parallel Sub-Agent Coordination: Dukungan native untuk orkestrasi multi-agen yang kompleks (didemonstrasikan pada contoh Antigravity seperti migrasi basis kode dan pengembangan gim).
Efficiency Gains: Mempertahankan atau meningkatkan kecepatan sambil meningkatkan kecerdasan, cocok untuk produksi berkapasitas tinggi.

Benchmark Comparison Table:

Benchmark	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Catatan
Terminal-Bench 2.1 (Agentic)	76.2%	58.0%	70.3%	Keunggulan kuat pada pengodean
MCP Atlas (Multi-step)	83.6%	62.0%	78.2%	Alur kerja agenik
CharXiv (Multimodal)	84.2%	80.3%	83.3%	Penalaran bagan
GDPval-AA (Elo)	1656	1204	1314	Pekerjaan berbasis pengetahuan
MMMU-Pro	83.6%	81.2%	80.5%	Multimodal

Pengguna di dunia nyata (mis., Shopify, Macquarie Bank, Salesforce) melaporkan peningkatan dalam peramalan, pemrosesan dokumen, dan otomasi perusahaan.

Penyesuaian Perilaku dan Perubahan Utama

Google memperkenalkan pembaruan perilaku penting untuk efisiensi dan konsistensi yang lebih baik.

Tingkat Usaha Bawaan Baru: Medium

Tingkat thinking_level bawaan berubah dari high (pada pratinjau sebelumnya) menjadi medium. Ini memberikan hasil yang sangat baik untuk sebagian besar tugas sambil mengurangi latensi dan biaya. Gunakan high untuk penalaran paling kompleks.

Effort Level Comparison Table:

Effort Level	Best For	Latency/Cost Impact	Recommended Use Cases
minimal	Respons cepat	Terendah	Chat, fakta sederhana, routing dasar
low	Agenik/kode langkah lebih sedikit	Rendah	Analisis, penulisan, alat cepat
medium (default)	Sebagian besar tugas	Seimbang	Kode kompleks, agen standar
high	Penalaran mendalam	Lebih tinggi	Matematika sulit, tugas agen tersulit

Code Example (Python - Mengatur Tingkat Pemikiran):

Python

from google import genai
from google.genai import types

client = genai.Client()  # Assumes API key configured via env or auth

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

Pola serupa berlaku di JavaScript, REST, dll.

Pelestarian Pemikiran

Model kini secara otomatis mempertahankan penalaran intermediari di seluruh percakapan multi-giliran saat riwayat penuh (termasuk tanda tangan pemikiran) disediakan. Ini meningkatkan kinerja pada debugging iteratif, refactoring, dan sesi agen panjang—tanpa perubahan API tambahan untuk Interactions API; GenerateContent diuntungkan dengan meneruskan riwayat lengkap.

Pembaruan Parameter (Praktik Terbaik Gemini 3.x)

Hindari pengaturan manual temperature, top_p, top_k — nilai bawaan telah dioptimalkan.
Gunakan thinking_level alih-alih thinking_budget numerik.
Pencocokan respons fungsi yang ketat (id, name, count) sangat penting untuk menghindari respons kosong.

Cara Mengakses dan Menggunakan Gemini 3.5 Flash API

1. Opsi Akses:

Google AI Studio (termudah untuk pengujian) — Tersedia paket gratis.
Gemini API (langsung dengan kunci API).
Vertex AI / Gemini Enterprise Agent Platform (fitur enterprise, limit lebih tinggi).
Pihak ketiga seperti CometAPI (disarankan untuk akses multi-penyedia yang disederhanakan, analitik, dan keandalan).

Get Started with CometAPI: CometAPI mengonsolidasikan akses ke model Gemini dengan satu endpoint, penanganan error yang lebih baik, dasbor penggunaan, dan peringatan biaya. Daftar di Cometapi.com, dapatkan kunci Anda, dan arahkan permintaan ke gemini-3.5-flash (atau ID model yang setara) dengan perubahan kode minimal. Ini sempurna untuk melakukan skala tanpa mengelola banyak kunci API atau berurusan langsung dengan rate limit.

2. Penyiapan Dasar dan Hello World

Python Quickstart:

import osfrom google import genaifrom google.genai import types# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # Or use Client() with defaultsclient = genai.Client()response = client.models.generate_content(    model="gemini-3.5-flash",    contents="Explain parallel agentic execution in three sentences.",)print(response.text)

JavaScript Example:

import { GoogleGenAI } from "@google/genai";const ai = new GoogleGenAI({});async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "Explain parallel agentic execution in three sentences.",  });  console.log(response.text);}main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Hello, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>

3. Penggunaan Lanjutan: Multimodal, Function Calling, dan Agen

Multimodal Example (Image + Text):

# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "Describe this image in detail and suggest improvements."],)

Function Calling untuk Alur Kerja Agenik:

Definisikan alat, biarkan model memanggilnya, lalu berikan respons (cocokkan id/nama secara ketat).

Structured Outputs:

Gunakan skema respons untuk parsing JSON yang andal—sempurna untuk pipeline ekstraksi data.

Code Execution Tool:

Aktifkan agar model menjalankan kode Python dalam sandbox untuk matematika, analisis data, dll.

Untuk pengaturan agenik lengkap, pertimbangkan Managed Agents Google (preview) atau bangun sendiri dengan Cometapi.com untuk orkestrasi, logging, dan kontrol biaya.

Saran untuk Gemini 3.5 Flash API

Manfaatkan Medium sebagai default — Timpa hanya saat diperlukan.
Sertakan Riwayat Lengkap untuk pelestarian pemikiran dalam chat/agen.
Gunakan caching konteks untuk prompt besar yang berulang (penghematan signifikan).
Penanganan respons alat yang ketat untuk mencegah kegagalan.
Pantau token — konteks 1M sangat kuat namun bisa mahal jika disalahgunakan.
Gabungkan dengan Cometapi.com — Terapkan routing cerdas (mis., fallback ke Flash-Lite untuk kueri sederhana), lapisan caching, dasbor penggunaan, dan penanganan error terpadu. Ini mengoptimalkan biaya dan keandalan untuk aplikasi ber-volume tinggi atau misi-kritis.

Praktik Terbaik untuk Menggunakan Gemini 3.5 Flash API

Rekayasa Prompt:

Gunakan prompt yang jelas dan terstruktur dengan peran (System + User).
Tentukan format keluaran (JSON, tabel Markdown).
Chain-of-Thought: "Pikirkan langkah demi langkah..."

Optimasi Biaya:

Manfaatkan tingkat usaha "medium" bawaan.
Gunakan caching (jika didukung).
Pantau penggunaan token melalui dasbor CometAPI.
Kelompokkan tugas yang tidak mendesak.

Penanganan Error & Keandalan:

Terapkan retry dengan exponential backoff.
Gunakan CometAPI untuk fallback otomatis ke model lain.

Desain Agenik:

Pecah tugas kompleks menjadi sub-agen.
Pertahankan state dengan sesi chat atau memori eksternal.
Gabungkan dengan Antigravity atau orkestrasi kustom.

Aplikasi dan Studi Kasus Dunia Nyata

Coding Agents: Pengembangan iteratif dengan siklus umpan balik cepat.
Enterprise Automation: Pemrosesan dokumen, ekstraksi data (mis., peningkatan di Box Life Sciences).
Multimodal Analysis: Video/audio + teks untuk wawasan kaya.
Customer Support Agents: Penanganan percakapan berkonteks panjang.

Integrasi melalui Cometapi.com memungkinkan tim melakukan uji A/B pada prompt/model, melacak ROI per alur kerja, dan melakukan skala tanpa sakit kepala infrastruktur.

Perbandingan: Gemini 3.5 Flash vs. Pesaing & Model Sebelumnya

Gemini 3.5 Flash menawarkan price-performance yang sangat baik untuk kasus penggunaan agenik/pengodean. Sering kali lebih cepat dan lebih hemat biaya daripada model Pro penuh untuk banyak tugas, sekaligus memperkecil kesenjangan pada kecerdasan mentah.

When to Choose It:

Aplikasi throughput tinggi (chatbot, asisten pengodean).
Otomasi agenik.
Analisis multimodal dengan kebutuhan kecepatan.
Produksi dengan anggaran ketat.

Limitations: Masih ada nuansa pratinjau/stabil; harga lebih tinggi daripada tier Flash lama untuk beberapa output. Uji secara menyeluruh.

Performance Comparison Table (Perkiraan, Berdasarkan Laporan Publik):

Model	Kekuatan Agenik	Kecepatan	Biaya (Input/Output)	Terbaik Untuk
Gemini 3.5 Flash	Tinggi (Frontier)	Sangat Tinggi	$1.50 / $9	Agen, Pengodean, Skala
Gemini 3 Flash	Menengah-Tinggi	Tinggi	Lebih rendah	Tugas Cepat Umum
Gemini 3.1 Pro	Sangat Tinggi	Menengah	Lebih tinggi	Kecerdasan Maksimum
Lite Variants	Menengah	Tertinggi	Terendah	Volume Tinggi Sederhana

Kesalahan Umum dan Pemecahan Masalah

Respons fungsi tidak cocok → Output kosong.
Terlalu sering menggunakan effort high → Biaya/latensi lebih tinggi.
Tidak menggunakan caching untuk konteks berulang.
Batas token mengejutkan dalam sesi panjang.

Kesimpulan: Mulai Bangun dengan Gemini 3.5 Flash Hari Ini

Gemini 3.5 Flash mendemokratisasi kapabilitas AI terdepan untuk aplikasi yang sensitif terhadap kecepatan dan biaya. Rilis GA-nya, dipadukan dengan pembaruan perilaku seperti default medium dan pelestarian pemikiran, menjadikannya kekuatan produksi.

Action Steps:

Dapatkan kunci API Anda dan lakukan pengujian .
Implementasikan melalui SDK dengan contoh kode di atas.
Lakukan skala secara cerdas dengan Cometapi.com untuk proxying, optimasi, pemantauan, dan dukungan multi-LLM.
Eksplorasi pola agenik dan bagikan hasilnya.

Dengan mengikuti panduan ini, Anda akan memanfaatkan Gemini 3.5 Flash secara efektif sembari meminimalkan risiko dan biaya. Untuk manajemen API yang mulus dan disesuaikan dengan alur kerja AI modern, kunjungi CometAPI dan integrasikan hari ini.