Cara Menggunakan Gemini 3.5 Flash API

Google memperkenalkan Gemini 3.5 Flash di Google I/O 2026 sebagai keluaran terbaharu dalam siri Flash, menyampaikan kecerdasan tahap-terkehadapan pada kelajuan dan kos peringkat Flash. Dikeluarkan pada atau sekitar 19 Mei 2026, ia menggabungkan penaakulan lanjutan, keupayaan agen yang kukuh, dan pemahaman multimodal sambil mengekalkan latensi rendah.

Model ini menonjol untuk pembangun, perusahaan, dan pembina AI yang memerlukan AI berprestasi tinggi tanpa beban model "Pro" yang lebih besar. Ia menandingi atau mengatasi model Pro terdahulu pada penanda aras agenik dan pengekodan utama sambil menawarkan kelajuan dan kecekapan unggul.

Sorotan Utama (Struktur Petikan Pilihan):

Prestasi: Mengatasi Gemini 3.1 Pro pada Terminal-Bench 2.1 (76.2% vs. 70.3%), MCP Atlas (83.6%), dan lain-lain.
Kelajuan: Latensi peringkat Flash untuk kes penggunaan masa nyata dan volum tinggi.
Konteks: Sehingga 1M token input, 64k token output.
Multimodal: Mengendalikan teks, imej, video, audio, PDF secara natif.
Harga: Kira-kira $1.50 / 1M token input dan $9 / 1M token output (berubah mengikut penyedia/platform).

Untuk penyepaduan lancar, CometAPI menyediakan proksi bersatu dan boleh dipercayai untuk model Gemini (dan banyak lagi) dengan had kadar dipertingkat, pengebilan dipermudah, perutean sandaran, dan analitik penggunaan—sesuai untuk aplikasi produksi yang berskala dengan Gemini 3.5 Flash.

Apakah itu Gemini 3.5 Flash?

Gemini 3.5 Flash ialah model peringkat Flash paling pintar daripada Google, direkayasa untuk prestasi terkehadapan yang berterusan pada tugas agenik dan pengekodan pada skala. Ia dibina atas siri Gemini 3, menggabungkan penaakulan ala Pro dengan kecekapan peringkat Flash.

Tidak seperti varian "Lite" yang lebih ringan yang menumpukan semata-mata pada kos, atau model Pro yang lebih berat yang mengutamakan kecerdasan maksimum, 3.5 Flash cemerlang dalam senario dunia nyata berbilang langkah: menggunakan sub-agen, iterasi pengekodan pantas ("vibe coding"), penggunaan alat selari, dan aliran kerja jangka panjang yang memerlukan mengekalkan konteks merentas banyak pusingan.

Keupayaan Teras:

Input Multimodal: Teks, imej, video, audio, PDF.
Alat & Ciri Agenik: Pemanggilan fungsi, pelaksanaan kod, pengkaitan carian, carian fail, konteks URL. (Computer Use belum disokong.)
Mod Pemikiran: Tahap usaha boleh dikonfigurasi untuk mengimbangi kedalaman vs. kelajuan.
Sedia Produksi: Status GA dengan pengversian stabil (gemini-3.5-flash).

Ia menyokong konteks 1M token, membolehkan pemprosesan dokumen besar, pangkalan kod, atau sejarah perbualan—kritikal untuk agen yang kompleks.

Apa Yang Baharu dalam Gemini 3.5 Flash

Berbanding Gemini 3 Flash dan 3.1 Pro, 3.5 Flash membawa penambahbaikan yang signifikan:

Prestasi Agenik Dipertingkat: 42% lebih baik pada penanda aras siber berbilang pusingan jarak jauh dengan pengurangan token 72% dalam sesetengah kes.
Pengekodan Lebih Baik: Mendahului dalam Terminal-Bench dan varian SWE-Bench untuk aliran kerja pembangun dunia nyata.
Penaakulan Multimodal Dipertingkat: Skor teratas pada CharXiv (84.2%) dan MMMU-Pro.
Penyelarasan Sub-Agen Selari: Sokongan natif untuk orkestrasi multi-agen yang kompleks (ditunjukkan dalam contoh Antigravity seperti migrasi pangkalan kod dan pembangunan permainan).
Kecekapan Bertambah: Mengekalkan atau memperbaiki kelajuan sambil meningkatkan kecerdasan, menjadikannya sesuai untuk produksi volum tinggi.

Jadual Perbandingan Penanda Aras:

Penanda Aras	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Nota
Terminal-Bench 2.1 (Agenik)	76.2%	58.0%	70.3%	Mendahului ketara dalam pengekodan
MCP Atlas (Berbilang langkah)	83.6%	62.0%	78.2%	Aliran kerja agenik
CharXiv (Multimodal)	84.2%	80.3%	83.3%	Penaakulan carta
GDPval-AA (Elo)	1656	1204	1314	Kerja berasaskan pengetahuan
MMMU-Pro	83.6%	81.2%	80.5%	Multimodal

Pengguna dunia nyata (cth., Shopify, Macquarie Bank, Salesforce) melaporkan peningkatan dalam peramalan, pemprosesan dokumen, dan automasi perusahaan.

Pelarasan Tingkah Laku dan Perubahan Utama

Tahap Usaha Lalai Baharu: Medium

thinking_level lalai berubah daripada high (dalam pratonton terdahulu) kepada medium. Ini memberikan hasil yang sangat baik untuk kebanyakan tugas sambil mengurangkan latensi dan kos. Gunakan high untuk penaakulan paling kompleks.

Jadual Perbandingan Tahap Usaha:

Tahap Usaha	Terbaik Untuk	Kesan Latensi/Kos	Kes Penggunaan Disyorkan
minimal	Respons pantas	Terendah	Sembang, fakta ringkas, penghalaan asas
low	Agenik/kod berlangkah sedikit	Rendah	Analisis, penulisan, alat pantas
medium (default)	Kebanyakan tugas	Seimbang	Kod kompleks, agen standard
high	Penaakulan mendalam	Lebih tinggi	Matematik sukar, tugas agen paling mencabar

Contoh Kod (Python - Menetapkan Tahap Pemikiran):

Python

from google import genai
from google.genai import types

client = genai.Client()  # Assumes API key configured via env or auth

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

Corak serupa diguna pakai dalam JavaScript, REST, dsb.

Pengekalan Pemikiran

Model kini secara automatik mengekalkan penaakulan perantaraan merentas perbualan berbilang pusingan apabila sejarah penuh (termasuk tandatangan pemikiran) disediakan. Ini meningkatkan prestasi pada nyahpepijat berulang, penstrukturan semula, dan sesi agen panjang—tiada perubahan API tambahan diperlukan untuk Interactions API; GenerateContent mendapat manfaat dengan menghantar sejarah lengkap.

Kemas Kini Parameter (Amalan Terbaik Gemini 3.x)

Elakkan menetapkan temperature, top_p, top_k secara manual — nilai lalai telah dioptimumkan.
Gunakan thinking_level dan bukannya thinking_budget berangka.
Padanan respons fungsi secara ketat (id, name, count) adalah kritikal untuk mengelakkan respons kosong.

Cara Mengakses dan Menggunakan API Gemini 3.5 Flash

1. Pilihan Akses:

Google AI Studio (paling mudah untuk ujian) — Peringkat percuma disediakan.
Gemini API (langsung dengan kunci API).
Vertex AI / Gemini Enterprise Agent Platform (ciri perusahaan, had lebih tinggi).
Pihak ketiga seperti CometAPI (disyorkan untuk akses berbilang penyedia yang dipermudah, analitik, dan kebolehpercayaan).

Mula dengan CometAPI: CometAPI mengagregat akses kepada model Gemini dengan satu titik hujung, pengendalian ralat yang lebih baik, papan pemuka penggunaan, dan amaran kos. Daftar di Cometapi.com, dapatkan kunci anda, dan halakan permintaan ke gemini-3.5-flash (atau ID model setara) dengan perubahan kod minimum. Ini sesuai untuk penskalaan tanpa mengurus berbilang kunci API atau berurusan terus dengan had kadar.

2. Persediaan Asas dan Helo Dunia

Permulaan Pantas Python:

import osfrom google import genaifrom google.genai import types# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # Or use Client() with defaultsclient = genai.Client()response = client.models.generate_content(    model="gemini-3.5-flash",    contents="Explain parallel agentic execution in three sentences.",)print(response.text)

Contoh JavaScript:

import { GoogleGenAI } from "@google/genai";const ai = new GoogleGenAI({});async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "Explain parallel agentic execution in three sentences.",  });  console.log(response.text);}main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Hello, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>

3. Penggunaan Lanjutan: Multimodal, Pemanggilan Fungsi, dan Agen

Contoh Multimodal (Imej + Teks):

# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "Describe this image in detail and suggest improvements."],)

Pemanggilan Fungsi untuk Aliran Kerja Agenik:

Takrifkan alat, benarkan model memanggilnya, kemudian sediakan respons (padanan id/name secara ketat).

Output Berstruktur:

Gunakan skema respons untuk penghuraian JSON yang boleh dipercayai—sesuai untuk saluran paip pengekstrakan data.

Alat Pelaksanaan Kod:

Dayakan untuk membolehkan model menjalankan kod Python dalam sandbox bagi matematik, analisis data, dan sebagainya.

Untuk setap agenik penuh, pertimbangkan Managed Agents Google (pratonton) atau bina sendiri dengan Cometapi.com untuk orkestrasi, pencatatan log, dan kawalan kos.

Nasihat untuk API Gemini 3.5 Flash

Manfaatkan Tahap Usaha Medium Lalai — Lampaui hanya apabila perlu.
Hantarkan Sejarah Penuh untuk pengekalan pemikiran dalam sembang/agen.
Gunakan Cache Konteks untuk prompt besar berulang (penjimatan ketara).
Pengendalian Respons Alat Secara Ketat untuk mengelakkan kegagalan.
Pantau Token — Konteks 1M berkuasa tetapi mahal jika disalah guna.
Gabungkan dengan Cometapi.com — Laksanakan perutean pintar (cth., sandaran ke Flash-Lite untuk pertanyaan ringkas), lapisan cache, papan pemuka penggunaan, dan pengendalian ralat bersatu. Ini mengoptimumkan perbelanjaan dan kebolehpercayaan untuk aplikasi volum tinggi atau kritikal misi.

Amalan Terbaik untuk Menggunakan API Gemini 3.5 Flash

Kejuruteraan Prompt:

Gunakan prompt yang jelas dan berstruktur dengan peranan (System + User).
Nyatakan format output (JSON, jadual Markdown).
Chain-of-Thought: "Fikir langkah demi langkah..."

Pengoptimuman Kos:

Manfaatkan usaha "medium" lalai.
Gunakan caching (di mana disokong).
Pantau penggunaan token melalui papan pemuka CometAPI.
Kelompokkan tugas yang tidak mendesak.

Pengendalian Ralat & Kebolehpercayaan:

Laksanakan cubaan semula dengan backoff eksponen.
Gunakan CometAPI untuk sandaran automatik kepada model lain.

Reka Bentuk Agenik:

Pecahkan tugas kompleks kepada sub-agen.
Kekalkan keadaan dengan sesi sembang atau memori luaran.
Gabungkan dengan Antigravity atau orkestrasi tersuai.

Aplikasi Dunia Nyata dan Kajian Kes

Agen Pengekodan: Pembangunan berulang dengan gelung maklum balas pantas.
Automasi Perusahaan: Pemprosesan dokumen, pengekstrakan data (cth., peningkatan Box Life Sciences).
Analisis Multimodal: Video/audio + teks untuk pandangan mendalam.
Agen Sokongan Pelanggan: Pengendalian perbualan konteks panjang.

Mengintegrasi melalui Cometapi.com membolehkan pasukan melakukan ujian A/B prompt/model, menjejak ROI per aliran kerja, dan skala tanpa kerumitan infrastruktur.

Perbandingan: Gemini 3.5 Flash vs. Pesaing & Model Terdahulu

Gemini 3.5 Flash menawarkan nisbah harga-prestasi yang cemerlang untuk kes penggunaan agenik/pengekodan. Ia selalunya lebih pantas dan lebih kos efektif daripada model Pro penuh untuk banyak tugas, sambil merapatkan jurang pada kecerdasan mentah.

Bila Perlu Memilihnya:

Aplikasi throughput tinggi (chatbot, pembantu pengekodan).
Automasi agenik.
Analisis multimodal dengan keperluan kelajuan.
Produksi berhemat bajet.

Keterbatasan: Masih ada nuansa pratonton/kestabilan; harga lebih tinggi daripada peringkat Flash lama bagi sesetengah output. Uji secara menyeluruh.

Jadual Perbandingan Prestasi (Anggaran, Berdasarkan Laporan Awam):

Model	Kekuatan Agenik	Kelajuan	Kos (Input/Output)	Terbaik Untuk
Gemini 3.5 Flash	Tinggi (Terkehadapan)	Sangat Tinggi	$1.50 / $9	Agen, Pengekodan, Skala
Gemini 3 Flash	Sederhana-Tinggi	Tinggi	Lebih Rendah	Tugas Pantas Umum
Gemini 3.1 Pro	Sangat Tinggi	Sederhana	Lebih Tinggi	Kecerdasan Maksimum
Varian Lite	Sederhana	Tertinggi	Terendah	Volum Tinggi, Ringkas

Perangkap Lazim dan Penyelesaian Masalah

Respons fungsi tidak sepadan → Output kosong.
Terlalu kerap menggunakan high → Kos/latensi lebih tinggi.
Tidak menggunakan cache untuk konteks berulang.
Had token mengejutkan dalam sesi panjang.

Kesimpulan: Mula Bina dengan Gemini 3.5 Flash Hari Ini

Gemini 3.5 Flash mendemokrasikan keupayaan AI terkehadapan untuk aplikasi yang sensitif terhadap kelajuan dan kos. Pelepasan GA, bersama pelarasan tingkah laku seperti usaha lalai medium dan pengekalan pemikiran, menjadikannya kuasa produksi.

Langkah Tindakan:

Dapatkan kunci API anda dan uji.
Laksanakan melalui SDK dengan contoh kod di atas.
Skala dengan bijak menggunakan Cometapi.com untuk proksi, pengoptimuman, pemantauan, dan sokongan multi-LLM.
Eksperimen dengan corak agenik dan kongsi hasil.

Dengan mengikuti panduan ini, anda akan memanfaatkan Gemini 3.5 Flash dengan berkesan sambil meminimumkan risiko dan kos. Untuk pengurusan API yang lancar, disesuaikan dengan aliran kerja AI moden, lawati CometAPI dan integrasikan hari ini.