Google memperkenalkan Gemini 3.5 Flash pada Google I/O 2026 sebagai keluaran terbaharu dalam siri Flash, menawarkan kecerdasan tahap terdepan dengan kelajuan dan kos peringkat Flash. Dikeluarkan pada atau sekitar 19 Mei 2026, ia menggabungkan penaakulan maju, keupayaan agentic yang kukuh, dan pemahaman multimodal sambil mengekalkan kependaman rendah.
Model ini menonjol untuk pembangun, perusahaan, dan pembina AI yang memerlukan AI berprestasi tinggi tanpa beban model "Pro" yang lebih besar. Ia menandingi atau mengatasi model Pro terdahulu pada penanda aras agentic dan pengkodan utama sambil menawarkan kelajuan dan kecekapan yang unggul.
Sorotan Utama (Struktur Petikan Pilihan):
- Prestasi: Mengatasi Gemini 3.1 Pro pada Terminal-Bench 2.1 (76.2% vs. 70.3%), MCP Atlas (83.6%), dan lain-lain.
- Kelajuan: Kependaman tahap Flash untuk kes penggunaan masa nyata dan volum tinggi.
- Konteks: Sehingga 1M token input, 64k token output.
- Multimodal: Mengendalikan teks, imej, video, audio, PDF secara natif.
- Harga: Kira-kira $1.50 / 1M token input dan $9 / 1M token output (berbeza mengikut penyedia/platform).
Untuk integrasi lancar, CometAPI menyediakan proksi bersatu dan boleh dipercayai kepada model Gemini (dan banyak lagi) dengan had kadar yang dipertingkat, pengebilan dipermudah, penghalaan sandaran, dan analitik penggunaan—sesuai untuk aplikasi produksi yang berskala dengan Gemini 3.5 Flash.
Apakah itu Gemini 3.5 Flash?
Gemini 3.5 Flash ialah model paling pintar pada peringkat Flash Google, direka untuk prestasi terdepan yang berterusan pada tugas agentic dan pengkodan pada skala. Ia dibina atas siri Gemini 3, menggabungkan penaakulan setara Pro dengan kecekapan tahap Flash.
Tidak seperti varian "Lite" yang lebih ringan yang fokus semata-mata pada kos, atau model Pro yang lebih berat yang mengutamakan kecerdasan maksimum, 3.5 Flash cemerlang dalam senario dunia sebenar berbilang langkah: menggunakan sub-agen, iterasi pengkodan pantas ("vibe coding"), penggunaan alat selari, dan aliran kerja jangka panjang yang memerlukan mengekalkan konteks merentasi banyak giliran.
Keupayaan Teras:
- Input Multimodal: Teks, imej, video, audio, PDF.
- Alat & Ciri Agentic: Panggilan fungsi, pelaksanaan kod, asas carian, carian fail, konteks URL. (Computer Use belum disokong.)
- Mod Pemikiran: Tahap usaha boleh dikonfigurasi untuk mengimbangi kedalaman vs. kelajuan.
- Sedia Pengeluaran: status GA dengan pemversian stabil (
gemini-3.5-flash).
Ia menyokong konteks 1M token, membolehkan pemprosesan dokumen besar, pangkalan kod, atau sejarah perbualan—kritikal untuk agen kompleks.
Apa Yang Baharu dalam Gemini 3.5 Flash
Berbanding Gemini 3 Flash dan 3.1 Pro, 3.5 Flash membawa peningkatan ketara:
- Prestasi Agentic Dipertingkat: 42% lebih baik pada penanda aras siber jarak jauh berbilang pusingan dengan pengurangan token 72% dalam sesetengah kes.
- Pengkodan Lebih Baik: Mendahului dalam Terminal-Bench dan varian SWE-Bench untuk aliran kerja pembangun dunia sebenar.
- Penaakulan Multimodal Dipertingkat: Skor tertinggi pada CharXiv (84.2%) dan MMMU-Pro.
- Penyelarasan Sub-agen Selari: Sokongan asli untuk orkestra berbilang agen yang kompleks (ditunjukkan dalam contoh Antigravity seperti migrasi pangkalan kod dan pembangunan permainan).
- Peningkatan Kecekapan: Mengekalkan atau memperbaiki kelajuan sambil meningkatkan kecerdasan, menjadikannya sesuai untuk produksi volum tinggi.
Jadual Perbandingan Penanda Aras:
| Penanda Aras | Gemini 3.5 Flash | Gemini 3 Flash | Gemini 3.1 Pro | Nota |
|---|---|---|---|---|
| Terminal-Bench 2.1 (Agentic) | 76.2% | 58.0% | 70.3% | Kelebihan pengkodan yang kuat |
| MCP Atlas (Multi-step) | 83.6% | 62.0% | 78.2% | Aliran kerja agentic |
| CharXiv (Multimodal) | 84.2% | 80.3% | 83.3% | Penaakulan carta |
| GDPval-AA (Elo) | 1656 | 1204 | 1314 | Kerja berasaskan pengetahuan |
| MMMU-Pro | 83.6% | 81.2% | 80.5% | Multimodal |
Pengguna dunia sebenar (cth., Shopify, Macquarie Bank, Salesforce) melaporkan peningkatan dalam peramalan, pemprosesan dokumen, dan automasi perusahaan.
Pelarasan Tingkah Laku dan Perubahan Utama
Tahap Usaha Lalai Baharu: Sederhana
thinking_level lalai berubah daripada tinggi (dalam pratonton terdahulu) kepada sederhana. Ini memberikan hasil yang sangat baik untuk kebanyakan tugas sambil mengurangkan kependaman dan kos. Gunakan tinggi untuk penaakulan paling kompleks.
Jadual Perbandingan Tahap Usaha:
| Tahap Usaha | Terbaik Untuk | Kesan Kependaman/Kos | Kes Penggunaan Disyorkan |
|---|---|---|---|
| minimal | Respons pantas | Paling rendah | Sembang, fakta mudah, penghalaan asas |
| rendah | Agentic/kod langkah lebih sedikit | Rendah | Analisis, penulisan, alat pantas |
| sederhana (lalai) | Kebanyakan tugas | Seimbang | Kod kompleks, agen standard |
| tinggi | Penaakulan mendalam | Lebih tinggi | Matematik sukar, tugas agen paling mencabar |
Contoh Kod (Python - Menetapkan Tahap Pemikiran):
Python
from google import genai
from google.genai import types
client = genai.Client() # Assumes API key configured via env or auth
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Prove that the square root of 2 is irrational.",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_level="high")
),
)
print(response.text)
Pola serupa digunakan dalam JavaScript, REST, dan lain-lain.
Pemeliharaan Pemikiran
Model kini secara automatik mengekalkan penaakulan perantara merentasi perbualan berbilang giliran apabila sejarah penuh (termasuk tanda tangan pemikiran) disertakan. Ini meningkatkan prestasi pada penyahpepijatan berulang, pengubahsuaian semula, dan sesi agen panjang—tiada perubahan API tambahan diperlukan untuk Interactions API; GenerateContent mendapat manfaat dengan menghantar sejarah lengkap.
Kemas Kini Parameter (Amalan Terbaik Gemini 3.x)
- Elakkan menetapkan manual temperature, top_p, top_k — nilai lalai telah dioptimumkan.
- Gunakan thinking_level dan bukannya thinking_budget berangka.
- Pemadanan respons fungsi yang ketat (id, name, count) adalah kritikal untuk mengelakkan respons kosong.
Cara Mengakses dan Menggunakan API Gemini 3.5 Flash
1. Pilihan Akses:
- Google AI Studio (paling mudah untuk ujian) — Tersedia peringkat percuma.
- Gemini API (terus dengan kunci API).
- Vertex AI / Gemini Enterprise Agent Platform (ciri perusahaan, had lebih tinggi).
- Pihak ketiga seperti CometAPI (disyorkan untuk akses berbilang penyedia yang dipermudah, analitik, dan kebolehpercayaan).
Mula dengan CometAPI: CometAPI mengagregat akses ke model Gemini dengan satu endpoint, pengendalian ralat yang lebih baik, papan pemuka penggunaan, dan amaran kos. Daftar di Cometapi.com, dapatkan kunci anda, dan halakan permintaan ke gemini-3.5-flash (atau ID model setara) dengan perubahan kod minimum. Ini sesuai untuk skalabiliti tanpa perlu mengurus berbilang kunci API atau berdepan had kadar secara langsung.
2. Tetapan Asas dan Hello World
Permulaan Pantas Python:
import osfrom google import genaifrom google.genai import types# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"]) # Or use Client() with defaultsclient = genai.Client()response = client.models.generate_content( model="gemini-3.5-flash", contents="Explain parallel agentic execution in three sentences.",)print(response.text)
Contoh JavaScript:
import { GoogleGenAI } from "@google/genai";const ai = new GoogleGenAI({});async function main() { const response = await ai.models.generateContent({ model: "gemini-3.5-flash", contents: "Explain parallel agentic execution in three sentences.", }); console.log(response.text);}main();
REST API Curl:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \ -H "x-goog-api-key: $GEMINI_API_KEY" \ -H 'Content-Type: application/json' \ -X POST \ -d '{ "contents": [{ "parts": [{"text": "Hello, Gemini 3.5 Flash!"}] }] }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>
3. Penggunaan Lanjutan: Multimodal, Panggilan Fungsi, dan Agen
Contoh Multimodal (Imej + Teks):
# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")response = client.models.generate_content( model="gemini-3.5-flash", contents=[image_part, "Describe this image in detail and suggest improvements."],)
Panggilan Fungsi untuk Aliran Kerja Agentic:
Takrifkan alat, benarkan model memanggilnya, kemudian berikan respons (padankan id/name dengan ketat).
Output Berstruktur:
Gunakan skema respons untuk penghuraian JSON yang boleh dipercayai—sesuai untuk talian paip pengekstrakan data.
Alat Pelaksanaan Kod:
Dayakan supaya model menjalankan kod Python dalam sandboks untuk matematik, analisis data, dan sebagainya.
Untuk set automasi agentic penuh, pertimbangkan Google Managed Agents (preview) atau bina sendiri dengan Cometapi.com untuk orkestra, pembalakan, dan kawalan kos.
Nasihat untuk API Gemini 3.5 Flash
- Manfaatkan Usaha Lalai Sederhana — Tindih hanya apabila perlu.
- Hantar Sejarah Penuh untuk pemeliharaan pemikiran dalam sembang/agen.
- Gunakan Cache Konteks untuk prompt besar berulang (penjimatan besar).
- Pengendalian Respons Alat yang Ketat untuk mengelakkan kegagalan.
- Pantau Token — Konteks 1M berkuasa tetapi berpotensi mahal jika disalah guna.
- Gabungkan dengan Cometapi.com — Laksanakan penghalaan pintar (cth., sandar ke Flash-Lite untuk pertanyaan mudah), lapisan cache, papan pemuka penggunaan, dan pengendalian ralat bersatu. Ini mengoptimumkan perbelanjaan dan kebolehpercayaan untuk aplikasi volum tinggi atau kritikal.
Amalan Terbaik untuk Menggunakan API Gemini 3.5 Flash
Kejuruteraan Prompt:
- Gunakan prompt yang jelas dan berstruktur dengan peranan (System + User).
- Nyatakan format output (JSON, jadual Markdown).
- Rantai Pemikiran: "Fikir langkah demi langkah..."
Pengoptimuman Kos:
- Manfaatkan usaha "sederhana" lalai.
- Gunakan cache (di mana disokong).
- Pantau penggunaan token melalui papan pemuka CometAPI.
- Kelompokkan tugas yang tidak mendesak.
Pengendalian Ralat & Kebolehpercayaan:
- Laksanakan cubaan semula dengan backoff eksponen.
- Gunakan CometAPI untuk sandaran automatik ke model lain.
Reka Bentuk Agentic:
- Pecahkan tugas kompleks kepada sub-agen.
- Kekalkan keadaan dengan sesi sembang atau memori luaran.
- Gabungkan dengan Antigravity atau orkestra tersuai.
Aplikasi Dunia Sebenar dan Kajian Kes
- Agen Pengkodan: Pembangunan iteratif dengan gelung maklum balas pantas.
- Automasi Perusahaan: Pemprosesan dokumen, pengekstrakan data (cth., peningkatan Box Life Sciences).
- Analisis Multimodal: Video/audio + teks untuk pandangan kaya.
- Agen Sokongan Pelanggan: Pengendalian perbualan berkonteks panjang.
Integrasi melalui Cometapi.com membolehkan pasukan menguji A/B prompt/model, menjejak ROI per aliran kerja, dan berskala tanpa sakit kepala infrastruktur.
Perbandingan: Gemini 3.5 Flash vs. Pesaing & Model Terdahulu
Gemini 3.5 Flash menawarkan harga-prestasi yang cemerlang untuk kes penggunaan agentic/pengkodan. Ia sering lebih pantas dan lebih kos efektif berbanding model Pro penuh untuk banyak tugas, sambil merapatkan jurang pada kecerdasan mentah.
Bila Perlu Memilihnya:
- Aplikasi throughput tinggi (chatbot, pembantu pengkodan).
- Automasi agentic.
- Analisis multimodal dengan keperluan kelajuan.
- Produksi berhemat bajet.
Keterbatasan: Masih terdapat nuansa pratonton/stabil; harga lebih tinggi daripada peringkat Flash lama untuk sesetengah output. Uji dengan teliti.
Jadual Perbandingan Prestasi (Anggaran, Berdasarkan Laporan Awam):
| Model | Kekuatan Agentic | Kelajuan | Kos (Input/Output) | Terbaik Untuk |
|---|---|---|---|---|
| Gemini 3.5 Flash | Tinggi (Terdepan) | Sangat Tinggi | $1.50 / $9 | Agen, Pengkodan, Skala |
| Gemini 3 Flash | Sederhana-Tinggi | Tinggi | Lebih Rendah | Tugas Pantas Umum |
| Gemini 3.1 Pro | Sangat Tinggi | Sederhana | Lebih Tinggi | Kecerdasan Maksimum |
| Lite Variants | Sederhana | Tertinggi | Paling Rendah | Volum Tinggi, Mudah |
Perangkap Lazim dan Penyelesaian Masalah
- Respons fungsi tidak sepadan → Output kosong.
- Terlalu kerap menggunakan usaha
high→ Kos/kependaman lebih tinggi. - Tidak menggunakan cache untuk konteks berulang.
- Had token mengejutkan dalam sesi panjang.
Kesimpulan: Mula Membina dengan Gemini 3.5 Flash Hari Ini
Gemini 3.5 Flash mendemokrasikan keupayaan AI terdepan untuk aplikasi sensitif kelajuan dan kos. Keluaran GA, digabung dengan kemas kini tingkah laku yang teliti seperti usaha lalai sederhana dan pemeliharaan pemikiran, menjadikannya kuasa produksi.
Langkah Tindakan:
- Dapatkan kunci API anda dan uji.
- Laksanakan melalui SDK dengan contoh kod di atas.
- Skala secara bijak dengan Cometapi.com untuk proksi, pengoptimuman, pemantauan, dan sokongan multi-LLM.
- Uji corak agentic dan kongsi hasilnya.
Dengan mengikuti panduan ini, anda akan memanfaatkan Gemini 3.5 Flash dengan berkesan sambil meminimumkan risiko dan kos. Untuk pengurusan API lancar yang disesuaikan dengan aliran kerja AI moden, lawati CometAPI dan integrasikan hari ini.
