Cách sử dụng API Gemini 3.5 Flash

Google ra mắt Gemini 3.5 Flash tại Google I/O 2026 như phiên bản mới nhất trong dòng Flash, mang lại khả năng trí tuệ ở mức tiên phong với tốc độ và chi phí cấp Flash. Được phát hành vào hoặc quanh ngày 19 tháng 5 năm 2026, model này kết hợp suy luận nâng cao, khả năng tác tử mạnh mẽ và hiểu đa phương thức, đồng thời vẫn duy trì độ trễ thấp.

Model này nổi bật dành cho nhà phát triển, doanh nghiệp và đội ngũ xây dựng AI cần hiệu năng cao mà không gánh nặng của các model "Pro" lớn hơn. Nó sánh ngang hoặc vượt các model Pro trước đây ở những tiêu chí tác tử và mã hóa trọng yếu, đồng thời mang lại tốc độ và hiệu quả vượt trội.

Key Highlights (Cấu trúc Featured Snippet):

Hiệu năng: Vượt Gemini 3.1 Pro trên Terminal-Bench 2.1 (76.2% so với 70.3%), MCP Atlas (83.6%), và hơn thế nữa.
Tốc độ: Độ trễ cấp Flash cho các tình huống thời gian thực và khối lượng lớn.
Ngữ cảnh: Tối đa 1M token đầu vào, 64k token đầu ra.
Đa phương thức: Xử lý văn bản, hình ảnh, video, âm thanh, PDF nguyên bản.
Giá: Khoảng $1.50 / 1M token đầu vào và $9 / 1M token đầu ra (phụ thuộc nhà cung cấp/nền tảng).

Để tích hợp liền mạch, CometAPI cung cấp proxy thống nhất và đáng tin cậy tới các model Gemini (và nhiều model khác) với hạn mức tốc độ cao hơn, hóa đơn đơn giản, định tuyến dự phòng, và phân tích sử dụng—lý tưởng cho ứng dụng sản xuất mở rộng với Gemini 3.5 Flash.

Gemini 3.5 Flash là gì?

Gemini 3.5 Flash là model cấp Flash thông minh nhất của Google, được thiết kế cho hiệu năng tiên phong bền vững trong các tác vụ tác tử và mã hóa ở quy mô lớn. Nó kế thừa dòng Gemini 3, kết hợp suy luận kiểu Pro với hiệu suất cấp Flash.

Khác với các biến thể "Lite" nhẹ tối ưu chi phí, hoặc các model Pro nặng ưu tiên tối đa trí tuệ, 3.5 Flash vượt trội trong các kịch bản thực tế, nhiều bước: triển khai tác tử phụ, vòng lặp mã hóa nhanh ("vibe coding"), dùng công cụ song song, và quy trình dài hơi cần duy trì ngữ cảnh qua nhiều lượt tương tác.

Core Capabilities:

Đầu vào đa phương thức: Văn bản, hình ảnh, video, âm thanh, PDF.
Công cụ & tính năng tác tử: Gọi hàm, thực thi mã, đối chiếu tìm kiếm, tìm kiếm tệp, ngữ cảnh URL. (Chưa hỗ trợ Computer Use.)
Chế độ tư duy: Mức nỗ lực có thể cấu hình để cân bằng độ sâu và tốc độ.
Sẵn sàng sản xuất: Trạng thái GA với phiên bản ổn định (gemini-3.5-flash).

Model hỗ trợ ngữ cảnh 1M token, cho phép xử lý tài liệu khổng lồ, codebase, hoặc lịch sử hội thoại—thiết yếu cho các tác tử phức tạp.

Có gì mới trong Gemini 3.5 Flash

So với Gemini 3 Flash và 3.1 Pro, 3.5 Flash mang đến nâng cấp đáng kể:

Cải thiện hiệu năng tác tử: Tốt hơn 42% trên benchmark an ninh đa lượt tầm xa, với mức giảm 72% token trong một số trường hợp.
Mã hóa tốt hơn: Dẫn đầu trên các biến thể Terminal-Bench và SWE-Bench cho quy trình làm việc của nhà phát triển thực tế.
Nâng cao suy luận đa phương thức: Điểm cao hàng đầu trên CharXiv (84.2%) và MMMU-Pro.
Phối hợp tác tử phụ song song: Hỗ trợ nguyên bản cho điều phối đa tác tử phức tạp (trình diễn trong các ví dụ Antigravity như di chuyển codebase và phát triển trò chơi).
Tăng hiệu quả: Duy trì hoặc cải thiện tốc độ đồng thời nâng cao trí tuệ, phù hợp cho sản xuất khối lượng lớn.

Benchmark Comparison Table:

Benchmark	Gemini 3.5 Flash	Gemini 3 Flash	Gemini 3.1 Pro	Ghi chú
Terminal-Bench 2.1 (Agentic)	76.2%	58.0%	70.3%	Dẫn đầu mạnh về lập trình
MCP Atlas (Multi-step)	83.6%	62.0%	78.2%	Quy trình tác tử
CharXiv (Multimodal)	84.2%	80.3%	83.3%	Suy luận biểu đồ
GDPval-AA (Elo)	1656	1204	1314	Công việc tri thức
MMMU-Pro	83.6%	81.2%	80.5%	Đa phương thức

Người dùng thực tế (ví dụ: Shopify, Macquarie Bank, Salesforce) ghi nhận cải thiện trong dự báo, xử lý tài liệu và tự động hóa doanh nghiệp.

Điều chỉnh hành vi và thay đổi chính

Google giới thiệu các cập nhật hành vi quan trọng để tăng hiệu quả và tính nhất quán.

Mức nỗ lực mặc định mới: Medium

Giá trị mặc định của thinking_level đã chuyển từ cao (trong các bản preview trước) sang medium. Điều này mang lại kết quả xuất sắc cho đa số tác vụ đồng thời giảm độ trễ và chi phí. Hãy dùng mức cao cho các bài toán suy luận phức tạp nhất.

Effort Level Comparison Table:

Mức nỗ lực	Phù hợp nhất cho	Ảnh hưởng độ trễ/chi phí	Trường hợp khuyến nghị
tối thiểu	Phản hồi nhanh	Thấp nhất	Chat, thông tin đơn giản, định tuyến cơ bản
thấp	Tác tử/mã hóa ít bước	Thấp	Phân tích, viết, công cụ nhanh
trung bình (mặc định)	Hầu hết tác vụ	Cân bằng	Mã phức tạp, tác tử tiêu chuẩn
cao	Suy luận chuyên sâu	Cao hơn	Toán khó, tác vụ tác tử khó nhất

Code Example (Python - Setting Thinking Level):

Python

from google import genai
from google.genai import types

client = genai.Client()  # Assumes API key configured via env or auth

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Prove that the square root of 2 is irrational.",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(thinking_level="high")
    ),
)
print(response.text)

Mẫu tương tự áp dụng cho JavaScript, REST, v.v.

Bảo toàn suy nghĩ

Model giờ tự động duy trì suy luận trung gian qua các cuộc hội thoại nhiều lượt khi cung cấp đầy đủ lịch sử (bao gồm chữ ký suy nghĩ). Điều này tăng hiệu quả cho gỡ lỗi lặp, tái cấu trúc, và phiên tác tử dài—không cần thay đổi API bổ sung cho Interactions API; GenerateContent được hưởng lợi khi truyền toàn bộ lịch sử.

Cập nhật tham số (Thực tiễn tốt nhất cho Gemini 3.x)

Tránh chỉnh thủ công temperature, top_p, top_k — giá trị mặc định đã được tối ưu.
Dùng thinking_level thay cho thinking_budget dạng số.
Khớp phản hồi hàm nghiêm ngặt (id, name, count) là tối quan trọng để tránh phản hồi rỗng.

Cách truy cập và sử dụng Gemini 3.5 Flash API

1. Tùy chọn truy cập:

Google AI Studio (dễ thử nghiệm nhất) — Có gói miễn phí.
Gemini API (trực tiếp với API key).
Vertex AI / Gemini Enterprise Agent Platform (tính năng doanh nghiệp, hạn mức cao hơn).
Bên thứ ba như CometAPI (được khuyến nghị để truy cập đa nhà cung cấp đơn giản, phân tích và độ tin cậy).

Get Started with CometAPI: CometAPI tổng hợp truy cập các model Gemini với một endpoint duy nhất, xử lý lỗi tốt hơn, bảng điều khiển sử dụng và cảnh báo chi phí. Đăng ký tại Cometapi.com, lấy key của bạn, và định tuyến yêu cầu tới gemini-3.5-flash (hoặc ID model tương đương) với thay đổi mã tối thiểu. Hoàn hảo để mở rộng mà không phải quản lý nhiều API key hoặc trực tiếp xử lý hạn mức.

2. Thiết lập cơ bản và Hello World

Python Quickstart:

import osfrom google import genaifrom google.genai import types# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"])  # Or use Client() with defaultsclient = genai.Client()response = client.models.generate_content(    model="gemini-3.5-flash",    contents="Explain parallel agentic execution in three sentences.",)print(response.text)

JavaScript Example:

import { GoogleGenAI } from "@google/genai";const ai = new GoogleGenAI({});async function main() {  const response = await ai.models.generateContent({    model: "gemini-3.5-flash",    contents: "Explain parallel agentic execution in three sentences.",  });  console.log(response.text);}main();

REST API Curl:

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \  -H "x-goog-api-key: $GEMINI_API_KEY" \  -H 'Content-Type: application/json' \  -X POST \  -d '{    "contents": [{      "parts": [{"text": "Hello, Gemini 3.5 Flash!"}]    }]  }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>

3. Sử dụng nâng cao: Đa phương thức, gọi hàm và tác tử

Multimodal Example (Image + Text):

# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")response = client.models.generate_content(    model="gemini-3.5-flash",    contents=[image_part, "Describe this image in detail and suggest improvements."],)

Function Calling for Agentic Workflows:

Định nghĩa công cụ, cho phép model gọi chúng, rồi cung cấp phản hồi (khớp chặt chẽ id/name).

Structured Outputs:

Dùng schema phản hồi để phân tích JSON đáng tin cậy—phù hợp cho pipeline trích xuất dữ liệu.

Code Execution Tool:

Bật để model chạy mã Python trong sandbox cho toán học, phân tích dữ liệu, v.v.

Với thiết lập tác tử đầy đủ, cân nhắc Managed Agents của Google (preview) hoặc tự xây với Cometapi.com để điều phối, ghi log và kiểm soát chi phí.

Lời khuyên cho Gemini 3.5 Flash API

Tận dụng mức nỗ lực mặc định Medium — Chỉ ghi đè khi cần.
Truyền toàn bộ lịch sử để bảo toàn suy nghĩ trong chat/tác tử.
Dùng bộ nhớ đệm ngữ cảnh cho prompt lớn lặp lại (tiết kiệm đáng kể).
Xử lý phản hồi công cụ nghiêm ngặt để tránh lỗi.
Theo dõi token — Ngữ cảnh 1M rất mạnh nhưng tốn kém nếu dùng sai.
Kết hợp với Cometapi.com — Triển khai định tuyến thông minh (ví dụ: dự phòng sang Flash-Lite cho câu hỏi đơn giản), lớp bộ nhớ đệm, bảng điều khiển sử dụng và xử lý lỗi hợp nhất. Tối ưu chi tiêu và độ tin cậy cho ứng dụng khối lượng lớn hoặc nhiệm vụ tối quan trọng.

Thực tiễn tốt nhất khi dùng Gemini 3.5 Flash API

Kỹ thuật nhắc lệnh:

Dùng prompt rõ ràng, có cấu trúc với vai trò (System + User).
Chỉ định định dạng đầu ra (JSON, bảng Markdown).
Chain-of-Thought: "Hãy suy nghĩ từng bước..."

Tối ưu chi phí:

Tận dụng mức "medium" mặc định.
Dùng bộ nhớ đệm (nếu được hỗ trợ).
Theo dõi sử dụng token qua bảng điều khiển CometAPI.
Gom nhóm các tác vụ không khẩn cấp.

Xử lý lỗi & độ tin cậy:

Triển khai retry với backoff lũy tiến.
Dùng CometAPI cho dự phòng tự động sang model khác.

Thiết kế tác tử:

Chia nhỏ tác vụ phức tạp thành các tác tử phụ.
Duy trì trạng thái với phiên chat hoặc bộ nhớ ngoài.
Kết hợp với Antigravity hoặc điều phối tùy chỉnh.

Ứng dụng thực tế và nghiên cứu tình huống

Tác tử mã hóa: Phát triển lặp với vòng phản hồi nhanh.
Tự động hóa doanh nghiệp: Xử lý tài liệu, trích xuất dữ liệu (ví dụ: Box Life Sciences đạt được lợi ích).
Phân tích đa phương thức: Video/âm thanh + văn bản cho insight sâu rộng.
Tác tử hỗ trợ khách hàng: Xử lý hội thoại ngữ cảnh dài.

Tích hợp qua Cometapi.com cho phép đội ngũ thử nghiệm A/B prompt/model, theo dõi ROI theo quy trình, và mở rộng mà không đau đầu về hạ tầng.

So sánh: Gemini 3.5 Flash với đối thủ & các model trước

Gemini 3.5 Flash mang lại tỷ lệ giá/hiệu năng xuất sắc cho các trường hợp tác tử/mã hóa. Thường nhanh hơn và tiết kiệm hơn model Pro đầy đủ cho nhiều tác vụ, đồng thời rút ngắn khoảng cách về trí tuệ thuần.

Khi nên chọn:

Ứng dụng thông lượng cao (chatbot, trợ lý mã hóa).
Tự động hóa tác tử.
Phân tích đa phương thức yêu cầu tốc độ.
Sản xuất tiết kiệm ngân sách.

Hạn chế: Vẫn có sắc thái preview/ổn định; giá có thể cao hơn các tầng Flash cũ cho một số đầu ra. Cần thử nghiệm kỹ.

Performance Comparison Table (xấp xỉ, dựa trên báo cáo công khai):

Model	Sức mạnh tác tử	Tốc độ	Chi phí (Input/Output)	Phù hợp nhất cho
Gemini 3.5 Flash	Cao (Tiên phong)	Rất cao	$1.50 / $9	Tác tử, Mã hóa, Quy mô
Gemini 3 Flash	Trung bình-cao	Cao	Thấp hơn	Nhiệm vụ nhanh chung
Gemini 3.1 Pro	Rất cao	Trung bình	Cao hơn	Tối đa trí tuệ
Lite Variants	Trung bình	Rất cao	Thấp nhất	Khối lượng lớn, đơn giản

Lỗi thường gặp và khắc phục

Phản hồi hàm không khớp → Đầu ra rỗng.
Lạm dụng mức nỗ lực high → Chi phí/độ trễ cao hơn.
Không dùng bộ nhớ đệm cho ngữ cảnh lặp lại.
Bất ngờ vì giới hạn token trong phiên dài.

Kết luận: Bắt đầu xây dựng với Gemini 3.5 Flash ngay hôm nay

Gemini 3.5 Flash dân chủ hóa khả năng AI tiên phong cho các ứng dụng nhạy tốc độ và chi phí. Bản phát hành GA, cùng các cập nhật hành vi như mức nỗ lực mặc định trung bình và bảo toàn suy nghĩ, khiến nó trở thành “cỗ máy” sản xuất mạnh mẽ.

Action Steps:

Lấy khóa API của bạn và thử nghiệm .
Triển khai qua SDK với các ví dụ mã ở trên.
Mở rộng thông minh với Cometapi.com để proxy, tối ưu, giám sát và hỗ trợ đa LLM.
Thử nghiệm các mẫu tác tử và chia sẻ kết quả.

Bằng cách làm theo hướng dẫn này, bạn sẽ khai thác hiệu quả Gemini 3.5 Flash đồng thời giảm thiểu rủi ro và chi phí. Để quản lý API liền mạch phù hợp với quy trình AI hiện đại, hãy truy cập CometAPI và tích hợp ngay hôm nay.