Google đã ra mắt Gemini 3.5 Flash vào ngày 19 tháng 5 năm 2026 tại I/O, định vị nó là một mô hình trí tuệ cao, tối ưu tốc độ cho hiệu năng mức tiên phong bền vững trong các quy trình tác tử, lập trình và tác vụ đa phương thức. Nó được xây dựng trên nền tảng Gemini 3 Flash với các “cấp độ suy nghĩ” được tăng cường để cân bằng chất lượng, chi phí và độ trễ.
Hướng dẫn toàn diện này bao quát mọi thứ: Gemini 3.5 Flash là gì, các tính năng chính, hiệu năng benchmark chi tiết, định giá, so sánh với GPT-5.5, Claude 4.7/4.6 và hơn thế nữa. Là bộ tổng hợp API AI hàng đầu, CometAPI giúp nhà phát triển truy cập Gemini 3.5 Flash (và các đối thủ) với mức giá thống nhất, tích hợp đơn giản và công cụ tối ưu hoá chi phí.
Gemini 3.5 Flash là gì?
Gemini 3.5 Flash được xây dựng trên nền tảng lập luận của Gemini 3 Flash với “cấp độ suy nghĩ” (tối thiểu, thấp, trung bình/mặc định, cao) được nâng cấp để tinh chỉnh đánh đổi giữa chất lượng – độ trễ – chi phí. Đây là mô hình đa phương thức gốc hỗ trợ văn bản, hình ảnh, video, âm thanh và tài liệu (bao gồm PDF), với cửa sổ ngữ cảnh 1M token và tối đa 65K token đầu ra. Ngưỡng kiến thức là tháng 1/2025.
Các điểm khác biệt chính so với các mẫu Flash trước:
- Hiệu năng mức tiên phong duy trì trên tác vụ tác tử, lập trình và nhiệm vụ dài hạn.
- Bảo toàn suy nghĩ: Tự động duy trì suy luận trung gian trong hội thoại nhiều lượt mà không cần thay đổi API.
- Tối ưu cho quy mô: Thiết kế cho thực thi tác tử song song, lập trình lặp và quy trình doanh nghiệp nhiều bước.
- Chưa hỗ trợ computer use, nhưng cải thiện mạnh mẽ sử dụng công cụ và gọi hàm.
Google định vị đây là “mẫu Flash thông minh nhất” cho sản xuất, vượt qua Gemini 3.1 Pro trước đó trên nhiều benchmark về tác tử và lập trình, đồng thời vẫn giữ tốc độ cấp Flash (thường >280 token đầu ra/giây trong thử nghiệm).
Gemini 3.5 Flash xuất sắc trong quy trình tác tử và lập trình với trí tuệ gần mức Pro, tối ưu độ trễ và chi phí, đạt điểm như 76,2% trên Terminal-bench 2.1 và 83,6% trên MCP Atlas cho nhiệm vụ nhiều bước.
Đột phá hiệu năng Benchmark
Các thử nghiệm độc lập xác nhận mô hình cung cấp hiệu năng cấp Pro hoặc tốt hơn cho tác vụ lập trình/tác tử với tốc độ cao hơn, dù tổng chi phí chạy benchmark tăng do dùng nhiều token hơn trong vòng lặp tác tử phức tạp và mức giá cao hơn gấp 3 lần so với các mẫu Flash trước.
Gemini 3.5 Flash cho thấy mức tăng mạnh so với các phiên bản trước, đặc biệt trong lĩnh vực tác tử và lập trình. Dưới đây là các kết quả chính từ model card của Google DeepMind và đánh giá độc lập (tính đến tháng 5/2026):
Một số Benchmark được chọn (Gemini 3.5 Flash so với đối thủ):
Lập trình:
- Terminal-bench 2.1 (lập trình tác tử trên terminal): 76,2% (so với Gemini 3 Flash 58,0%, Gemini 3.1 Pro 70,3%, GPT-5.5 78,2%)
- SWE-Bench Pro (lập trình tác tử công khai, đa dạng): 55,1% (so với 49,6% của 3 Flash, 54,2% của 3.1 Pro)
Sử dụng công cụ tác tử:
- MCP Atlas (quy trình nhiều bước): 83,6% (dẫn đầu mạnh)
- Toolathlon (sử dụng công cụ thực tế, tổng quát): 56,5%
- Finance Agent v2: 57,9% (cao hơn 3 Flash tới +15,3%)
Đa phương thức:
- CharXiv (lập luận biểu đồ): 84,2%
- MMMU-Pro: 83,6% (vượt nhiều đối thủ)
Lập luận & ngữ cảnh dài:
- Humanity’s Last Exam: 40,2%
- ARC-AGI-2: 72,1%
- MRCR v2 (128k): 77,3%; ngữ cảnh 1M mạnh với 26,6% theo từng điểm.

Artificial Analysis Intelligence Index: Gemini 3.5 Flash đạt 55 (mức suy nghĩ cao), tăng 9 điểm so với Gemini 3 Flash. Nó dẫn đầu trên biên Pareto Trí tuệ vs. Tốc độ, với cải thiện ở tác vụ tác tử và giảm ảo giác (xuống còn 61%). Đạt >280 token đầu ra/giây nhưng phát sinh mức dùng token cao hơn trong vòng lặp tác tử.
Mô hình nổi bật ở ngữ cảnh dài (MRCR v2 mạnh và 1M theo từng điểm), dẫn đầu đa phương thức (biểu đồ, tài liệu), và hiệu năng tác tử duy trì với giảm lãng phí token trong một số quy trình (ví dụ, tốt hơn 42% trên benchmark an ninh mạng với ít hơn 72% token).
Cân bằng giữa tốc độ và khả năng tác tử
Gemini 3.5 Flash tỏa sáng ở đánh đổi giữa tốc độ và trí tuệ. Nó đạt thông lượng cao (>280 token/giây) đồng thời hỗ trợ hành vi tác tử tinh vi như triển khai tác tử phụ, thực thi song song và lặp nhanh.
Mức nỗ lực suy nghĩ mặc định giờ là medium, thay đổi từ high trong Gemini 3 Flash Preview.
Cấp độ suy nghĩ cho phép kiểm soát chính xác:
- Trung bình (mặc định): Cân bằng tốt nhất cho hầu hết tác vụ lập trình và tác tử phức tạp.
- Cao: Tối đa hóa lập luận sâu cho bài toán khó nhất.
- Thấp/Tối thiểu: Độ trễ siêu thấp cho truy vấn đơn giản.
Google báo cáo cải thiện đáng kể hiệu quả token trong kịch bản tác tử thực tế (ví dụ, giảm 72% ở một số benchmark an ninh mạng so với phiên bản trước), khiến mô hình phù hợp cho quy trình dài hơi, chạy bền.
Đánh đổi: Giá cao hơn so với các mẫu Flash trước dẫn đến tổng chi phí tăng trong kịch bản tác tử tiêu tốn nhiều token (chi phí Chỉ số Trí tuệ 5,5x so với Gemini 3 Flash do giá + mức dùng).
Năng lực nâng cao của tác tử thông minh
Gemini 3.5 Flash thúc đẩy “kỷ nguyên tác tử Gemini”. Các nâng cấp chính gồm:
- Vòng lặp thực thi tác tử song song: Triển khai nhiều tác tử phụ cho bài toán phức tạp.
- Lập trình lặp và tạo mẫu: Khám phá nhanh hướng giải với sử dụng công cụ linh hoạt.
- Quy trình nhiều bước dài hạn: Xử lý quy trình doanh nghiệp mở rộng với bảo toàn suy nghĩ.
- Cải thiện sử dụng công cụ: Khớp phản hồi hàm chặt chẽ, phản hồi hàm đa phương thức và giảm gọi không cần thiết nhờ nhắc tốt hơn và mức suy nghĩ thấp hơn. Mạnh ở OSWorld và tác vụ UI.
Mô hình vận hành các tác tử thông tin mới của Google, nghiên cứu tự động và pipeline lập trình. Trong thử nghiệm nội bộ, nó xuất sắc trong xây dựng hệ thống phức tạp và quản lý dự án nghiên cứu.
Với nhà phát triển, Interactions API (beta) mới đơn giản hóa quản lý lịch sử phía server, tương tự các mẫu nâng cao ở hệ sinh thái khác.
Khuyến nghị CometAPI: Dùng API hợp nhất của chúng tôi để kết hợp Gemini 3.5 Flash với các mô hình chuyên biệt (ví dụ, Claude cho rà soát code sâu hoặc GPT cho tác vụ sáng tạo) trong hệ tác tử. Tính năng định tuyến và dự phòng đảm bảo độ tin cậy và tiết kiệm chi phí.
Dẫn đầu đa phương thức
Google duy trì vị thế dẫn đầu trong hiểu đa phương thức. Gemini 3.5 Flash xử lý và lập luận nguyên bản trên văn bản + hình ảnh + video + âm thanh + tài liệu. Nó dẫn đầu hoặc cạnh tranh sát sao trên các benchmark như CharXiv, MMMU-Pro và các tác vụ hiểu video.
Trường hợp sử dụng: Tổng hợp biểu đồ/dữ liệu, phân tích video, gọi hàm đa phương thức (ví dụ xử lý hình ảnh trong phản hồi công cụ), và tác tử đa phương tiện phong phú. Điều này khiến nó lý tưởng cho thương mại điện tử, sáng tạo nội dung, trực quan hóa khoa học và hơn thế nữa.
Giá: Gemini 3.5 Flash tốn bao nhiêu?
Giá Gemini API (trên mỗi 1M token, mức toàn cầu xấp xỉ):
- Input (văn bản/hình ảnh/video/âm thanh): $1.50
- Output: $9.00
- Bộ nhớ đệm ngữ cảnh: $0.15 (tiết kiệm đáng kể cho prompt lặp lại)
Điều này tương đương tăng ~3x so với Gemini 3 Flash Preview ($0.50/$3) nhưng vẫn cạnh tranh so với mức năng lực tăng. Mức giá tiến gần Gemini 3.1 Pro ($2/$12) trong khi cung cấp tốc độ tốt hơn cho nhiều khối lượng công việc.
Điều này tương đương tăng ~3x so với Gemini 3 Flash Preview ($0.50/$3) nhưng vẫn cạnh tranh so với mức năng lực tăng. Mức giá tiến gần Gemini 3.1 Pro ($2/$12) trong khi cung cấp tốc độ tốt hơn cho nhiều khối lượng công việc.
Free Tier: Truy cập giới hạn qua Google AI Studio/Gemini app; trả phí cho môi trường sản xuất.
Cometapi Advantage: Truy cập Gemini 3.5 Flash API cùng 100+ mô hình với mức giá cạnh tranh, phân tích sử dụng và công cụ tối ưu hóa để giảm tiêu thụ token. Nền tảng của chúng tôi thường mang lại mức giá hiệu quả tốt hơn nhờ định tuyến thông minh và gộp yêu cầu. Giá API thường thấp hơn 20% so với giá chính thức.
Gemini 3.5 Flash vs. GPT-5.5, Claude 4.7/4.6 và các đối thủ
Thế mạnh của Gemini 3.5 Flash:
- Cân bằng tốc độ + tác tử: Suy luận nhanh hơn hầu hết mô hình tiên phong trong khi thu hẹp khoảng cách trí tuệ.
- Đa phương thức & ngữ cảnh dài: Ngữ cảnh gốc 1M và dẫn đầu thị giác.
- Chi phí cho khối lượng lớn: Rẻ hơn theo token so với nhiều Claude/GPT hàng đầu, đặc biệt khi dùng cache.
- Hệ sinh thái Google: Tích hợp liền mạch với Search, Workspace, Cloud.
Nơi đối thủ vượt trội:
- GPT-5.5 thường dẫn đầu lập luận thô (ví dụ ARC-AGI) và có thể mạnh hơn ở khả năng sáng tạo/tổng quát.
- Claude Opus 4.7/Sonnet 4.6 xuất sắc ở lập trình cẩn trọng (điểm SWE-Bench cao hơn trong một số trường hợp) và viết/độ an toàn tinh tế.
- Hiệu quả token biến thiên; vòng lặp tác tử có thể khiến 3.5 Flash đắt hơn tổng thể.
So sánh cấp cao (chỉ số/benchmark xấp xỉ; luôn kiểm tra bảng xếp hạng mới nhất):
| Benchmark / Metric | Gemini 3.5 Flash | GPT-5.5 | Claude Opus 4.7 / Sonnet 4.6 | Gemini 3.1 Pro | Notes |
|---|---|---|---|---|---|
| Terminal-bench 2.1 (Coding) | 76.2% | 78.2% | ~66% | 70.3% | Lập trình tác tử |
| MCP Atlas (Agentic) | 83.6% | 75.3% | 79.1% / 69.5% | 78.2% | Quy trình nhiều bước |
| GDPval-AA (Agentic Knowledge) | 1656 Elo | 1769 | 1753 | 1314 | Giá trị kinh tế |
| MMMU-Pro (Multimodal) | 83.6% | 81.2% | ~75% | 80.5% | Gemini dẫn mạnh |
| Intelligence Index (AA) | 55 | Cao (biến thiên) | Cạnh tranh | Thấp hơn | Pareto tốc độ/trí tuệ |
| Speed (tokens/s) | >280 | Thấp hơn | Biến thiên | Chậm hơn | Lợi thế Flash |
| Input/Output Price ($/1M) | 1.50 / 9.00 | Cao hơn | Cao hơn (đặc biệt Opus) | 2/12 | Biên chi phí tốt |
| Context Window | 1M | Cạnh tranh | Mạnh | 1M+ | Đều ở mức tiên phong |
Tóm tắt đánh đổi:
- Gemini 3.5 Flash thắng ở tốc độ + đa phương thức + hiệu quả tác tử cho quy mô.
- GPT-5.5 thường nhỉnh hơn ở đỉnh lập luận/lập trình.
- Claude 4.7 Opus xuất sắc ở lập trình cẩn trọng, độ tin cậy cao nhưng chi phí/độ trễ cao hơn.
Gemini thường dẫn đầu hoặc ngang bằng ở đa phương thức và một số bộ tác tử cụ thể trong khi nhanh hơn và kinh tế hơn cho khối lượng lớn.
Cách truy cập và tích hợp Gemini 3.5 Flash
Truy cập qua:
- Gemini App / Google AI Studio
- Gemini API (
gemini-3.5-flash) - Google Cloud Vertex AI / Enterprise Agent Platform
- Bộ tổng hợp bên thứ ba để linh hoạt đa nhà cung cấp.
Khuyến nghị CometAPI: Với ứng dụng sản xuất trên Cometapi.com, chỉ tích hợp một lần với một API key để truy cập Gemini 3.5 Flash (và 500+ mô hình từ OpenAI, Anthropic, xAI, v.v.) với mức giá hiệu quả thấp hơn 20–40%, không bị khóa nhà cung cấp và dễ dàng hoán đổi mô hình.
Lợi ích cho dự án của bạn:
- Thử nghiệm Gemini 3.5 Flash với GPT-5.5 hoặc Claude 4.7 ngay lập tức bằng cách đổi tên mô hình.
- Hóa đơn hợp nhất, định tuyến dự phòng và tối ưu độ trễ.
- Lý tưởng cho ứng dụng tác tử cần độ tin cậy xuyên nhà cung cấp.
- Đăng ký API key miễn phí với hạn mức thử nghiệm hào phóng.
Ví dụ tích hợp rất đơn giản với SDK chính thức hoặc endpoint hợp nhất của CometAPI — hoàn hảo để mở rộng quy mô lập trình
Trường hợp sử dụng và thực hành tốt
- Tự động hóa tác tử: Xây dựng hệ đa tác tử vững chắc cho nghiên cứu, phân tích dữ liệu hoặc hỗ trợ khách hàng.
- Lập trình & phát triển: Tạo mẫu lặp, gỡ lỗi và tạo pipeline đầy đủ trong Antigravity hoặc IDE.
- Ứng dụng đa phương thức: Phân tích hình ảnh/video, hiểu biểu đồ, tạo nội dung.
- Quy trình doanh nghiệp: Quy trình dài hạn với kiểm soát chi phí qua cache và cấp độ suy nghĩ.
Mẹo: Dùng đầy đủ lịch sử hội thoại để bảo toàn suy nghĩ. Bắt đầu với medium. Tối ưu prompt để giảm gọi công cụ. Theo dõi mức dùng token để tối ưu chi phí.
Hạn chế và lưu ý
- Tăng giá đòi hỏi tối ưu cẩn thận cho ứng dụng khối lượng lớn.
- Chưa có computer use (theo dõi cập nhật).
- Đánh giá an toàn cho thấy hiệu năng chắc chắn với cải thiện về giọng điệu, dù chỉ số tự động biến thiên.
- Giảm ảo giác đáng kể nhưng luôn xác thực đầu ra quan trọng.
- Tăng giá: Cao hơn mẫu Flash trước; tối ưu với cấp độ suy nghĩ và cache.
- Ngưỡng kiến thức: Tháng 1/2025 — dùng công cụ grounding/Search cho sự kiện hiện tại.
Kết luận: Gemini 3.5 Flash có đáng không?
Có — dành cho nhà phát triển và doanh nghiệp ưu tiên tốc độ, độ tin cậy tác tử, năng lực đa phương thức và hiệu năng có thể mở rộng. Nó đẩy biên Pareto tiến lên, giúp AI tiên phong dễ tiếp cận hơn cho khối lượng sản xuất.
Sẵn sàng xây dựng? Truy cập CometAPI ngay hôm nay để thử Gemini 3.5 Flash cùng các mô hình hàng đầu khác trong một bảng điều khiển. Tối ưu stack AI, cắt giảm chi phí và triển khai nhanh hơn.
