Gemini 2.5 Flash được thiết kế để phản hồi nhanh mà không đánh đổi chất lượng đầu ra. Mô hình hỗ trợ đầu vào đa phương thức, bao gồm văn bản, hình ảnh, âm thanh và video, phù hợp với nhiều ứng dụng khác nhau. Mô hình có thể truy cập qua các nền tảng như Google AI Studio và Vertex AI, cung cấp cho nhà phát triển các công cụ cần thiết để tích hợp liền mạch vào nhiều hệ thống.
Thông tin cơ bản (Tính năng)
Gemini 2.5 Flash giới thiệu một số tính năng nổi bật giúp phân biệt trong họ Gemini 2.5:
- Suy luận lai (Hybrid Reasoning): Nhà phát triển có thể đặt tham số thinking_budget để kiểm soát tinh vi số token mô hình dành cho suy luận nội bộ trước khi xuất ra.
- Biên Pareto: Định vị tại điểm tối ưu chi phí-hiệu năng, Flash mang lại tỷ lệ giá-trí tuệ tốt nhất trong các mô hình 2.5 .
- Hỗ trợ đa phương thức: Xử lý gốc văn bản, hình ảnh, video và âm thanh, cho phép hội thoại và phân tích phong phú hơn .
- Ngữ cảnh 1 triệu token: Độ dài ngữ cảnh vượt trội cho phép phân tích sâu và hiểu tài liệu dài trong một yêu cầu .
Phiên bản mô hình
Gemini 2.5 Flash đã chuyển qua các phiên bản chính sau:
- gemini-2.5-flash-lite-preview-09-2025: Tăng khả năng dùng công cụ: Cải thiện hiệu năng trên các tác vụ phức tạp, nhiều bước, với mức tăng 5% điểm SWE-Bench Verified (từ 48.9% lên 54%). Tối ưu hiệu quả: Khi bật suy luận, đầu ra chất lượng cao hơn đạt được với ít token hơn, giảm độ trễ và chi phí.
- Preview 04-17: Bản truy cập sớm với khả năng “thinking”, khả dụng qua gemini-2.5-flash-preview-04-17.
- Ổn định Sẵn sàng chung (GA): Kể từ ngày 17 tháng 6, 2025, endpoint ổn định gemini-2.5-flash thay thế bản preview, đảm bảo độ tin cậy cấp sản xuất mà không đổi API so với bản preview ngày 20 tháng 5 .
- Ngừng bản Preview: Các endpoint preview được lên lịch tắt vào ngày 15 tháng 7, 2025; người dùng phải chuyển sang endpoint GA trước ngày này .
Tính đến tháng 7 năm 2025, Gemini 2.5 Flash hiện đã công khai và ổn định (không thay đổi so với gemini-2.5-flash-preview-05-20 ).If you are using gemini-2.5-flash-preview-04-17, the existing preview pricing will continue until the scheduled retirement of the model endpoint on July 15, 2025, when it will be shut down. You can migrate to the generally available model "gemini-2.5-flash" .
Nhanh hơn, rẻ hơn, thông minh hơn:
- Mục tiêu thiết kế: độ trễ thấp + thông lượng cao + chi phí thấp;
- Tăng tốc tổng thể ở suy luận, xử lý đa phương thức và các tác vụ văn bản dài;
- Mức sử dụng token giảm 20–30%, giúp giảm đáng kể chi phí suy luận.
Thông số kỹ thuật
Cửa sổ ngữ cảnh đầu vào: Tối đa 1 triệu token, cho phép giữ ngữ cảnh mở rộng.
Token đầu ra: Có thể tạo tối đa 8,192 token cho mỗi phản hồi.
Phương thức hỗ trợ: Văn bản, hình ảnh, âm thanh và video.
Nền tảng tích hợp: Khả dụng qua Google AI Studio và Vertex AI.
Định giá: Mô hình tính phí theo token cạnh tranh, giúp triển khai tiết kiệm chi phí.
Chi tiết kỹ thuật
Ở bên trong, Gemini 2.5 Flash là một mô hình ngôn ngữ lớn dựa trên transformer, được huấn luyện trên tập hợp dữ liệu web, mã, hình ảnh và video. Các thông số kỹ thuật chính gồm:
Huấn luyện đa phương thức: Được huấn luyện để căn chỉnh nhiều phương thức, Flash có thể pha trộn liền mạch văn bản với hình ảnh, video hoặc âm thanh, hữu ích cho các tác vụ như tóm tắt video hoặc chú thích âm thanh .
Quy trình suy nghĩ động: Triển khai vòng lặp suy luận nội bộ nơi mô hình lập kế hoạch và phân rã lời nhắc phức tạp trước khi xuất ra .
Ngân sách suy nghĩ có cấu hình: thinking_budget có thể đặt từ 0 (không suy luận) đến 24,576 token, cho phép đánh đổi giữa độ trễ và chất lượng câu trả lời .
Tích hợp công cụ: Hỗ trợ Grounding with Google Search, Code Execution, URL Context và Function Calling, cho phép thực hiện hành động trong thế giới thực trực tiếp từ lời nhắc ngôn ngữ tự nhiên .
Hiệu năng benchmark
Qua các đánh giá nghiêm ngặt, Gemini 2.5 Flash thể hiện hiệu năng dẫn đầu ngành:
- LMArena Hard Prompts: Xếp thứ hai chỉ sau 2.5 Pro trên benchmark Hard Prompts đầy thách thức, cho thấy khả năng suy luận nhiều bước mạnh mẽ .
- Điểm MMLU 0.809: Vượt mức trung bình của các mô hình với độ chính xác 0.809 MMLU, phản ánh kiến thức đa lĩnh vực và năng lực suy luận rộng .
- Độ trễ và thông lượng: Đạt tốc độ giải mã 271.4 token/giây với 0.29 s Time-to-First-Token, lý tưởng cho khối lượng công việc nhạy cảm với độ trễ.
- Dẫn đầu về tỷ lệ giá/hiệu năng: Ở mức \$0.26/1 M tokens, Flash rẻ hơn nhiều đối thủ trong khi vẫn ngang bằng hoặc vượt trội trên các benchmark chính .
Những kết quả này cho thấy lợi thế cạnh tranh của Gemini 2.5 Flash ở suy luận, hiểu biết khoa học, giải bài toán, lập trình, diễn giải thị giác và năng lực đa ngôn ngữ:
Hạn chế
Mặc dù mạnh mẽ, Gemini 2.5 Flash vẫn có một số hạn chế:
- Rủi ro an toàn: Mô hình đôi khi có giọng điệu “giáo điều” và có thể tạo ra đầu ra nghe có vẻ hợp lý nhưng sai hoặc thiên lệch (ảo giác), đặc biệt với các truy vấn biên. Giám sát của con người vẫn rất quan trọng.
- Giới hạn tần suất: Việc dùng API bị giới hạn tần suất (10 RPM, 250,000 TPM, 250 RPD trên tầng mặc định), có thể ảnh hưởng xử lý theo lô hoặc khối lượng cao.
- Ngưỡng năng lực tối thiểu: Dù rất mạnh đối với một mô hình flash, độ chính xác vẫn thấp hơn 2.5 Pro ở các tác vụ dạng agent đòi hỏi cao như lập trình nâng cao hoặc phối hợp đa tác nhân.
- Đánh đổi chi phí: Dù có tỷ lệ giá-hiệu năng tốt nhất, sử dụng nhiều chế độ thinking sẽ tăng tổng số token tiêu thụ, làm chi phí cao hơn cho các lời nhắc đòi hỏi suy luận sâu .




