Gemini 2.5 Flash được thiết kế để phản hồi nhanh mà không đánh đổi chất lượng đầu ra. Mô hình hỗ trợ đầu vào đa phương thức, bao gồm văn bản, hình ảnh, âm thanh và video, phù hợp với nhiều ứng dụng khác nhau. Mô hình có thể truy cập qua các nền tảng như Google AI Studio và Vertex AI, cung cấp cho nhà phát triển các công cụ cần thiết để tích hợp liền mạch vào nhiều hệ thống.

Thông tin cơ bản (Tính năng)

Gemini 2.5 Flash giới thiệu một số tính năng nổi bật giúp phân biệt trong họ Gemini 2.5:

Suy luận lai (Hybrid Reasoning): Nhà phát triển có thể đặt tham số thinking_budget để kiểm soát tinh vi số token mô hình dành cho suy luận nội bộ trước khi xuất ra.
Biên Pareto: Định vị tại điểm tối ưu chi phí-hiệu năng, Flash mang lại tỷ lệ giá-trí tuệ tốt nhất trong các mô hình 2.5 .
Hỗ trợ đa phương thức: Xử lý gốc văn bản, hình ảnh, video và âm thanh, cho phép hội thoại và phân tích phong phú hơn .
Ngữ cảnh 1 triệu token: Độ dài ngữ cảnh vượt trội cho phép phân tích sâu và hiểu tài liệu dài trong một yêu cầu .

Phiên bản mô hình

Gemini 2.5 Flash đã chuyển qua các phiên bản chính sau:

gemini-2.5-flash-lite-preview-09-2025: Tăng khả năng dùng công cụ: Cải thiện hiệu năng trên các tác vụ phức tạp, nhiều bước, với mức tăng 5% điểm SWE-Bench Verified (từ 48.9% lên 54%). Tối ưu hiệu quả: Khi bật suy luận, đầu ra chất lượng cao hơn đạt được với ít token hơn, giảm độ trễ và chi phí.
Preview 04-17: Bản truy cập sớm với khả năng “thinking”, khả dụng qua gemini-2.5-flash-preview-04-17.
Ổn định Sẵn sàng chung (GA): Kể từ ngày 17 tháng 6, 2025, endpoint ổn định gemini-2.5-flash thay thế bản preview, đảm bảo độ tin cậy cấp sản xuất mà không đổi API so với bản preview ngày 20 tháng 5 .
Ngừng bản Preview: Các endpoint preview được lên lịch tắt vào ngày 15 tháng 7, 2025; người dùng phải chuyển sang endpoint GA trước ngày này .

Tính đến tháng 7 năm 2025, Gemini 2.5 Flash hiện đã công khai và ổn định (không thay đổi so với gemini-2.5-flash-preview-05-20 ).If you are using gemini-2.5-flash-preview-04-17, the existing preview pricing will continue until the scheduled retirement of the model endpoint on July 15, 2025, when it will be shut down. You can migrate to the generally available model "gemini-2.5-flash" .

Nhanh hơn, rẻ hơn, thông minh hơn:

Mục tiêu thiết kế: độ trễ thấp + thông lượng cao + chi phí thấp;
Tăng tốc tổng thể ở suy luận, xử lý đa phương thức và các tác vụ văn bản dài;
Mức sử dụng token giảm 20–30%, giúp giảm đáng kể chi phí suy luận.

Thông số kỹ thuật

Cửa sổ ngữ cảnh đầu vào: Tối đa 1 triệu token, cho phép giữ ngữ cảnh mở rộng.

Token đầu ra: Có thể tạo tối đa 8,192 token cho mỗi phản hồi.

Phương thức hỗ trợ: Văn bản, hình ảnh, âm thanh và video.

Nền tảng tích hợp: Khả dụng qua Google AI Studio và Vertex AI.

Định giá: Mô hình tính phí theo token cạnh tranh, giúp triển khai tiết kiệm chi phí.

Chi tiết kỹ thuật

Ở bên trong, Gemini 2.5 Flash là một mô hình ngôn ngữ lớn dựa trên transformer, được huấn luyện trên tập hợp dữ liệu web, mã, hình ảnh và video. Các thông số kỹ thuật chính gồm:

Huấn luyện đa phương thức: Được huấn luyện để căn chỉnh nhiều phương thức, Flash có thể pha trộn liền mạch văn bản với hình ảnh, video hoặc âm thanh, hữu ích cho các tác vụ như tóm tắt video hoặc chú thích âm thanh .

Quy trình suy nghĩ động: Triển khai vòng lặp suy luận nội bộ nơi mô hình lập kế hoạch và phân rã lời nhắc phức tạp trước khi xuất ra .

Ngân sách suy nghĩ có cấu hình: thinking_budget có thể đặt từ 0 (không suy luận) đến 24,576 token, cho phép đánh đổi giữa độ trễ và chất lượng câu trả lời .

Tích hợp công cụ: Hỗ trợ Grounding with Google Search, Code Execution, URL Context và Function Calling, cho phép thực hiện hành động trong thế giới thực trực tiếp từ lời nhắc ngôn ngữ tự nhiên .

Hiệu năng benchmark

Qua các đánh giá nghiêm ngặt, Gemini 2.5 Flash thể hiện hiệu năng dẫn đầu ngành:

LMArena Hard Prompts: Xếp thứ hai chỉ sau 2.5 Pro trên benchmark Hard Prompts đầy thách thức, cho thấy khả năng suy luận nhiều bước mạnh mẽ .
Điểm MMLU 0.809: Vượt mức trung bình của các mô hình với độ chính xác 0.809 MMLU, phản ánh kiến thức đa lĩnh vực và năng lực suy luận rộng .
Độ trễ và thông lượng: Đạt tốc độ giải mã 271.4 token/giây với 0.29 s Time-to-First-Token, lý tưởng cho khối lượng công việc nhạy cảm với độ trễ.
Dẫn đầu về tỷ lệ giá/hiệu năng: Ở mức \$0.26/1 M tokens, Flash rẻ hơn nhiều đối thủ trong khi vẫn ngang bằng hoặc vượt trội trên các benchmark chính .

Những kết quả này cho thấy lợi thế cạnh tranh của Gemini 2.5 Flash ở suy luận, hiểu biết khoa học, giải bài toán, lập trình, diễn giải thị giác và năng lực đa ngôn ngữ:

Hạn chế

Mặc dù mạnh mẽ, Gemini 2.5 Flash vẫn có một số hạn chế:

Rủi ro an toàn: Mô hình đôi khi có giọng điệu “giáo điều” và có thể tạo ra đầu ra nghe có vẻ hợp lý nhưng sai hoặc thiên lệch (ảo giác), đặc biệt với các truy vấn biên. Giám sát của con người vẫn rất quan trọng.
Giới hạn tần suất: Việc dùng API bị giới hạn tần suất (10 RPM, 250,000 TPM, 250 RPD trên tầng mặc định), có thể ảnh hưởng xử lý theo lô hoặc khối lượng cao.
Ngưỡng năng lực tối thiểu: Dù rất mạnh đối với một mô hình flash, độ chính xác vẫn thấp hơn 2.5 Pro ở các tác vụ dạng agent đòi hỏi cao như lập trình nâng cao hoặc phối hợp đa tác nhân.
Đánh đổi chi phí: Dù có tỷ lệ giá-hiệu năng tốt nhất, sử dụng nhiều chế độ thinking sẽ tăng tổng số token tiêu thụ, làm chi phí cao hơn cho các lời nhắc đòi hỏi suy luận sâu .

Giá cả cho Gemini 2.5 Flash

Khám phá mức giá cạnh tranh cho Gemini 2.5 Flash, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Gemini 2.5 Flash có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Mã mẫu và API cho Gemini 2.5 Flash

Gemini 2.5 Flash API là mô hình AI đa phương thức mới nhất của Google, được thiết kế cho các tác vụ tốc độ cao, tiết kiệm chi phí, với khả năng suy luận có thể kiểm soát, cho phép các nhà phát triển bật hoặc tắt các tính năng "tư duy" nâng cao thông qua Gemini API.

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Các phiên bản của Gemini 2.5 Flash

Lý do Gemini 2.5 Flash có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.

version
gemini-2.5-flash-image-preview
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking
gemini-2.5-flash
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-image

Thông tin cơ bản (Tính năng)

Gemini 2.5 Flash giới thiệu một số tính năng nổi bật giúp phân biệt trong họ Gemini 2.5:

Suy luận lai (Hybrid Reasoning): Nhà phát triển có thể đặt tham số thinking_budget để kiểm soát tinh vi số token mô hình dành cho suy luận nội bộ trước khi xuất ra.
Biên Pareto: Định vị tại điểm tối ưu chi phí-hiệu năng, Flash mang lại tỷ lệ giá-trí tuệ tốt nhất trong các mô hình 2.5 .
Hỗ trợ đa phương thức: Xử lý gốc văn bản, hình ảnh, video và âm thanh, cho phép hội thoại và phân tích phong phú hơn .
Ngữ cảnh 1 triệu token: Độ dài ngữ cảnh vượt trội cho phép phân tích sâu và hiểu tài liệu dài trong một yêu cầu .

Phiên bản mô hình

Gemini 2.5 Flash đã chuyển qua các phiên bản chính sau:

gemini-2.5-flash-lite-preview-09-2025: Tăng khả năng dùng công cụ: Cải thiện hiệu năng trên các tác vụ phức tạp, nhiều bước, với mức tăng 5% điểm SWE-Bench Verified (từ 48.9% lên 54%). Tối ưu hiệu quả: Khi bật suy luận, đầu ra chất lượng cao hơn đạt được với ít token hơn, giảm độ trễ và chi phí.
Preview 04-17: Bản truy cập sớm với khả năng “thinking”, khả dụng qua gemini-2.5-flash-preview-04-17.
Ổn định Sẵn sàng chung (GA): Kể từ ngày 17 tháng 6, 2025, endpoint ổn định gemini-2.5-flash thay thế bản preview, đảm bảo độ tin cậy cấp sản xuất mà không đổi API so với bản preview ngày 20 tháng 5 .
Ngừng bản Preview: Các endpoint preview được lên lịch tắt vào ngày 15 tháng 7, 2025; người dùng phải chuyển sang endpoint GA trước ngày này .

Nhanh hơn, rẻ hơn, thông minh hơn:

Mục tiêu thiết kế: độ trễ thấp + thông lượng cao + chi phí thấp;
Tăng tốc tổng thể ở suy luận, xử lý đa phương thức và các tác vụ văn bản dài;
Mức sử dụng token giảm 20–30%, giúp giảm đáng kể chi phí suy luận.

Thông số kỹ thuật

Cửa sổ ngữ cảnh đầu vào: Tối đa 1 triệu token, cho phép giữ ngữ cảnh mở rộng.

Token đầu ra: Có thể tạo tối đa 8,192 token cho mỗi phản hồi.

Phương thức hỗ trợ: Văn bản, hình ảnh, âm thanh và video.

Nền tảng tích hợp: Khả dụng qua Google AI Studio và Vertex AI.

Định giá: Mô hình tính phí theo token cạnh tranh, giúp triển khai tiết kiệm chi phí.

Chi tiết kỹ thuật

Quy trình suy nghĩ động: Triển khai vòng lặp suy luận nội bộ nơi mô hình lập kế hoạch và phân rã lời nhắc phức tạp trước khi xuất ra .

Hiệu năng benchmark

Qua các đánh giá nghiêm ngặt, Gemini 2.5 Flash thể hiện hiệu năng dẫn đầu ngành:

LMArena Hard Prompts: Xếp thứ hai chỉ sau 2.5 Pro trên benchmark Hard Prompts đầy thách thức, cho thấy khả năng suy luận nhiều bước mạnh mẽ .
Điểm MMLU 0.809: Vượt mức trung bình của các mô hình với độ chính xác 0.809 MMLU, phản ánh kiến thức đa lĩnh vực và năng lực suy luận rộng .
Độ trễ và thông lượng: Đạt tốc độ giải mã 271.4 token/giây với 0.29 s Time-to-First-Token, lý tưởng cho khối lượng công việc nhạy cảm với độ trễ.
Dẫn đầu về tỷ lệ giá/hiệu năng: Ở mức \$0.26/1 M tokens, Flash rẻ hơn nhiều đối thủ trong khi vẫn ngang bằng hoặc vượt trội trên các benchmark chính .

Hạn chế

Mặc dù mạnh mẽ, Gemini 2.5 Flash vẫn có một số hạn chế:

Rủi ro an toàn: Mô hình đôi khi có giọng điệu “giáo điều” và có thể tạo ra đầu ra nghe có vẻ hợp lý nhưng sai hoặc thiên lệch (ảo giác), đặc biệt với các truy vấn biên. Giám sát của con người vẫn rất quan trọng.
Giới hạn tần suất: Việc dùng API bị giới hạn tần suất (10 RPM, 250,000 TPM, 250 RPD trên tầng mặc định), có thể ảnh hưởng xử lý theo lô hoặc khối lượng cao.
Ngưỡng năng lực tối thiểu: Dù rất mạnh đối với một mô hình flash, độ chính xác vẫn thấp hơn 2.5 Pro ở các tác vụ dạng agent đòi hỏi cao như lập trình nâng cao hoặc phối hợp đa tác nhân.
Đánh đổi chi phí: Dù có tỷ lệ giá-hiệu năng tốt nhất, sử dụng nhiều chế độ thinking sẽ tăng tổng số token tiêu thụ, làm chi phí cao hơn cho các lời nhắc đòi hỏi suy luận sâu .

Gemini 2.5 Flash

Thêm mô hình

Claude Opus 4.7

Claude Sonnet 4.6

GPT 5.5 Pro

GPT 5.5

GPT Image 2 ALL

GPT 5.5 ALL

Blog liên quan

Nano Banana 2 Flash Sắp ra mắt – Sự tiến hóa tốc độ cao của tạo hình ảnh bằng AI

Giảm giá Nano Banana: Một cách thực sự tiết kiệm tiền trong năm 2026 dành cho các nhà phát triển

API Free Gemini 2.5 Pro bị hỏng? Thay đổi đối với hạn mức miễn phí vào năm 2025

Hướng dẫn đầy đủ về Nano-Banana: Cách sử dụng và lời nhắc để đạt hiệu quả tốt nhất

Làm thế nào để sử dụng Nano Banana thông qua API? (Gemini-2-5-flash-image)