Gemini 2.5 Flash được thiết kế để cung cấp phản hồi nhanh mà không làm giảm chất lượng đầu ra. Nó hỗ trợ đầu vào đa phương thức, bao gồm văn bản, hình ảnh, âm thanh và video, phù hợp với nhiều ứng dụng đa dạng. Mô hình có thể truy cập qua các nền tảng như Google AI Studio và Vertex AI, cung cấp cho nhà phát triển các công cụ cần thiết để tích hợp liền mạch vào nhiều hệ thống.
Gemini 2.5 Flash giới thiệu một số tính năng nổi bật giúp nó khác biệt trong dòng Gemini 2.5:
Gemini 2.5 Flash đã trải qua các phiên bản chính sau:
Tính đến tháng 7 năm 2025, Gemini 2.5 Flash hiện đã công khai và ổn định (không có thay đổi so với gemini-2.5-flash-preview-05-20). Nếu bạn đang sử dụng gemini-2.5-flash-preview-04-17, mức giá preview hiện tại sẽ tiếp tục cho đến khi endpoint của mô hình dự kiến ngừng hoạt động vào ngày 15 tháng 7, 2025. Bạn có thể di chuyển sang mô hình phát hành chung "gemini-2.5-flash".
Nhanh hơn, rẻ hơn, thông minh hơn:
Cửa sổ ngữ cảnh đầu vào: Tối đa 1 triệu token, cho phép giữ ngữ cảnh rộng.
Token đầu ra: Có thể tạo tối đa 8,192 token cho mỗi phản hồi.
Các phương thức được hỗ trợ: Văn bản, hình ảnh, âm thanh và video.
Nền tảng tích hợp: Có sẵn qua Google AI Studio và Vertex AI.
Giá: Mô hình định giá theo token mang tính cạnh tranh, giúp triển khai tiết kiệm chi phí.
Ở bên trong, Gemini 2.5 Flash là một mô hình ngôn ngữ lớn dựa trên transformer được huấn luyện trên hỗn hợp dữ liệu web, mã, hình ảnh và video. Các thông số kỹ thuật chính bao gồm:
Huấn luyện đa phương thức: Được huấn luyện để căn chỉnh nhiều phương thức, Flash có thể kết hợp mượt mà văn bản với hình ảnh, video hoặc âm thanh, hữu ích cho các tác vụ như tóm tắt video hoặc tạo chú thích âm thanh.
Quy trình suy nghĩ động: Triển khai một vòng lặp lập luận nội bộ, trong đó mô hình lập kế hoạch và phân rã các lời nhắc phức tạp trước khi xuất đầu ra cuối cùng.
Ngân sách suy nghĩ có thể cấu hình: thinking_budget có thể được đặt từ 0 (không lập luận) đến 24,576 token, cho phép cân bằng giữa độ trễ và chất lượng câu trả lời.
Tích hợp công cụ: Hỗ trợ Grounding với Google Search, Thực thi mã, Ngữ cảnh URL và Gọi hàm, cho phép thực hiện hành động trong thế giới thực trực tiếp từ lời nhắc ngôn ngữ tự nhiên.
Trong các đánh giá nghiêm ngặt, Gemini 2.5 Flash thể hiện hiệu năng dẫn đầu ngành:
Những kết quả này cho thấy lợi thế cạnh tranh của Gemini 2.5 Flash trong lập luận, hiểu biết khoa học, giải quyết bài toán, lập trình, diễn giải hình ảnh và khả năng đa ngôn ngữ:

Mặc dù mạnh mẽ, Gemini 2.5 Flash vẫn có một số hạn chế:
| Giá Comet (USD / M Tokens) | Giá Chính Thức (USD / M Tokens) |
|---|---|
Đầu vào:$0.24/M Đầu ra:$2.00/M | Đầu vào:$0.30/M Đầu ra:$2.50/M |
from google import genai
import os
# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"
client = genai.Client(
http_options={"api_version": "v1beta", "base_url": BASE_URL},
api_key=COMETAPI_KEY,
)
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Tell me a three sentence bedtime story about a unicorn.",
)
print(response.text)