Mô hìnhGiáDoanh nghiệp
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Công ty
Về chúng tôiDoanh nghiệp
Tài nguyên
Mô hình AIBlogNhật ký thay đổiHỗ trợ
Điều khoản Dịch vụChính sách Bảo mật
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

Đầu vào:$0.24/M
Đầu ra:$2/M
Bối cảnh:1M
Đầu ra tối đa:65K
Gemini 2.5 Flash là một mô hình AI do Google phát triển, được thiết kế để cung cấp các giải pháp nhanh và tiết kiệm chi phí cho nhà phát triển, đặc biệt cho các ứng dụng đòi hỏi khả năng suy luận nâng cao. Theo thông báo về bản xem trước của Gemini 2.5 Flash, mô hình này đã được phát hành dưới dạng bản xem trước vào ngày 17 tháng 4 năm 2025, hỗ trợ đầu vào đa phương thức và có cửa sổ ngữ cảnh 1 triệu token. Mô hình này hỗ trợ độ dài ngữ cảnh tối đa 65,536 token.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API
Phiên bản

Gemini 2.5 Flash được thiết kế để phản hồi nhanh mà không đánh đổi chất lượng đầu ra. Mô hình hỗ trợ đầu vào đa phương thức, bao gồm văn bản, hình ảnh, âm thanh và video, phù hợp với nhiều ứng dụng khác nhau. Mô hình có thể truy cập qua các nền tảng như Google AI Studio và Vertex AI, cung cấp cho nhà phát triển các công cụ cần thiết để tích hợp liền mạch vào nhiều hệ thống.


Thông tin cơ bản (Tính năng)

Gemini 2.5 Flash giới thiệu một số tính năng nổi bật giúp phân biệt trong họ Gemini 2.5:

  • Suy luận lai (Hybrid Reasoning): Nhà phát triển có thể đặt tham số thinking_budget để kiểm soát tinh vi số token mô hình dành cho suy luận nội bộ trước khi xuất ra.
  • Biên Pareto: Định vị tại điểm tối ưu chi phí-hiệu năng, Flash mang lại tỷ lệ giá-trí tuệ tốt nhất trong các mô hình 2.5 .
  • Hỗ trợ đa phương thức: Xử lý gốc văn bản, hình ảnh, video và âm thanh, cho phép hội thoại và phân tích phong phú hơn .
  • Ngữ cảnh 1 triệu token: Độ dài ngữ cảnh vượt trội cho phép phân tích sâu và hiểu tài liệu dài trong một yêu cầu .

Phiên bản mô hình

Gemini 2.5 Flash đã chuyển qua các phiên bản chính sau:

  • gemini-2.5-flash-lite-preview-09-2025: Tăng khả năng dùng công cụ: Cải thiện hiệu năng trên các tác vụ phức tạp, nhiều bước, với mức tăng 5% điểm SWE-Bench Verified (từ 48.9% lên 54%). Tối ưu hiệu quả: Khi bật suy luận, đầu ra chất lượng cao hơn đạt được với ít token hơn, giảm độ trễ và chi phí.
  • Preview 04-17: Bản truy cập sớm với khả năng “thinking”, khả dụng qua gemini-2.5-flash-preview-04-17.
  • Ổn định Sẵn sàng chung (GA): Kể từ ngày 17 tháng 6, 2025, endpoint ổn định gemini-2.5-flash thay thế bản preview, đảm bảo độ tin cậy cấp sản xuất mà không đổi API so với bản preview ngày 20 tháng 5 .
  • Ngừng bản Preview: Các endpoint preview được lên lịch tắt vào ngày 15 tháng 7, 2025; người dùng phải chuyển sang endpoint GA trước ngày này .

Tính đến tháng 7 năm 2025, Gemini 2.5 Flash hiện đã công khai và ổn định (không thay đổi so với gemini-2.5-flash-preview-05-20 ).If you are using gemini-2.5-flash-preview-04-17, the existing preview pricing will continue until the scheduled retirement of the model endpoint on July 15, 2025, when it will be shut down. You can migrate to the generally available model "gemini-2.5-flash" .

Nhanh hơn, rẻ hơn, thông minh hơn:

  • Mục tiêu thiết kế: độ trễ thấp + thông lượng cao + chi phí thấp;
  • Tăng tốc tổng thể ở suy luận, xử lý đa phương thức và các tác vụ văn bản dài;
  • Mức sử dụng token giảm 20–30%, giúp giảm đáng kể chi phí suy luận.

Thông số kỹ thuật

Cửa sổ ngữ cảnh đầu vào: Tối đa 1 triệu token, cho phép giữ ngữ cảnh mở rộng.

Token đầu ra: Có thể tạo tối đa 8,192 token cho mỗi phản hồi.

Phương thức hỗ trợ: Văn bản, hình ảnh, âm thanh và video.

Nền tảng tích hợp: Khả dụng qua Google AI Studio và Vertex AI.

Định giá: Mô hình tính phí theo token cạnh tranh, giúp triển khai tiết kiệm chi phí.


Chi tiết kỹ thuật

Ở bên trong, Gemini 2.5 Flash là một mô hình ngôn ngữ lớn dựa trên transformer, được huấn luyện trên tập hợp dữ liệu web, mã, hình ảnh và video. Các thông số kỹ thuật chính gồm:

Huấn luyện đa phương thức: Được huấn luyện để căn chỉnh nhiều phương thức, Flash có thể pha trộn liền mạch văn bản với hình ảnh, video hoặc âm thanh, hữu ích cho các tác vụ như tóm tắt video hoặc chú thích âm thanh .

Quy trình suy nghĩ động: Triển khai vòng lặp suy luận nội bộ nơi mô hình lập kế hoạch và phân rã lời nhắc phức tạp trước khi xuất ra .

Ngân sách suy nghĩ có cấu hình: thinking_budget có thể đặt từ 0 (không suy luận) đến 24,576 token, cho phép đánh đổi giữa độ trễ và chất lượng câu trả lời .

Tích hợp công cụ: Hỗ trợ Grounding with Google Search, Code Execution, URL Context và Function Calling, cho phép thực hiện hành động trong thế giới thực trực tiếp từ lời nhắc ngôn ngữ tự nhiên .


Hiệu năng benchmark

Qua các đánh giá nghiêm ngặt, Gemini 2.5 Flash thể hiện hiệu năng dẫn đầu ngành:

  • LMArena Hard Prompts: Xếp thứ hai chỉ sau 2.5 Pro trên benchmark Hard Prompts đầy thách thức, cho thấy khả năng suy luận nhiều bước mạnh mẽ .
  • Điểm MMLU 0.809: Vượt mức trung bình của các mô hình với độ chính xác 0.809 MMLU, phản ánh kiến thức đa lĩnh vực và năng lực suy luận rộng .
  • Độ trễ và thông lượng: Đạt tốc độ giải mã 271.4 token/giây với 0.29 s Time-to-First-Token, lý tưởng cho khối lượng công việc nhạy cảm với độ trễ.
  • Dẫn đầu về tỷ lệ giá/hiệu năng: Ở mức \$0.26/1 M tokens, Flash rẻ hơn nhiều đối thủ trong khi vẫn ngang bằng hoặc vượt trội trên các benchmark chính .

Những kết quả này cho thấy lợi thế cạnh tranh của Gemini 2.5 Flash ở suy luận, hiểu biết khoa học, giải bài toán, lập trình, diễn giải thị giác và năng lực đa ngôn ngữ:


Hạn chế

Mặc dù mạnh mẽ, Gemini 2.5 Flash vẫn có một số hạn chế:

  • Rủi ro an toàn: Mô hình đôi khi có giọng điệu “giáo điều” và có thể tạo ra đầu ra nghe có vẻ hợp lý nhưng sai hoặc thiên lệch (ảo giác), đặc biệt với các truy vấn biên. Giám sát của con người vẫn rất quan trọng.
  • Giới hạn tần suất: Việc dùng API bị giới hạn tần suất (10 RPM, 250,000 TPM, 250 RPD trên tầng mặc định), có thể ảnh hưởng xử lý theo lô hoặc khối lượng cao.
  • Ngưỡng năng lực tối thiểu: Dù rất mạnh đối với một mô hình flash, độ chính xác vẫn thấp hơn 2.5 Pro ở các tác vụ dạng agent đòi hỏi cao như lập trình nâng cao hoặc phối hợp đa tác nhân.
  • Đánh đổi chi phí: Dù có tỷ lệ giá-hiệu năng tốt nhất, sử dụng nhiều chế độ thinking sẽ tăng tổng số token tiêu thụ, làm chi phí cao hơn cho các lời nhắc đòi hỏi suy luận sâu .

Tính năng cho Gemini 2.5 Flash

Khám phá các tính năng chính của Gemini 2.5 Flash, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Gemini 2.5 Flash

Khám phá mức giá cạnh tranh cho Gemini 2.5 Flash, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Gemini 2.5 Flash có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Mã mẫu và API cho Gemini 2.5 Flash

Gemini 2.5 Flash API là mô hình AI đa phương thức mới nhất của Google, được thiết kế cho các tác vụ tốc độ cao, tiết kiệm chi phí, với khả năng suy luận có thể kiểm soát, cho phép các nhà phát triển bật hoặc tắt các tính năng "tư duy" nâng cao thông qua Gemini API.
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-2.5-flash";
const operator = "generateContent";

async function main() {
  const response = await fetch(`${base_url}/models/${model}:${operator}`, {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      Authorization: api_key,
    },
    body: JSON.stringify({
      contents: [
        {
          parts: [
            { text: "Tell me a three sentence bedtime story about a unicorn." },
          ],
        },
      ],
    }),
  });

  const data = await response.json();
  console.log(data.candidates[0].content.parts[0].text);
}

await main();

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Tell me a three sentence bedtime story about a unicorn."
          }
        ]
      }
    ]
  }'

Các phiên bản của Gemini 2.5 Flash

Lý do Gemini 2.5 Flash có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.
version
gemini-2.5-flash-image-preview
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-thinking
gemini-2.5-flash
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-image

Thêm mô hình

C

Claude Opus 4.7

Đầu vào:$3/M
Đầu ra:$15/M
Mô hình thông minh nhất cho tác tử và lập trình
A

Claude Sonnet 4.6

Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.
O

GPT 5.5 Pro

Đầu vào:$24/M
Đầu ra:$144/M
Một mô hình tiên tiến được thiết kế để xử lý logic cực kỳ phức tạp và đáp ứng các yêu cầu chuyên môn, đại diện cho tiêu chuẩn cao nhất về suy luận sâu và năng lực phân tích chính xác.
O

GPT 5.5

Đầu vào:$4/M
Đầu ra:$24/M
Một mô hình chủ lực đa phương thức thế hệ mới cân bằng giữa hiệu năng vượt trội và khả năng phản hồi hiệu quả, nhằm cung cấp các dịch vụ AI mục đích chung toàn diện và ổn định.
O

GPT Image 2 ALL

Theo Yêu cầu:$0.04
GPT Image 2 là mô hình tạo ảnh tối tân của OpenAI dùng cho việc tạo và chỉnh sửa hình ảnh nhanh, chất lượng cao. Nó hỗ trợ kích thước ảnh linh hoạt và đầu vào hình ảnh có độ trung thực cao.
O

GPT 5.5 ALL

Đầu vào:$4/M
Đầu ra:$24/M
GPT-5.5 xuất sắc trong việc viết mã, nghiên cứu trực tuyến, phân tích dữ liệu và thao tác giữa nhiều công cụ. Mô hình không chỉ nâng cao mức độ tự chủ khi xử lý các tác vụ phức tạp đa bước mà còn cải thiện đáng kể năng lực suy luận và hiệu suất thực thi, đồng thời vẫn duy trì độ trễ tương đương với phiên bản tiền nhiệm, qua đó đánh dấu một bước tiến quan trọng hướng tới tự động hóa công việc văn phòng bằng AI.

Blog liên quan

Nano Banana 2 Flash Sắp ra mắt – Sự tiến hóa tốc độ cao của tạo hình ảnh bằng AI
Jan 6, 2026
nano-banana-2

Nano Banana 2 Flash Sắp ra mắt – Sự tiến hóa tốc độ cao của tạo hình ảnh bằng AI

Google một lần nữa làm thay đổi cục diện AI tạo sinh với Nano Banana 2 Flash sắp ra mắt, bổ sung mới nhất cho dòng sản phẩm tạo ảnh "Nano Banana" được đánh giá cao rộng rãi. Sau thành công vang dội của Nano Banana Pro (Gemini 3 Pro Image) vào cuối năm ngoái, phiên bản mới này hứa hẹn sẽ dân chủ hóa khả năng tổng hợp hình ảnh ở cấp độ chuyên nghiệp bằng cách kết hợp năng lực trí tuệ tiên phong của kiến trúc Gemini 3 với tốc độ và hiệu suất chưa từng có.
Giảm giá Nano Banana: Một cách thực sự tiết kiệm tiền trong năm 2026 dành cho các nhà phát triển
Dec 25, 2025
nano-banana-pro

Giảm giá Nano Banana: Một cách thực sự tiết kiệm tiền trong năm 2026 dành cho các nhà phát triển

Tóm lại: API Nano Banana chính thức không cung cấp bất kỳ ưu đãi giảm giá nào cho dịp Giáng sinh, Năm mới hoặc các ngày lễ khác. Đây là một thực tế mà tất cả các nhà phát triển dự định sử dụng Nano Banana (bao gồm Nano Banana Pro) cho việc tạo ảnh, sáng tạo nội dung hoặc tích hợp sản phẩm vào năm 2026 cần phải hiểu rõ. Google không cung cấp giảm giá theo mùa cho API Nano Banana, dù là Giáng sinh, Black Friday hay Năm mới. Hệ thống định giá của API chính thức luôn ổn định và minh bạch, gần như không có chỗ cho việc giảm giá. Vậy câu hỏi đặt ra là: Nếu bạn là nhà phát triển và dự định thực hiện tạo ảnh quy mô lớn, kiểm thử mô hình hoặc lặp phiên bản sản phẩm trong dịp Giáng sinh hoặc Năm mới, có cách nào để giảm chi phí sử dụng Nano Banana không?
API Free Gemini 2.5 Pro bị hỏng? Thay đổi đối với hạn mức miễn phí vào năm 2025
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

API Free Gemini 2.5 Pro bị hỏng? Thay đổi đối với hạn mức miễn phí vào năm 2025

Google đã siết chặt đáng kể bậc miễn phí của Gemini API: Gemini 2.5 Pro đã bị loại khỏi bậc miễn phí và số lượt yêu cầu miễn phí hằng ngày của Gemini 2.5 Flash đã bị cắt giảm mạnh (báo cáo: ~250 → ~20/ngày). Điều đó không có nghĩa là mô hình vĩnh viễn 'chết' cho việc thử nghiệm — nhưng nó đồng nghĩa quyền truy cập miễn phí đã bị suy giảm nghiêm trọng đối với nhiều trường hợp sử dụng thực tế.
Hướng dẫn đầy đủ về Nano-Banana: Cách sử dụng và lời nhắc để đạt hiệu quả tốt nhất
Sep 8, 2025
gemini-2-5-flash-image

Hướng dẫn đầy đủ về Nano-Banana: Cách sử dụng và lời nhắc để đạt hiệu quả tốt nhất

Phiên bản Gemini 2.5 Flash Image mới nhất của Google — có biệt danh là “Nano-Banana” đã nhanh chóng trở thành lựa chọn hàng đầu cho việc chỉnh sửa hình ảnh đàm thoại: nó giữ nguyên hình ảnh giống nhau
Làm thế nào để sử dụng Nano Banana thông qua API? (Gemini-2-5-flash-image)
Aug 28, 2025
gemini-2-5-flash-image

Làm thế nào để sử dụng Nano Banana thông qua API? (Gemini-2-5-flash-image)

Nano Banana là biệt danh cộng đồng (và viết tắt nội bộ) của Gemini 2.5 Flash Image của Google — một công nghệ tạo hình ảnh đa phương thức có độ trễ thấp, chất lượng cao +