Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ
Home/Models/Google/Gemini 2.5 Flash Lite
G

Gemini 2.5 Flash Lite

Đầu vào:$0.08/M
Đầu ra:$0.32/M
Bối cảnh:1M
Đầu ra tối đa:65K
Một mô hình Gemini 2.5 Flash được tối ưu hóa nhằm đạt hiệu quả về chi phí cao và thông lượng cao. Mô hình nhỏ nhất, có hiệu quả về chi phí cao nhất, được xây dựng để sử dụng ở quy mô lớn.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API
Phiên bản

Chi tiết kỹ thuật

  • Suy luận thích ứng: Gemini 2.5 Flash-Lite hỗ trợ chế độ suy nghĩ theo yêu cầu, cho phép nhà phát triển chỉ phân bổ tài nguyên tính toán khi cần suy luận sâu hơn.
  • Tích hợp công cụ: Tương thích hoàn toàn với các công cụ gốc của Gemini 2.5, bao gồm Grounding with Google Search, Code Execution, URL Context và Function Calling để tạo quy trình làm việc đa phương thức liền mạch.
  • Model Context Protocol (MCP): Tận dụng MCP của Google để lấy dữ liệu web theo thời gian thực, đảm bảo phản hồi luôn cập nhật và phù hợp với ngữ cảnh.
  • Tùy chọn triển khai: Có sẵn thông qua CometAPI, Gemini API, Vertex AI và Google AI Studio, kèm kênh bản xem trước dành cho nhóm dùng sớm để thử nghiệm và cung cấp phản hồi.

Hiệu năng đo chuẩn của Gemini 2.5 Flash-Lite

  • Độ trễ: Đạt thời gian phản hồi trung vị thấp hơn đến 50% so với Gemini 2.5 Flash, với độ trễ điển hình dưới 100 ms trên các bài đo chuẩn phân loại và tóm tắt tiêu chuẩn.
  • Thông lượng: Tối ưu cho khối lượng công việc cao, duy trì hàng chục nghìn yêu cầu mỗi phút mà không suy giảm hiệu năng.
  • Giá thành-hiệu năng: Cho thấy mức giảm 25% chi phí trên mỗi 1.000 token so với bản Flash tương ứng, trở thành lựa chọn tối ưu theo Pareto cho các triển khai nhạy về chi phí.
  • Mức độ áp dụng trong ngành: Người dùng sớm báo cáo tích hợp trơn tru vào các pipeline sản xuất, với các chỉ số hiệu năng phù hợp hoặc vượt dự báo ban đầu.

Gemini 2.5 Flash Lite


Trường hợp sử dụng lý tưởng

  • Nhiệm vụ tần suất cao, độ phức tạp thấp: Gắn thẻ tự động, phân tích cảm xúc và dịch hàng loạt
  • Pipeline nhạy về chi phí: Trích xuất dữ liệu từ tập tài liệu lớn, tóm tắt theo lô định kỳ
  • Kịch bản edge và di động: Khi độ trễ là yếu tố then chốt nhưng ngân sách tài nguyên hạn chế

Hạn chế của Gemini 2.5 Flash-Lite

  • Trạng thái bản xem trước: Có thể thay đổi API trước khi GA; các tích hợp nên dự trù khả năng tăng phiên bản.
  • Không tinh chỉnh trực tiếp: Không thể tải lên trọng số tùy chỉnh; dựa vào thiết kế prompt và thông điệp hệ thống.
  • Giảm tính sáng tạo: Được tinh chỉnh cho các tác vụ mang tính xác định, thông lượng cao; ít phù hợp với tạo nội dung mở hoặc viết “sáng tạo”.
  • Giới hạn tài nguyên: Chỉ tuyến tính đến ~16 vCPUs; vượt mức này, mức tăng thông lượng giảm dần.
  • Hạn chế đa phương thức: Hỗ trợ đầu vào hình ảnh/âm thanh nhưng độ trung thực hạn chế; không lý tưởng cho các tác vụ thị giác chuyên sâu hoặc chuyển âm thanh thành văn bản.
  • Đánh đổi về cửa sổ ngữ cảnh: Mặc dù chấp nhận tới 1 M tokens, suy luận thực tế ở quy mô đó có thể giảm thông lượng.

Tính năng cho Gemini 2.5 Flash Lite

Khám phá các tính năng chính của Gemini 2.5 Flash Lite, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Gemini 2.5 Flash Lite

Khám phá mức giá cạnh tranh cho Gemini 2.5 Flash Lite, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Gemini 2.5 Flash Lite có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
model nameInput ($/1M)Output ($/1M)
gemini-2.5-flash-lite0.080.32
gemini-2.5-flash-lite-preview-06-170.080.32
gemini-2.5-flash-lite-thinking0.080.32
gemini-2.5-flash-lite-preview-06-17-thinking0.080.32
gemini-2.5-flash-lite-preview-09-20250.080.32

Mã mẫu và API cho Gemini 2.5 Flash Lite

Truy cập mã mẫu toàn diện và tài nguyên API cho Gemini 2.5 Flash Lite để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của Gemini 2.5 Flash Lite trong các dự án của mình.
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions

Các phiên bản của Gemini 2.5 Flash Lite

Lý do Gemini 2.5 Flash Lite có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.
version
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking

Thêm mô hình

A

Claude Opus 4.6

Đầu vào:$4/M
Đầu ra:$20/M
Claude Opus 4.6 là mô hình ngôn ngữ lớn thuộc lớp “Opus” của Anthropic, phát hành vào tháng 2 năm 2026. Mô hình này được định vị như một công cụ chủ lực cho công việc tri thức và các quy trình nghiên cứu — cải thiện khả năng suy luận với ngữ cảnh dài, lập kế hoạch nhiều bước, khả năng sử dụng công cụ (bao gồm các quy trình phần mềm agentic), và các tác vụ sử dụng máy tính như tự động tạo slide và bảng tính.
A

Claude Sonnet 4.6

Đầu vào:$2.4/M
Đầu ra:$12/M
Claude Sonnet 4.6 là mô hình Sonnet mạnh mẽ nhất của chúng tôi từ trước đến nay. Đây là một bản nâng cấp toàn diện về các kỹ năng của mô hình, bao gồm lập trình, sử dụng máy tính, suy luận trong ngữ cảnh dài, lập kế hoạch tác nhân, công việc tri thức và thiết kế. Sonnet 4.6 cũng có cửa sổ ngữ cảnh 1M token ở giai đoạn beta.
O

GPT-5.4 nano

Đầu vào:$0.16/M
Đầu ra:$1/M
GPT-5.4 nano được thiết kế cho các tác vụ trong đó tốc độ và chi phí là ưu tiên hàng đầu, như phân loại, trích xuất dữ liệu, xếp hạng và các tác tử phụ.
O

GPT-5.4 mini

Đầu vào:$0.6/M
Đầu ra:$3.6/M
GPT-5.4 mini đưa những điểm mạnh của GPT-5.4 vào một mô hình nhanh hơn, hiệu quả hơn, được thiết kế cho khối lượng công việc lớn.
A

Claude Mythos Preview

A

Claude Mythos Preview

Sắp ra mắt
Đầu vào:$60/M
Đầu ra:$240/M
Claude Mythos Preview là mô hình tiên phong mạnh mẽ nhất của chúng tôi cho đến nay, và cho thấy một bước nhảy vọt ấn tượng về điểm số trên nhiều thước đo đánh giá so với mô hình tiên phong trước đó của chúng tôi, Claude Opus 4.6.
X

mimo-v2-pro

Đầu vào:$0.8/M
Đầu ra:$2.4/M
MiMo-V2-Pro là mô hình nền tảng chủ lực của Xiaomi, sở hữu hơn 1T tham số tổng và độ dài ngữ cảnh 1M, được tối ưu sâu cho các kịch bản tác tử. Nó thích ứng cao với các khung tác tử tổng quát như OpenClaw. Trên các benchmark chuẩn PinchBench và ClawBench, mô hình này nằm trong nhóm hàng đầu toàn cầu, với hiệu năng cảm nhận tiệm cận Opus 4.6. MiMo-V2-Pro được thiết kế để đóng vai trò bộ não của các hệ thống tác tử, điều phối các quy trình công việc phức tạp, thực thi các tác vụ kỹ thuật trong môi trường sản xuất và cung cấp kết quả một cách đáng tin cậy.

Blog liên quan

API Free Gemini 2.5 Pro bị hỏng? Thay đổi đối với hạn mức miễn phí vào năm 2025
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

API Free Gemini 2.5 Pro bị hỏng? Thay đổi đối với hạn mức miễn phí vào năm 2025

Google đã siết chặt đáng kể bậc miễn phí của Gemini API: Gemini 2.5 Pro đã bị loại khỏi bậc miễn phí và số lượt yêu cầu miễn phí hằng ngày của Gemini 2.5 Flash đã bị cắt giảm mạnh (báo cáo: ~250 → ~20/ngày). Điều đó không có nghĩa là mô hình vĩnh viễn 'chết' cho việc thử nghiệm — nhưng nó đồng nghĩa quyền truy cập miễn phí đã bị suy giảm nghiêm trọng đối với nhiều trường hợp sử dụng thực tế.