Gemini 2.5 Flash-Lite API

CometAPI
AnnaJun 26, 2025
Gemini 2.5 Flash-Lite API

Gemini 2.5 Flash-Lite API đại diện cho sản phẩm mới nhất của Google trong nhóm các mô hình lý luận lai, được thiết kế để cung cấp hiệu quả chi phí vô songđộ trễ cực thấp dành cho các ứng dụng có khối lượng lớn, nhạy cảm với độ trễ.


Thông tin cơ bản & Tính năng

Được công bố trong bản phát hành xem trước vào ngày 17 tháng 2025 năm 2.5, Flash-Lite hoàn thiện dòng sản phẩm Gemini XNUMX—cùng với Flash và Pro—bằng cách cung cấp cho các nhà phát triển một tùy chọn được tối ưu hóa cho tốc độ, giá-hiệu suấtsuy nghĩ thích nghi khả năng .

Bạn có thể bắt đầu sử dụng Gemini 2.5 Flash-Lite bằng cách chỉ định "gemini-2.5-flash-lite" trong mã của mình. Nếu bạn đang sử dụng phiên bản xem trước, bạn có thể chuyển sang "gemini-2.5-flash-lite", giống với phiên bản xem trước. Google dự kiến sẽ xóa bí danh xem trước cho Flash-Lite vào ngày 25 tháng XNUMX.

Tính ổn địnhMẫuNgày
Ổn định (GA)gemini-2.5-flash-lite22 Tháng Bảy, 2025
Bản xem trước thử nghiệmgemini-2.5-flash-lite-06-17Thời gian tuyển dụng: 17 tháng 25 – 2025 tháng XNUMX năm XNUMX
phiên bản mới nhấtgemini-2.5-flash-lite-preview-09-202509-2025
  • Kiểm soát suy nghĩ: Thực hiện một ngân sách tư duy năng động thông qua một tham số API, với suy nghĩ bị tắt theo mặc định để tối đa hóa tốc độ và giảm chi phí.
  • Độ trễ thấp: Được thiết kế cho một thời gian nhanh chóng để có được token đầu tiênFlash-Lite giảm thiểu chi phí khởi động, đạt độ trễ dưới 100 ms trên cơ sở hạ tầng Google Cloud tiêu chuẩn.
  • Thông lượng cao:Với các đường ống giải mã có khả năng, nó duy trì hàng trăm token mỗi giây, mở khóa trải nghiệm người dùng theo thời gian thực trong các ứng dụng chatbot và phát trực tuyến.
  • Hỗ trợ đa phương thức:Mặc dù được tối ưu hóa chủ yếu cho văn bản, Flash-Lite cũng chấp nhận hình ảnh, âm thanhvideo đầu vào thông qua API Gemini, cho phép sử dụng linh hoạt từ tóm tắt tài liệu đến các tác vụ thị giác nhẹ.

Chi tiết kỹ thuật

  • Lý luận thích ứng: Gemini 2.5 Flash-Lite hỗ trợ theo yêu cầu Suy nghĩ, cho phép các nhà phát triển phân bổ tài nguyên tính toán chỉ khi cần suy luận sâu hơn.
  • Tích hợp công cụ: Khả năng tương thích hoàn toàn với các công cụ gốc của Gemini 2.5, bao gồm Tiếp đất với Google Tìm kiếm, Thực thi mã, Bối cảnh URLGọi hàm để có quy trình làm việc đa phương thức liền mạch.
  • Giao thức bối cảnh mô hình (MCP): Tận dụng MCP của Google để lấy dữ liệu web theo thời gian thực, đảm bảo phản hồi up-to-datephù hợp với ngữ cảnh.
  • Tùy chọn triển khai: Có sẵn thông qua Sao chổiAPI, API Song Tử, Đỉnh AIStudio AI của Google, với bản xem trước dành cho những người dùng đầu tiên dùng thử và cung cấp phản hồi.

Hiệu suất chuẩn của Gemini 2.5 Flash-Lite

  • Độ trễ: Đạt tới Thời gian phản hồi trung bình thấp hơn 50% so với Gemini 2.5 Flash, với điển hình dưới 100 ms độ trễ trên các chuẩn phân loại và tóm tắt.
  • Thông lượng: Tối ưu hóa cho mở to khối lượng công việc, duy trì hàng chục nghìn yêu cầu mỗi phút mà không làm giảm hiệu suất.
  • Giá cả-Hiệu suất: Thể hiện một Giảm 25% chi phí cho mỗi 1,000 token so với đối tác Flash của nó, làm cho nó trở thành Tối ưu Pareto lựa chọn cho các triển khai tiết kiệm chi phí.
  • Công nghiệp áp dụng: Người dùng ban đầu báo cáo sự tích hợp liền mạch vào quy trình sản xuất, với các số liệu hiệu suất phù hợp hoặc vượt quá dự đoán ban đầu.

Gemini 2.5 Flash-Lite API


Trường hợp sử dụng lý tưởng

  • Nhiệm vụ có tần suất cao, độ phức tạp thấp: Tự động gắn thẻ, phân tích tình cảm và dịch hàng loạt
  • Đường ống nhạy cảm về chi phí: Trích xuất dữ liệu từ các tập tài liệu lớn, tóm tắt hàng loạt định kỳ
  • Kịch bản Edge và Mobile: Khi độ trễ là quan trọng nhưng ngân sách tài nguyên bị hạn chế

Hạn chế của Gemini 2.5 Flash-Lite

  • Xem trước trạng thái: Có thể trải qua các thay đổi về API trước GA; quá trình tích hợp cần tính đến khả năng tăng phiên bản.
  • Không có điều chỉnh tinh chỉnh tức thời: Không thể tải lên trọng số tùy chỉnh; phụ thuộc vào kỹ thuật nhanh chóng và thông báo hệ thống.
  • Giảm khả năng sáng tạo: Được điều chỉnh cho các tác vụ xác định, thông lượng cao; ít phù hợp cho việc tạo ra thế hệ mở hoặc viết "sáng tạo".
  • Giới hạn tài nguyên: Chỉ mở rộng tuyến tính lên đến ~16 vCPU; ngoài mức này, thông lượng sẽ giảm dần.
  • Ràng buộc đa phương thức: Hỗ trợ đầu vào hình ảnh/âm thanh nhưng độ trung thực hạn chế; không lý tưởng cho các tác vụ ghi âm hình ảnh hoặc âm thanh nặng.
  • Sự cân bằng giữa cửa sổ ngữ cảnh :Mặc dù chấp nhận tới 1 triệu mã thông báo, nhưng suy luận thực tế ở quy mô đó có thể thấy thông lượng giảm.

Cách gọi Gemini 2.5 Flash-Lite API từ CometAPI

Gemini 2.5 Flash-Lite Giá API trong CometAPI,giảm giá 20% so với giá chính thức:

  • Mã thông báo đầu vào: $0.08/M mã thông báo
  • Mã thông báo đầu ra: 0.32 đô la/M mã thông báo

Các bước cần thiết

  • Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
  • Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
  • Lấy url của trang web này: https://api.cometapi.com/

Phương pháp sử dụng

  1. Chọn hàng**gemini-2.5-flash-lite**” điểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn.
  2. Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
  3. Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
  4. . Xử lý phản hồi API để nhận được câu trả lời đã tạo.

CometAPI cung cấp một API REST hoàn toàn tương thích—cho việc di chuyển liền mạch. Chi tiết chính để Tài liệu API:

Xem thêm Song Tử 2.5 Pro

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%