Google đã siết chặt mạnh gói miễn phí cho Gemini API: Gemini 2.5 Pro đã bị loại khỏi gói miễn phí và số lượt yêu cầu miễn phí mỗi ngày của Gemini 2.5 Flash bị cắt giảm đáng kể (báo cáo: ~250 → ~20/ngày). Điều đó không có nghĩa model vĩnh viễn “chết” cho mục đích thử nghiệm — nhưng đúng là quyền truy cập miễn phí đã bị “rút ruột” đối với nhiều trường hợp sử dụng thực tế.
Có những thay đổi gì ở Gemini API — và tại sao điều này quan trọng?
Những gì các nhà phát triển quan sát thấy
Trong tuần đầu tháng 12 năm 2025, nhiều nhà phát triển nhận thấy lỗi 429 (giới hạn tốc độ) đột ngột và các model biến mất khỏi AI Studio / bảng điều khiển API của họ, lý do xuất phát từ:
gemini-2.5-prokhông còn xuất hiện dưới giới hạn sử dụng của gói miễn phí đối với nhiều tài khoản (tương đương 0 yêu cầu miễn phí/ngày cho Pro).gemini-2.5-flash(tầng flash độ trễ thấp hơn) được báo cáo đã giảm số lượt yêu cầu miễn phí mỗi ngày từ khoảng 250 yêu cầu/ngày xuống còn khoảng 20 yêu cầu/ngày đối với nhiều tài khoản miễn phí. Đây là mức cắt giảm vào khoảng ~90%+.
Những thay đổi này được phát hiện khi dự án cá nhân và luồng tự động hóa bắt đầu thất bại với lỗi giới hạn tốc độ. Sự kết hợp đó — số cuộc gọi mỗi ngày thấp hơn và ít chu kỳ Pro miễn phí hơn — làm tăng đáng kể chi phí thử nghiệm và tự động hóa quy mô nhỏ vốn dựa vào gói miễn phí.
Tại sao điều này quan trọng:
- Các nhà phát triển nhỏ, người đam mê (hobbyist) và startup giai đoạn đầu xây dựng nguyên mẫu trên gói miễn phí đột ngột thấy quy trình hỏng hoặc bị hạ cấp nhanh từ Pro xuống Flash giữa phiên.
- Các công cụ và tự động hóa phụ thuộc vào hàng chục hoặc hàng trăm cuộc gọi nhỏ mỗi ngày (kiểm tra CI, chatbot, tự động hóa gia đình, pipeline nội dung) bị ảnh hưởng nhiều hơn.
- Sự thay đổi này cho thấy chiến lược rộng hơn của Google: ưu tiên người dùng trả phí khi tải nặng và đẩy nhu cầu sử dụng khối lượng lớn sang các gói trả phí hoặc thỏa thuận doanh nghiệp. Các trang giá và giới hạn tốc độ chính thức không đổi cấu trúc (giá token vẫn được công bố), nhưng bằng chứng độc lập và các chuỗi thảo luận của Google cho thấy thay đổi thực thi ở lớp hạn ngạch.
Hạn ngạch và chi phí hiện tại là gì? Tại sao lại thay đổi?
Gemini 2.5 Pro (miễn phí) trước đây có sẵn như một bản xem trước thử nghiệm miễn phí cho nhiều nhà phát triển. Tuy nhiên, vào đầu tháng 12, hạn ngạch miễn phí cho Gemini 2.5 Pro đã bị hủy bất ngờ, và số lượt yêu cầu cho 2.5 Flash cũng bị giảm mạnh. Các nhà phát triển cảm thấy điều này thiếu tôn trọng và gây một số tổn thất cho người dùng.

So sánh đơn giản — hạn ngạch miễn phí trước đây vs hiện đang được báo cáo
| Model | Hạn ngạch miễn phí trước đây (thường quan sát, giữa 2025 → Thg 11-2025) | Hạn ngạch miễn phí hiện tại (quan sát đầu Thg 12-2025) |
|---|---|---|
| gemini-2.5-pro | 50–100 yêu cầu/ngày (cửa sổ xem trước; thử nghiệm). RPM: ~2–5 ; RPD: 25–100 | Thường không hiển thị / bị gỡ khỏi gói Free (không còn xuất hiện dưới hạn ngạch không trả phí) |
| gemini-2.5-flash | RPM: 10 ; RPD: 250 | RPD: ~20 đối với nhiều tài khoản miễn phí (giảm từ 250→20) |
| gemini-2.5-flash-lite | RPM: 15 ; RPD: 1000 (giá trị công bố trước đó) | Không có thay đổi lớn |
Hiện tại, các nhà phát triển muốn dùng Gemini 2.5 Pro và tầng Gemini 2.5 Flash cao hơn chỉ có thể đăng ký Pro hoặc Ultra, và sử dụng Gemini 2.5 theo bảng giá API do Gemini cung cấp:
| Model | Giá đầu vào trả phí (mỗi 1M token) | Giá đầu ra trả phí (mỗi 1M token) | Ghi chú |
|---|---|---|---|
| gemini-2.5-pro (Tiêu chuẩn) | 1.25 (\<\=200k prompts) / 2.50 (>200k) | 10.00 (\<\=200k) / 15.00 (>200k) | Pro hướng đến mã hóa & suy luận phức tạp. |
| gemini-2.5-flash (Tiêu chuẩn) | $0.30 (text/image/video) | $2.50 (đầu ra bao gồm token suy nghĩ) | Cân bằng giá–hiệu năng tốt nhất; cửa sổ ngữ cảnh 1M token. |
| gemini-2.5-flash-lite | $0.10 (text/image/video) | $0.40 | Hiệu quả chi phí, mô hình thông lượng cao cho quy mô. |
Tin tốt là CometAPI cung cấp Gemini API với giá rẻ hơn. Tin tốt là CometAPI cung cấp Gemini API với giá rẻ hơn và thường có ưu đãi theo mùa, như Black Friday và giảm giá Giáng sinh gần đây.
Tại sao bị giảm (lý do được Google nêu)
Một phản hồi của nhân viên Google trên diễn đàn nhà phát triển chính thức xác nhận rằng giới hạn miễn phí của 2.5 Pro đã được giảm vì dung lượng được phân bổ lại cho các model mới có nhu cầu cao. Động thái này được thúc đẩy bởi quản lý dung lượng và nhu cầu: các lần ra mắt mới (Gemini 3 và các biến thể Pro/Ultra) sử dụng tỷ lệ lớn tài nguyên tính toán, nên Google tạm thời hạn chế các model có sẵn trên gói miễn phí để đảm bảo ổn định và ưu tiên các gói trả phí cũng như ra mắt mới.

Google có thể khôi phục quyền truy cập Pro miễn phí không? — các kịch bản khả thi
Tôi sẽ phác thảo các kịch bản thực tế và xác suất/điều kiện cho mỗi kịch bản (lưu ý: đây là phân tích suy luận, không phải tuyên bố chính sách của Google).
1) Hoàn nguyên tạm thời và đưa ra mức miễn phí rõ ràng hơn trong giai đoạn chuyển tiếp (có thể nhưng phụ thuộc điều kiện).
Nếu các vấn đề dung lượng/lạm dụng được xử lý — ví dụ giới hạn tốc độ theo tài khoản chính xác hơn, siết các mẫu lạm dụng, hoặc bổ sung tính toán ngắn hạn — Google có thể khôi phục một mức truy cập miễn phí giới hạn với mức trần và rào chắn rõ ràng. Điều này có khả năng trung bình nếu phản ứng cộng đồng mạnh và nếu telemetry cho thấy đa số người dùng miễn phí là hợp lệ. Bất kỳ quyền truy cập được khôi phục nào cũng sẽ hẹp hơn (số lượt gọi mỗi ngày nhỏ, không có SLA cấp Pro). Bằng chứng: các hệ thống giới hạn tốc độ công khai và tuyên bố rằng Google có thể điều chỉnh giới hạn.
2) Pro miễn phí không quay lại rộng rãi; vẫn có cổng trả phí (có khả năng).
Vì Google đã công khai định hướng giá và vì các model Pro có chi phí cao hơn, kết quả mạnh mẽ là Pro vẫn là tính năng trả phí đối với hầu hết người dùng, với chỉ các đợt xem trước/khuyến mại miễn phí ngắn. Việc “Pro gói miễn phí chỉ dự định có sẵn trong một cuối tuần” củng cố khả năng này. Đây là quỹ đạo dài hạn hợp lý nhất trừ khi Google cân nhắc lại mô hình kiếm tiền.
3) Quyền truy cập miễn phí có mục tiêu cho các nhóm cụ thể (học thuật, nguồn mở, phi lợi nhuận) (khả thi).
Nhiều nhà cung cấp đám mây duy trì các chương trình mục tiêu: tài trợ, tín dụng, chương trình học thuật. Google có thể chuyển hướng cung cấp quyền truy cập cấp Pro miễn phí hoặc được trợ giá cho nhà nghiên cứu, nhà giáo dục và duy trì nguồn mở đã xác minh trong khi giữ quyền truy cập chung sau cổng trả phí. Điều này giải quyết lo ngại về danh tiếng và giữ các model tiên tiến sẵn có cho nghiên cứu.
Vậy Gemini 2.5 sẽ lại miễn phí?
Câu trả lời ngắn: không rộng rãi, và không theo cách không ràng buộc như trước. Mẫu hình lịch sử (xem trước → gói trả phí) và tuyên bố sản phẩm của Google khiến một gói Pro miễn phí hào phóng, vĩnh viễn khó xảy ra. Tuy nhiên, quyền truy cập miễn phí dạng một phần, có mục tiêu hoặc theo thời gian giới hạn có thể quay lại với rào chắn nghiêm ngặt hơn (giới hạn ngày thấp, định dạng mời, tín dụng học thuật). Bất kỳ sự trở lại nào của Pro miễn phí ở dạng hữu dụng rộng rãi có lẽ sẽ cần thay đổi đáng kể ở kiểm soát chi phí/lạm dụng của Google hoặc một mô hình thương mại khác.
Làm sao tiếp tục dùng Gemini 2.5 hôm nay (các lựa chọn và cách khắc phục)?
Nếu dự án của bạn phụ thuộc vào 2.5 Pro miễn phí hoặc hạn ngạch Flash miễn phí cao hơn, đây là các lựa chọn thực tế:
1) Dùng Gemini 2.5 Flash hoặc Flash-Lite (nếu phù hợp nhu cầu)
Flash và Flash-Lite có chi phí trả phí thấp hơn nhiều và vẫn là các model khuyến nghị cho khối lượng lớn. Flash vẫn xuất hiện trong bảng token của gói miễn phí (dù RPD đã bị cắt); nếu bạn có thể hoạt động với vài yêu cầu mỗi ngày hoặc gộp prompt lớn hơn vào ít cuộc gọi hơn, chi phí có thể giảm.
2) Chuyển sang sử dụng trả phí (token tính phí của Google)
Nếu bạn cần độ tin cậy sản xuất, chuyển sang mô hình token trả phí sẽ loại bỏ các giới hạn RPD nhỏ của gói miễn phí và cung cấp giới hạn tốc độ cao hơn (và có thể mức ưu tiên cao hơn). Đánh giá lượng token mỗi cuộc gọi để ước tính chi tiêu hàng tháng (dùng bảng giá token bên trên).
3) Dùng cổng bên thứ ba như CometAPI (đó là gì và lợi ích)
Các bộ tổng hợp bên thứ ba như CometAPI cung cấp một API thống nhất duy nhất hiển thị nhiều model (OpenAI, Anthropic, Google Gemini, biến thể, suno) sau một endpoint. CometAPI đơn giản hóa tích hợp, hợp nhất thanh toán, định giá theo model (giảm 20% so với chính thức), SDK, và quản lý khóa tập trung. Họ cũng cung cấp dùng thử miễn phí và tín dụng token cho người dùng mới.
Lợi ích điển hình của CometAPI:
- Endpoint & SDK thống nhất — một lần tích hợp cho nhiều nhà cung cấp.
- Thanh toán đơn giản hơn — một hóa đơn và một hạn ngạch để quản lý thay vì tài khoản riêng lẻ.
- Thỉnh thoảng có mức giá model giảm — nhà bán lại đôi khi cung cấp quyền truy cập model với giá khác một chút. Trang CometAPI liệt kê giá model của họ (ví dụ, họ quảng cáo “giá chính thức trừ ~20%” cho một số model). Kiểm tra trang để biết ưu đãi hiện có.
- Công cụ thân thiện với nhà phát triển — playground, mã mẫu, thử nghiệm đa model.
Chiến lược tiết kiệm chi phí bạn nên triển khai
- Bộ nhớ đệm phản hồi cho prompt giống hệt và ngữ cảnh gần đây.
- Gộp yêu cầu (kết hợp nhiều prompt nhỏ vào một cuộc gọi).
- Dùng mô hình nhỏ/chuyên biệt cho các cuộc gọi thường xuyên, độ phức tạp thấp (embed + truy xuất + mô hình nhỏ cho sinh).
- Lượng tử hóa / nén nếu tự lưu trữ (lượng tử hóa 4/8-bit) để giảm bộ nhớ GPU và chi phí.
- Giám sát & đặt giới hạn cứng để không chi tiêu quá mức khi chuyển nhà cung cấp.
Những kỹ thuật này giảm đáng kể chi phí token/GPU và kéo dài tuổi thọ hạn ngạch.
Phán quyết cuối: Pro Gemini 2.5 miễn phí có “toang” không?
“Fried” nghe có phần kịch tính — nhưng chính xác về mặt thực tiễn với nhiều đội. Các thay đổi hạn ngạch và giá công bố của Google cho thấy sự siết chặt có chủ đích: quyền truy cập Pro miễn phí đã bị cắt giảm đáng kể ở nhiều tài khoản và hạn ngạch Flash miễn phí bị giảm mạnh trong các trường hợp được báo cáo. Điều đó khiến việc dựa vào hành vi miễn phí cũ trở nên rủi ro cho sản xuất hoặc phát triển bền bỉ.
Tuy nhiên, bạn có các lựa chọn:
- Chuyển sang gói trả phí nếu bạn cần năng lực Pro ổn định và bảo vệ dữ liệu cấp doanh nghiệp.
- Dùng chọn model, bộ nhớ đệm, gộp batch, và dịch vụ cổng như CometAPI để giảm mạnh chi phí mỗi đơn vị mà vẫn giữ chất lượng đầu ra của Gemini.
Để bắt đầu, hãy khám phá khả năng của các model Gemini 2.5 (Gemini 2.5 Flash Image API, Gemini 2.5 pro, gemini 2.5 flash) trong Playground và tham khảo API guide để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng khởi động?→ Dùng thử miễn phí các mô hình Gemini !


