Tính năng cơ bản
- Text → Image: tạo ảnh hoàn toàn dựa trên prompt với mức độ tuân thủ prompt cao.
- Image → Image (chỉnh sửa): chỉnh sửa tinh tế, có mục tiêu, duy trì tính nhất quán của chủ thể/nhân vật qua nhiều lượt chỉnh.
- Độ phân giải đầu ra tối đa: lên đến 4K (ví dụ và kích thước pixel chính xác được hỗ trợ phụ thuộc vào tỷ lệ khung hình; API cung cấp preset 1K/2K/4K)
- Lập kế hoạch lặp & tự hiệu chỉnh: pipeline nội bộ “nhiều giai đoạn” phát hiện và sửa các lỗi thị giác thường gặp (phối cảnh, văn bản, hình học tinh).
- Kết xuất văn bản trong ảnh nâng cao: văn bản đa ngôn ngữ rõ ràng, dễ đọc (từ chú thích ngắn đến đoạn dài) phù hợp cho poster, mockup và infographic.
- 5 nhân vật và độ trung thực cho tối đa 14 đối tượng/hình ảnh tham chiếu trong một quy trình.
- Đóng watermark / truy xuất nguồn gốc: mọi ảnh tạo ra đều có watermark SynthID; mô hình nhúng siêu dữ liệu C2PA cho truy xuất nguồn gốc trong một số tích hợp sản phẩm.
Phiên bản & cách đặt tên của Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Chi tiết kỹ thuật
Kiến trúc
- Nguồn gốc / backbone: Nano Banana Pro được xây dựng trên stack hình ảnh Gemini đang phát triển của Google — cụ thể là kiến trúc Gemini 3 Pro Image / GEMPIX 2 mới (một khung đa phương thức hình ảnh+văn bản dung lượng cao hơn). Đây là bước phát triển từ Gemini 2.5 Flash Image (bản “nano-banana” gốc) thành một mô hình hình ảnh đa phương thức gốc với khả năng suy luận thị giác-ngôn ngữ mở rộng.
- Hành vi mô hình: đa phương thức gốc (hình ảnh + văn bản + tri thức thế giới), pipeline rõ ràng cho hợp nhất đa ảnh, và bộ lập kế hoạch theo giai đoạn nội bộ tinh chỉnh đầu ra qua nhiều lượt thay vì tạo một mẫu tĩnh duy nhất. Báo cáo ban đầu cho thấy suy luận hình học/quang học (thủy tinh, khúc xạ) mạnh hơn so với các phiên bản trước.
- Suy nghĩ / tinh chỉnh nội bộ: Mô hình sử dụng một quá trình “suy nghĩ” hiển thị nội bộ để tinh chỉnh bố cục (API có tài liệu về hành vi này và lưu ý rằng các bước nội bộ đó không bị tính là token ảnh cuối cùng).
- Grounding & công cụ: Hỗ trợ Search grounding (có thể đưa dữ kiện web vào tạo sơ đồ/infographic). Cũng hỗ trợ chỉ dẫn hệ thống để kiểm soát có tính xác định hơn.
Tham số API chính:
thinking_level(low / high) để đánh đổi giữa độ trễ và độ sâu suy luận;media_resolution(low/medium/high) để kiểm soát token đọc OCR/chi tiết của ảnh;generationConfig.imageConfigđể điều khiển tỷ lệ/độ phân giải trong đầu ra ảnh.
Giới hạn về ảnh:
- Phương thức đầu vào được hỗ trợ: Văn bản và hình ảnh (mô hình không chấp nhận âm thanh hoặc video làm đầu vào tạo ảnh).
- Số ảnh tối đa mỗi prompt: 14 (đối với Gemini 3 Pro Image preview).
- Kích thước ảnh tối đa (tải lên): 7 MB mỗi ảnh đầu vào.
- Tỷ lệ khung hình được hỗ trợ: 1:1, 3:2, 16:9, 9:16, 21:9, v.v.
Ảnh / token đầu ra: giới hạn cao, hỗ trợ 4K/4096px.
Hiệu năng benchmark
Tóm tắt ngắn: các benchmark công khai/sớm đến nay chủ yếu mang tính định tính / do cộng đồng thực hiện, nhưng liên tục ghi nhận cải thiện đáng kể về độ phân giải, giảm artifact và độ trung thực vật lý so với nano-banana gốc (Gemini 2.5 Flash Image). Một số “thử thách” cụ thể cho thấy cải thiện thị giác rõ rệt, nhưng hiện chưa có bảng benchmark số liệu chuẩn hóa (công khai) từ Google so sánh v1 → v2 theo các thước đo tạo ảnh tiêu chuẩn.
- Thử nghiệm định tính từ cộng đồng: Cạnh sạch hơn, vi chi tiết sắc nét hơn, màu sắc trung thực hơn và tuân thủ prompt tốt hơn (ít đạo cụ ảo hơn, nhân vật nhất quán hơn). Các bài thử không chính thức phổ biến gồm “Wine Glass Test” và “Glass Burger Challenge”, nơi GEMPIX2 (Nano Banana Pro) xử lý độ trong suốt và khúc xạ tốt hơn rõ rệt so với các bản trước.
- Xử lý văn bản: Nano Banana Pro cho thấy cải thiện rõ rệt về typography và bố trí chữ trong ảnh (một điểm yếu kéo dài của nhiều mô hình ảnh). So sánh từ cộng đồng cho thấy ít glyph kết xuất lỗi hơn.
- Thông lượng / UX: tốc độ lặp nhanh hơn và UX thực hiện tinh chỉnh nhiều giai đoạn ở backend giúp người dùng thấy kết quả lần đầu tin cậy hơn (giảm tạo lại thủ công).
Hạn chế & rủi ro
- Bộ lọc nội dung & phát hiện: Các nền tảng tích hợp mô hình (ví dụ: Whisk/ứng dụng bên thứ ba) có thể bật phát hiện người nổi tiếng hoặc chân dung tương tự nghiêm ngặt và chặn một số đầu ra, ảnh hưởng đến quy trình sáng tạo dựa vào nét giống người nổi tiếng chân thực.
- Ảo giác / trường hợp biên suy luận: dù đã cải thiện, mô hình vẫn có thể tạo ra hiện tượng phi thực tế, đặc biệt với văn bản ký hiệu dày đặc trong ảnh hoặc sơ đồ kỹ thuật cao — dù NB2 có vẻ đã giảm lỗi này so với các phiên bản trước.
- An toàn & lạm dụng: mô hình tạo ảnh có thể bị dùng để tạo nội dung gây vấn đề hoặc gây hại. Google áp dụng ràng buộc, bộ lọc nội dung và watermark SynthID để hỗ trợ truy xuất nguồn gốc; tuy vậy, lạm dụng vẫn đã xảy ra (tranh cãi nổi bật gắn với một ảnh do Nano Banana tạo trong bối cảnh nhạy cảm chính trị).
Nano Banana Pro so sánh với các mô hình khác
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — tích hợp di động mạnh, hợp nhất đa ảnh, tự hiệu chỉnh lặp, 2K native/4K upscaling, tích hợp chặt vào các ứng dụng Google (Search, Photos, Workspace/Gemini). Phù hợp nhất cho quy trình cần chỉnh sửa tin cậy, tính liên tục và tích hợp với dịch vụ Google.
- Midjourney — vượt trội ở tác phẩm nghệ thuật phong cách hóa và prompt engineering do cộng đồng dẫn dắt; không nhắm chủ yếu tới hợp nhất đa ảnh độ chính xác ảnh chụp hoặc pipeline chỉnh sửa đa phương thức chuyên sâu.
- Stable Diffusion / open weights — hoàn toàn mở, tùy biến cao và có thể triển khai cục bộ; hệ sinh thái checkpoint và fine-tuning là lợi thế quyết định cho nghiên cứu và sử dụng offline. Tích hợp di động “one-click” và độ nhất quán chỉnh sửa đa ảnh mặc định kém hơn Nano Banana Pro.
- Seedream 4.0 (ByteDance) — gần đây được định vị rõ ràng là đối thủ của Nano Banana, nhấn mạnh render siêu nhanh, đầu ra 2K và hỗ trợ nhiều ảnh tham chiếu (tối đa sáu). Định vị như một lựa chọn cho người dùng chuyên/pro.
(Những so sánh này ở mức khái quát; hãy chọn công cụ phù hợp với quy trình của bạn: mở/tùy biến → Stable Diffusion; nghệ thuật phong cách hóa → Midjourney; chỉnh sửa di động tích hợp, nhất quán với lặp mạnh → Nano Banana Pro/ dòng Gemini 3 Pro Image.)
Trường hợp sử dụng thực tế
- Chỉnh sửa ảnh di động & bộ lọc sáng tạo (tích hợp Google Photos — restyling, hòa nền, tái bố cục chân dung).
- Tài sản marketing & quảng cáo — tạo ý tưởng nhanh, nhân vật thương hiệu nhất quán qua nhiều khung/góc.
- Concept art & storyboard — hợp nhất đa ảnh giúp giữ tính liên tục của nhân vật giữa các khung.
- Thương mại điện tử / mockup sản phẩm — tạo ảnh sản phẩm nhất quán trong các bối cảnh/điều kiện ánh sáng khác nhau.
- Tạo mẫu nhanh cho tài sản AR/VR — đầu ra 2K/4K chất lượng cao có thể upscale cho mục đích đắm chìm.
- Cách truy cập API gemini-3-pro-image(Nano Banana Pro)
Các bước bắt buộc
- Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước
- Lấy khóa API xác thực của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
- Lấy URL của trang này:
https://api.cometapi.com/
Cách sử dụng
- Chọn endpoint “
gemini-3-pro-image” để gửi yêu cầu API và thiết lập request body. Phương thức và request body được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để bạn thử nghiệm thuận tiện. - Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi.
- Xử lý phản hồi API để lấy câu trả lời được tạo ra.
CometAPI cung cấp REST API hoàn toàn tương thích — để di chuyển liền mạch. Chi tiết chính :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.