Tính năng cơ bản
- Text → Image: tạo ảnh dựa trên prompt với mức độ tuân thủ cao.
- Image → Image (chỉnh sửa): chỉnh sửa tinh gọn, có mục tiêu, duy trì nhất quán về chủ thể/nhân vật qua nhiều lần chỉnh.
- Độ phân giải đầu ra tối đa: lên tới 4K (ví dụ và kích thước điểm ảnh chính xác được hỗ trợ phụ thuộc vào tỷ lệ khung hình; API cung cấp các preset 1K/2K/4K)
- Lập kế hoạch lặp & tự hiệu chỉnh: pipeline “đa giai đoạn” nội bộ phát hiện và sửa lỗi thị giác phổ biến (phối cảnh, chữ, hình học tinh).
- Kết xuất văn bản trong ảnh nâng cao: chữ rõ ràng, dễ đọc đa ngôn ngữ (từ chú thích ngắn đến đoạn dài) phù hợp cho poster, mockup và infographic.
- 5 nhân vật và độ trung thực với tối đa 14 đối tượng/hình ảnh tham chiếu trong một quy trình đơn.
- Watermarking / nguồn gốc: mọi ảnh tạo ra đều bao gồm watermark SynthID; mô hình nhúng siêu dữ liệu C2PA cho mục đích nguồn gốc trong một số tích hợp sản phẩm.
Phiên bản và cách đặt tên của Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Chi tiết kỹ thuật
Kiến trúc
- Dòng dõi / nền tảng: Nano Banana Pro được xây dựng trên nền tảng hình ảnh Gemini đang phát triển của Google — cụ thể là kiến trúc Gemini 3 Pro Image / GEMPIX 2 (khung đa phương thức ảnh+văn bản dung lượng cao hơn). Đây là bước tiến từ Gemini 2.5 Flash Image (bản “nano-banana” nguyên gốc) thành một mô hình ảnh đa phương thức gốc với khả năng suy luận thị giác-ngôn ngữ mở rộng.
- Hành vi mô hình: đa phương thức gốc (ảnh + văn bản + tri thức thế giới), pipeline rõ ràng cho hợp nhất đa ảnh, và bộ lập kế hoạch theo giai đoạn nội bộ tinh chỉnh đầu ra qua nhiều lượt thay vì tạo một mẫu tĩnh duy nhất. Báo cáo sớm cho thấy suy luận hình học/quang học mạnh hơn (thủy tinh, khúc xạ) so với các phiên bản trước.
- Suy nghĩ / tinh chỉnh nội bộ: Mô hình sử dụng quá trình “thinking” hiển thị nội bộ để tinh chỉnh bố cục (tài liệu API ghi nhận hành vi này và lưu ý những bước nội bộ đó không bị tính vào token ảnh cuối cùng).
- Grounding & công cụ: Hỗ trợ Search grounding (có thể đưa thông tin thực từ web vào tạo sơ đồ/infographic). Cũng hỗ trợ chỉ thị hệ thống để điều khiển quyết định tính hơn.
Tham số API chính:
thinking_level(low / high) để cân bằng độ trễ so với độ sâu suy luận;media_resolution(low/medium/high) để kiểm soát token đọc OCR/chi tiết hình ảnh;generationConfig.imageConfigđể kiểm soát tỷ lệ khung hình/độ phân giải trong ảnh đầu ra.
Giới hạn hình ảnh:
- Hình thức đầu vào hỗ trợ: Văn bản và hình ảnh (mô hình không nhận audio hoặc video làm đầu vào tạo ảnh).
- Số ảnh tối đa mỗi prompt: 14 (đối với gemini 3 pro image preview).
- Kích thước ảnh tối đa (tải lên): 7 MB cho mỗi ảnh đầu vào.
- Tỷ lệ khung hình hỗ trợ: 1:1, 3:2, 16:9, 9:16, 21:9, v.v.
Ảnh đầu ra / token: giới hạn cao, hỗ trợ 4K/4096px.
Hiệu năng benchmark
Tóm tắt ngắn: các benchmark công khai/giai đoạn đầu hiện chủ yếu mang tính định tính / do cộng đồng thực hiện, nhưng liên tục ghi nhận cải thiện đáng kể về độ phân giải, giảm hiện tượng giả tạo, và độ trung thực vật lý so với nano-banana nguyên bản (Gemini 2.5 Flash Image). Những “thử thách” được nêu tên cho thấy tiến bộ rõ rệt về mặt thị giác, song hiện chưa có bảng benchmark số liệu chuẩn hóa (công khai) từ Google so sánh v1 → v2 theo các thước đo tạo ảnh chuẩn.
- Các thử nghiệm định tính từ cộng đồng: Cạnh sạch hơn, chi tiết vi sắc nét hơn, màu trung thực hơn, và bám sát prompt hơn (ít đạo cụ bịa đặt, nhân vật nhất quán hơn). Các bài thử không chính thức phổ biến gồm “Wine Glass Test” và “Glass Burger Challenge”, nơi GEMPIX2 (Nano Banana Pro) xử lý độ trong suốt và khúc xạ tốt hơn đáng kể so với các bản trước.
- Xử lý văn bản: Nano Banana Pro cho thấy chữ trong ảnh được cải thiện rõ rệt về kiểu chữ và bố trí (điểm yếu dai dẳng của nhiều mô hình ảnh). So sánh cộng đồng ghi nhận ít ký tự render bị méo/nhòe hơn.
- Thông lượng / UX: tốc độ lặp nhanh hơn và UX thực hiện tinh chỉnh đa giai đoạn ở backend để người dùng thấy kết quả lần chạy đầu đáng tin cậy hơn (giảm phải chạy lại thủ công).
Hạn chế & rủi ro
- Bộ lọc nội dung & phát hiện: Các nền tảng tích hợp mô hình (ví dụ, Whisk/ứng dụng bên thứ ba) có thể bật phát hiện người nổi tiếng hoặc độ giống nghiêm ngặt và chặn một số đầu ra, ảnh hưởng tới quy trình sáng tạo dựa vào gương mặt người nổi tiếng chân thực.
- Ảo giác / các trường hợp biên của suy luận: dù đã cải thiện, mô hình vẫn có thể tạo ra hiện vật phi lý về mặt vật lý, đặc biệt với văn bản biểu tượng dày đặc trong ảnh hoặc sơ đồ kỹ thuật cao — dù NB2 dường như giảm các lỗi này so với trước.
- An toàn & lạm dụng: mô hình tạo ảnh có thể bị dùng để tạo nội dung gây vấn đề hoặc gây hại. Google áp dụng ràng buộc, bộ lọc nội dung, và watermark SynthID để hỗ trợ nguồn gốc; tuy vậy vẫn từng có lạm dụng (tranh cãi nổi bật liên quan ảnh Nano Banana trong bối cảnh nhạy cảm chính trị).
Nano Banana Pro so với các mô hình khác
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — tích hợp di động mạnh, hợp nhất đa ảnh, tự hiệu chỉnh lặp, 2K native/4K upscaling, tích hợp chặt vào ứng dụng Google (Search, Photos, Workspace/Gemini). Phù hợp nhất cho quy trình cần chỉnh sửa đáng tin cậy, tính liên tục và tích hợp với dịch vụ Google.
- Midjourney — xuất sắc ở đầu ra nghệ thuật phong cách hóa và kỹ thuật prompt do cộng đồng dẫn dắt; thường không nhắm tới hợp nhất đa ảnh chính xác ảnh chụp hoặc pipeline chỉnh sửa đa phương thức sâu.
- Stable Diffusion / trọng số mở — hoàn toàn mở, tùy biến cao, và có thể triển khai cục bộ; hệ sinh thái checkpoint và fine-tuning là lợi thế quyết định cho nghiên cứu và sử dụng offline. Ít tích hợp di động “một cú nhấp” và tính nhất quán chỉnh sửa đa ảnh mặc định kém hơn Nano Banana Pro.
- Seedream 4.0 (ByteDance) — gần đây được định vị rõ là đối thủ của Nano Banana, nhấn mạnh render siêu nhanh, đầu ra 2K, và hỗ trợ nhiều ảnh tham chiếu (tối đa sáu). Được định vị như lựa chọn cho người dùng chuyên nghiệp/creator.
(Các so sánh này ở mức cao; hãy chọn công cụ phù hợp với workflow của bạn: mở/tùy biến → Stable Diffusion; nghệ thuật phong cách → Midjourney; chỉnh sửa di động tích hợp, nhất quán với lặp mạnh → Nano Banana Pro/ gia đình Gemini 3 Pro Image.)
Các trường hợp sử dụng thực tế
- Chỉnh sửa ảnh di động & bộ lọc sáng tạo (tích hợp Google Photos — đổi phong cách, hòa nền, tái bố cục chân dung).
- Tài sản marketing & quảng cáo — tạo nhanh concept, nhân vật thương hiệu nhất quán qua nhiều khung/góc.
- Concept art & storyboard — hợp nhất đa ảnh giúp giữ liên tục nhân vật giữa các panel.
- Thương mại điện tử / mockup sản phẩm — tạo ảnh sản phẩm nhất quán trong các bối cảnh/điều kiện ánh sáng khác nhau.
- Tạo mẫu nhanh cho tài sản AR/VR — đầu ra 2K/4K chất lượng cao có thể upscale cho trải nghiệm immersive.
- Cách truy cập API gemini-3-pro-image(Nano Banana Pro)
Các bước cần thiết
- Đăng nhập cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước
- Lấy khóa API chứng thực của giao diện. Nhấp “Add Token” ở mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
- Lấy URL của trang này: https://api.cometapi.com/
Cách sử dụng
- Chọn endpoint “
gemini-3-pro-image” để gửi yêu cầu API và đặt phần thân yêu cầu. Phương thức và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để bạn thử nghiệm tiện lợi. - Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung — đây là phần mô hình sẽ phản hồi.
- . Xử lý phản hồi API để lấy câu trả lời đã tạo.
CometAPI cung cấp REST API hoàn toàn tương thích — để chuyển đổi mượt mà. Chi tiết chính :
- URL cơ sở: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Tên mô hình:
gemini-3-pro-image - Xác thực:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.