Tính năng cơ bản
- Text → Image: tạo hình hoàn toàn dựa trên prompt với mức tuân thủ prompt cao.
- Image → Image (chỉnh sửa): chỉnh sửa tinh tế, đúng mục tiêu, duy trì tính nhất quán của chủ thể/nhân vật qua nhiều lần chỉnh sửa.
- Độ phân giải đầu ra tối đa: lên tới 4K (các ví dụ và kích thước pixel chính xác được hỗ trợ phụ thuộc vào tỷ lệ khung hình; API cung cấp các preset 1K/2K/4K)
- Lập kế hoạch lặp & tự hiệu chỉnh: pipeline “đa giai đoạn” nội bộ phát hiện và sửa các lỗi thị giác thường gặp (phối cảnh, văn bản, hình học tinh).
- Kết xuất văn bản trong ảnh nâng cao: văn bản đa ngôn ngữ rõ ràng, dễ đọc (từ chú thích ngắn đến đoạn dài), phù hợp cho poster, mockup và infographic.
- 5 nhân vật và độ trung thực cho tối đa 14 đối tượng/ảnh tham chiếu trong một quy trình.
- Đóng dấu hình mờ / nguồn gốc: tất cả ảnh được tạo đều bao gồm hình mờ SynthID; mô hình nhúng metadata C2PA cho nguồn gốc trong một số tích hợp sản phẩm.
Các phiên bản & cách đặt tên Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Chi tiết kỹ thuật
Kiến trúc
- Dòng kế thừa / backbone: Nano Banana Pro được xây dựng trên ngăn xếp hình ảnh Gemini đang phát triển của Google — cụ thể là kiến trúc Gemini 3 Pro Image / GEMPIX 2 mới (một khung đa phương thức hình ảnh+văn bản có dung lượng cao hơn). Đây là sự phát triển từ Gemini 2.5 Flash Image (phiên bản “nano-banana” gốc) thành một mô hình hình ảnh đa phương thức bản địa với năng lực suy luận thị giác-ngôn ngữ được mở rộng.
- Hành vi mô hình: đa phương thức bản địa (hình ảnh + văn bản + tri thức thế giới), pipeline rõ ràng cho hợp nhất nhiều ảnh, và bộ lập kế hoạch theo giai đoạn nội bộ tinh chỉnh kết quả qua nhiều lượt thay vì tạo một mẫu tĩnh duy nhất. Báo cáo ban đầu cho thấy suy luận hình học/quang học (thủy tinh, khúc xạ) mạnh hơn so với các phiên bản trước.
- Quá trình suy luận / tinh chỉnh nội bộ: Mô hình sử dụng một quy trình “suy nghĩ” hữu hình bên trong để tinh chỉnh bố cục (API có tài liệu về hành vi này và lưu ý rằng các bước nội bộ đó không bị tính như token ảnh cuối cùng).
- Grounding & công cụ: Hỗ trợ Search grounding (có thể đưa sự kiện từ web vào việc tạo sơ đồ/infographic). Cũng hỗ trợ chỉ dẫn hệ thống để kiểm soát mang tính quyết định hơn.
Tham số API chính:
thinking_level(thấp / cao) để đánh đổi giữa độ trễ và độ sâu suy luận;media_resolution(thấp/trung bình/cao) để kiểm soát token đọc chi tiết/OCR hình ảnh;generationConfig.imageConfigđể kiểm soát tỷ lệ khung hình/độ phân giải của ảnh đầu ra.
Giới hạn hình ảnh:
- Các phương thức đầu vào được hỗ trợ: Văn bản và hình ảnh (mô hình không chấp nhận âm thanh hoặc video làm đầu vào tạo ảnh).
- Số ảnh tối đa mỗi prompt: 14 (đối với bản xem trước Gemini 3 Pro Image).
- Kích thước ảnh tối đa (tải lên): 7 MB cho mỗi ảnh đầu vào.
- Tỷ lệ khung hình được hỗ trợ: 1:1, 3:2, 16:9, 9:16, 21:9, v.v.
Ảnh / token đầu ra: giới hạn cao, hỗ trợ 4K/4096px.
Hiệu năng benchmark
Tóm tắt ngắn: các benchmark công khai/sớm đến nay chủ yếu mang tính định tính/được cộng đồng thực hiện, nhưng nhất quán ghi nhận cải thiện đáng kể về độ phân giải, giảm hiện tượng giả tạo và độ trung thực vật lý so với nano-banana gốc (Gemini 2.5 Flash Image). Các “thử thách” được đặt tên cụ thể cho thấy mức cải thiện thị giác rõ rệt, nhưng hiện chưa có bảng benchmark số hóa chuẩn hóa (công khai) từ Google so sánh v1 → v2 trên các chỉ số tạo ảnh tiêu chuẩn.
- Kiểm thử định tính từ cộng đồng: đường biên sạch hơn, chi tiết vi sắc nét hơn, màu sắc trung thực hơn, và tuân thủ prompt tốt hơn (ít đạo cụ tưởng tượng hơn, nhân vật nhất quán hơn). Các bài thử không chính thức phổ biến gồm “Wine Glass Test” và “Glass Burger Challenge”, nơi GEMPIX2 (Nano Banana Pro) xử lý độ trong suốt và khúc xạ tốt hơn đáng kể so với các bản trước.
- Xử lý văn bản: Nano Banana Pro thể hiện cải thiện rõ rệt về kiểu chữ và bố trí văn bản trong ảnh (điểm yếu dai dẳng của nhiều mô hình ảnh). So sánh từ cộng đồng cho thấy ít ký tự hiển thị méo/nhòe hơn.
- Thông lượng / UX: tốc độ lặp nhanh hơn và UX thực hiện tinh chỉnh đa giai đoạn ở phía sau nên người dùng thấy kết quả lần đầu đáng tin cậy hơn (giảm việc phải tạo lại thủ công).
Hạn chế & rủi ro
- Bộ lọc nội dung & phát hiện: Các nền tảng tích hợp mô hình (ví dụ: Whisk/ứng dụng bên thứ ba) có thể bật phát hiện người nổi tiếng hoặc chân dung giống thật nghiêm ngặt và chặn một số đầu ra, ảnh hưởng tới quy trình sáng tạo dựa vào hình ảnh người nổi tiếng chân thực.
- Ảo giác / biên suy luận: dù đã cải thiện, mô hình vẫn có thể tạo ra các hiện tượng phi thực tế về mặt vật lý, đặc biệt với văn bản ký hiệu dày đặc trong ảnh hoặc sơ đồ kỹ thuật cao — dù NB2 có vẻ giảm các lỗi này so với các phiên bản trước.
- An toàn & lạm dụng: mô hình tạo ảnh có thể bị dùng để tạo nội dung gây vấn đề hoặc gây hại. Google áp dụng các ràng buộc, bộ lọc nội dung và hình mờ SynthID để hỗ trợ nguồn gốc; tuy vậy, các trường hợp lạm dụng vẫn đã xảy ra (gây tranh cãi lớn gắn với một ảnh do Nano Banana tạo trong bối cảnh nhạy cảm chính trị).
Nano Banana Pro so với các mô hình khác
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — tích hợp di động mạnh, hợp nhất đa ảnh, tự hiệu chỉnh lặp, 2K gốc/4K nâng cấp, tích hợp chặt với ứng dụng Google (Search, Photos, Workspace/Gemini). Phù hợp nhất cho quy trình cần chỉnh sửa đáng tin cậy, tính liên tục và tích hợp với dịch vụ Google.
- Midjourney — xuất sắc về đầu ra nghệ thuật phong cách hóa và kỹ thuật prompt do cộng đồng dẫn dắt; thường không nhắm tới hợp nhất đa ảnh độ chính xác ảnh chụp hoặc pipeline chỉnh sửa đa phương thức chuyên sâu.
- Stable Diffusion / open weights — hoàn toàn mở, tùy biến cao và có thể triển khai cục bộ; hệ sinh thái checkpoint và fine-tuning là lợi thế quyết định cho nghiên cứu và sử dụng ngoại tuyến. Tích hợp di động “một cú nhấp” ít hơn và độ nhất quán chỉnh sửa đa ảnh kém hơn sẵn có so với Nano Banana Pro.
- Seedream 4.0 (ByteDance) — gần đây được định vị rõ ràng là đối thủ của Nano Banana, nhấn mạnh kết xuất siêu nhanh, đầu ra 2K và hỗ trợ nhiều ảnh tham chiếu (tối đa sáu). Định vị như một lựa chọn thay thế cho chuyên gia/creator.
(Các so sánh này ở mức khái quát; hãy chọn công cụ phù hợp với quy trình của bạn: mở/tùy biến → Stable Diffusion; nghệ thuật phong cách hóa → Midjourney; chỉnh sửa di động tích hợp, nhất quán với lặp mạnh → Nano Banana Pro/ gia đình Gemini 3 Pro Image.)
Trường hợp sử dụng thực tế
- Chỉnh sửa ảnh di động & bộ lọc sáng tạo (tích hợp Google Photos — đổi phong cách, hòa trộn nền, tái bố cục chân dung).
- Tài sản marketing & quảng cáo — tạo concept nhanh, nhân vật thương hiệu nhất quán trên nhiều khung/góc chụp.
- Concept art & dựng storyboard — hợp nhất đa ảnh giúp duy trì tính liên tục của nhân vật giữa các khung.
- Thương mại điện tử / mockup sản phẩm — tạo ảnh sản phẩm nhất quán trong bối cảnh/điều kiện ánh sáng khác nhau.
- Dựng mẫu nhanh cho tài sản AR/VR — đầu ra 2K/4K chất lượng cao có thể nâng cấp cho trải nghiệm nhập vai.
- Cách truy cập API gemini-3-pro-image(Nano Banana Pro)
Các bước bắt buộc
- Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước
- Lấy khóa API thông tin xác thực của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
- Lấy url của trang này: https://api.cometapi.com/
Cách sử dụng
- Chọn endpoint “
gemini-3-pro-image” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức yêu cầu và phần thân yêu cầu được lấy từ tài liệu API trên trang web của chúng tôi. Trang web cũng cung cấp bài kiểm thử Apifox để bạn tiện sử dụng. - Thay <YOUR_API_KEY> bằng khóa CometAPI thực của bạn từ tài khoản.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mô hình sẽ phản hồi.
- . Xử lý phản hồi API để lấy câu trả lời được tạo.
CometAPI cung cấp REST API tương thích hoàn toàn — để chuyển đổi liền mạch. Chi tiết chính :
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.