Can Gemini 3 Pro Image generate 4K resolution images?

Có, Nano Banana Pro (Gemini 3 Pro Image) hỗ trợ xuất gốc lên đến độ phân giải 4K với các tỷ lệ khung hình bao gồm 1:1, 3:2, 16:9, 9:16 và 21:9. Nó cũng hỗ trợ các preset 1K và 2K thông qua tham số imageConfig.

How does Nano Banana Pro handle text rendering inside images?

Nano Banana Pro có khả năng kết xuất văn bản trong ảnh tiên tiến với hỗ trợ văn bản đa ngôn ngữ rõ ràng, dễ đọc — từ chú thích ngắn đến các đoạn văn dài. Điều này khiến nó trở nên lý tưởng cho poster, infographic, mockup UI và tài liệu marketing.

Can I edit images conversationally with Gemini 3 Pro Image?

Có, Nano Banana Pro hỗ trợ chỉnh sửa hội thoại nhiều lượt. Chỉ cần yêu cầu các thay đổi như 'Hãy biến nền thành cảnh hoàng hôn' và mô hình sẽ duy trì ngữ cảnh thị giác thông qua Thought Signatures giữa các lượt.

What makes Nano Banana Pro different from FLUX 2 Pro or Midjourney?

Nano Banana Pro vượt trội ở khả năng tự hiệu chỉnh lặp, duy trì tính nhất quán của nhân vật qua nhiều lần chỉnh sửa và tích hợp chặt chẽ với hệ sinh thái Google. Nó xử lý tối đa 14 ảnh tham chiếu cho các quy trình hợp nhất đa ảnh phức tạp.

Does Nano Banana Pro use Google Search for grounded image generation?

Có, Nano Banana Pro có thể dùng Search grounding để kiểm chứng dữ kiện trước khi tạo ảnh. Ví dụ, nó có thể lấy dữ liệu thời tiết hiện tại để tạo một infographic thời tiết Tokyo chính xác.

How many reference images can Nano Banana Pro process in one request?

Nano Banana Pro hỗ trợ tối đa 14 ảnh đầu vào cho mỗi prompt với dung lượng tối đa 7MB cho mỗi ảnh. Nó duy trì tính nhất quán về chủ thể và nhân vật đối với tối đa 5 nhân vật trong các kịch bản hợp nhất đa ảnh phức tạp.

API Nano Banana Pro Giá Phải Chăng | text-to-image

Tính năng cơ bản

Text → Image: tạo ảnh hoàn toàn dựa trên prompt với mức độ tuân thủ prompt cao.
Image → Image (chỉnh sửa): chỉnh sửa tinh tế, có mục tiêu, duy trì tính nhất quán của chủ thể/nhân vật qua nhiều lượt chỉnh.
Độ phân giải đầu ra tối đa: lên đến 4K (ví dụ và kích thước pixel chính xác được hỗ trợ phụ thuộc vào tỷ lệ khung hình; API cung cấp preset 1K/2K/4K)
Lập kế hoạch lặp & tự hiệu chỉnh: pipeline nội bộ “nhiều giai đoạn” phát hiện và sửa các lỗi thị giác thường gặp (phối cảnh, văn bản, hình học tinh).
Kết xuất văn bản trong ảnh nâng cao: văn bản đa ngôn ngữ rõ ràng, dễ đọc (từ chú thích ngắn đến đoạn dài) phù hợp cho poster, mockup và infographic.
5 nhân vật và độ trung thực cho tối đa 14 đối tượng/hình ảnh tham chiếu trong một quy trình.
Đóng watermark / truy xuất nguồn gốc: mọi ảnh tạo ra đều có watermark SynthID; mô hình nhúng siêu dữ liệu C2PA cho truy xuất nguồn gốc trong một số tích hợp sản phẩm.

Phiên bản & cách đặt tên của Gemini 3 Pro Image

gemini-3-pro-image-preview
gemini-3-pro-image

Chi tiết kỹ thuật

Kiến trúc

Nguồn gốc / backbone: Nano Banana Pro được xây dựng trên stack hình ảnh Gemini đang phát triển của Google — cụ thể là kiến trúc Gemini 3 Pro Image / GEMPIX 2 mới (một khung đa phương thức hình ảnh+văn bản dung lượng cao hơn). Đây là bước phát triển từ Gemini 2.5 Flash Image (bản “nano-banana” gốc) thành một mô hình hình ảnh đa phương thức gốc với khả năng suy luận thị giác-ngôn ngữ mở rộng.
Hành vi mô hình: đa phương thức gốc (hình ảnh + văn bản + tri thức thế giới), pipeline rõ ràng cho hợp nhất đa ảnh, và bộ lập kế hoạch theo giai đoạn nội bộ tinh chỉnh đầu ra qua nhiều lượt thay vì tạo một mẫu tĩnh duy nhất. Báo cáo ban đầu cho thấy suy luận hình học/quang học (thủy tinh, khúc xạ) mạnh hơn so với các phiên bản trước.
Suy nghĩ / tinh chỉnh nội bộ: Mô hình sử dụng một quá trình “suy nghĩ” hiển thị nội bộ để tinh chỉnh bố cục (API có tài liệu về hành vi này và lưu ý rằng các bước nội bộ đó không bị tính là token ảnh cuối cùng).
Grounding & công cụ: Hỗ trợ Search grounding (có thể đưa dữ kiện web vào tạo sơ đồ/infographic). Cũng hỗ trợ chỉ dẫn hệ thống để kiểm soát có tính xác định hơn.

Tham số API chính:

thinking_level (low / high) để đánh đổi giữa độ trễ và độ sâu suy luận;
media_resolution (low/medium/high) để kiểm soát token đọc OCR/chi tiết của ảnh;
generationConfig.imageConfig để điều khiển tỷ lệ/độ phân giải trong đầu ra ảnh.

Giới hạn về ảnh:

Phương thức đầu vào được hỗ trợ: Văn bản và hình ảnh (mô hình không chấp nhận âm thanh hoặc video làm đầu vào tạo ảnh).
Số ảnh tối đa mỗi prompt: 14 (đối với Gemini 3 Pro Image preview).
Kích thước ảnh tối đa (tải lên): 7 MB mỗi ảnh đầu vào.
Tỷ lệ khung hình được hỗ trợ: 1:1, 3:2, 16:9, 9:16, 21:9, v.v.

Ảnh / token đầu ra: giới hạn cao, hỗ trợ 4K/4096px.

Hiệu năng benchmark

Tóm tắt ngắn: các benchmark công khai/sớm đến nay chủ yếu mang tính định tính / do cộng đồng thực hiện, nhưng liên tục ghi nhận cải thiện đáng kể về độ phân giải, giảm artifact và độ trung thực vật lý so với nano-banana gốc (Gemini 2.5 Flash Image). Một số “thử thách” cụ thể cho thấy cải thiện thị giác rõ rệt, nhưng hiện chưa có bảng benchmark số liệu chuẩn hóa (công khai) từ Google so sánh v1 → v2 theo các thước đo tạo ảnh tiêu chuẩn.

Thử nghiệm định tính từ cộng đồng: Cạnh sạch hơn, vi chi tiết sắc nét hơn, màu sắc trung thực hơn và tuân thủ prompt tốt hơn (ít đạo cụ ảo hơn, nhân vật nhất quán hơn). Các bài thử không chính thức phổ biến gồm “Wine Glass Test” và “Glass Burger Challenge”, nơi GEMPIX2 (Nano Banana Pro) xử lý độ trong suốt và khúc xạ tốt hơn rõ rệt so với các bản trước.
Xử lý văn bản: Nano Banana Pro cho thấy cải thiện rõ rệt về typography và bố trí chữ trong ảnh (một điểm yếu kéo dài của nhiều mô hình ảnh). So sánh từ cộng đồng cho thấy ít glyph kết xuất lỗi hơn.
Thông lượng / UX: tốc độ lặp nhanh hơn và UX thực hiện tinh chỉnh nhiều giai đoạn ở backend giúp người dùng thấy kết quả lần đầu tin cậy hơn (giảm tạo lại thủ công).

Hạn chế & rủi ro

Bộ lọc nội dung & phát hiện: Các nền tảng tích hợp mô hình (ví dụ: Whisk/ứng dụng bên thứ ba) có thể bật phát hiện người nổi tiếng hoặc chân dung tương tự nghiêm ngặt và chặn một số đầu ra, ảnh hưởng đến quy trình sáng tạo dựa vào nét giống người nổi tiếng chân thực.
Ảo giác / trường hợp biên suy luận: dù đã cải thiện, mô hình vẫn có thể tạo ra hiện tượng phi thực tế, đặc biệt với văn bản ký hiệu dày đặc trong ảnh hoặc sơ đồ kỹ thuật cao — dù NB2 có vẻ đã giảm lỗi này so với các phiên bản trước.
An toàn & lạm dụng: mô hình tạo ảnh có thể bị dùng để tạo nội dung gây vấn đề hoặc gây hại. Google áp dụng ràng buộc, bộ lọc nội dung và watermark SynthID để hỗ trợ truy xuất nguồn gốc; tuy vậy, lạm dụng vẫn đã xảy ra (tranh cãi nổi bật gắn với một ảnh do Nano Banana tạo trong bối cảnh nhạy cảm chính trị).

Nano Banana Pro so sánh với các mô hình khác

Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — tích hợp di động mạnh, hợp nhất đa ảnh, tự hiệu chỉnh lặp, 2K native/4K upscaling, tích hợp chặt vào các ứng dụng Google (Search, Photos, Workspace/Gemini). Phù hợp nhất cho quy trình cần chỉnh sửa tin cậy, tính liên tục và tích hợp với dịch vụ Google.
Midjourney — vượt trội ở tác phẩm nghệ thuật phong cách hóa và prompt engineering do cộng đồng dẫn dắt; không nhắm chủ yếu tới hợp nhất đa ảnh độ chính xác ảnh chụp hoặc pipeline chỉnh sửa đa phương thức chuyên sâu.
Stable Diffusion / open weights — hoàn toàn mở, tùy biến cao và có thể triển khai cục bộ; hệ sinh thái checkpoint và fine-tuning là lợi thế quyết định cho nghiên cứu và sử dụng offline. Tích hợp di động “one-click” và độ nhất quán chỉnh sửa đa ảnh mặc định kém hơn Nano Banana Pro.
Seedream 4.0 (ByteDance) — gần đây được định vị rõ ràng là đối thủ của Nano Banana, nhấn mạnh render siêu nhanh, đầu ra 2K và hỗ trợ nhiều ảnh tham chiếu (tối đa sáu). Định vị như một lựa chọn cho người dùng chuyên/pro.

(Những so sánh này ở mức khái quát; hãy chọn công cụ phù hợp với quy trình của bạn: mở/tùy biến → Stable Diffusion; nghệ thuật phong cách hóa → Midjourney; chỉnh sửa di động tích hợp, nhất quán với lặp mạnh → Nano Banana Pro/ dòng Gemini 3 Pro Image.)

Trường hợp sử dụng thực tế

Chỉnh sửa ảnh di động & bộ lọc sáng tạo (tích hợp Google Photos — restyling, hòa nền, tái bố cục chân dung).
Tài sản marketing & quảng cáo — tạo ý tưởng nhanh, nhân vật thương hiệu nhất quán qua nhiều khung/góc.
Concept art & storyboard — hợp nhất đa ảnh giúp giữ tính liên tục của nhân vật giữa các khung.
Thương mại điện tử / mockup sản phẩm — tạo ảnh sản phẩm nhất quán trong các bối cảnh/điều kiện ánh sáng khác nhau.
Tạo mẫu nhanh cho tài sản AR/VR — đầu ra 2K/4K chất lượng cao có thể upscale cho mục đích đắm chìm.
Cách truy cập API gemini-3-pro-image(Nano Banana Pro)

Các bước bắt buộc

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước
Lấy khóa API xác thực của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
Lấy URL của trang này: https://api.cometapi.com/

Cách sử dụng

Chọn endpoint “gemini-3-pro-image” để gửi yêu cầu API và thiết lập request body. Phương thức và request body được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để bạn thử nghiệm thuận tiện.
Thay thế <YOUR_API_KEY> bằng CometAPI key thực tế từ tài khoản của bạn.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi.
Xử lý phản hồi API để lấy câu trả lời được tạo ra.

CometAPI cung cấp REST API hoàn toàn tương thích — để di chuyển liền mạch. Chi tiết chính :

Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Model Names: gemini-3-pro-image
Authentication: Bearer YOUR_CometAPI_API_KEY header
Content-Type: application/json .

variant / alias	Price
gemini-3-pro-image (1K/2K)	≈ $0.10720
gemini-3-pro-image (4K)	≈ $0.19200
gemini-3-pro-image-preview (1K/2K)	≈ $0.10720
gemini-3-pro-image-preview (4K)	≈ $0.19200
nano-banana-pro-all	$0.09600

ID mô hình	Mô tả	Khả dụng	Yêu cầu
nano-banana-pro-all	Công nghệ được sử dụng là không chính thức và việc tạo sinh không ổn định, v.v., Trò chuyện định dạng	✅	Trò chuyện định dạng
gemini-3-pro-image	Được khuyến nghị, trỏ tới mô hình mới nhất	✅	Gemini tạo hình ảnh
gemini-3-pro-image-preview	Bản xem trước chính thức	✅	Gemini tạo hình ảnh

Nano Banana Pro

Tính năng cơ bản

Chi tiết kỹ thuật

Kiến trúc

Tham số API chính:

Giới hạn về ảnh:

Hiệu năng benchmark

Hạn chế & rủi ro

Nano Banana Pro so sánh với các mô hình khác

Trường hợp sử dụng thực tế

Các bước bắt buộc

Cách sử dụng

Câu Hỏi Thường Gặp

Can Gemini 3 Pro Image generate 4K resolution images?

How does Nano Banana Pro handle text rendering inside images?

Can I edit images conversationally with Gemini 3 Pro Image?

What makes Nano Banana Pro different from FLUX 2 Pro or Midjourney?

Does Nano Banana Pro use Google Search for grounded image generation?

How many reference images can Nano Banana Pro process in one request?

Giá cả cho Nano Banana Pro

nano-banana-pro（image）

Mã mẫu và API cho Nano Banana Pro

Python Code Example

JavaScript Code Example

Curl Code Example

Các phiên bản của Nano Banana Pro