Home/Models/Google/Nano Banana Pro
G

Nano Banana Pro

Đầu vào:$1.5616/M
Đầu ra:$9.3696/M
Nano Banana Pro là một mô hình AI dùng để hỗ trợ mục đích chung trong các quy trình công việc tập trung vào văn bản. Nó phù hợp với kiểu nhắc lệnh theo chỉ dẫn để tạo sinh, chuyển đổi và phân tích nội dung với cấu trúc có thể kiểm soát. Các trường hợp sử dụng điển hình bao gồm trợ lý trò chuyện, tóm tắt tài liệu, hỏi đáp kiến thức (QA) và tự động hóa quy trình làm việc. Chi tiết kỹ thuật công khai còn hạn chế; việc tích hợp phù hợp với các mẫu trợ lý AI phổ biến như đầu ra có cấu trúc, nhắc lệnh tăng cường truy xuất và gọi công cụ hoặc hàm.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API
Phiên bản

Tính năng cơ bản

  • Text → Image: tạo ảnh dựa trên prompt với mức độ tuân thủ cao.
  • Image → Image (chỉnh sửa): chỉnh sửa tinh gọn, có mục tiêu, duy trì nhất quán về chủ thể/nhân vật qua nhiều lần chỉnh.
  • Độ phân giải đầu ra tối đa: lên tới 4K (ví dụ và kích thước điểm ảnh chính xác được hỗ trợ phụ thuộc vào tỷ lệ khung hình; API cung cấp các preset 1K/2K/4K)
  • Lập kế hoạch lặp & tự hiệu chỉnh: pipeline “đa giai đoạn” nội bộ phát hiện và sửa lỗi thị giác phổ biến (phối cảnh, chữ, hình học tinh).
  • Kết xuất văn bản trong ảnh nâng cao: chữ rõ ràng, dễ đọc đa ngôn ngữ (từ chú thích ngắn đến đoạn dài) phù hợp cho poster, mockup và infographic.
  • 5 nhân vật và độ trung thực với tối đa 14 đối tượng/hình ảnh tham chiếu trong một quy trình đơn.
  • Watermarking / nguồn gốc: mọi ảnh tạo ra đều bao gồm watermark SynthID; mô hình nhúng siêu dữ liệu C2PA cho mục đích nguồn gốc trong một số tích hợp sản phẩm.

Phiên bản và cách đặt tên của Gemini 3 Pro Image

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

Chi tiết kỹ thuật

Kiến trúc

  • Dòng dõi / nền tảng: Nano Banana Pro được xây dựng trên nền tảng hình ảnh Gemini đang phát triển của Google — cụ thể là kiến trúc Gemini 3 Pro Image / GEMPIX 2 (khung đa phương thức ảnh+văn bản dung lượng cao hơn). Đây là bước tiến từ Gemini 2.5 Flash Image (bản “nano-banana” nguyên gốc) thành một mô hình ảnh đa phương thức gốc với khả năng suy luận thị giác-ngôn ngữ mở rộng.
  • Hành vi mô hình: đa phương thức gốc (ảnh + văn bản + tri thức thế giới), pipeline rõ ràng cho hợp nhất đa ảnh, và bộ lập kế hoạch theo giai đoạn nội bộ tinh chỉnh đầu ra qua nhiều lượt thay vì tạo một mẫu tĩnh duy nhất. Báo cáo sớm cho thấy suy luận hình học/quang học mạnh hơn (thủy tinh, khúc xạ) so với các phiên bản trước.
  • Suy nghĩ / tinh chỉnh nội bộ: Mô hình sử dụng quá trình “thinking” hiển thị nội bộ để tinh chỉnh bố cục (tài liệu API ghi nhận hành vi này và lưu ý những bước nội bộ đó không bị tính vào token ảnh cuối cùng).
  • Grounding & công cụ: Hỗ trợ Search grounding (có thể đưa thông tin thực từ web vào tạo sơ đồ/infographic). Cũng hỗ trợ chỉ thị hệ thống để điều khiển quyết định tính hơn.

Tham số API chính:

  • thinking_level (low / high) để cân bằng độ trễ so với độ sâu suy luận;
  • media_resolution (low/medium/high) để kiểm soát token đọc OCR/chi tiết hình ảnh;
  • generationConfig.imageConfig để kiểm soát tỷ lệ khung hình/độ phân giải trong ảnh đầu ra.

Giới hạn hình ảnh:

  • Hình thức đầu vào hỗ trợ: Văn bản và hình ảnh (mô hình không nhận audio hoặc video làm đầu vào tạo ảnh).
  • Số ảnh tối đa mỗi prompt: 14 (đối với gemini 3 pro image preview).
  • Kích thước ảnh tối đa (tải lên): 7 MB cho mỗi ảnh đầu vào.
  • Tỷ lệ khung hình hỗ trợ: 1:1, 3:2, 16:9, 9:16, 21:9, v.v.

Ảnh đầu ra / token: giới hạn cao, hỗ trợ 4K/4096px.

Hiệu năng benchmark

Tóm tắt ngắn: các benchmark công khai/giai đoạn đầu hiện chủ yếu mang tính định tính / do cộng đồng thực hiện, nhưng liên tục ghi nhận cải thiện đáng kể về độ phân giải, giảm hiện tượng giả tạo, và độ trung thực vật lý so với nano-banana nguyên bản (Gemini 2.5 Flash Image). Những “thử thách” được nêu tên cho thấy tiến bộ rõ rệt về mặt thị giác, song hiện chưa có bảng benchmark số liệu chuẩn hóa (công khai) từ Google so sánh v1 → v2 theo các thước đo tạo ảnh chuẩn.

  • Các thử nghiệm định tính từ cộng đồng: Cạnh sạch hơn, chi tiết vi sắc nét hơn, màu trung thực hơn, và bám sát prompt hơn (ít đạo cụ bịa đặt, nhân vật nhất quán hơn). Các bài thử không chính thức phổ biến gồm “Wine Glass Test” và “Glass Burger Challenge”, nơi GEMPIX2 (Nano Banana Pro) xử lý độ trong suốt và khúc xạ tốt hơn đáng kể so với các bản trước.
  • Xử lý văn bản: Nano Banana Pro cho thấy chữ trong ảnh được cải thiện rõ rệt về kiểu chữ và bố trí (điểm yếu dai dẳng của nhiều mô hình ảnh). So sánh cộng đồng ghi nhận ít ký tự render bị méo/nhòe hơn.
  • Thông lượng / UX: tốc độ lặp nhanh hơn và UX thực hiện tinh chỉnh đa giai đoạn ở backend để người dùng thấy kết quả lần chạy đầu đáng tin cậy hơn (giảm phải chạy lại thủ công).

Hạn chế & rủi ro

  • Bộ lọc nội dung & phát hiện: Các nền tảng tích hợp mô hình (ví dụ, Whisk/ứng dụng bên thứ ba) có thể bật phát hiện người nổi tiếng hoặc độ giống nghiêm ngặt và chặn một số đầu ra, ảnh hưởng tới quy trình sáng tạo dựa vào gương mặt người nổi tiếng chân thực.
  • Ảo giác / các trường hợp biên của suy luận: dù đã cải thiện, mô hình vẫn có thể tạo ra hiện vật phi lý về mặt vật lý, đặc biệt với văn bản biểu tượng dày đặc trong ảnh hoặc sơ đồ kỹ thuật cao — dù NB2 dường như giảm các lỗi này so với trước.
  • An toàn & lạm dụng: mô hình tạo ảnh có thể bị dùng để tạo nội dung gây vấn đề hoặc gây hại. Google áp dụng ràng buộc, bộ lọc nội dung, và watermark SynthID để hỗ trợ nguồn gốc; tuy vậy vẫn từng có lạm dụng (tranh cãi nổi bật liên quan ảnh Nano Banana trong bối cảnh nhạy cảm chính trị).

Nano Banana Pro so với các mô hình khác

  • Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — tích hợp di động mạnh, hợp nhất đa ảnh, tự hiệu chỉnh lặp, 2K native/4K upscaling, tích hợp chặt vào ứng dụng Google (Search, Photos, Workspace/Gemini). Phù hợp nhất cho quy trình cần chỉnh sửa đáng tin cậy, tính liên tục và tích hợp với dịch vụ Google.
  • Midjourney — xuất sắc ở đầu ra nghệ thuật phong cách hóa và kỹ thuật prompt do cộng đồng dẫn dắt; thường không nhắm tới hợp nhất đa ảnh chính xác ảnh chụp hoặc pipeline chỉnh sửa đa phương thức sâu.
  • Stable Diffusion / trọng số mở — hoàn toàn mở, tùy biến cao, và có thể triển khai cục bộ; hệ sinh thái checkpoint và fine-tuning là lợi thế quyết định cho nghiên cứu và sử dụng offline. Ít tích hợp di động “một cú nhấp” và tính nhất quán chỉnh sửa đa ảnh mặc định kém hơn Nano Banana Pro.
  • Seedream 4.0 (ByteDance) — gần đây được định vị rõ là đối thủ của Nano Banana, nhấn mạnh render siêu nhanh, đầu ra 2K, và hỗ trợ nhiều ảnh tham chiếu (tối đa sáu). Được định vị như lựa chọn cho người dùng chuyên nghiệp/creator.

(Các so sánh này ở mức cao; hãy chọn công cụ phù hợp với workflow của bạn: mở/tùy biến → Stable Diffusion; nghệ thuật phong cách → Midjourney; chỉnh sửa di động tích hợp, nhất quán với lặp mạnh → Nano Banana Pro/ gia đình Gemini 3 Pro Image.)

Các trường hợp sử dụng thực tế

  • Chỉnh sửa ảnh di động & bộ lọc sáng tạo (tích hợp Google Photos — đổi phong cách, hòa nền, tái bố cục chân dung).
  • Tài sản marketing & quảng cáo — tạo nhanh concept, nhân vật thương hiệu nhất quán qua nhiều khung/góc.
  • Concept art & storyboard — hợp nhất đa ảnh giúp giữ liên tục nhân vật giữa các panel.
  • Thương mại điện tử / mockup sản phẩm — tạo ảnh sản phẩm nhất quán trong các bối cảnh/điều kiện ánh sáng khác nhau.
  • Tạo mẫu nhanh cho tài sản AR/VR — đầu ra 2K/4K chất lượng cao có thể upscale cho trải nghiệm immersive.
  • Cách truy cập API gemini-3-pro-image(Nano Banana Pro)

Các bước cần thiết

  • Đăng nhập cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước
  • Lấy khóa API chứng thực của giao diện. Nhấp “Add Token” ở mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
  • Lấy URL của trang này: https://api.cometapi.com/

Cách sử dụng

  1. Chọn endpoint “gemini-3-pro-image” để gửi yêu cầu API và đặt phần thân yêu cầu. Phương thức và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để bạn thử nghiệm tiện lợi.
  2. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn.
  3. Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung — đây là phần mô hình sẽ phản hồi.
  4. . Xử lý phản hồi API để lấy câu trả lời đã tạo.

CometAPI cung cấp REST API hoàn toàn tương thích — để chuyển đổi mượt mà. Chi tiết chính :

  • URL cơ sở: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
  • Tên mô hình: gemini-3-pro-image
  • Xác thực: Bearer YOUR_CometAPI_API_KEY header
  • Content-Type: application/json .

Câu hỏi thường gặp

Can Gemini 3 Pro Image generate 4K resolution images?

Yes, Nano Banana Pro (Gemini 3 Pro Image) supports native output up to 4K resolution with aspect ratios including 1:1, 3:2, 16:9, 9:16, and 21:9. It also supports 1K and 2K presets via the imageConfig parameter.

How does Nano Banana Pro handle text rendering inside images?

Nano Banana Pro features advanced in-image text rendering with clear, legible multi-language text support—from short captions to long paragraphs. This makes it ideal for posters, infographics, UI mockups, and marketing assets.

Can I edit images conversationally with Gemini 3 Pro Image?

Yes, Nano Banana Pro supports multi-turn conversational editing. Simply ask for changes like 'Make the background a sunset' and the model maintains visual context through Thought Signatures between turns.

What makes Nano Banana Pro different from FLUX 2 Pro or Midjourney?

Nano Banana Pro excels at iterative self-correction, consistent character preservation across multiple edits, and tight Google ecosystem integration. It handles up to 14 reference images for complex multi-image fusion workflows.

Does Nano Banana Pro use Google Search for grounded image generation?

Yes, Nano Banana Pro can use Search grounding to verify facts before generating images. For example, it can fetch current weather data to create an accurate Tokyo weather infographic.

How many reference images can Nano Banana Pro process in one request?

Nano Banana Pro supports up to 14 input images per prompt with a maximum of 7MB per image. It maintains subject and character consistency across up to 5 characters in complex multi-image fusion scenarios.

Tính năng cho Nano Banana Pro

Khám phá các tính năng chính của Nano Banana Pro, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Nano Banana Pro

Khám phá mức giá cạnh tranh cho Nano Banana Pro, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Nano Banana Pro có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.

nano-banana-pro(image)

variant / aliasPrice
gemini-3-pro-image (1K/2K)≈ $0.10720
gemini-3-pro-image (4K)≈ $0.19200
gemini-3-pro-image-preview (1K/2K)≈ $0.10720
gemini-3-pro-image-preview (4K)≈ $0.19200
nano-banana-pro-all$0.09600

Mã mẫu và API cho Nano Banana Pro

Truy cập mã mẫu toàn diện và tài nguyên API cho Nano Banana Pro để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của Nano Banana Pro trong các dự án của mình.
Python
JavaScript
Curl
from google import genai
from google.genai import types
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL, "timeout": 600000},
    api_key=COMETAPI_KEY,
)

prompt = "Da Vinci style anatomical sketch of a dissected Monarch butterfly. Detailed drawings of the head, wings, and legs on textured parchment with notes in English."
aspect_ratio = "1:1"  # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9","21:9"
resolution = "4K"  # "1K", "2K", "4K"

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=["TEXT", "IMAGE"],
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio,
            image_size=resolution,
        ),
    ),
)

# Output directory
OUTPUT_DIR = os.path.join(os.path.dirname(__file__), "..", "output")
os.makedirs(OUTPUT_DIR, exist_ok=True)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif image := part.as_image():
        output_path = os.path.join(OUTPUT_DIR, "butterfly_4k.png")
        image.save(output_path)
        print(f"Image saved to: {output_path}")

Các phiên bản của Nano Banana Pro

Lý do Nano Banana Pro có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.
Model iddescriptionAvailabilityRequest
nano-banana-pro-allCông nghệ sử dụng là không chính thức và quá trình tạo sinh không ổn định, v.v., Chat định dạng✅Chat định dạng
gemini-3-pro-imageKhuyến nghị, trỏ tới mô hình mới nhất✅Gemini tạo hình ảnh
gemini-3-pro-image-previewBản xem trước chính thức✅Gemini tạo hình ảnh

Thêm mô hình