API hình ảnh Gemini 3 Pro (Nano Banana Pro)

CometAPI
AnnaDec 10, 2025
API hình ảnh Gemini 3 Pro (Nano Banana Pro)

Google Nano Banana Pro (mã số mô hình chính thức gemini-3-pro-image-preview) là phiên bản tạo hình ảnh/chỉnh sửa hình ảnh của Gemini 3 Pro. Đây là mô hình hình ảnh chuyên nghiệp, ở giai đoạn xem trước, bổ sung đầu ra 2K/4K, khả năng ghép nhiều hình ảnh có độ trung thực cao (lên đến 14 hình ảnh tham khảo, tính nhất quán của ký tự cho đến những người 5), hiển thị văn bản trong hình ảnh mạnh mẽ hơn và tìm kiếm cơ sở cho tính xác thực của thế giới thực.

Tính năng cơ bản

  • Văn bản → Hình ảnh: tạo ra lời nhắc đầy đủ với khả năng tuân thủ lời nhắc mạnh mẽ.
  • Hình ảnh → Hình ảnh (chỉnh sửa): chỉnh sửa tốt, có mục tiêu với sự nhất quán về chủ đề/nhân vật được duy trì trong nhiều lần chỉnh sửa.
  • Độ phân giải đầu ra tối đa: lên đến 4K (ví dụ và kích thước pixel chính xác được hỗ trợ phụ thuộc vào tỷ lệ khung hình; API hiển thị các cài đặt trước 1K/2K/4K)
  • Lập kế hoạch lặp lại và tự điều chỉnh: một quy trình “nhiều giai đoạn” nội bộ giúp phát hiện và sửa các lỗi hình ảnh phổ biến (phối cảnh, văn bản, hình học tinh tế).
  • Hiển thị văn bản trong hình ảnh nâng cao: văn bản đa ngôn ngữ rõ ràng, dễ đọc (từ chú thích ngắn đến đoạn văn dài) phù hợp cho áp phích, mô hình và đồ họa thông tin.
  • 5 ký tự và độ trung thực lên đến 14 đối tượng/hình ảnh tham khảo trong một quy trình làm việc duy nhất.
  • Đánh dấu bản quyền / nguồn gốc: tất cả hình ảnh được tạo ra đều bao gồm hình mờ SynthID; mô hình nhúng siêu dữ liệu C2PA để xác định nguồn gốc trong một số tích hợp sản phẩm.

Phiên bản hình ảnh và đặt tên của Gemini 3 Pro

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

Chi tiết kỹ thuật

Kiến trúc

  • Dòng dõi / xương sống: Nano Banana Pro được xây dựng trên nền tảng hình ảnh Gemini đang phát triển của Google — cụ thể là Hình ảnh Gemini 3 Pro / GEMPIX 2 kiến trúc (một khuôn khổ hình ảnh + văn bản đa phương thức có dung lượng cao hơn). Đó là một sự phát triển từ Hình ảnh Flash Gemini 2.5 (từ “nano-chuối” ban đầu) thành mô hình hình ảnh đa phương thức gốc với khả năng suy luận ngôn ngữ thị giác mở rộng.
  • Hành vi mô hình: đa phương thức gốc (hình ảnh + văn bản + kiến ​​thức thế giới), các đường dẫn rõ ràng để hợp nhất nhiều hình ảnh, và một bộ lập kế hoạch dàn dựng nội bộ giúp tinh chỉnh đầu ra qua nhiều lần xử lý thay vì chỉ tạo ra một mẫu tĩnh duy nhất. Các báo cáo ban đầu cho thấy khả năng suy luận hình học/quang học (kính, khúc xạ) mạnh mẽ hơn so với các phiên bản trước.
  • Suy nghĩ / tinh chỉnh nội tâm:Mô hình sử dụng quy trình “suy nghĩ” có thể nhìn thấy được bên trong để tinh chỉnh bố cục (API ghi lại hành vi này và lưu ý rằng các bước bên trong đó không được tính phí như mã thông báo hình ảnh cuối cùng).
  • Tiếp địa & công cụ: Hỗ trợ Tìm kiếm căn cứ (có thể kết hợp thông tin web vào việc tạo sơ đồ/đồ họa thông tin). Nó cũng hỗ trợ các lệnh hệ thống để kiểm soát mang tính xác định hơn.

Các tham số API chính:

  • thinking_level (thấp / cao) để trao đổi độ trễ so với độ sâu của lý luận;
  • media_resolution (thấp/trung bình/cao) để kiểm soát mã thông báo OCR hình ảnh/đọc chi tiết;
  • generationConfig.imageConfig để kiểm soát tỷ lệ khung hình/độ phân giải trong đầu ra hình ảnh.

Giới hạn hình ảnh:

  • Phương thức đầu vào được hỗ trợ: Văn bản và hình ảnh (mô hình không chấp nhận âm thanh hoặc video làm đầu vào tạo hình ảnh).
  • Số lượng hình ảnh tối đa cho mỗi lời nhắc: 14 (dành cho bản xem trước hình ảnh của Gemini 3 Pro).
  • Kích thước hình ảnh tối đa (tải lên): 7 MB cho mỗi hình ảnh đầu vào.
  • Tỷ lệ khung hình được hỗ trợ: 1:1, 3:2, 16:9, 9:16, 21:9, v.v.

Hình ảnh đầu ra/mã thông báo: giới hạn cao, hỗ trợ 4K/4096px.

Hiệu suất điểm chuẩn

Tóm tắt ngắn gọn: Các chuẩn mực công khai/ban đầu cho đến nay chủ yếu mang tính định tính/do cộng đồng thúc đẩy, nhưng luôn báo cáo những cải thiện đáng kể về độ phân giải, giảm thiểu hiện tượng nhiễu và độ trung thực vật lý so với nano-banana ban đầu (Gemini 2.5 Flash Image). Các "thử thách" cụ thể được đặt tên đã cho thấy những cải thiện rõ rệt về mặt hình ảnh, nhưng vẫn chưa có bảng chuẩn mực số (công khai) nào từ Google so sánh v1 → v2 trên các số liệu tạo ảnh tiêu chuẩn.

  • Kiểm tra cộng đồng định tính: Các cạnh sắc nét hơn, chi tiết vi mô sắc nét hơn, màu sắc chân thực hơn và khả năng bám dính dấu nhắc chính xác hơn (ít đạo cụ ảo giác hơn, nhân vật nhất quán hơn). Các bài kiểm tra không chính thức phổ biến bao gồm "Wine Glass Test" và "Glass Burger Challenge", trong đó GEMPIX2 (Nano Banana Pro) xử lý độ trong suốt và khúc xạ tốt hơn đáng kể so với các bản dựng trước đó.
  • Xử lý văn bản: Nano Banana Pro cho thấy kiểu chữ và vị trí văn bản bên trong hình ảnh được cải thiện rõ rệt (một điểm yếu cố hữu của nhiều mô hình hình ảnh). So sánh cộng đồng cho thấy ít ký tự bị nhòe hơn.
  • Thông lượng / UX: tốc độ lặp lại nhanh hơn và UX thực hiện tinh chỉnh nhiều giai đoạn ở phần cuối để người dùng thấy kết quả ngay lần đầu đáng tin cậy hơn (giảm việc phải cuộn lại thủ công).

Hạn chế và rủi ro

  • Bộ lọc và phát hiện nội dung:Các nền tảng tích hợp mô hình (ví dụ: ứng dụng Whisk/của bên thứ ba) có thể cho phép phát hiện người nổi tiếng hoặc hình ảnh giống người nổi tiếng một cách nghiêm ngặt và chặn một số đầu ra nhất định, ảnh hưởng đến quy trình làm việc sáng tạo dựa trên hình ảnh giống người nổi tiếng thực tế.
  • Các trường hợp ngoại lệ về ảo giác/lý luận: mặc dù đã được cải thiện, mô hình vẫn có thể tạo ra các hiện vật không thực tế về mặt vật lý, đặc biệt là với văn bản tượng trưng dày đặc bên trong hình ảnh hoặc sơ đồ kỹ thuật cao — mặc dù NB2 dường như giảm thiểu các lỗi này so với các phiên bản trước đó.
  • An toàn và sử dụng sai mục đích: Mô hình hình ảnh tạo sinh có thể được sử dụng để tạo ra nội dung có vấn đề hoặc gây hại. Google áp dụng các ràng buộc, bộ lọc nội dung và hình mờ SynthID để hỗ trợ việc xác định nguồn gốc; tuy nhiên, việc sử dụng sai mục đích đã xảy ra (một tranh cãi nổi cộm liên quan đến hình ảnh do Nano Banana tạo ra trong bối cảnh chính trị nhạy cảm).

So sánh Nano Banana Pro với các mẫu máy khác

  • Nano Banana Pro (Hình ảnh GEMPIX 2 / Gemini 3 Pro) — tích hợp di động mạnh mẽ, hợp nhất nhiều hình ảnh, tự động hiệu chỉnh lặp lại, nâng cấp 2K gốc/4K, tích hợp chặt chẽ vào các ứng dụng Google (Tìm kiếm, Ảnh, Không gian làm việc/Gemini). Phù hợp nhất cho các quy trình làm việc cần chỉnh sửa đáng tin cậy, tính liên tục và tích hợp với các dịch vụ của Google.
  • midjourney — xuất sắc trong các sản phẩm nghệ thuật cách điệu và kỹ thuật nhanh chóng do cộng đồng thúc đẩy; thường không nhắm đến việc hợp nhất nhiều hình ảnh chính xác như ảnh hoặc quy trình chỉnh sửa đa phương thức chuyên sâu.
  • Khuếch tán ổn định / trọng lượng mở — hoàn toàn mở, có khả năng tùy chỉnh cao và có thể lưu trữ cục bộ; hệ sinh thái các điểm kiểm tra và tinh chỉnh là một lợi thế quyết định cho nghiên cứu và sử dụng ngoại tuyến. Ít tích hợp di động "một cú nhấp chuột" hơn và tính nhất quán khi chỉnh sửa nhiều hình ảnh ngay khi cài đặt không cao bằng Nano Banana Pro.
  • Seedream 4.0 (ByteDance) — gần đây được định vị rõ ràng là đối thủ cạnh tranh của Nano Banana, nhấn mạnh vào khả năng kết xuất siêu nhanh, đầu ra 2K và hỗ trợ nhiều hình ảnh tham chiếu (tối đa sáu). Được định vị là giải pháp thay thế cho người dùng chuyên nghiệp/người sáng tạo.

(Những so sánh này ở mức độ cao; hãy chọn ra công cụ chiến thắng bằng cách kết hợp công cụ với quy trình làm việc của bạn: tính cởi mở/khả năng tùy chỉnh → Stable Diffusion; nghệ thuật cách điệu → Midjourney; chỉnh sửa di động tích hợp, nhất quán với sự lặp lại mạnh mẽ → Họ hình ảnh Nano Banana Pro/Gemini 3 Pro.)


Các trường hợp sử dụng trong thế giới thực

  • Chỉnh sửa ảnh di động & bộ lọc sáng tạo (Tích hợp Google Photos - sắp xếp lại, kết hợp nền, bố cục lại chân dung).
  • Tài sản tiếp thị và quảng cáo — tạo ra khái niệm nhanh chóng, tính cách thương hiệu nhất quán trên nhiều khung hình/góc độ.
  • Nghệ thuật ý tưởng và phân cảnh — việc kết hợp nhiều hình ảnh giúp duy trì tính liên tục của nhân vật trong các khung hình.
  • Thương mại điện tử / mô hình sản phẩm — tạo ra những bức ảnh sản phẩm nhất quán trong các bối cảnh/điều kiện ánh sáng khác nhau.
  • Tạo mẫu nhanh cho tài sản AR/VR — đầu ra 2K/4K chất lượng cao có thể nâng cấp để sử dụng nhập vai.

Làm thế nào để gọi gemini-3-pro-image(Nano Banana Pro)  API

Giá Nano Banana API tại CometAPI, giảm giá 20% so với giá chính thức:

Giá$0.19200

Các bước cần thiết

  • Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
  • Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
  • Lấy url của trang web này: https://api.cometapi.com/

Phương pháp sử dụng

  1. Chọn hànggemini-3-pro-image” điểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn.
  2. Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
  3. Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
  4. . Xử lý phản hồi API để nhận được câu trả lời đã tạo.

CometAPI cung cấp REST API hoàn toàn tương thích—cho việc di chuyển liền mạch. Chi tiết chính:

Xem thêm API hình ảnh Flash Gemini 2.5 (Nano-Banana)

SHARE THIS BLOG

500+ Mô hình trong Một API

Giảm giá lên đến 20%