Nano Banana Pro — tên chính thức là Gemini 3 Pro Image — là mô hình tạo và chỉnh sửa hình ảnh cấp studio mới của Google/DeepMind, kết hợp suy luận đa phương thức tiên tiến, hiển thị văn bản trên ảnh có độ trung thực cao, phối hợp nhiều hình ảnh và các công cụ kiểm soát sáng tạo ở cấp độ studio.
Nano Banana Pro là gì và vì sao bạn nên quan tâm?
Nano Banana Pro là mô hình tạo ảnh và chỉnh sửa ảnh mới nhất của Google — bản phát hành “Gemini 3 Pro Image” — được thiết kế để tạo ra hình ảnh chất lượng cao, hiểu ngữ cảnh và văn bản trên ảnh với chất lượng cấp studio lên đến 4K. Đây là phiên bản kế nhiệm của các mô hình Nano Banana trước đó (Gemini 2.5 Flash Image / “Nano Banana”), với khả năng suy luận tốt hơn, Search grounding (bám sát dữ kiện thực tế), hiển thị văn bản mạnh hơn và các điều khiển chỉnh sửa cục bộ mạnh mẽ hơn. Mô hình có sẵn trong ứng dụng Gemini cho người dùng tương tác và truy cập Nano Banana Pro thông qua API Gemini tiêu chuẩn, nhưng bạn cần chọn mã định danh mô hình cụ thể (gemini-3-pro-image-preview hoặc phiên bản ổn định kế nhiệm của nó). để truy cập theo cách lập trình.
Vì sao điều này quan trọng: Nano Banana Pro được xây dựng không chỉ để tạo ra những hình ảnh đẹp mà còn để trực quan hóa thông tin — infographic, ảnh chụp nhanh dựa trên dữ liệu (thời tiết, thể thao), poster nhiều chữ, mockup sản phẩm và hợp nhất nhiều hình ảnh (tối đa 14 ảnh đầu vào và duy trì tính nhất quán nhân vật cho tối đa 5 người). Với nhà thiết kế, đội ngũ sản phẩm và nhà phát triển, sự kết hợp giữa độ chính xác, văn bản trên ảnh và khả năng truy cập lập trình này mở ra các quy trình sản xuất vốn trước đây rất khó tự động hóa
Những chức năng nào được API cung cấp?
Các khả năng API điển hình được cung cấp cho nhà phát triển bao gồm:
- Tạo ảnh từ văn bản (quy trình phối cảnh “thinking” một bước hoặc nhiều bước).
- Chỉnh sửa ảnh (mặt nạ cục bộ, inpainting, điều chỉnh phong cách).
- Hợp nhất nhiều ảnh (kết hợp các ảnh tham chiếu).
- Điều khiển yêu cầu nâng cao: độ phân giải, tỷ lệ khung hình, các bước hậu xử lý và dấu vết “composition thought” để gỡ lỗi/kiểm tra trong các chế độ preview.
Các đổi mới cốt lõi và chức năng của Nano Banana Pro
Suy luận nội dung thông minh hơn
Sử dụng ngăn xếp suy luận của Gemini 3 Pro để diễn giải các chỉ dẫn hình ảnh phức tạp, nhiều bước (ví dụ: “tạo một infographic 5 bước từ tập dữ liệu này và thêm chú thích song ngữ”). API cung cấp cơ chế “Thinking” có thể tạo ra các thử nghiệm bố cục tạm thời để tinh chỉnh đầu ra cuối cùng.
Vì sao điều này quan trọng: Thay vì một lượt duy nhất ánh xạ prompt → pixel, mô hình thực hiện một quy trình “thinking” nội bộ để tinh chỉnh bố cục và có thể gọi các công cụ bên ngoài (ví dụ: Google Search) để đối chiếu dữ kiện thực tế (ví dụ: nhãn sơ đồ chính xác hoặc biển hiệu đúng theo địa phương). Điều này tạo ra hình ảnh không chỉ đẹp hơn mà còn đúng ngữ nghĩa hơn cho các tác vụ như infographic, sơ đồ hoặc mockup sản phẩm.
Cách đạt được: “Thinking” của Nano Banana Pro là một lượt suy luận/phối cảnh nội bộ có kiểm soát, trong đó mô hình tạo ra các hình ảnh trung gian và dấu vết suy luận trước khi tạo ảnh cuối cùng. API cho biết mô hình có thể tạo tối đa hai khung hình trung gian và ảnh cuối cùng là giai đoạn cuối của chuỗi đó. Trong môi trường sản xuất, điều này hỗ trợ bố cục, vị trí văn bản và các quyết định về dàn trang.
Hiển thị văn bản chính xác hơn
Khả năng hiển thị văn bản rõ ràng, dễ đọc, bản địa hóa tốt bên trong hình ảnh (menu, poster, sơ đồ) được cải thiện đáng kể.Nano Banana Pro đạt đến tầm cao mới trong hiển thị văn bản trên ảnh:
- Văn bản trong ảnh rõ ràng, dễ đọc và chính tả chính xác;
- Hỗ trợ tạo nội dung đa ngôn ngữ (bao gồm tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, v.v.);
- Cho phép người dùng viết các đoạn dài hoặc văn bản mô tả nhiều dòng trực tiếp vào hình ảnh;
- Có sẵn tính năng dịch và bản địa hóa tự động.
Vì sao điều này quan trọng: Theo truyền thống, các mô hình hình ảnh gặp khó khăn trong việc hiển thị văn bản dễ đọc, căn chỉnh tốt. Nano Banana Pro được tối ưu rõ ràng cho việc hiển thị văn bản và bản địa hóa đáng tin cậy (ví dụ: dịch và giữ nguyên bố cục), từ đó mở ra các trường hợp sử dụng sáng tạo thực tế như poster, bao bì hoặc quảng cáo đa ngôn ngữ.
Cách đạt được: Những cải tiến trong hiển thị văn bản đến từ kiến trúc đa phương thức nền tảng và quá trình huấn luyện trên các tập dữ liệu nhấn mạnh các ví dụ văn bản-trong-ảnh, kết hợp với các bộ đánh giá mục tiêu (đánh giá của con người và bộ regression). Mô hình học cách căn chỉnh hình dạng ký tự, phông chữ và các ràng buộc bố cục để tạo ra văn bản dễ đọc, được bản địa hóa bên trong hình ảnh — dù văn bản quá nhỏ và các đoạn quá dày vẫn có thể dễ phát sinh lỗi.
Tính nhất quán thị giác và độ trung thực mạnh hơn
Các điều khiển cấp studio (ánh sáng, tiêu điểm, góc máy, color grading) và khả năng phối hợp nhiều ảnh (tối đa 14 ảnh tham chiếu, với các cơ chế đặc biệt cho nhiều chủ thể là con người) giúp duy trì tính nhất quán nhân vật (giữ cùng một người/nhân vật qua các lần chỉnh sửa) và bản sắc thương hiệu trên các tài sản được tạo ra. Mô hình hỗ trợ đầu ra gốc 1K/2K/4K.
Vì sao điều này quan trọng: Quy trình marketing và giải trí đòi hỏi nhân vật nhất quán qua các cảnh quay và lần chỉnh sửa. Mô hình có thể duy trì độ giống nhau cho tối đa năm người và pha trộn tối đa 14 ảnh tham chiếu trong một bố cục duy nhất đồng thời tạo ra Sketch → 3D Render. Điều này hữu ích cho sáng tạo quảng cáo, bao bì hoặc kể chuyện nhiều cảnh.
Cách đạt được: Đầu vào mô hình chấp nhận nhiều hình ảnh với vai trò được gán rõ ràng (ví dụ: “Ảnh A: dáng”, “Ảnh B: tham chiếu khuôn mặt”, “Ảnh C: kết cấu nền”). Kiến trúc sẽ điều kiện hóa quá trình tạo sinh theo các hình ảnh đó để duy trì danh tính/tư thế/phong cách trong khi áp dụng các biến đổi (ánh sáng, máy quay).
Các benchmark hiệu năng của Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) “vượt trội trong các benchmark AI Text→Image” và cho thấy khả năng suy luận và bám ngữ cảnh được cải thiện so với các mô hình Nano Banana trước đó. Nó nhấn mạnh độ trung thực cao hơn và khả năng hiển thị văn bản tốt hơn so với các bản phát hành trước.

Hướng dẫn hiệu năng thực tế
Hãy kỳ vọng độ trễ và chi phí cao hơn cho các bản render 2K/4K chất lượng cao so với 1K hoặc các mô hình “Flash” được tối ưu cho tốc độ. Nếu thông lượng/độ trễ là yếu tố then chốt, hãy dùng biến thể flash (ví dụ: Gemini 2.5 Flash / Nano Banana) cho khối lượng lớn; dùng Nano Banana Pro / gemini-3-pro-image cho chất lượng và các tác vụ suy luận phức tạp.
Nhà phát triển có thể truy cập Nano Banana Pro như thế nào?
Nên chọn endpoint và mô hình nào
Mã định danh mô hình (preview / pro): gemini-3-pro-image-preview (preview) — sử dụng mã này khi bạn muốn các khả năng của Nano Banana Pro. Với công việc nhanh hơn, chi phí thấp hơn, gemini-2.5-flash-image (Nano Banana) vẫn khả dụng.
Các bề mặt nên dùng
- Gemini API (endpoint generativelanguage): Bạn có thể dùng khóa CometAPI để truy cập xx. CometAPI cung cấp cùng API với mức giá ưu đãi hơn trang web chính thức. Gọi HTTP / SDK trực tiếp tới
generateContentđể tạo ảnh (ví dụ bên dưới). - Google AI Studio: Giao diện web để thử nghiệm nhanh và remix các ứng dụng demo.
- Vertex AI (doanh nghiệp): Thông lượng được cấp phát, nhiều lựa chọn thanh toán (trả theo mức dùng / gói doanh nghiệp), và bộ lọc an toàn cho sản xuất quy mô lớn. Hãy dùng Vertex khi tích hợp vào các pipeline lớn hoặc các tác vụ render hàng loạt.
Gói miễn phí có giới hạn sử dụng; vượt giới hạn sẽ quay về Nano Banana. Các gói Plus/Pro/Ultra cung cấp giới hạn cao hơn và đầu ra không watermark, nhưng Ultra có thể được dùng trong công cụ video Flow và Antigravity IDE ở chế độ 4K.
Làm thế nào để tôi tạo một hình ảnh với Nano Banana Pro (từng bước)?
1) Công thức tương tác nhanh để sử dụng ứng dụng Gemini
- Mở Gemini → Tools → Create images.
- Chọn Thinking (Nano Banana Pro) làm mô hình.
- Nhập prompt: mô tả chủ thể, hành động, cảm xúc, ánh sáng, máy quay, tỷ lệ khung hình và mọi văn bản cần xuất hiện trên ảnh. Ví dụ:
“Tạo một poster 4K về workshop robot: một nhóm đa dạng ngồi quanh bàn, chồng lớp blueprint, tiêu đề đậm ‘Robots in Action’ bằng sans serif, ánh sáng tungsten ấm, độ sâu trường ảnh nông, điện ảnh 16:9.” - (Tùy chọn) Tải lên tối đa 14 ảnh để hợp nhất hoặc dùng làm tham chiếu. Dùng công cụ chọn/mặt nạ để chỉnh sửa cục bộ các vùng.
- Tạo ảnh, lặp lại bằng ngôn ngữ tự nhiên (ví dụ: “hãy làm tiêu đề màu xanh và căn giữa phía trên; tăng độ tương phản cho blueprint”), rồi xuất ra
2) Dùng HTTP để gửi tới endpoint hình ảnh của Gemini
Bạn cần đăng nhập vào CometAPI để lấy khóa.
# lưu khóa API của bạn vào $CometAPI_API_KEY một cách an toàn trước khi chạy
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Mẫu này ghi payload ảnh base64 vào một tệp PNG. Tham số generationConfig.imageConfig.resolution yêu cầu đầu ra 4K (khả dụng cho mô hình 3 Pro Image)
3) Gọi SDK trực tiếp tới generateContent để tạo ảnh
Cần cài đặt Google SDK và lấy xác thực Google. Ví dụ Python (văn bản + ảnh tham chiếu + grounding):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # đọc thông tin xác thực từ env / config theo tài liệu SDK
# Đọc một ảnh tham chiếu và đặt inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# có thể cung cấp tools để đối chiếu dữ kiện, ví dụ "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Ví dụ này cho thấy cách tải lên một ảnh tham chiếu inline và yêu cầu một bố cục 4K trong khi bật google_search như một công cụ. Python SDK sẽ xử lý các chi tiết REST cấp thấp.
Hợp nhất nhiều ảnh và tính nhất quán nhân vật
Để tạo một bố cục tổng hợp mà vẫn giữ cùng một người qua nhiều cảnh, hãy truyền nhiều phần inline_data (được chọn từ bộ ảnh của bạn), và chỉ định rõ trong hướng dẫn sáng tạo rằng mô hình phải “preserve identity across outputs”.
Ví dụ thực tế ngắn — một prompt thật và quy trình kỳ vọng
Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Pipeline kỳ vọng: app → mẫu prompt + dữ liệu CSV → thay placeholder trong prompt → gọi API với image_size=2048x1152 → nhận PNG base64 → lưu asset + metadata nguồn gốc → tùy chọn chồng phông chữ chính xác qua compositor nếu cần.
Tôi nên thiết kế pipeline sản xuất và xử lý an toàn / provenance như thế nào?
Kiến trúc sản xuất được khuyến nghị
- Prompt + lượt nháp (mô hình nhanh): Dùng
gemini-2.5-flash-image(Nano Banana) để tạo nhiều biến thể độ phân giải nhỏ với chi phí thấp. - Chọn lọc và tinh chỉnh: chọn các ứng viên tốt nhất, tinh chỉnh prompt, áp dụng chỉnh sửa inpainting/mask để tăng độ chính xác.
- Render cuối cùng chất lượng cao: gọi
gemini-3-pro-image-preview(Nano Banana Pro) cho các bản render 2K/4K cuối cùng và hậu xử lý (nâng cấp độ phân giải, chỉnh màu). - Provenance & metadata: lưu prompt, phiên bản mô hình, dấu thời gian và thông tin SynthID trong kho metadata tài sản của bạn — mô hình gắn watermark SynthID và đầu ra có thể được truy vết lại để phục vụ tuân thủ và kiểm toán nội dung.
An toàn, quyền và kiểm duyệt
- Bản quyền & xác minh quyền sử dụng: không tải lên hoặc tạo nội dung vi phạm quyền. Hãy dùng xác nhận rõ ràng từ người dùng đối với ảnh hoặc prompt do người dùng cung cấp mà có thể tạo ra hình ảnh giống người thật có thể nhận diện. Cần tôn trọng Chính sách Sử dụng Bị Cấm của Google và các bộ lọc an toàn của mô hình.
- Lọc và kiểm tra tự động: chạy ảnh được tạo qua pipeline kiểm duyệt nội dung nội bộ (NSFW, biểu tượng thù ghét, phát hiện nội dung chính trị/ràng buộc) trước khi dùng ở hạ nguồn hoặc hiển thị công khai.
Tôi làm chỉnh sửa ảnh (inpainting), phối hợp nhiều ảnh và hiển thị văn bản như thế nào?
Nano Banana Pro hỗ trợ các quy trình chỉnh sửa đa phương thức: cung cấp một hoặc nhiều ảnh đầu vào cùng với một chỉ dẫn văn bản mô tả thao tác chỉnh sửa (xóa vật thể, thay đổi bầu trời, thêm chữ). API chấp nhận ảnh + văn bản trong cùng một yêu cầu; mô hình có thể tạo ra phản hồi xen kẽ văn bản và hình ảnh. Các mẫu ví dụ bao gồm chỉnh sửa có mặt nạ và pha trộn nhiều ảnh (chuyển phong cách / phối cảnh). Xem tài liệu về các mảng contents kết hợp khối văn bản và ảnh nhị phân.
Ví dụ: Chỉnh sửa (luồng giả Python)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents có thể bao gồm đối tượng Image hoặc dữ liệu nhị phân theo SDK; xem tài liệu để biết lời gọi chính xác
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # thứ tự quan trọng: ảnh + chỉ dẫn
)
# Lưu kết quả như trước
Kiểu chỉnh sửa hội thoại này cho phép bạn điều chỉnh lặp đi lặp lại cho đến khi đạt được tài sản sẵn sàng cho sản xuất.
Ví dụ Node.js — chỉnh sửa ảnh với mask và nhiều ảnh tham chiếu
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Đính kèm nội dung ảnh nhị phân hoặc URL tùy theo API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(API đôi khi chấp nhận URI Cloud Storage hoặc payload ảnh base64; hãy kiểm tra tài liệu Gemini API để biết chính xác định dạng đầu vào.)
Để biết thông tin về cách tạo và chỉnh sửa hình ảnh bằng CometAPI, vui lòng tham khảo Hướng dẫn gọi gemini-3-pro-image .
Kết luận
Nano Banana Pro (Gemini 3 Pro Image) là một bước nhảy vọt cấp sản xuất trong tạo ảnh: một công cụ để trực quan hóa dữ liệu, tạo các chỉnh sửa được bản địa hóa và hỗ trợ quy trình làm việc của nhà phát triển. Hãy dùng ứng dụng Gemini để tạo mẫu nhanh, API để tích hợp vào sản xuất, và làm theo các khuyến nghị ở trên để kiểm soát chi phí, đảm bảo an toàn và duy trì chất lượng thương hiệu. Luôn kiểm thử trên các quy trình người dùng thực tế và lưu metadata provenance để đáp ứng nhu cầu minh bạch và kiểm toán.
Hãy dùng Nano Banana Pro khi bạn cần các tài sản chất lượng cấp studio, khả năng kiểm soát chính xác bố cục, hiển thị văn bản trong ảnh tốt hơn và khả năng hợp nhất nhiều ảnh tham chiếu thành một đầu ra mạch lạc.
Nhà phát triển có thể truy cập Gemini 3 Pro Image( Nano Banana Pro) API thông qua CometAPI. Để bắt đầu, hãy khám phá các khả năng mô hình củaCometAPI trong Playground và tham khảo hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng bảo đảm bạn đã đăng nhập vào CometAPI và lấy được khóa API. CometAPI đưa ra mức giá thấp hơn rất nhiều so với giá chính thức để hỗ trợ bạn tích hợp.
Sẵn sàng bắt đầu?→ Đăng ký CometAPI ngay hôm nay !
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
