Nano Banana Pro — chính thức Hình ảnh Gemini 3 Pro — là mô hình tạo và chỉnh sửa hình ảnh cấp studio mới của Google/DeepMind kết hợp khả năng suy luận đa phương thức tiên tiến, kết xuất văn bản có độ trung thực cao, bố cục nhiều hình ảnh và khả năng kiểm soát sáng tạo cấp studio.
Nano Banana Pro là gì và tại sao bạn nên quan tâm?
Nano Banana Pro là mô hình tạo ảnh và chỉnh sửa ảnh mới nhất của Google — phiên bản “Gemini 3 Pro Image” — được thiết kế để tạo ra hình ảnh có độ trung thực cao, nhận biết ngữ cảnh và văn bản trên ảnh với chất lượng studio lên đến 4K. Đây là phiên bản kế nhiệm của các mô hình Nano Banana trước đó (Gemini 2.5 Flash Image / “Nano Banana”) với khả năng lập luận được cải thiện, nền tảng tìm kiếm (dựa trên dữ liệu thực tế), khả năng hiển thị văn bản mạnh mẽ hơn và các điều khiển chỉnh sửa cục bộ mạnh mẽ hơn. Mô hình này có sẵn trong ứng dụng Gemini dành cho người dùng tương tác và truy cập Nano Banana Pro thông qua API Gemini tiêu chuẩn, nhưng bạn phải chọn mã định danh mô hình cụ thể (gemini-3-pro-image-preview hoặc phiên bản kế nhiệm ổn định của nó). để truy cập theo chương trình.
Tại sao điều này quan trọng: Nano Banana Pro được xây dựng không chỉ để tạo ra những hình ảnh đẹp mà còn để hình dung thông tin — đồ họa thông tin, ảnh chụp nhanh dựa trên dữ liệu (thời tiết, thể thao), áp phích nhiều chữ, mô hình sản phẩm và hợp nhất nhiều hình ảnh (tối đa 14 hình ảnh đầu vào và duy trì tính nhất quán về ký tự trên tối đa 5 người). Đối với các nhà thiết kế, nhóm sản phẩm và nhà phát triển, sự kết hợp giữa độ chính xác, văn bản trên hình ảnh và khả năng truy cập theo chương trình mở ra quy trình sản xuất trước đây khó tự động hóa.
Những chức năng nào được cung cấp thông qua API?
Các khả năng API điển hình mà các nhà phát triển có thể sử dụng bao gồm:
- Tạo văn bản → Hình ảnh (các luồng sáng tác “suy nghĩ” một bước hoặc nhiều bước).
- Chỉnh sửa hình ảnh (mặt nạ cục bộ, sơn lại, điều chỉnh kiểu dáng).
- Hợp nhất nhiều hình ảnh (kết hợp hình ảnh tham khảo).
- Kiểm soát yêu cầu nâng cao: độ phân giải, tỷ lệ khung hình, các bước xử lý hậu kỳ và dấu vết "suy nghĩ về bố cục" để gỡ lỗi/kiểm tra trong chế độ xem trước.
Những cải tiến cốt lõi và chức năng của Nano Banana Pro
Lý luận nội dung thông minh hơn
Sử dụng bộ suy luận của Gemini 3 Pro để diễn giải các hướng dẫn trực quan phức tạp, nhiều bước (ví dụ: "tạo infographic 5 bước từ tập dữ liệu này và thêm chú thích song ngữ"). API này cung cấp cơ chế "Suy nghĩ" có thể tạo ra các bài kiểm tra thành phần tạm thời để tinh chỉnh kết quả cuối cùng.
Tại sao nó quan trọng: Thay vì chỉ một lần ánh xạ từ prompt → pixel, mô hình thực hiện một quy trình "suy nghĩ" nội bộ để tinh chỉnh bố cục và có thể gọi các công cụ bên ngoài (ví dụ: Google Tìm kiếm) để xác định cơ sở thực tế (ví dụ: nhãn sơ đồ chính xác hoặc biển báo địa phương chính xác). Điều này tạo ra hình ảnh không chỉ đẹp hơn mà còn chính xác hơn về mặt ngữ nghĩa cho các tác vụ như đồ họa thông tin, sơ đồ hoặc mô hình sản phẩm.
Làm thế nào để đạt được: "Thinking" của Nano Banana Pro là một bước suy luận/bố cục nội bộ được kiểm soát, trong đó mô hình tạo ra các hình ảnh trung gian và dấu vết suy luận trước khi tạo ra hình ảnh cuối cùng. API cho thấy mô hình có thể tạo tối đa hai khung hình trung gian và hình ảnh cuối cùng là giai đoạn cuối cùng của chuỗi đó. Trong sản xuất, điều này hỗ trợ việc bố cục, sắp xếp văn bản và quyết định bố cục.
Hiển thị văn bản chính xác hơn
Cải thiện đáng kể độ rõ nét, dễ đọc của văn bản bản địa bên trong hình ảnh (menu, áp phích, sơ đồ). Nano Banana Pro đạt đến tầm cao mới trong việc hiển thị văn bản hình ảnh:
- Văn bản trong hình ảnh rõ ràng, dễ đọc và được viết chính xác;
- Hỗ trợ tạo nhiều ngôn ngữ (bao gồm tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, v.v.);
- Cho phép người dùng viết các đoạn văn dài hoặc văn bản mô tả nhiều dòng trực tiếp vào hình ảnh;
- Có sẵn tính năng dịch tự động và bản địa hóa.
Tại sao nó quan trọng: Các mô hình hình ảnh truyền thống thường gặp khó khăn trong việc hiển thị văn bản dễ đọc và căn chỉnh tốt. Nano Banana Pro được tối ưu hóa rõ ràng để hiển thị và bản địa hóa văn bản một cách đáng tin cậy (ví dụ: dịch và giữ nguyên bố cục), mở ra những ứng dụng sáng tạo thực sự như áp phích, bao bì hoặc quảng cáo đa ngôn ngữ.
Làm thế nào để đạt được: Những cải tiến về hiển thị văn bản đến từ kiến trúc đa phương thức cơ bản và quá trình đào tạo trên các tập dữ liệu tập trung vào các ví dụ văn bản trong hình ảnh, kết hợp với các bộ đánh giá mục tiêu (đánh giá của con người và bộ hồi quy). Mô hình học cách căn chỉnh hình dạng ký tự, phông chữ và các ràng buộc bố cục để tạo ra văn bản cục bộ, dễ đọc bên trong hình ảnh — mặc dù văn bản nhỏ và các đoạn văn quá dày đặc vẫn có thể dễ bị lỗi.
Độ nhất quán và độ trung thực trực quan cao hơn
Các điều khiển studio (ánh sáng, tiêu cự, góc quay, phân loại màu) và bố cục nhiều hình ảnh (tối đa 14 hình ảnh tham chiếu, với các điều chỉnh đặc biệt cho nhiều chủ thể là người) giúp duy trì tính nhất quán của nhân vật (giữ nguyên người/nhân vật qua các lần chỉnh sửa) và nhận diện thương hiệu trên các tài sản được tạo ra. Mô hình này hỗ trợ đầu ra gốc 1K/2K/4K.
Tại sao nó quan trọng: Quy trình tiếp thị và giải trí đòi hỏi các nhân vật phải nhất quán trong suốt các cảnh quay và chỉnh sửa. Mô hình có thể duy trì sự giống nhau trong tối đa năm mọi người và hòa nhập vào 14 tham chiếu hình ảnh thành một bố cục duy nhất khi tạo Sketch → 3D Render. Tính năng này hữu ích cho sáng tạo quảng cáo, bao bì hoặc kể chuyện nhiều cảnh quay.
Làm thế nào để đạt được: Đầu vào mô hình chấp nhận nhiều hình ảnh với các vai trò được gán rõ ràng (ví dụ: "Hình ảnh A: tư thế", "Hình ảnh B: tham chiếu khuôn mặt", "Hình ảnh C: họa tiết nền"). Kiến trúc này đặt điều kiện cho việc tạo ra các hình ảnh đó để duy trì bản sắc/tư thế/phong cách trong khi áp dụng các phép biến đổi (ánh sáng, máy ảnh).
Tiêu chuẩn hiệu suất của Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) “vượt trội trong các bài kiểm tra chuẩn AI Văn bản → Hình ảnh” và thể hiện khả năng lập luận và ngữ cảnh được cải thiện so với các mô hình Nano Banana trước đó. Phiên bản này nhấn mạnh độ trung thực cao hơn và khả năng hiển thị văn bản được cải thiện so với các phiên bản trước.

Hướng dẫn thực hành
Mong đợi độ trễ cao hơn và chi phí cho các bản render độ trung thực cao 2K/4K cao hơn so với 1K hoặc các mô hình "Flash" được tối ưu hóa về tốc độ. Nếu thông lượng/độ trễ là yếu tố quan trọng, hãy sử dụng phiên bản flash (ví dụ: Gemini 2.5 Flash / Nano Banana) cho khối lượng công việc lớn; sử dụng Nano Banana Pro / gemini-3-pro-image cho các tác vụ chất lượng và suy luận phức tạp.
Các nhà phát triển có thể truy cập Nano Banana Pro bằng cách nào?
Chọn điểm cuối và mô hình nào
Mã định danh mô hình (bản xem trước / chuyên nghiệp): gemini-3-pro-image-preview (xem trước) — sử dụng tính năng này khi bạn muốn có các tính năng của Nano Banana Pro. Để làm việc nhanh hơn, tiết kiệm chi phí hơn, gemini-2.5-flash-image (Nano Banana) vẫn còn hàng.
Bề mặt sử dụng
- API Gemini (điểm cuối ngôn ngữ tạo sinh): Bạn có thể sử dụng khóa CometAPI để truy cập xx. CometAPI cung cấp cùng một API với mức giá ưu đãi hơn so với trang web chính thức. Gọi HTTP/SDK trực tiếp đến
generateContentđể tạo hình ảnh (ví dụ bên dưới). - Studio AI của Google: Giao diện web để thử nghiệm nhanh và phối lại các ứng dụng demo.
- Vertex AI (doanh nghiệp): Lưu lượng được cung cấp, các tùy chọn thanh toán (trả tiền khi sử dụng/cấp doanh nghiệp) và bộ lọc an toàn cho sản xuất quy mô lớn. Sử dụng Vertex khi tích hợp vào các quy trình lớn hoặc công việc kết xuất hàng loạt.
Gói miễn phí có giới hạn sử dụng; vượt quá giới hạn sẽ trở về Nano Banana. Gói Plus/Pro/Ultra cung cấp giới hạn cao hơn và đầu ra không có hình mờ, nhưng gói Ultra có thể được sử dụng trong các công cụ video Flow và Antigravity IDE ở chế độ 4K.
Làm thế nào để tạo hình ảnh bằng Nano Banana Pro (từng bước một)?
1) Công thức tương tác nhanh để sử dụng ứng dụng Gemini
- Mở Gemini → Công cụ → Tạo hình ảnh.
- Chọn Suy nghĩ (Nano Banana Pro) như người mẫu.
- Nhập lời nhắc: giải thích chủ đề, hành động, tâm trạng, ánh sáng, máy ảnh, tỷ lệ khung hình và bất kỳ văn bản nào sẽ xuất hiện trên hình ảnh. Ví dụ:
“Tạo áp phích 4K về hội thảo về robot: một nhóm đa dạng ngồi quanh bàn, lớp phủ bản thiết kế, tiêu đề in đậm 'Robot đang hoạt động' bằng phông chữ sans serif, ánh sáng vonfram ấm áp, độ sâu trường ảnh nông, điện ảnh 16:9.” - (Tùy chọn) Tải lên tối đa 14 hình ảnh để ghép hoặc sử dụng làm tài liệu tham khảo. Sử dụng công cụ lựa chọn/mặt nạ để chỉnh sửa cục bộ các khu vực.
- Tạo, lặp lại bằng ngôn ngữ tự nhiên (ví dụ: "làm cho tiêu đề màu xanh lam và căn giữa trên cùng; tăng độ tương phản trên bản thiết kế"), sau đó xuất
2) Sử dụng HTTP để gửi đến điểm cuối hình ảnh Gemini
Bạn cần đăng nhập vào CometAPI để lấy khóa.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Mẫu này ghi tải trọng hình ảnh base64 vào tệp PNG. generationConfig.imageConfig.resolution yêu cầu tham số đầu ra 4K (có sẵn cho mẫu 3 Pro Image)
3) Gọi SDK trực tiếp tới generateContent để tạo ra hình ảnh
Yêu cầu cài đặt Google SDK và xác thực Google. Ví dụ Python (văn bản + hình ảnh tham chiếu + nền tảng):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Ví dụ này cho thấy việc tải lên một hình ảnh tham chiếu nội tuyến và yêu cầu một bố cục 4K trong khi bật google_search như một công cụ. Python SDK sẽ xử lý các chi tiết REST cấp thấp.
Hợp nhất nhiều hình ảnh và tính nhất quán của nhân vật
Để tạo ra một hỗn hợp bảo tồn cùng một người trên các cảnh, hãy chuyển nhiều inline_data các bộ phận (được chọn từ bộ ảnh của bạn) và chỉ định hướng dẫn sáng tạo mà mô hình phải "duy trì bản sắc trên các đầu ra".
Ví dụ thực tế ngắn gọn — một dòng chảy thực tế và mong đợi
nhắc nhở:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Đường ống dự kiến: ứng dụng → mẫu nhắc nhở + dữ liệu CSV → thay thế chỗ giữ chỗ trong nhắc nhở → lệnh gọi API bằng image_size=2048x1152 → nhận PNG base64 → lưu tài sản + siêu dữ liệu nguồn gốc → tùy chọn phủ phông chữ chính xác thông qua trình soạn thảo nếu cần.
Tôi nên thiết kế quy trình sản xuất và xử lý vấn đề an toàn/nguồn gốc như thế nào?
Kiến trúc sản xuất được đề xuất
- Giấy thông hành + giấy thông hành (mô hình nhanh): Sử dụng
gemini-2.5-flash-image(Nano Banana) để sản xuất nhiều biến thể có độ phân giải nhỏ với giá thành rẻ. - Lựa chọn và tinh chỉnh: chọn những ứng viên tốt nhất, tinh chỉnh lời nhắc, áp dụng chỉnh sửa inpainting/mask để có độ chính xác.
- Bản kết xuất cuối cùng có độ trung thực cao: cuộc gọi
gemini-3-pro-image-preview(Nano Banana Pro) để dựng hình 2K/4K cuối cùng và xử lý hậu kỳ (nâng cấp, phân loại màu). - Nguồn gốc và siêu dữ liệu: lưu trữ lời nhắc, phiên bản mô hình, dấu thời gian và thông tin SynthID trong kho siêu dữ liệu tài sản của bạn — mô hình đính kèm hình mờ SynthID và đầu ra có thể được theo dõi để tuân thủ và kiểm tra nội dung.
An toàn, quyền và sự kiểm duyệt
- Bản quyền và quyền được giải phóng: Không tải lên hoặc tạo nội dung vi phạm bản quyền. Sử dụng xác nhận rõ ràng của người dùng đối với hình ảnh hoặc lời nhắc do người dùng cung cấp có thể tạo ra sự giống nhau dễ nhận biết. Phải tuân thủ Chính sách Sử dụng Bị cấm của Google và bộ lọc an toàn mô hình.
- Lọc và kiểm tra tự động: chạy hình ảnh được tạo qua đường ống kiểm duyệt nội dung nội bộ (NSFW, biểu tượng thù địch, phát hiện nội dung chính trị/ràng buộc) trước khi sử dụng hoặc hiển thị công khai.
Làm thế nào để chỉnh sửa hình ảnh (inpainting), ghép nhiều hình ảnh và hiển thị văn bản?
Nano Banana Pro hỗ trợ quy trình chỉnh sửa đa phương thức: cung cấp một hoặc nhiều hình ảnh đầu vào và hướng dẫn bằng văn bản mô tả các chỉnh sửa (xóa đối tượng, thay đổi bầu trời, thêm văn bản). API chấp nhận hình ảnh + văn bản trong cùng một yêu cầu; mô hình có thể tạo ra văn bản và hình ảnh xen kẽ làm phản hồi. Các mẫu ví dụ bao gồm chỉnh sửa có mặt nạ và pha trộn nhiều hình ảnh (chuyển đổi kiểu / bố cục). Xem tài liệu để biết thêm chi tiết. contents mảng kết hợp các khối văn bản và hình ảnh nhị phân.
Ví dụ: Chỉnh sửa (Python pseudo-flow)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Việc chỉnh sửa theo phương pháp đàm thoại này cho phép bạn điều chỉnh kết quả theo từng bước cho đến khi đạt được nội dung sẵn sàng đưa vào sản xuất.
Ví dụ về Node.js — chỉnh sửa hình ảnh bằng mặt nạ và nhiều tham chiếu
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(Đôi khi API chấp nhận URI Cloud Storage hoặc tải trọng hình ảnh base64; hãy kiểm tra tài liệu API Gemini để biết định dạng đầu vào chính xác.)
Để biết thông tin về cách tạo và chỉnh sửa hình ảnh bằng CometAPI, vui lòng tham khảo Hướng dẫn gọi gemini-3-pro-image .
Kết luận
Nano Banana Pro (Gemini 3 Pro Image) là một bước tiến vượt bậc trong việc tạo hình ảnh: một công cụ trực quan hóa dữ liệu, tạo các bản chỉnh sửa cục bộ và hỗ trợ quy trình làm việc của nhà phát triển. Hãy sử dụng ứng dụng Gemini để tạo mẫu nhanh, API để tích hợp sản xuất và làm theo các khuyến nghị trên để kiểm soát chi phí, đảm bảo an toàn và duy trì chất lượng thương hiệu. Luôn kiểm tra quy trình làm việc thực tế của người dùng và lưu trữ siêu dữ liệu nguồn gốc để đáp ứng nhu cầu minh bạch và kiểm toán.
Sử dụng Nano Banana Pro khi bạn cần chất lượng phòng thu tài sản, kiểm soát chính xác bố cục, cải thiện khả năng hiển thị văn bản bên trong hình ảnh và khả năng kết hợp nhiều tài liệu tham khảo thành một đầu ra thống nhất.
Các nhà phát triển có thể truy cập API hình ảnh Gemini 3 Pro (Nano Banana Pro) thông qua CometAPI. Để bắt đầu, hãy khám phá khả năng mô hình củaSao chổiAPI trong Sân chơi và tham khảo hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. VớietAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!



