Là một người sáng tạo AI, tôi rất vui mừng được giới thiệu với bạn Chuối Nano — biệt danh vui tươi dành cho Hình ảnh Flash Gemini 2.5 — Mô hình tạo và chỉnh sửa hình ảnh độ trung thực cao mới nhất của Google. Trong bài viết chuyên sâu này, tôi sẽ giải thích nó là gì, cách sử dụng (ứng dụng và API), cách kích hoạt hiệu quả, đưa ra ví dụ cụ thể, bao gồm mã sẵn sàng chạy và hướng dẫn chi tiết. bảy cách sử dụng sáng tạo, thiết thực bạn có thể bắt đầu nộp đơn ngay hôm nay.
Gemini 2.5 Flash Image (Nano Banana) là gì?
Gemini 2.5 Flash Image là một mô hình tạo ảnh và chỉnh sửa ảnh mới trong dòng Gemini. Nó mở rộng dòng Gemini 2.5 Flash để tạo và chỉnh sửa ảnh (không chỉ văn bản), kết hợp khả năng lập luận đa phương thức, kiến thức thế giới và các điều khiển dựa trên lời nhắc của Gemini để tạo hoặc chỉnh sửa ảnh từ văn bản và/hoặc hình ảnh đầu vào. Nhóm phát triển và tài liệu hướng dẫn của nhà phát triển gọi rõ ràng là "Gemini 2.5 Flash Image" và ghi chú biệt danh nội bộ. chuối nano.
Khi công bố giá đã công bố cho gói Gemini 2.5 Flash Image là $30 cho 1 triệu mã thông báo đầu ra, với ví dụ chi phí cho mỗi hình ảnh được báo cáo là 1290 mã thông báo đầu ra ≈ $0.039 cho mỗi hình ảnh. Mô hình được cung cấp ở dạng xem trước (ID nhà phát triển/xem trước như gemini-2.5-flash-image-preview) và hiện đã có sẵn thông qua các đối tác được chọn (CometAPI) và nền tảng dành cho nhà phát triển của Google.
Những tính năng nổi bật của Gemini 2.5 Flash Image là gì?
Tính nhất quán về ký tự và phong cách trong các lần chỉnh sửa
Một trong những cải tiến cốt lõi là tính nhất quán của ký tự: mô hình được tinh chỉnh rõ ràng để giữ cho chủ thể (người, thú cưng hoặc sản phẩm) nhất quán về mặt hình ảnh qua nhiều lần chỉnh sửa và bối cảnh khác nhau — một điểm yếu lâu nay của các mô hình hình ảnh trước đây. Điều này cải thiện quy trình làm việc đòi hỏi các yếu tố thương hiệu nhất quán, các nhân vật thường xuyên xuất hiện trong câu chuyện, hoặc ảnh sản phẩm chụp nhiều lần được tạo tự động.
Chỉnh sửa theo yêu cầu, bản địa hóa
Bạn có thể cung cấp một hình ảnh kèm theo hướng dẫn bằng ngôn ngữ tự nhiên như "tẩy vết bẩn trên áo", "thay trang phục thành áo khoác xanh" hoặc "làm mờ hậu cảnh và tăng độ sáng cho chủ thể" và mô hình sẽ thực hiện các chỉnh sửa cục bộ, có mục tiêu mà không cần mặt nạ thủ công trong nhiều trường hợp. Điều này giúp việc chỉnh sửa lặp đi lặp lại, theo kiểu hội thoại trở nên thực tế.
Hợp nhất nhiều hình ảnh và chuyển đổi phong cách
Gemini 2.5 Flash Image có thể chụp nhiều hình ảnh và soạn nhạc Kết hợp chúng thành một cảnh duy nhất hoặc chuyển đổi phong cách/kết cấu từ hình ảnh này sang hình ảnh khác. Điều này cho phép tạo mô hình sản phẩm (đặt sản phẩm vào cảnh), dàn dựng đồ nội thất hoặc hình ảnh kết hợp cho tiếp thị và thương mại điện tử.
Kiến thức thế giới bản địa
Vì được xây dựng trên nền tảng gia đình Gemini, mô hình này tận dụng kiến thức về thế giới — ví dụ, hiểu biết về đạo cụ, môi trường hoặc mối quan hệ đối tượng đúng ngữ cảnh — giúp xây dựng bối cảnh thực tế và chỉnh sửa ngữ nghĩa mạch lạc (không chỉ là đầu ra hợp lý về mặt thẩm mỹ).
Độ trễ thấp và hiệu quả về chi phí
Dòng sản phẩm "Flash" của Gemini hướng đến độ trễ thấp và hiệu quả chi phí so với các tầng suy luận lớn hơn. Thông báo của nhà phát triển nhấn mạnh tốc độ và sự cân bằng giữa giá cả và chất lượng thuận lợi cho nhiều trường hợp sử dụng thực tế.
Nguồn gốc tích hợp: Hình mờ SynthID
Tất cả hình ảnh được tạo/chỉnh sửa bằng mô hình bao gồm một hình mờ kỹ thuật số SynthID vô hình để sau này có thể xác minh hình ảnh là do AI tạo ra hoặc chỉnh sửa. Đây là một phần trong nỗ lực giảm thiểu việc sử dụng sai mục đích và theo dõi nguồn gốc của Google.
1) Làm thế nào tôi có thể tạo ra một nhân vật nhất quán cho truyện tranh dài tập hoặc chiến dịch thương hiệu?
Tại sao điều này hoạt động
Nano Banana được đào tạo rõ ràng để duy trì cùng một diện mạo nhân vật qua các lần chỉnh sửa và bối cảnh mới — hữu ích khi bạn cần cùng một khuôn mặt, trang phục hoặc linh vật xuất hiện trong các tập phim, hình thu nhỏ hoặc hình ảnh anh hùng. Các nhà phát triển gọi đây là "tính nhất quán của nhân vật".
Cách nhắc
- Bắt đầu bằng một khối mô tả nắm bắt các đặc điểm nhận dạng (độ tuổi, đặc điểm khuôn mặt, dấu hiệu đặc biệt, yếu tố trang phục).
- Thêm hướng dẫn “mã thông báo nhất quán” như “Sử dụng cùng một ký tự trên tất cả các đầu ra — không thay đổi dấu hiệu nhận dạng”.
- Đối với đầu ra nhiều hình ảnh, hãy cung cấp một hoặc nhiều hình ảnh tham chiếu làm đầu vào để khóa tính giống nhau.
Cách nhắc nhở chỉnh sửa nhất quán
- Bắt đầu bằng cách mô tả các đặc điểm nhận dạng cốt lõi mà bạn muốn giữ nguyên: tuổi tác, màu tóc, đặc điểm nhận dạng (ví dụ: "có một nốt ruồi nhỏ ở má trái") và phong cách quần áo.
- Sử dụng lời nhắc hai phần khi chỉnh sửa: đầu tiên mô tả những gì phải vẫn giống hệt nhau, sau đó mô tả thay đổi Bạn muốn. Ví dụ: “Lưu giữ: Một phụ nữ Đông Á 28 tuổi, tóc bob đen ngắn, nốt ruồi nhỏ ở má trái. Thay đổi: đặt cô ấy vào một quán ăn thập niên 1970, mặc áo khoác da đỏ, mỉm cười, ánh đèn vonfram ấm áp.”
- Khi thực hiện chỉnh sửa nhiều bước, hãy thêm một mã thông báo tham chiếu nhỏ như “(KEEP_ID: A)” vào lời nhắc và sử dụng lại mã này để báo hiệu cùng một chủ đề trên nhiều lời nhắc.
Dấu nhắc ví dụ
“Tạo một bức chân dung chân thực của Amina, một tiểu thuyết gia đồ họa 28 tuổi với mái tóc ngắn bất đối xứng, nốt ruồi hình lưỡi liềm trên má trái, đôi mắt nâu ấm áp và chiếc áo khoác da màu xanh lá cây. Duy trì các đặc điểm nhận dạng của Amina trong 6 gợi ý phân cảnh sau: 'Amina ở quán cà phê buổi sáng', 'Amina đang phác họa trong công viên', … . Sử dụng cùng một hình ảnh nhân vật cho mỗi phân cảnh.”
Đoạn mã (Python, tạo nhiều hình ảnh)
Ví dụ này sử dụng ứng dụng khách API Gemini được hiển thị trong tài liệu của Google — hãy truyền lời nhắc mô tả và các biến thể cảnh lặp.
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
base_description = (
"Photorealistic portrait of Amina: 28yo graphic novelist, short asymmetrical haircut, "
"crescent mole on left cheek, warm brown eyes, green leather jacket. Keep likeness identical across scenes."
)
scenes = [
"Amina at a morning coffee shop, reading a sketchbook, warm golden hour light.",
"Amina sketching in the park, windy afternoon, soft bokeh background.",
# add more scenes...
]
for i, scene in enumerate(scenes, start=1):
prompt = f"{base_description} Scene: {scene}"
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
parts = response.candidates.content.parts
for part in parts:
if part.inline_data:
img = Image.open(BytesIO(part.inline_data.data))
img.save(f"amina_scene_{i}.png")
2) Nano Banana có thể đẩy nhanh quá trình chụp ảnh sản phẩm thương mại điện tử và hình ảnh A/B như thế nào?
Tại sao điều này sáng tạo và hữu ích
Các nhóm sản phẩm dành rất nhiều nguồn lực cho nhiều cảnh quay, thiết lập ánh sáng và các biến thể (màu sắc, phông nền). Nano Banana hợp nhất nhiều hình ảnh và chỉnh sửa nhanh chóng chính xác cho phép bạn tạo ra các biến thể sản phẩm nhất quán và các thành phần phong cách sống một cách nhanh chóng — cho các cảnh quay trong danh mục, cảnh phong cách sống và tài sản xã hội — cắt giảm thời gian lặp lại và chi phí sản xuất.
Cách nhắc nhở về các biến thể sản phẩm
- Cung cấp thông số kỹ thuật ngắn gọn về sản phẩm (kích thước, chất liệu, bảng màu) và phong cách chụp ảnh (ví dụ: “nền trắng trong studio, góc 45°, bóng mờ”).
- Đối với các biến thể: ““Tạo 4 biến thể của tai nghe Bluetooth này: đen, hồng, xám với chụp tai màu cam và xám với ánh xanh lam – tất cả đều có cùng ánh sáng, cùng góc máy ảnh và trong một căn phòng màu trắng.”.”
- Sử dụng kỹ thuật kết hợp nhiều hình ảnh để đưa sản phẩm vào nhiều cảnh khác nhau: “Đặt chiếc ba lô này lên tấm chăn dã ngoại vào giờ vàng với độ sâu trường ảnh nông”.
Ví dụ về lời nhắc (sản phẩm)
“Hình A (mã sản phẩm): ba lô da cao cấp. Tạo ba biến thể catalogue với nền trắng — xanh lá cây rừng, nâu vàng, than chì — chụp ở góc 45°, đổ bóng mềm tự nhiên, ISO 100.”
Đoạn mã: tạo Python nhanh (biến thể danh mục)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client(api_key="YOUR_API_KEY")
product_image = open("backpack_ref.png","rb").read()
prompt = ("Make 4 variations of this Bluetooth headset: black, pink, gray with orange ear caps, and gray with blue glint – all with the same lighting, same camera angle, and in a white room.")
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
# Save images from response parts (example)
for i, part in enumerate(response.candidates.content.parts):
if part.inline_data:
img = Image.open(BytesIO(part.inline_data.data))
img.save(f"backpack_variant_{i}.png")
Đoạn mã này phản ánh mô hình sử dụng đã được Google ghi lại và là điểm khởi đầu tốt để tự động hóa việc tạo biến thể sản phẩm.
Hình ảnh đầu ra:

3) Làm thế nào tôi có thể tạo ra hình ảnh minh họa giáo dục kết hợp giữa ảnh và sơ đồ?
Tại sao điều này hoạt động
Nano Banana tích hợp kiến thức thế giới (Lý luận đa phương thức của Gemini) để có thể diễn giải các sơ đồ vẽ tay, chú thích hình ảnh hoặc tạo hình ảnh giải thích từ sự kết hợp giữa ảnh và hướng dẫn bằng văn bản — tiện dụng cho việc học trực tuyến, tài liệu kỹ thuật và gia sư tương tác.
Cách nhắc
- Cung cấp hình ảnh (ví dụ: ảnh chụp một thí nghiệm vật lý) và lời nhắc như "Chú thích hình ảnh này bằng nhãn và mũi tên giải thích các thành phần chính và tạo một hình ảnh thứ hai hiển thị hệ thống theo mặt cắt ngang".
Dấu nhắc ví dụ
Tạo bốn mảnh kiến thức giải thích hình ảnh: MẠNG LƯỚI NƠ-RON CỦA NÃO NGƯỜI, SỬA CHỮA TẾ BÀO, SẢN XUẤT ATP, MÃ DI TRUYỀN CỦA DNA, CHLOROLPAST, QUANG HỌC THỰC VẬT
Hình ảnh đầu ra:

4) Làm thế nào tôi có thể biến những bức ảnh thực tế thành những biến thể tiếp thị thương hiệu (trang phục, ánh sáng, bối cảnh)?
Tại sao điều này hoạt động
Mô hình hỗ trợ chuyển đổi có mục tiêu và các chỉnh sửa cục bộ được thể hiện bằng ngôn ngữ tự nhiên: thay đổi trang phục, điều chỉnh ánh sáng, thay đổi phông nền hoặc xóa vật thể — và nó cố gắng giữ nguyên bản sắc chủ thể và tính chân thực tổng thể. Điều này cho phép các biến thể tiếp thị nhanh chóng (trang phục theo mùa, bối cảnh địa phương).
Cách nhắc
- Cung cấp ảnh gốc làm thông tin đầu vào.
- Hỏi về chỉnh sửa có mục tiêu với hướng dẫn rõ ràng, ví dụ, “Thay áo khoác bằng áo khoác len đỏ, thay đổi hình nền thành phố lúc hoàng hôn, thêm ánh sáng viền ấm áp.”
Dấu nhắc ví dụ
“Bắt đầu từ bức ảnh đã tải lên, hãy thay chiếc áo khoác denim màu xanh bằng chiếc áo khoác len đỏ may đo, đặt nền là đường phố thành phố vào đầu buổi tối với hiệu ứng bokeh nhẹ và thêm ánh sáng viền nhẹ nhàng để tách chủ thể khỏi nền.”
Gợi ý
- Nếu bạn cần kiểm soát lặp đi lặp lại, hãy thực hiện chỉnh sửa nhiều lần: yêu cầu chỉnh sửa lần đầu, sau đó tinh chỉnh (“bỏ mũ”, “bây giờ làm ấm nhiệt độ màu”).
5) Người sáng tạo hoạt hình và nhóm tiền hình dung có thể tạo nguyên mẫu các cảnh và bảng phân cảnh như thế nào?
Tại sao nó hữu ích
Đạo diễn và DP có thể tạo nguyên mẫu thiết lập ánh sáng, trang phục và khung hình máy quay một cách nhanh chóng. Nano Banana có thể xuất ra các bảng phân cảnh với các nhân vật nhất quán, giúp lập kế hoạch và xem trước. ()
H3: Ví dụ về lời nhắc
There is a tree house in the forest at night with colorful lights hanging on the trees
Hình ảnh đầu ra:

6) Làm thế nào để sử dụng Nano Banana cho bản vẽ ý tưởng, tài sản trò chơi và các nhân vật nhất quán trong trò chơi?
Tại sao các studio trò chơi và nhà phát triển độc lập nên quan tâm
Việc tạo ra các tài sản nghệ thuật và lặp lại diện mạo nhân vật thường đòi hỏi họa sĩ phải chỉnh sửa nhân vật nhiều lần. Tính nhất quán của Nano Banana giúp tạo ra nhiều tư thế, trang phục và thiết lập ánh sáng khác nhau, đồng thời vẫn giữ được bản sắc của một nhân vật — tiết kiệm đáng kể thời gian trong giai đoạn tiền sản xuất và tạo mẫu nhanh.
Cách nhắc nhở về tài sản trò chơi
- Xác định bảng nhân vật “chuẩn mực” trong văn bản: chiều cao, dáng người, đặc điểm chính, trang phục cơ bản.
- Yêu cầu nhiều đầu ra: “Tạo ra ba biến thể áo giáp chiến đấu có cùng đặc điểm khuôn mặt, mỗi biến thể được hiển thị ở tư thế phía trước, bên hông và ¾.”
- Đối với nghệ thuật môi trường, hãy sử dụng phương pháp kết hợp nhiều hình ảnh: đưa ra một hình ảnh nhân vật và một hình ảnh môi trường và nhắc kết hợp chúng.
Ví dụ về lời nhắc (tài sản trò chơi)
“Tạo ba phiên bản giáp cho 'Kael, the Wind Ranger': giữ nguyên các đặc điểm khuôn mặt (hàm hẹp, sẹo trên lông mày phải). Giáp A: da + vải xanh mòng két; Giáp B: vảy + đồng thau; Giáp C: tàng hình màu đen mờ. Xuất toàn bộ thân trước, nghiêng, ¾.”

Giáp C: Đen mờ tàng hình

Giáp B: Vảy + Đồng thau

Giáp A: Da + Vải xanh mòng két
7) Làm thế nào tôi có thể tự động hóa quy trình chỉnh sửa ảnh bằng tính năng chỉnh sửa nhiều chiều tương tác?
Tại sao điều này hoạt động
Nano Banana hỗ trợ chỉnh sửa hình ảnh nhiều bước theo kiểu đối thoại: bạn có thể yêu cầu chỉnh sửa, kiểm tra kết quả và theo dõi thêm hướng dẫn bằng ngôn ngữ tự nhiên. Điều này hoàn hảo cho việc xây dựng quy trình chỉnh sửa ảnh theo vòng lặp, nơi biên tập viên sẽ điều khiển mô hình qua nhiều lần chỉnh sửa.
Cách triển khai quy trình làm việc
- Tải lên ảnh gốc và yêu cầu chỉnh sửa ảnh cơ bản (ánh sáng, xóa khuyết điểm).
- Ở mỗi lượt, gửi lại hình ảnh vừa chỉnh sửa cho người mẫu kèm theo hướng dẫn tiếp theo (“giảm điểm sáng, tăng bóng tối, cắt thành 4:5”).
- Ghi lại từng bước để bạn có thể hoàn tác hoặc áp dụng cùng một bước cho một loạt.
Đoạn mã quy trình làm việc nhỏ (Python)
# 1) Initial retouch
prompt1 = "Remove small blemishes, even skin tone, slightly warm color grade"
response1 = client.models.generate_content(model="gemini-2.5-flash-image-preview", contents=)
# save response1 -> edited_v1.png
# 2) Follow-up tweak
prompt2 = "Crop to 4:5, increase local contrast on eyes, desaturate background slightly"
response2 = client.models.generate_content(model="gemini-2.5-flash-image-preview", contents=)
# save response2 -> edited_v2.png
Làm thế nào để tôi có thể sử dụng Nano Banana để đạt được kết quả tốt nhất?
Tôi nên tuân theo những nguyên tắc thúc đẩy nào?
Nano Banana phản ứng tốt nhất với lời nhắc mang tính mô tả, theo phong cách tường thuật giải thích bối cảnh, góc nhìn, ánh sáng và tâm trạng — chứ không chỉ là một danh sách các từ khóa. Hướng dẫn chính thức khuyến nghị cung cấp các gợi ý về máy ảnh, ống kính, ánh sáng và phong cách cho chủ nghĩa siêu thực, hoặc các gợi ý về phong cách và bảng màu cho hình minh họa. Đồng thời, cung cấp các ràng buộc (tỷ lệ khung hình, nền, yêu cầu về văn bản) một cách rõ ràng.
Làm thế nào để tôi có thể xây dựng một lời nhắc mạnh mẽ?
Sau đây là các mẫu ngắn gọn, có thể tái sử dụng:
- Mẫu ảnh chân thực:
A photorealistic of , , in , illuminated by , captured with , emphasizing . Aspect ratio: . - Mẫu chuyển giao phong cách / sáng tác:
Combine Image A (style) with Image B (subject). Transfer the color palette of A, keep subject proportions of B. Final style:.
Mẹo kỹ thuật nhanh chóng (danh sách nhanh)
- Sử dụng một câu tường thuật rõ ràng thay vì nhiều thẻ rời rạc.
- Thêm chi tiết máy ảnh để có độ chân thực (ví dụ: “85mm, độ sâu trường ảnh nông”).
- Để có các ký tự nhất quán trong các lần chỉnh sửa, hãy tham chiếu hình ảnh trước đó và thuộc tính bạn muốn giữ nguyên (ví dụ: "giữ nguyên tàn nhang và khăn quàng xanh của chủ thể, thay đổi kiểu tóc thành…").
- Khi chỉnh sửa, hãy tải lên hình ảnh nguồn và mô tả chính xác những vùng hoặc yếu tố nào cần thay đổi.
- Sử dụng các chỉnh sửa lặp đi lặp lại, nhiều lượt để tinh chỉnh các chi tiết hình ảnh nhỏ (Nano Banana hỗ trợ tinh chỉnh theo kiểu hội thoại).
Lưu ý cuối cùng
Nano Banana (Gemini 2.5 Flash Image) là một bước tiến đột phá về mặt sáng tạo: nó cho phép người sáng tạo duy trì tính nhất quán của nhân vật và sản phẩm, đồng thời cho phép chỉnh sửa mới táo bạo, kết hợp nhiều hình ảnh và lặp lại nhanh chóng. Hãy sử dụng nó để đẩy nhanh quá trình kể chuyện, giảm thiểu sự bất tiện trong quá trình sản xuất và tạo hình ảnh nguyên mẫu nhanh chóng — nhưng kết hợp những lợi ích đó với quy trình đánh giá nghiêm ngặt và các quy tắc đạo đức.
Bắt đầu
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Các nhà phát triển có thể truy cập Hình ảnh Flash Gemini 2.5(Danh sách Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image (các mục nhập kiểu trong danh mục của họ.) thông qua CometAPI, phiên bản mô hình mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
