Bản phát hành gần đây của Google Gemini 2.5 Flash Image — có biệt danh là “Nano-Banana” đã nhanh chóng trở thành lựa chọn hàng đầu cho việc chỉnh sửa hình ảnh hội thoại: nó giữ cho hình ảnh nhất quán qua các lần chỉnh sửa, hợp nhất nhiều hình ảnh một cách gọn gàng và hỗ trợ các chỉnh sửa cục bộ dựa trên lời nhắc rất tự nhiên. Dưới đây, tôi sẽ giới thiệu về Nano Banana, cách sử dụng nó thông qua Song Tử của Google và thông qua quyền truy cập của bên thứ ba (ví dụ: CometAPI), đưa ra các ví dụ gợi ý cụ thể và mã lệnh bạn có thể đưa vào dự án, đồng thời chia sẻ các mẹo dành cho nhà phát triển về chỉnh sửa nhiều lần, nâng cấp và gợi ý nâng cao. Tôi viết bài này với tư cách là một nhà phát triển sử dụng mô hình hình ảnh hàng ngày — hãy coi đây là một cẩm nang thực tế, có đôi chút chủ quan.
Nano-Banana là gì?
“Gemini 2.5 Flash Image / Nano-Banana” thực sự có nghĩa là gì?
Nano-Chuối là biệt danh / tên mã của cộng đồng Hình ảnh Flash Gemini 2.5, mô hình tạo và chỉnh sửa hình ảnh mới nhất của Google DeepMind. Nó được thiết kế cho nhắc trước chỉnh sửa (bạn cung cấp cho nó các hướng dẫn ngôn ngữ tự nhiên) với trọng tâm đặc biệt vào tính nhất quán của ký tự (giữ nguyên hình ảnh người/thú cưng/vật thể trong suốt quá trình chỉnh sửa), hợp nhất nhiều hình ảnh (pha trộn các đối tượng trên ảnh nguồn) và sử dụng tương tác có độ trễ thấp trong các ứng dụng như Gemini và Google AI Studio. Mô hình này có sẵn thông qua API Gemini của Google, AI Studio và hiện đang được đưa vào CometAPI.
Là một nhà phát triển, hãy nghĩ về Nano-Banana không chỉ đơn thuần là một trình tạo hình ảnh "từ đầu" mà còn là một công cụ có khả năng cao trợ lý chỉnh sửa ảnh và sáng tác: nó hiểu nội dung hình ảnh của bạn, ghi nhớ chủ thể qua các lần chỉnh sửa và phản hồi các hướng dẫn ngôn ngữ tự nhiên theo cách phù hợp với vòng lặp thiết kế lặp lại nhanh chóng. Điều này đặc biệt hữu ích cho các mô hình sản phẩm, ảnh chụp nhân vật nhất quán, lặp lại ý tưởng nhanh chóng và hoạt động sáng tạo xã hội.
tóm tắt dành cho nhà phát triển
- Tên mẫu: gemini-2.5-flash-image-preview / gemini-2.5-flash-image.
- Tính nhất quán và liên tục: Nano-Banana lưu giữ thông tin chi tiết về nhân vật trong quá trình chỉnh sửa đáng tin cậy hơn nhiều đối thủ cạnh tranh, khiến nó trở nên thích hợp hơn cho việc chỉnh sửa tuần tự và kể chuyện.
- Tốc độ: Người dùng báo cáo rằng việc tạo nhanh—thường dưới 10 giây cho nhiều lần chỉnh sửa—rất hữu ích cho các quy trình làm việc lặp đi lặp lại.
- Thiết kế chỉnh sửa trước: Trong khi nhiều mô hình được tối ưu hóa cho việc tạo nội dung chỉ dựa trên văn bản thuần túy, UX và API của Nano-Banana lại nhấn mạnh vào việc chỉnh sửa (chỉnh sửa một lần, kết hợp nhiều hình ảnh, chuyển đổi phong cách).
Làm thế nào tôi có thể chỉnh sửa bằng Nano-Banana trên CometAPI?
CometAPI là một thị trường API/trình bao bọc tổng hợp nhiều mô hình (bao gồm API hình ảnh Flash Gemini 2.5 (Nano Banana)) đằng sau một điểm cuối duy nhất, tương thích với OpenAI. Nếu bạn muốn tạo nguyên mẫu nhanh chóng hoặc tránh việc cung cấp tài khoản Google Cloud/Vertex cho lần thử nghiệm đầu tiên, CometAPI là một cầu nối thiết thực — bạn sẽ nhận được khóa API, chọn gemini-2.5-flash-image (Hoặc gemini-2.5-flash-image-preview ), sau đó gửi yêu cầu giống như chỉnh sửa hình ảnh theo kiểu Chat. CometAPI cũng cung cấp các ví dụ và hướng dẫn để thử nghiệm mô hình.
Tại sao nên sử dụng CometAPI?
- Một khóa API để quản lý tất cả — đơn giản hóa việc thử nghiệm nhiều nhà cung cấp.
- Đổi nhà cung cấp trong quá trình sản xuất nếu giá cả hoặc SLA thay đổi.
- Hữu ích cho các nhóm muốn kiểm soát mức độ dịch vụ (giới hạn tốc độ, ghi nhật ký tập trung).
Cách gọi Nano-Banana (CometAPI) — ví dụ thực tế
Dưới đây là ví dụ đơn giản. Thay thế YOUR_COMET_KEY và đường dẫn tệp theo ý bạn.
CURL — chỉnh sửa cơ bản (hình ảnh + lời nhắc → hình ảnh đã chỉnh sửa)
Ví dụ:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
**Sự miêu tả:**Đầu tiên, chuyển đổi tệp hình ảnh nguồn của bạn thành chuỗi Base64 và đặt nó vào inline_data.data. Thứ hai, Không bao gồm các tiền tố như data:image/jpeg;base64, . Đầu ra cũng nằm ở candidates.content.parts và bao gồm:
- Phần văn bản tùy chọn (mô tả hoặc lời nhắc).
- Phần hình ảnh như
inline_data(Ở đâudatalà Base64 của hình ảnh đầu ra).
Nếu bạn chỉ muốn dùng thử chỉnh sửa ảnh trên Nano-Banana, CometAPI cung cấp tín dụng miễn phí cho người dùng mới. Bạn có thể dùng thử Nano-Banana trên Playground hoặc sử dụng Gemini 2.5 Flash Image API. Tuy nhiên, nếu muốn sử dụng không giới hạn, bạn có thể trả mức giá ưu đãi 20% so với giá Gemini.
Nano-Banana có một số ưu điểm cốt lõi: độ tương đồng nhất quán, chỉnh sửa cục bộ có mục tiêu thông qua ngôn ngữ tự nhiên và hợp nhất nhiều hình ảnh.
Tiếp theo, tôi sẽ chỉ ra những lợi ích của Nano-Banana thông qua một số trường hợp sử dụng và bạn sẽ thấy được sự kỳ diệu của nó.
Ví dụ 1: Kết hợp nhiều hình ảnh thành một ảnh ghép duy nhất
Tải lên hình ảnh:

Ví dụ mô tả đầu vào: Một người mẫu đang tạo dáng và tựa vào một chiếc BMW màu hồng. Cô ấy mặc những món đồ sau, bối cảnh được đặt trên nền xám nhạt. Người ngoài hành tinh màu xanh lá cây là một chiếc móc khóa được gắn vào chiếc túi xách màu hồng. Người mẫu cũng có một con vẹt màu hồng trên vai. Có một chú chó pug ngồi cạnh cô ấy, đeo vòng cổ màu hồng và tai nghe màu vàng.
Trả về Base64 được chuyển đổi trở lại thành hình ảnh:

Mã Code:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
Lưu ý: chuyển đổi tệp hình ảnh nguồn của bạn thành chuỗi Base64 và chèn nó vào inline_data.data (không bao gồm các tiền tố như data:image/jpeg;base64,).
Phân tích trường hợp sử dụng: Bằng cách sử dụng kỹ thuật kết hợp nhiều hình ảnh, các nhà thiết kế có thể sáng tạo hơn. Ví dụ, các nhà thiết kế nội thất có thể kết hợp hình ảnh để tạo ra bản phác thảo hiệu ứng. Người tiêu dùng có thể kết hợp hình ảnh toàn thân với những thứ họ muốn mua để giúp họ quyết định có nên mua hay không. Điều này cũng có thể được sử dụng làm tài liệu tham khảo cho hoạt hình và sản xuất truyện tranh.
Ví dụ 2: Chỉnh sửa hình ảnh để giữ nguyên sự tương đồng
Dưới đây tôi sẽ cung cấp một số vòng chỉnh sửa để kiểm tra nano banana.
Đầu tiên, hãy tải lên một hình ảnh:

Thứ hai, nhắc nhở: Thêm một chú chó con vào bãi cỏ
Đầu ra:

Ngoài ra, thẻ cào nhắc nhở: Sử dụng hình ảnh tham khảo đính kèm của nhân vật. Giữ nguyên chú chó. Đặt nhân vật vào bối cảnh đường phố thành phố mưa và đèn neon vào ban đêm. Giữ nguyên các đặc điểm khuôn mặt giống hệt hình ảnh tham khảo.

Phân tích trường hợp sử dụng: Có thể thấy rằng tính nhất quán khá cao được duy trì qua nhiều vòng chỉnh sửa hình ảnh.
Ví dụ 3: Chuyển đổi phong cách và chỉnh sửa chi tiết khuôn mặt
Tải lên hình ảnh:

nhắc nhở: Làm sắc nét khuôn mặt một chút, thêm 6% hạt phim, cắt thành 16:9. Không thay đổi các đặc điểm trên khuôn mặt, thêm ánh sáng viền nhẹ nhàng vào phía bên phải.
đầu ra:

Các trường hợp sử dụng khác của Nano-Banana
1) Ảnh chân dung doanh nghiệp và ảnh chân dung chuyên nghiệp
Công dụng: Tạo ảnh chân dung thương hiệu đồng nhất nhanh chóng (tiếp thị, LinkedIn, tiểu sử công ty). Nano-Banana giữ nguyên khuôn mặt khi thay đổi trang phục, phông nền hoặc ánh sáng.
Yêu cầu — trang phục + ánh sáng (chỉnh sửa)
Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.
Yêu cầu — hoán đổi nền + chỉnh sửa
Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.
2) Thương mại điện tử và hình ảnh sản phẩm
Sử dụng: đặt sản phẩm vào bối cảnh lối sống, tạo ra những bức ảnh sản phẩm nhất quán từ nhiều góc độ khác nhau hoặc hiển thị các biến thể màu sắc.
Lời nhắc — sản phẩm trong cảnh (hợp nhất nhiều hình ảnh)
Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.
Yêu cầu — các biến thể màu sắc (chỉnh sửa)
Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.
3) Tiếp thị nội dung xã hội và người có sức ảnh hưởng
Sử dụng: chỉnh sửa phong cách nhanh, thay đổi trang phục, lớp phủ theo mùa hoặc cắt ảnh nhiều định dạng cho các nền tảng mạng xã hội.
Nhắc nhở — chỉnh sửa theo mùa cho nguồn cấp dữ liệu và câu chuyện
Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.
Prompt — phiên bản quảng cáo cách điệu
Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.
4) Tính nhất quán của nhân vật/tài sản thương hiệu (linh vật, nhân vật định kỳ)
Sử dụng: giữ cho logo, linh vật hoặc nhân vật giống hệt nhau về mặt hình ảnh trong các cảnh, chiến dịch hoặc tập phim.
Nhắc nhở — thực thi bảng nhân vật
Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.
5) Sửa chữa và tô màu ảnh lịch sử
Công dụng: khôi phục hoặc tô màu cho hình ảnh lưu trữ trong khi vẫn giữ nguyên bố cục và các chi tiết trên khuôn mặt.
Yêu cầu — tô màu + sửa chữa
Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.
Những kỹ thuật nhắc nhở tiên tiến nào giúp tăng độ tin cậy?
Sử dụng neo tham chiếu và các ràng buộc vi mô
Mỏ neo tham chiếu là những thông tin ngắn gọn, có thể kiểm chứng được mà bạn thêm vào để giảm sự mơ hồ: tên trang phục chính xác ("áo khoác hải quân, cài một hàng khuy, ve áo khoét"), tham chiếu ánh sáng ("ánh sáng Rembrandt"), hoặc thuật ngữ máy ảnh ("ống kính chân dung 50mm, f/2.8"). Các ràng buộc vi mô cho người mẫu biết những gì không được thay đổi (ví dụ: "không thay đổi hình xăm trên cẳng tay phải"). Những ràng buộc này làm giảm sự tự do của người mẫu theo một cách hiệu quả và thường cải thiện độ trung thực của kết quả.
Vòng lặp lặp lại: hỏi, đánh giá, tinh chỉnh
- Lần đầu tiên: sử dụng lời nhắc chính xác nhưng súc tích.
- Đánh giá kết quả: lưu ý những gì mô hình làm sai (ví dụ, thay đổi hình dạng khuôn mặt, mất phụ kiện).
- Sửa lỗi có mục tiêu: Gửi một lời nhắc ngắn gọn tiếp theo, tham chiếu đến kết quả trước đó ("Giữ nguyên mọi thứ từ kết quả trước nhưng giữ lại khuyên tai trái ban đầu và làm cho lông mày dày hơn"). Điểm mạnh của tính năng chỉnh sửa hội thoại của Nano-Banana cho phép bạn phục hồi nhanh chóng.
Chuỗi chỉnh sửa cho các chuyển đổi phức tạp
Đối với các chỉnh sửa lớn, hãy chia nhỏ công việc thành một chuỗi các chỉnh sửa nhỏ hơn thay vì một hướng dẫn lớn. Ví dụ: (1) đổi nền → (2) cập nhật trang phục → (3) chỉnh màu → (4) chỉnh sửa cuối cùng. Điều này giúp mỗi lời nhắc được tập trung và giảm thiểu các hiệu ứng chéo không mong muốn.
Tôi nên cấu trúc lời nhắc cho Nano-Banana như thế nào? (Giải phẫu lời nhắc)
Những gợi ý hình ảnh tốt có cấu trúc nhất quán. Hãy sử dụng những gợi ý sau: giải phẫu nhanh chóng để có được kết quả chính xác, có thể lặp lại:
Giải phẫu nhanh (thứ tự khuyến nghị)
- Hành động / Mục tiêu — bạn muốn mô hình này như thế nào do? (ví dụ: “Chỉnh sửa ảnh tự sướng này để tạo ảnh chân dung chuyên nghiệp” hoặc “Tạo ảnh phong cách sống sản phẩm bằng cách kết hợp hai hình ảnh này”).
- Đối tượng) — ai hoặc cái gì trong hình ảnh? Hãy nêu cụ thể về danh tính, độ tuổi, số lượng người, vật dụng, v.v.
- Thuộc tính — đặc điểm hình ảnh: quần áo, biểu cảm khuôn mặt, màu mắt, tóc, đạo cụ.
- Môi trường & Chiếu sáng — địa điểm, thời gian trong ngày, ánh sáng tâm trạng, tiêu cự, gợi ý về ống kính (“chân dung 35mm”).
- Kiểu dáng & Hoàn thiện — phong cách nhiếp ảnh (điện ảnh, studio, hạt phim, siêu thực) hoặc phong cách nghệ thuật (sơn dầu, vector, truyện tranh).
- Ràng buộc / An toàn — bất cứ điều gì cần tránh (không có logo, không có ảnh khoả thân, không có văn bản y tế).
- Mã thông báo nhất quán (tùy chọn) — cụm từ ngắn mà bạn sử dụng lại để duy trì khả năng nhận dạng ký tự trên nhiều lời nhắc (ví dụ: “Sử dụng tham chiếu ký tự 'Khăn quàng cổ Luna'”).
Gợi ý về tính nhất quán của nhân vật (các bước thực tế)
- Sử dụng “cụm từ tham chiếu”: bao gồm một cụm từ ngắn, duy nhất gắn liền với chủ đề (ví dụ: "mã thông báo ký tự: 'Maya-blue-jacket'") trong mỗi lời nhắc. Mô hình sẽ liên kết các chỉnh sửa với cùng một ký tự một cách đáng tin cậy hơn nếu bạn sử dụng lại cụm từ này.
- Bao gồm các chi tiết neo: chỉ định các đặc điểm riêng biệt, không thay đổi (ví dụ: “sẹo ở lông mày bên trái, vết bớt màu xanh lá cây trên má phải”) để mô hình có các điểm neo cố định để duy trì.
- Giữ nguyên tư thế và khung hình khi có thể: nếu bạn muốn có sự liên tục thực sự, hãy giữ góc máy ảnh/mô tả tư thế tương tự trong các lời nhắc.
- Bắt đầu từ cùng một hình ảnh gốc: Đối với quy trình chỉnh sửa, hãy luôn cung cấp cùng một ảnh gốc làm ảnh neo. Khi bạn phải thay đổi ảnh, hãy thêm ảnh gốc làm dữ liệu đầu vào bổ sung và giải thích quá trình chuyển đổi.
Những chế độ lỗi thường gặp là gì và làm thế nào để khắc phục chúng?
Thất bại: sự trôi dạt danh tính (chủ thể trông khác)
Nguyên nhân: mô hình đã khái quát quá mức một phong cách được yêu cầu hoặc hiểu sai một ràng buộc.
Sửa lỗi: thêm mệnh đề “bảo toàn” rõ ràng, đính kèm hình ảnh gốc làm tài liệu tham khảo hoặc thực hiện chỉnh sửa theo các bước nhỏ hơn và xác thực đầu ra trung gian.
Thất bại: đạo cụ hoặc tay không nhất quán
Nguyên nhân: bàn tay và các phụ kiện nhỏ vốn là những thứ khó thực hiện đối với nhiều người mẫu ảnh.
Sửa lỗi: bao gồm các hạn chế nhỏ (“đeo đồng hồ ở cổ tay phải”), cung cấp tài liệu tham khảo cận cảnh chi tiết cho các mục nhỏ hoặc chạy bước hiệu chỉnh có mục tiêu cuối cùng chỉ tập trung vào phần tử có vấn đề.
Lỗi: ánh sáng hoặc bóng tối trông không tự nhiên
Nguyên nhân: chỉnh sửa lớn (hoán đổi nền hoặc chiếu sáng lại nhiều) có thể tạo ra sự không khớp.
Sửa lỗi: yêu cầu người mẫu khớp "ánh sáng định hướng từ góc trên bên trái, bóng đổ nhẹ" hoặc cung cấp hình ảnh tham chiếu ánh sáng mong muốn.
Kết luận
Nano-Banana (Gemini 2.5 Flash Image) là một bước tiến đáng chú ý trong việc chỉnh sửa và tạo hình ảnh dành cho người dùng phổ thông: nhanh chóng, nhất quán và tích hợp với hệ sinh thái Gemini và công cụ an toàn của Google. Kết quả tốt nhất đến từ lời nhắc rõ ràng, tập trung vào nhiệm vụ, hướng dẫn bảo quản rõ ràng khi bạn cần tính nhất quán về danh tính, và quy trình làm việc theo giai đoạn tách biệt bản xem trước nhanh với bản kết xuất cuối cùng. Khi mô hình và hệ sinh thái phát triển, các kỹ sư Prompt nên tiếp tục thử nghiệm, ghi lại kết quả và xây dựng các điều khiển hướng đến người dùng giúp việc chỉnh sửa trở nên minh bạch và có thể đảo ngược.


