Gemini 2.5 Flash Image (Nano Banana): Tính năng, Điểm chuẩn và Cách sử dụng

CometAPI
AnnaAug 31, 2025
Gemini 2.5 Flash Image (Nano Banana): Tính năng, Điểm chuẩn và Cách sử dụng

Vào cuối tháng 2025 năm XNUMX, Google (DeepMind) đã phát hành Hình ảnh Flash Gemini 2.5 — được đặt biệt danh rộng rãi “chuối nano” — một mô hình tạo + chỉnh sửa hình ảnh chất lượng cao, độ trễ thấp đã được tích hợp vào ứng dụng Gemini, Google AI Studio, API Gemini và CometAPI. Mô hình này được thiết kế để tạo ra hình ảnh chân thực, duy trì tính nhất quán của ký tự trong suốt quá trình chỉnh sửa, hợp nhất nhiều hình ảnh đầu vào và thực hiện các chỉnh sửa cục bộ, tinh tế thông qua các lời nhắc ngôn ngữ tự nhiên. Mô hình này hiện có sẵn trong bản xem trước/bản phát hành rộng rãi (GA) và đang dẫn đầu bảng xếp hạng hình ảnh (LMArena) đồng thời được trang bị các cơ chế an toàn (đóng dấu bản quyền SynthID và bộ lọc cấp sản phẩm).

Gemini 2.5 Flash Image (hay còn gọi là “Nano Banana”) là gì?

Gemini 2.5 Flash Image — được đặt biệt danh một cách vui tươi Chuối Nano — là mô hình tạo và chỉnh sửa hình ảnh mới nhất của Google DeepMind trong dòng sản phẩm Gemini. Được công bố vào cuối tháng 2025 năm XNUMX, mô hình này được định vị là bản phát hành xem trước, mang đến khả năng chỉnh sửa độ trung thực cao hơn, khả năng hợp nhất nhiều hình ảnh, tính nhất quán nhân vật tốt hơn (duy trì khả năng nhận dạng cùng một người/thú cưng/vật thể qua nhiều lần chỉnh sửa) và khả năng tạo hình ảnh độ trễ thấp vào bộ công cụ đa phương thức của Gemini. Tính năng này có sẵn thông qua API Gemini, Google AI Studio, ứng dụng di động/web Gemini và Vertex AI dành cho khách hàng doanh nghiệp.

Nguồn gốc và tên gọi

Biệt danh "chuối nano" đã trở thành một từ viết tắt lan truyền trên các trang mạng xã hội và bảng xếp hạng cộng đồng sau khi những người dùng thử nghiệm ban đầu và các bài dự thi LMArena sử dụng nhãn hiệu theo chủ đề trái cây; Google đã xác nhận mối liên hệ này và công khai sử dụng cái tên vui nhộn này trong các bài đăng về nhà phát triển và sản phẩm của họ. Tên chính thức của sản phẩm là Hình ảnh Flash Gemini 2.5 và bạn thường sẽ thấy mã định danh mô hình được sử dụng trong mã và lệnh gọi API (để sử dụng xem trước, nó xuất hiện dưới dạng eg gemini-2.5-flash-image-preview).

Những tính năng nổi bật của Gemini 2.5 Flash Image là gì?

“Tính nhất quán của nhân vật” thực sự có nghĩa là gì?

Một trong những khả năng nổi bật là tính nhất quán của ký tự: bạn có thể yêu cầu mô hình tái sử dụng cùng một chủ thể (người, thú cưng, linh vật hoặc sản phẩm) qua nhiều lần chỉnh sửa hoặc cảnh mới trong khi vẫn giữ nguyên các đặc điểm nhận dạng trực quan (khuôn mặt/hình dạng, bảng màu, dấu hiệu nhận dạng). Điều này giải quyết một điểm yếu thường gặp trong các mô hình hình ảnh trước đó, khi các lần chỉnh sửa tiếp theo tạo ra hình ảnh người/vật thể trông hợp lý về mặt thị giác nhưng lại khác biệt rõ rệt. Do đó, các nhà phát triển có thể xây dựng quy trình làm việc cho danh mục sản phẩm, kể chuyện theo tập hoặc tạo tài sản thương hiệu với ít thao tác chỉnh sửa thủ công hơn.

Những điều khiển chỉnh sửa nào khác được bao gồm?

Gemini 2.5 Flash Image hỗ trợ:

  • Chỉnh sửa cục bộ có mục tiêu thông qua các lời nhắc bằng ngôn ngữ đơn giản (xóa một vật thể, thay đổi trang phục, chỉnh sửa da, xóa phần nền).
  • Hợp nhất nhiều hình ảnh: kết hợp tối đa ba hình ảnh đầu vào thành một bố cục thống nhất (ví dụ: đặt sản phẩm từ hình ảnh A vào cảnh B trong khi vẫn giữ nguyên ánh sáng).
  • Kiểm soát kiểu dáng và định dạng: hướng dẫn chân thực, thuộc tính máy ảnh và ống kính, tỷ lệ khung hình và đầu ra cách điệu (hình minh họa, nhãn dán, v.v.).
  • Kiến thức thế giới bản địa: mô hình tận dụng kiến ​​thức rộng hơn của gia đình Gemini để thực hiện các chỉnh sửa có nhận thức về mặt ngữ nghĩa (ví dụ: hiểu ý nghĩa của "ánh sáng thời Phục hưng" hoặc "vạch kẻ đường dành cho người đi bộ ở Tokyo").

Còn tốc độ, chi phí và tính khả dụng thì sao?

Gemini 2.5 Flash Image là một phần của gói Flash thuộc Gemini 2.5—được tối ưu hóa cho độ trễ thấp và chi phí thấp nhưng vẫn đảm bảo chất lượng cao. Google đã xem trước giá cho các mã thông báo đầu ra hình ảnh và cung cấp khả năng sử dụng thông qua API và AI Studio; khách hàng doanh nghiệp có thể truy cập thông qua Vertex AI. Tại thời điểm công bố, giá đã công bố cho gói Flash Image Gemini 2.5 là $30 cho 1 triệu mã thông báo đầu ra, với ví dụ chi phí cho mỗi hình ảnh được báo cáo là 1290 mã thông báo đầu ra ≈ $0.039 cho mỗi hình ảnh.

Gemini 2.5 Flash Image hoạt động như thế nào?

Kiến trúc và phương pháp đào tạo

Gemini 2.5 Flash Image kế thừa kiến ​​trúc của dòng Gemini 2.5: một nền tảng kiến ​​trúc hỗn hợp chuyên gia (MoE) thưa thớt với phương thức đào tạo đa phương thức kết hợp văn bản, hình ảnh, âm thanh và các dữ liệu khác. Google đã đào tạo Flash Image trên các tập dữ liệu đa phương thức rất lớn, được lọc kỹ lưỡng và tinh chỉnh mô hình cho các tác vụ hình ảnh (tạo, chỉnh sửa, hợp nhất) và hành vi an toàn. Quá trình đào tạo được thực hiện trên nền tảng TPU của Google và được đánh giá bằng cả thước đo tự động và đánh giá của con người.

Chỉnh sửa theo hướng hội thoại

Ở cấp độ cao, mô hình sử dụng điều kiện ngữ cảnh: khi bạn cung cấp một hình ảnh (hoặc nhiều hình ảnh) cùng với lời nhắc văn bản, mô hình sẽ mã hóa nhận dạng hình ảnh của chủ thể vào biểu diễn nội bộ của nó. Trong các lần chỉnh sửa tiếp theo hoặc các cảnh mới, mô hình sẽ đặt điều kiện tạo hình dựa trên biểu diễn đó để các thuộc tính hình ảnh mong muốn (hình dạng khuôn mặt, quần áo chính hoặc mã định danh sản phẩm, bảng màu) được giữ nguyên. Trên thực tế, điều này được triển khai như một phần của quy trình nội dung đa phương thức do API Gemini cung cấp: bạn gửi các hình ảnh tham chiếu cùng với hướng dẫn chỉnh sửa và mô hình sẽ trả về các hình ảnh đầu ra đã chỉnh sửa (hoặc nhiều hình ảnh ứng viên) trong một phản hồi.

Đánh dấu bản quyền và nguồn gốc

Google tích hợp các bộ lọc an toàn và chính sách nội dung vào Gemini 2.5 Flash Image. Bản phát hành này nhấn mạnh vào việc đánh giá và phân tích nhóm đỏ (red-teaming), các bước lọc tự động, tinh chỉnh có giám sát và học tăng cường để làm theo hướng dẫn, đồng thời giảm thiểu các đầu ra có hại. Đầu ra bao gồm một hình mờ SynthID vô hình để hình ảnh được tạo ra hoặc chỉnh sửa bởi mô hình sau này có thể được xác định là do AI tạo ra.

Hiệu suất của nó tốt như thế nào? (Dữ liệu chuẩn)

Gemini 2.5 Flash Image (được tiếp thị là "nano-chuối" trong một số bối cảnh đánh giá chuẩn) đã đạt được #1 trên bảng xếp hạng Chỉnh sửa hình ảnh và Chuyển văn bản thành hình ảnh của LMArena Tính đến cuối tháng 2025 năm XNUMX, với Elo/ưu tiên vượt trội so với các đối thủ trong các so sánh được báo cáo. Tôi tham khảo kết quả đánh giá của con người trên LMArena và GenAI-Bench, cho thấy điểm ưu tiên cao nhất cho cả tác vụ chuyển văn bản thành hình ảnh và chỉnh sửa hình ảnh.

So sánh văn bản với hình ảnh

Tiêu chuẩn năng lựcHình ảnh Gemini Flash 2.5Imagen 4 Ultra 06-06ChatGPT 4o / Hình ảnh GPT 1 (Cao)FLUX.1 KontextHình ảnh Gemini Flash 2.0
Sở thích chung (LMArena)1147113511291075988
Chất lượng hình ảnh (GenAI-Bench)110310941013864926
Căn chỉnh văn bản thành hình ảnh (GenAI-Bench)104210531046937922

Chỉnh sửa hình ảnh

Tiêu chuẩn năng lựcHình ảnh Gemini Flash 2.5ChatGPT 4o / Hình ảnh GPT 1 (Cao)FLUX.1 KontextChỉnh sửa hình ảnh QwenHình ảnh Gemini Flash 2.0
Sở thích chung (LMArena)13621170119111451093
Nhân vật117010591010911850
Sáng tạo11121057968983879
infographics106710299671012925
Đối tượng / Môi trường1064102310021010901
Tái ngữ cảnh hóa sản phẩm112810329431009888
cách điệu106211659491091733

Gemini 2.5 Flash Image (Nano Banana): Tính năng, Điểm chuẩn và Cách sử dụng

Những tiêu chuẩn này có ý nghĩa gì trong thực tế?

Điểm chuẩn cho chúng ta biết hai điều: (1) mô hình có tính cạnh tranh ở khả năng tạo ảnh chân thực và (2) nó nổi bật ở chỉnh sửa Các tác vụ đòi hỏi tính nhất quán về ký tự và khả năng tuân thủ lời nhắc. Xếp hạng sở thích của con người cho thấy người dùng xem kết quả đầu ra của Gemini đánh giá cao tính chân thực và sự phù hợp với hướng dẫn trong nhiều lời nhắc được đánh giá. Tuy nhiên, cần lưu ý những hạn chế đã biết (nguy cơ ảo giác đối với các chi tiết thực tế nhỏ, hiển thị văn bản dài trong hình ảnh, các trường hợp ngoại lệ khi chuyển đổi phong cách) — vì vậy, điểm chuẩn chỉ mang tính chất tham khảo, không phải là sự đảm bảo.

Bạn có thể làm gì với Gemini 2.5 Flash Image (trường hợp sử dụng)?

Gemini 2.5 Flash Image được thiết kế chuyên biệt cho các tình huống sáng tạo, năng suất và hình ảnh ứng dụng. Các trường hợp sử dụng điển hình và mới nổi bao gồm:

Mô hình sản phẩm nhanh chóng và thương mại điện tử

Kéo ảnh sản phẩm vào cảnh, tạo hình ảnh danh mục nhất quán giữa các môi trường, hoặc hoán đổi màu sắc/vải trên toàn bộ dòng sản phẩm — tất cả đều đồng thời bảo toàn bản sắc của sản phẩm. Tính năng kết hợp nhiều hình ảnh và tính nhất quán giữa đặc điểm và sản phẩm giúp công cụ này trở nên hấp dẫn cho quy trình làm việc trong danh mục.

Chỉnh sửa ảnh và chỉnh sửa mục tiêu

Loại bỏ vật thể, sửa khuyết điểm, thay đổi trang phục/phụ kiện hoặc điều chỉnh ánh sáng bằng lời nhắc ngôn ngữ tự nhiên. Khả năng chỉnh sửa bản địa hóa cho phép người dùng không chuyên thực hiện chỉnh sửa ảnh theo phong cách chuyên nghiệp bằng các lệnh hội thoại.

Phân cảnh và kể chuyện bằng hình ảnh

Đặt cùng một nhân vật vào nhiều cảnh khác nhau và giữ cho diện mạo của họ nhất quán (hữu ích cho truyện tranh, bảng phân cảnh hoặc bản thuyết trình). Chỉnh sửa lặp lại cho phép người sáng tạo tinh chỉnh tâm trạng, khung hình và tính liên tục của câu chuyện mà không cần xây dựng lại nội dung từ đầu.

Giáo dục, sơ đồ và thiết kế nguyên mẫu

Vì có thể kết hợp lời nhắc văn bản và hình ảnh, đồng thời sở hữu "kiến thức thế giới", mô hình này có thể giúp tạo sơ đồ có chú thích, hình ảnh giáo dục hoặc bản mô phỏng nhanh cho các bài thuyết trình. Google thậm chí còn làm nổi bật các mẫu trong AI Studio cho các trường hợp sử dụng như bản mô phỏng bất động sản và thiết kế sản phẩm.

Bạn sử dụng Nano Banana API như thế nào?

Dưới đây là những đoạn trích thực tế được chuyển thể từ Tài liệu API CometAPI và tài liệu API của Google. Chúng minh họa các luồng chung: chuyển văn bản thành hình ảnhhình ảnh + văn bản thành hình ảnh (chỉnh sửa) sử dụng GenAI SDK hoặc điểm cuối REST chính thức.

Lưu ý: trong tài liệu của CometAPI, tên mô hình xem trước xuất hiện dưới dạng gemini-2.5-flash-image-preview. Các ví dụ bên dưới phản ánh các ví dụ SDK chính thức (Python và JavaScript) và ví dụ REST curl; điều chỉnh các khóa và đường dẫn tệp cho phù hợp với môi trường của bạn.

Ví dụ về REST curl từ CometAPI

Sử dụng chính thức của Gemini generateContent điểm cuối để tạo văn bản thành hình ảnh. Đặt lời nhắc văn bản vào contents.parts[].text.Ví dụ (shell Windows, sử dụng ^ để tiếp tục dòng):

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{    "contents": [{
      "parts": [
        {"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
      ]
    }]
  }'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png

Phản hồi chứa các byte hình ảnh base64; đường ống ở trên trích xuất "data" chuỗi và giải mã nó thành gemini-generated.png.

Điểm cuối này hỗ trợ tạo "hình ảnh sang hình ảnh": tải lên hình ảnh đầu vào (dưới dạng Base64) và nhận hình ảnh mới đã sửa đổi (cũng ở định dạng Base64).Ví dụ:

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{  \"contents\":     }  ],  \"generationConfig\": {    \"responseModalities\":   }}"

**Sự miêu tả:**Đầu tiên, chuyển đổi tệp hình ảnh nguồn của bạn thành chuỗi Base64 và đặt nó vào inline_data.data. Không bao gồm các tiền tố như data:image/jpeg;base64,.Đầu ra cũng nằm ở candidates.content.parts và bao gồm: Một phần văn bản tùy chọn (mô tả hoặc lời nhắc). Phần hình ảnh như inline_data (Ở đâu data là Base64 của hình ảnh đầu ra). Đối với nhiều hình ảnh, bạn có thể thêm chúng trực tiếp, ví dụ:

{
  "inline_data": {
    "mime_type": "image/jpeg",
    "data": "iVBORw0KGgo...",
    "data": "iVBORw0KGgo..."
  }
}

Dưới đây là các ví dụ dành cho nhà phát triển được trích từ tài liệu và blog chính thức của Google. Hãy thay thế thông tin đăng nhập và đường dẫn tệp bằng thông tin của riêng bạn.

Python (phong cách SDK chính thức)

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"

# Text-to-Image

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=,
)

for part in response.candidates.content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

Đây là đoạn mã Python chuẩn từ tài liệu của Google (hiển thị ID mô hình xem trước). Mẫu lệnh gọi SDK tương tự hỗ trợ chỉnh sửa hình ảnh + lời nhắc (truyền hình ảnh làm một trong các contents).Chi tiết hơn tham khảo tại bác sĩ song tử

Kết luận

Nếu sản phẩm của bạn cần tạo hình ảnh mạnh mẽ, độ trễ thấp và đặc biệt là chỉnh sửa đáng tin cậy với sự nhất quán về chủ đềGemini 2.5 Flash Image hiện là một lựa chọn đáng để đánh giá ở cấp độ sản xuất: nó kết hợp chất lượng hình ảnh tiên tiến với các API được thiết kế để tích hợp cho nhà phát triển (AI Studio, Gemini API và Vertex AI). Hãy cân nhắc kỹ lưỡng các hạn chế hiện tại của mô hình (chữ nhỏ trong hình ảnh, một số trường hợp ngoại lệ về cách điệu) và triển khai các biện pháp bảo vệ sử dụng có trách nhiệm.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Các nhà phát triển có thể truy cập Hình ảnh Flash Gemini 2.5(Danh sách Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image (các mục nhập kiểu trong danh mục của họ.) thông qua CometAPI, phiên bản mô hình mới nhất được liệt kê là tính đến ngày xuất bản bài viết. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%