Nano Banana của Google — tên mã thân thiện cho mô hình hình ảnh của gia đình Gemini (được phát hành chính thức dưới dạng Hình ảnh Flash Gemini 2.5) — đã làm rung chuyển ngành hình ảnh tạo sinh khi nó xuất hiện vào năm 2025. Giờ đây, câu chuyện dường như đang bước vào màn thứ hai: Các tín hiệu gần đây trong giao diện Gemini chỉ ra một bản phát hành tiếp theo, được gọi rộng rãi là Nano Chuối 2 và có tên mã nội bộ GEMPIX2. Mô hình thế hệ tiếp theo này hứa hẹn sẽ mở rộng phạm vi sáng tạo của ngăn xếp đa phương thức của Gemini, mang lại khả năng tạo ra nội dung có độ trung thực cao hơn và quy trình chỉnh sửa nhanh hơn, dễ kiểm soát hơn, hướng đến những nhà sáng tạo và nhà phát triển chuyên nghiệp.
Trong bài viết này, tôi sẽ giải thích những gì chúng tôi biết, những gì hợp lý và tại sao GEMPIX2 có thể quan trọng trong quy trình làm việc sáng tạo, hình ảnh doanh nghiệp và tích hợp sản phẩm.
Nano Banana thực chất là gì và tại sao nó lại quan trọng ngay từ đầu?
Nano Banana bắt đầu tồn tại như một cái tên thân thiện với tiếp thị cho một bản nâng cấp lớn cho khả năng tạo và chỉnh sửa hình ảnh Gemini của Google — đôi khi được tham chiếu trong tài liệu là Hình ảnh Flash Gemini 2.5 — cho phép người dùng trộn ảnh, duy trì tính nhất quán của ký tự qua các lần chỉnh sửa và áp dụng các hướng dẫn chuyển đổi mục tiêu với lời nhắc ngôn ngữ tự nhiên. Tóm lại: nó đã biến một mô hình đa phương thức hội thoại thành một studio hình ảnh thực tế, linh hoạt bên trong Gemini. Các trang i chính thức của Gemini và blog Google đã tóm tắt khả năng trộn ảnh, thay đổi trang phục và chuyển đổi các thuộc tính phong cách giữa các đối tượng.
Nano Banana đầu tiên (Gemini 2.5 Flash Image) đã thiết lập một chuẩn mực: tạo và chỉnh sửa hình ảnh chặt chẽ, mang tính hội thoại, có thể kết hợp nhiều ảnh đầu vào, duy trì tính nhất quán của nhân vật/chủ thể trong suốt quá trình chỉnh sửa và thực hiện các chuyển đổi chi tiết dựa trên lời nhắc. GEMPIX2 đang được thảo luận như một bước tiến hóa — và trong những lĩnh vực quan trọng, là một thế hệ — nâng cấp cho bộ khả năng đó chứ không phải là một sự tái tạo.
Tại sao điều này lại quan trọng với người sáng tạo và doanh nghiệp
Sự ra đời của Nano Banana đã thay đổi cách tính toán của các nhà sáng tạo và đội ngũ sản phẩm, những người cần một phương pháp nhanh chóng để lặp lại hình ảnh mà không cần phải dùng đến Photoshop. Nó kết hợp hai yếu tố giá trị: trực quan của lời nhắc văn bản với khả năng chỉnh sửa nhận diện hình ảnh, giữ nguyên sự giống nhau của chủ thể và chi tiết cục bộ. Điều này đồng nghĩa với việc các nhà sáng tạo quảng cáo, quản lý mạng xã hội, nhóm thương mại điện tử và họa sĩ game độc lập có thể tạo nguyên mẫu cảnh, tạo ra các biến thể và thực hiện chỉnh sửa phức tạp với ít bước hơn rất nhiều. Bộ tính năng này cho phép vượt ra ngoài phạm vi nghệ thuật sáng tạo "một lần" và trở thành các tài sản nhất quán, có thể tái tạo, phù hợp với quy trình sản xuất.
Có bằng chứng nào cho thấy Nano Banana 2.0 sắp ra mắt không?
Yếu tố kích hoạt công khai cụ thể nhất là sự xuất hiện của một thẻ thông báo trong giao diện người dùng web Gemini có tham chiếu đến một tên mã nghe có vẻ nội bộ — được báo cáo rộng rãi là GEMPIX2 — và mô tả bản cập nhật sắp tới liên quan đến các tính năng tạo hình ảnh của Google. Đây là một đoạn giới thiệu kinh điển trước khi phát hành: một tín hiệu nhẹ nhàng được đặt trong giao diện người dùng để chuẩn bị cho các nhà sáng tạo và đối tác trước khi ra mắt.
Điều này tuân theo một mô hình mà Google đã sử dụng trước đây: triển khai và công bố theo giai đoạn bên trong Gemini, Tìm kiếm và các trải nghiệm tích hợp (ví dụ: đợt ra mắt Nano Banana đầu tiên được giới thiệu với tên gọi Gemini 2.5 Flash Image). Đợt triển khai trước đó — được định vị là một mô hình ảnh flash cải thiện khả năng chỉnh sửa ảnh, bố cục và hợp nhất nhiều hình ảnh — cung cấp dòng sản phẩm mà Nano Banana 2.0 sẽ mở rộng. Tóm lại, chúng ta không chỉ thấy một tin đồn riêng lẻ; chúng ta đang thấy những mẩu tin chi tiết về giao diện người dùng cùng với một tiền lệ.
Nano Banana 2 sắp ra mắt — nó sẽ có những tính năng gì?
Ở cấp độ tính năng, sự kết hợp tốt nhất giữa thông tin công khai và suy luận có căn cứ sẽ hướng đến một tập hợp các nâng cấp tập trung: đầu ra có độ phân giải cao hơn, chỉnh sửa lặp lại nhanh hơn, tính nhất quán về ký tự và đối tượng đáng tin cậy hơn trong các lần chỉnh sửa và khả năng hợp nhất nhiều hình ảnh được cải thiện.
Đường ống nhanh hơn và độ phân giải đầu ra cao hơn
Bản xem trước nội bộ cho thấy GEMPIX2 hướng đến một bước nhảy vọt về chất lượng xuất: khả năng xuất hình ảnh 4K và thời gian render nhanh hơn đáng kể được nhắc đến nhiều lần trong báo cáo và trong các thẻ giới thiệu của Gemini UI. Sự kết hợp này rất quan trọng — các nhà sáng tạo muốn có những nội dung cuối cùng có thể chuyển thẳng sang dòng thời gian video hoặc bố cục in mà không cần nâng cấp hay chỉnh sửa. Hãy mong đợi các cài đặt trước và cấu hình xuất được tinh chỉnh cho các đích cuối cùng phổ biến (mạng xã hội, web, in ấn, khung hình video).
Cải thiện độ chính xác chỉnh sửa và chuyển đổi nhận biết lớp
Nano Banana ban đầu được khen ngợi vì khả năng duy trì tính nhất quán của nhân vật (giữ cho người hoặc linh vật nhất quán qua các lần chỉnh sửa). GEMPIX2 dường như mở rộng khả năng này với lựa chọn chính xác hơn và điều khiển theo lớp thông qua ngôn ngữ: bạn có thể chỉ thị cho nó "chỉ thay thế áo khoác của người ở tiền cảnh, giữ nguyên kết cấu vải và giữ nguyên ánh sáng". Điều này ngụ ý khả năng phân tích đối tượng tốt hơn và khả năng thao tác cục bộ — thu hẹp hiệu quả khoảng cách giữa lời nhắc hội thoại và chỉnh sửa chọn lọc ở cấp độ pixel.
Hợp nhất nhiều hình ảnh, chuyển đổi phong cách và tính nhất quán về mặt thời gian
Phiên bản Nano Banana đầu tiên hỗ trợ việc kết hợp nhiều hình ảnh nguồn. GEMPIX2 khai thác tính năng này mạnh mẽ hơn, cho phép các cảnh ghép phong phú hơn và chuyển đổi phong cách mạch lạc hơn giữa các hình ảnh được kết hợp. Quan trọng hơn, việc kết hợp nhiều nguồn cùng với khả năng kiểm soát phong cách xác định hơn cho phép người sáng tạo có thể tạo ra các biến thể mà tất cả đều "cảm thấy" như một phần của cùng một hệ thống hình ảnh — một lợi thế lớn khi sản xuất phim bộ, hình thu nhỏ hoặc hình ảnh theo tập. Ngoài ra, còn có những gợi ý rằng nó sẽ xử lý tốt hơn tính nhất quán về mặt thời gian cho các video ngắn hoặc chỉnh sửa từng khung hình, đặt nền tảng cho các tính năng tập trung vào video trong tương lai.
Công cụ chuyên nghiệp: siêu dữ liệu, hình mờ và nguồn gốc
Hệ sinh thái công cụ hình ảnh của Google đã bao gồm những tính năng như hình mờ SynthID vô hình để đảm bảo tính minh bạch và nguồn gốc. GEMPIX2 dự kiến sẽ tích hợp chặt chẽ hơn các biện pháp này: xuất siêu dữ liệu, thẻ nguồn gốc và hình mờ hiển thị/ẩn tùy chọn để giúp các nền tảng, nhà xuất bản và nhà quản lý bản quyền đánh dấu tài sản do AI tạo ra theo chính sách và nhu cầu quy trình làm việc. Những tính năng này song song với nỗ lực rộng rãi hơn của ngành về khả năng truy xuất nguồn gốc trong phương tiện truyền thông được tạo ra.
Lặp lại nhanh hơn và độ trễ thấp hơn
Nano Banana đã đặt ra một chuẩn mực cao về tốc độ tương tác; GEMPIX2 được cho là nhắm đến thời gian lặp lại thậm chí còn nhanh hơn (các gợi ý phức tạp được báo cáo là hoàn thành trong vòng chưa đầy 10 giây trong các thử nghiệm ban đầu), giúp việc khám phá sáng tạo nhanh chóng trên A/Bing và trong phiên làm việc trở nên thiết thực hơn trên các máy khách di động và web. Tốc độ xử lý nhanh hơn giúp giảm thiểu việc chuyển đổi ngữ cảnh cho người sáng tạo và hỗ trợ quy trình thiết kế lặp lại.
Những cải tiến nhỏ hơn nhưng có ý nghĩa
- Suy luận về màu sắc/ánh sáng tốt hơn để chỉnh sửa vẫn giữ nguyên được tâm trạng ban đầu của ảnh.
- Cải thiện khả năng kiểm soát quyền riêng tư trên thiết bị để chỉnh sửa ảnh của mọi người.
- Cung cấp API cho các nhà phát triển để xây dựng các tính năng Nano Banana vào ứng dụng và dịch vụ.
Nano Banana 2.0 sẽ sử dụng kiến trúc nào?
Nano Banana 2 được xây dựng dựa trên mô hình hình ảnh đang phát triển của Google — thường được gọi là Hình ảnh Gemini 3 Pro hoặc họ hình ảnh Gemini lớn tiếp theo. Điều này sẽ đại diện cho một sự tiến hóa từ Gemini 2.5 "Flash Image" (Nano Banana nguyên bản) hướng tới một kiến trúc hình ảnh/văn bản/tầm nhìn thống nhất, dung lượng cao hơn với khả năng suy luận đa phương thức được cải thiện. Nói một cách dễ hiểu: GEMPIX2 đang được định vị là mô hình hình ảnh chuyên nghiệp có tính đa phương thức gốc, không chỉ đơn thuần là một trình tạo hình ảnh riêng biệt được gắn vào một mô hình văn bản.
Các đặc điểm kiến trúc chính cần mong đợi
- Xương sống của bộ chuyển đổi đa phương thức (kết hợp tầm nhìn + ngôn ngữ): Mục đích là suy luận về hình ảnh theo cách mô hình văn bản suy luận về ngôn ngữ: các thao tác theo ngữ cảnh, theo chuỗi suy nghĩ cho phép mô hình theo dõi các yếu tố cảnh, tính liên tục của câu chuyện và ngữ cảnh hướng dẫn qua nhiều lần chỉnh sửa. Điều này cải thiện cả việc tuân theo hướng dẫn và khả năng thực hiện các chỉnh sửa cảnh phức tạp.
- Các mô-đun con mã hóa/giải mã hình ảnh chuyên biệt: chi tiết có độ phân giải cao yêu cầu khả năng giải mã chuyên biệt cho độ trung thực ở cấp độ pixel (mô-đun siêu phân giải và loại bỏ hiện tượng nhiễu), cùng với mô-đun mã hóa có khả năng biểu diễn hiệu quả nhiều hình ảnh đầu vào để hợp nhất và căn chỉnh không gian.
- Nén tiềm ẩn + đường ống nâng cấp để tăng tốc độ: Để cung cấp khả năng chỉnh sửa gần như tức thì, GEMPIX2 có thể sử dụng giai đoạn tạo tiềm ẩn nhanh, tiếp theo là các bộ nâng cấp đã học để tạo ra đầu ra 4K mà không cần giải mã hồi quy tự động độ phân giải cao hoàn toàn ở mỗi lần lặp. Mô hình này cân bằng giữa tính tương tác và chất lượng.
- Lớp nhúng nguồn gốc và hình mờ: một bước ở cấp độ mô hình hoặc cấp độ đường ống, chèn một chữ ký vô hình (như SynthID) vào đầu ra để xác nhận nguồn gốc và cho phép xác minh hạ nguồn. Danh sách AI Studio và Gemini của Google đã đề cập đến các biện pháp xác minh nguồn gốc như vậy cho Gemini 2.5 Flash Image; GEMPIX2 dự kiến sẽ áp dụng và tinh chỉnh chúng.
Nó khác với Nano Banana 1 như thế nào?
Nano Banana đầu tiên (Gemini 2.5 Flash Image) nhấn mạnh tốc độ và khả năng chỉnh sửa chuyên nghiệp với khả năng nhận diện nhanh nhạy; đây là bước đầu tiên trong việc đưa tính năng chỉnh sửa hình ảnh theo kiểu hội thoại vào bộ công cụ đa phương thức rộng lớn hơn của Gemini. Sự phát triển có thể có của lõi "Gemini 3 Pro Image" cho thấy một số thay đổi về mặt kiến trúc:
- Các tham số đa phương thức lớn hơn và sự liên kết ngôn ngữ-thị giác tốt hơn — Sự chú ý chéo sâu hơn giữa các mã thông báo văn bản và hình ảnh tiềm ẩn giúp cải thiện khả năng tuân thủ ngữ nghĩa với lời nhắc và khả năng của mô hình trong việc thao tác các thành phần cụ thể trong một cảnh.
- Bộ giải mã gốc có độ phân giải cao hơn — Các kiến trúc có thể tạo ra hình ảnh 4K gốc (hoặc nâng cấp với ít hiện tượng nhiễu hơn) yêu cầu bộ giải mã và cơ chế chú ý được điều chỉnh cho đầu ra không gian lớn.
- Đường dẫn tính toán thưa thớt/nén để tăng hiệu quả — Để giữ độ trễ chỉnh sửa ở mức thấp trong khi vẫn tăng độ trung thực, Google có thể sử dụng các lớp chú ý thưa thớt, định tuyến chuyên gia hoặc bộ giải mã dựa trên ô/bản vá tập trung tính toán khi cần.
- Tăng tốc TPU và các lớp phục vụ được tối ưu hóa — Hạm đội TPU và ngăn xếp phục vụ mô hình của Google có thể đóng vai trò trong việc cung cấp GEMPIX2 ở quy mô lớn, đặc biệt nếu công ty muốn có trải nghiệm web và di động có độ trễ thấp cho hàng triệu người dùng.
GEMPIX2 sẽ là đa phương thức hay chỉ là hình ảnh?
Kiến trúc đa phương thức cho phép các lời nhắc văn bản, hình ảnh ví dụ và siêu dữ liệu bổ sung (như ngữ cảnh hoặc các chỉnh sửa trước đó) được xử lý cùng nhau, do đó mô hình có thể hiểu một hướng dẫn sử dụng và ứng dụng nó thành các điểm ảnh cụ thể theo cách nhất quán.
GEMPIX2 mong đợi tính đa phương thức. Tài liệu hướng dẫn của Google và cách đặt tên họ mô hình trước đây cho thấy mô hình hình ảnh sẽ vẫn được tích hợp chặt chẽ với văn bản và lập luận ngôn ngữ thị giác — chính xác là điều cho phép Nano Banana thực hiện các chỉnh sửa có hướng dẫn từ lời nhắc văn bản và kết hợp nhiều hình ảnh về mặt ngữ nghĩa. Một GEMPIX2 có thể lập luận trên nhiều phương thức sẽ có khả năng kể chuyện phong phú hơn, chỉnh sửa chính xác hơn và tích hợp tốt hơn với các tính năng tìm kiếm và trợ lý.
Tầm quan trọng của GEMPIX2 là gì?
Dành cho người sáng tạo và người tiêu dùng hàng ngày
- Lặp lại sáng tạo nhanh hơn: giảm thiểu ma sát cho việc khám phá sáng tạo có thể thay đổi cách người dùng thông thường tiếp cận hình ảnh — từ "một lần chụp hoàn hảo" đến cách kể chuyện nhanh chóng theo nhiều biến thể (ví dụ: tạo ra hàng chục hình ảnh sản phẩm hoặc ảnh nhân vật nhất quán).
- Dân chủ hóa đầu ra đạt tiêu chuẩn sản xuất: Khả năng xuất 4K và các tính năng chuyên nghiệp cho phép nội dung trước đây cần đến studio ảnh có thể được sản xuất hoặc tạo mẫu bởi các nhóm nhỏ hơn hoặc các nhà sáng tạo độc lập. Điều này sẽ thúc đẩy tiếp thị cho doanh nghiệp nhỏ, tạo mẫu nghệ thuật trò chơi độc lập và tạo mô hình quảng cáo nhanh chóng.
Dành cho các chuyên gia sáng tạo và các cơ quan
- Quy trình làm việc mới, tốc độ chạy nước rút nhanh hơn: Các công ty sẽ được hưởng lợi từ việc dựng hình nhân vật và tạo biến thể đáng tin cậy, nhất quán — hãy tưởng tượng việc tạo ra một chiến dịch hoàn chỉnh với cùng một mô hình quản lý tính liên tục trên hàng chục hình ảnh chính. Điều này giúp giảm chi phí quay phim tại studio và tăng tốc độ lặp lại trong quá trình đánh giá khách hàng.
- Tích hợp chuỗi công cụ: Giá trị của GEMPIX2 sẽ được khuếch đại nếu nó kết nối với các trình quản lý tài sản, kiểm soát phiên bản và quản lý quyền — cho phép các cơ quan xử lý tài sản tạo ra giống như bất kỳ tài sản sản xuất nào khác.
Rủi ro, hạn chế và câu hỏi mở
Rủi ro kỹ thuật
- Chi tiết ảo giác trong đồ họa thực tế: Các mô hình có thể tạo ra các chi tiết văn bản hợp lý nhưng không chính xác trong hình ảnh (biển báo, nhãn). Cần tiếp tục chú ý đến độ trung thực của tài liệu/đồ họa thông tin.
- Lỗi nhất quán trong trường hợp ngoại lệ: bất chấp những cải tiến, tính liên tục của ký tự nhiều hình ảnh vẫn là một lĩnh vực hiếm khi xảy ra lỗi; người dùng sản xuất sẽ yêu cầu khả năng tái tạo được đảm bảo hoặc các tính năng khôi phục mạnh mẽ.
Mối quan ngại về chính sách và lạm dụng
- Deepfake và việc sử dụng sai mục đích: Độ trung thực cao hơn khiến việc sử dụng sai mục đích dễ dàng hơn; các biện pháp ngăn chặn mạnh mẽ (siêu dữ liệu nguồn gốc, giới hạn tỷ lệ, thực thi chính sách) là rất cần thiết. Việc Google sử dụng hình mờ vô hình là một bước tiến quan trọng, nhưng các biện pháp kiểm soát nền tảng và quy định sẽ là một phần của cuộc thảo luận.
Câu hỏi kinh doanh và thương mại
- Mô hình định giá và truy cập: GEMPIX2 sẽ là tính năng miễn phí cho người dùng cá nhân, gói "Pro" trả phí hay điểm cuối chỉ dành cho doanh nghiệp? Google đã sử dụng các mô hình kết hợp (bản xem trước miễn phí + API trả phí), và câu trả lời sẽ ảnh hưởng đến xu hướng áp dụng.
- Khóa nền tảng so với hệ sinh thái mở: Làm thế nào để có thể dễ dàng xuất các tài sản có độ phân giải cao được tạo ra một cách sạch sẽ cùng với siêu dữ liệu để sử dụng bên ngoài hệ sinh thái của Google?
Người sáng tạo nên chuẩn bị như thế nào?
- Hãy thử nghiệm ngay với Nano Banana (phiên bản hiện tại): tìm hiểu những điểm mạnh và hạn chế của nó để bạn có thể di chuyển quy trình làm việc nhanh chóng khi GEMPIX2 ra mắt.
- Kiểm toán tài sản và đường ống: đảm bảo bạn có thể tiếp nhận đầu ra có độ phân giải cao hơn và quy trình xử lý hậu kỳ của bạn hỗ trợ kết xuất 4K.
- Ghi lại lời nhắc và công thức định dạng: nếu GEMPIX2 cải thiện khả năng khóa kiểu và tính nhất quán, việc có một thư viện các mẫu nhắc nhở sẽ giúp tăng tốc độ áp dụng.
Bắt đầu
Các nhà phát triển có thể truy cập API hình ảnh Flash Gemini 2.5 (Nano-Banana) thông qua CometAPI (CometAPI là nền tảng tổng hợp một cửa cho các API mô hình lớn, cung cấp khả năng tích hợp và quản lý liền mạch các dịch vụ API.), phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
Kết luận — những điều cần chú ý tiếp theo
GEMPIX2 (Nano Banana thế hệ thứ hai được đồn đại) có vẻ như là một sự phát triển thực dụng, hướng đến sản phẩm: xuất dữ liệu có độ phân giải cao hơn, chỉnh sửa nhanh hơn, cải thiện khả năng hợp nhất nhiều hình ảnh, tăng cường nguồn gốc và nền tảng phù hợp với kiến trúc Gemini đa phương thức thế hệ tiếp theo.
Cho dù bạn là nhà tiếp thị, quản lý sản phẩm, giám đốc sáng tạo, nhà phát triển game độc lập hay nhiếp ảnh gia nghiệp dư, GEMPIX2 dường như sẵn sàng thay đổi chi phí, tốc độ và độ trung thực của việc sản xuất tài sản hình ảnh. Sự kết hợp giữa khả năng xuất hình ảnh có độ phân giải cao hơn, độ trung thực của văn bản tốt hơn, tính nhất quán của ký tự và tốc độ lặp lại nhanh hơn sẽ giúp công cụ này trở nên chuyên nghiệp hơn theo cách mà các mô hình hình ảnh dành cho người tiêu dùng trước đây không thể làm được.
