Cách sử dụng API của Nano Banana 2

CometAPI
AnnaFeb 27, 2026
Cách sử dụng API của Nano Banana 2

Nano Banana 2 — cách viết tắt mà cộng đồng dùng cho mô hình tạo ảnh mới nhất của Google trong họ Gemini — đã nhanh chóng tái định hình kỳ vọng về tạo và chỉnh sửa ảnh nhanh, độ trung thực cao. Ra mắt vào cuối tháng 2 năm 2026, biến thể “Flash Image” này (Gemini 3.1 Flash Image / Nano Banana 2) nhắm tới nhà phát triển và đội ngũ sản phẩm cần đầu ra cấp độ chuyên nghiệp với thông lượng cao và độ trễ thấp. Trong bài viết này, tôi tổng hợp các báo cáo và tài liệu mới nhất để giải thích Nano Banana 2 là gì, hiệu năng trên các điểm chuẩn, cách truy cập và gọi (bao gồm qua các cổng bên thứ ba như CometAPI), cùng những mẫu prompt và cách dùng thực tiễn bạn có thể áp dụng trong môi trường sản xuất.

CometAPI cung cấp một giao diện kiểu HTTP duy nhất, phơi bày nhiều mô hình (bao gồm mô hình ảnh) dưới các điểm cuối nhất quán. Điều này có thể đơn giản hóa việc chuyển đổi giữa nhà cung cấp hoặc kết hợp đầu ra từ nhiều mô hình. Nano Banana 2 (Gemini 3.1 Image) đã khả dụng trên CometAPI.

Nano Banana 2 là gì?

Nano Banana 2 (được liên kết nội bộ với Gemini 3.1 Flash Image) là một mô hình tạo ảnh tập trung, hiệu suất cao từ Google, ưu tiên tốc độ, chi phí trên mỗi ảnh thấp hơn và khả năng tuân thủ hướng dẫn mạnh hơn cho các tác vụ hình ảnh sáng tạo và biên tập. Mô hình được thiết kế để song hành cùng các biến thể “Pro” có độ trung thực cao hơn: Nano Banana 2 cho thông lượng cao và Nano Banana Pro (Gemini 3 Pro Image) cho đầu ra cấp độ tài sản cao cấp.

Mô hình được thiết kế để mang lại:

  • Suy luận nhanh (nhắm tới độ trễ rất thấp để việc tạo và chỉnh sửa ảnh gần như tức thời).
  • Chất lượng thị giác cao tiệm cận họ “Pro” nhưng với chi phí/compute thấp hơn.
  • Khả năng tuân thủ hướng dẫn tốt hơn (kết xuất chính xác hơn các chủ thể được yêu cầu, chữ trong ảnh, và cảnh nhiều nhân vật).
  • Hỗ trợ rộng về độ phân giải và tỷ lệ khung hình, từ các bản xem trước nhỏ nhanh cho tới quy trình gốc 2K/4K cho tài sản cuối.

Điều gì khiến Nano Banana 2 khác với Nano Banana bản gốc / Pro?

  • Kiến trúc / engine: Xây dựng trên ngăn xếp suy luận Flash của Gemini (Gemini 3.1 Flash Image), vì vậy mô hình đánh đổi một số thiết lập chất lượng tối đa để đổi lấy cải thiện đáng kể về tốc độ và chi phí.
  • Trường hợp sử dụng: Lý tưởng cho tự động hóa quy mô lớn (tài sản marketing, ảnh thu nhỏ, UI), chỉnh sửa gần thời gian thực, và các quy trình trong đó độ trễ và chi phí quan trọng nhưng vẫn cần độ trung thực chủ thể cấp Pro.

Hiệu năng điểm chuẩn của Nano Banana 2

Cách sử dụng API của Nano Banana 2

Nhất quán trên các hạng mục

Gemini 3.1 Flash Image thể hiện cải thiện có thể đo lường ở mọi hạng mục được báo cáo so với Gemini 2.5 Flash.

Mức cải thiện mạnh nhất

  • Chất lượng thị giác
  • Chỉnh sửa hợp thành đa đầu vào
  • Độ bền vững chỉnh sửa tổng quát

Vị thế cạnh tranh

  • Dẫn đầu mức độ ưa thích tổng thể trong GenAI-Bench nội bộ.
  • Vượt GPT-Image 1.5 về các chỉ số tổng thể và thị giác.
  • Những cải thiện tăng dần nhỏ gợi ý việc tinh chỉnh kiến trúc hơn là một thay đổi cấp tiến.

Làm thế nào để truy cập Nano Banana 2?

Nơi khả dụng

Nano Banana 2 có thể truy cập qua công cụ Gemini của Google (ứng dụng Gemini), Gemini API (được ghi trong tài liệu dành cho nhà phát triển AI của Google), và đang được hiển thị qua các sản phẩm doanh nghiệp trên đám mây như Vertex AI cho bản xem trước/tích hợp doanh nghiệp. CometAPI cũng đã công bố hỗ trợ và các wrapper để giúp tích hợp dễ dàng.

Cách sử dụng API Nano Banana 2 (CometAPI): có những lựa chọn nào?

Hướng dẫn của CometAPI sử dụng cấu trúc generateContent kiểu Gemini và trả về ảnh dưới dạng Base64 trong candidates[0].content.parts[].inline_data.data. Bạn phải giải mã Base64 đó để lưu tệp phía client. Bạn chỉ cần thay thế https: //generativelanguage.googleapis.com bằng https://api.cometapi.com. Ảnh trả về thường được cung cấp dưới dạng inline_data đã mã hóa Base64. Bạn sẽ cần giải mã ở phía client và lưu thành tệp. CometAPI cung cấp mức giảm giá giúp bạn sử dụng API Nano Banana 2.

CometAPI cung cấp một REST wrapper hợp nhất và các điểm cuối rõ ràng cho các mô hình Gemini — lý tưởng nếu bạn muốn dùng một thông tin xác thực và chuyển nhà cung cấp mà không cần thay đổi mã ứng dụng. Với Nano Banana 2, trang CometAPI có sẵn đoạn curl trực tiếp cho điểm cuối gemini-3.1-flash-image-preview:generateContent. Dưới đây là ví dụ curl đã tinh gọn dựa trên tài liệu CometAPI.

Điều kiện tiên quyết để dùng Nano Banana 2 qua CometAPI

Tài khoản & API Key CometAPI: Tạo tài khoản trên CometAPI và tạo khóa truy cập API (sk-…). Đây là khóa bạn dùng để xác thực mọi yêu cầu API tới các điểm cuối của CometAPI.

Ngôn ngữ lập trình & runtime:

  • Node.js 18+ (cho JavaScript/TypeScript)
  • Python 3.10+
  • (Hoặc bất kỳ ngôn ngữ nào có thể gửi yêu cầu HTTP)

Công cụ HTTP hoặc SDK:

  • Với JavaScript: fetch, axios, hoặc client tương thích OpenAI
  • Với Python: requests, httpx, hoặc client OpenAI
  • Các công cụ này giúp bạn gửi lời gọi API và xử lý phản hồi.

Tổng quan nhanh về mẫu yêu cầu

  • Base URL: https://api.cometapi.com (CometAPI base).
  • Tên mô hình: gemini-3.1-flash-image-preview (Nano Banana 2 / gemini 3.1 Flash Image) hoặc gemini-2.5-flash-image tùy tình trạng khả dụng.
  • Auth: header Authorization: sk-xxxx — CometAPI thường dùng khóa kiểu sk-.
  • Phản hồi: ảnh được trả về dưới dạng Base64 trong response.candidates[0].content.parts[].inline_data.data. Giải mã và ghi ra đĩa.

Quy trình ví dụ (cấp cao)

  1. Lấy API key từ CometAPI.
  2. Chọn định danh mô hình (ví dụ gemini-3.1-flash-image hoặc tương tự, tùy tình trạng khả dụng).
  3. Gửi yêu cầu POST tới điểm cuối generate của mô hình với prompt của bạn.
  4. Xử lý dữ liệu ảnh trả về trong ứng dụng (giải mã base64, phục vụ dưới dạng PNG, v.v.).
  5. Với chỉnh sửa ảnh, kèm dữ liệu ảnh hiện có và hướng dẫn chỉnh sửa trong yêu cầu.

Sử dụng API Gemini chính thức (văn bản → ảnh)

Dưới đây là ví dụ Node.js ngắn cho cách gọi điểm cuối generateContent của gemini-3.1-flash-image-preview (phản chiếu các đoạn mẫu chính thức trong tài liệu). Thay YOUR_API_KEY bằng thông tin xác thực của bạn và thêm xử lý lỗi cho môi trường sản xuất.

# Get your CometAPI key from https://api.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"

mkdir -p ./output

curl -s "https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "role": "user",
        "parts": [
          {
            "text": "A woman leaning on a wooden railing of a traditional Chinese building. She is wearing a blue cheongsam with pink and red floral motifs and a headdress made of colorful flowers, including roses and lilacs. Realistic painting style, focusing on the textural details of the clothing patterns and wooden buildings."
          }
        ]
      }
    ],
    "generationConfig": {
      "responseModalities": ["IMAGE"],
      "imageConfig": {
        "aspectRatio": "9:16"
      }
    }
  }' | python3 -c "
import sys, json, base64
data = json.load(sys.stdin)
parts = data['candidates'][0]['content']['parts']
for part in parts:
    if 'text' in part:
        print(part['text'])
    elif 'inlineData' in part:
        img = base64.b64decode(part['inlineData']['data'])
        with open('./output/gemini-3.1-flash-image-preview.png', 'wb') as f:
            f.write(img)
        print('Image saved to ./output/gemini-3.1-flash-image-preview.png')
"

CometAPI cung cấp SDK và các wrapper client tương thích OpenAI, vì vậy một số đội có thể chuyển nhà cung cấp với lượng thay đổi mã tối thiểu, cho phép bạn yêu cầu đầu ra ảnh mã hóa Base64 hoặc URL được lưu trữ tùy cấu hình. Luôn kiểm tra lược đồ generateContent chính thức để nắm chính xác các trường payload.

Quy trình Ảnh→Ảnh (chỉnh sửa)

Để chỉnh sửa ảnh hiện có:

  1. Chuyển ảnh nguồn của bạn sang Base64 (không có tiền tố data:image/...;base64,).
  2. Gửi POST với payload bao gồm inline_data.data chứa chuỗi Base64 đó và một prompt chỉnh sửa (ví dụ: “đổi nền thành bầu trời hoàng hôn, xóa watermark”).
  3. Phản hồi sẽ bao gồm một đầu ra Base64 mới để giải mã và lưu.
curl 
--location 
--request POST 'https://api.cometapi.com/v1beta/models/gemini-3.1-flash-image-preview:generateContent' \ 
--header 'Authorization: ' \ 
--header 'Content-Type: application/json' \ 
--data-raw '{ "contents": 
[ { "role": "user", "parts": 
[ { "text": "Blend three images to output a high-resolution image" }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_first_image_base64_data_here>" } }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_second_image_base64_data_here>" } }, { "inline_data": { "mime_type": "image/jpeg", "data": "<your_third_image_base64_data_here>" } } 
] } 
], "generationConfig": { "responseModalities": [ "TEXT", "IMAGE" 
] } }'

Các tham số thường tinh chỉnh

  • model: chọn gemini-3.1-flash-image-preview (Nano Banana 2) hoặc gemini-3-pro-image-preview (Pro).
  • imageConfig.aspect_ratioimageConfig.image_size (512, 1K, 2K, 4K) — ảnh hưởng chi phí và độ trễ.
  • responseModalities: ["Image"] hoặc ["Text","Image"] cho các luồng đa phương thức.

Tôi nên soạn prompt cho Nano Banana 2 như thế nào?

Kỹ thuật prompt cho mô hình ảnh kết hợp bố cục, phong cách, gợi ý camera/ánh sáng và các câu lệnh ràng buộc. Nano Banana 2 được tinh chỉnh để tuân thủ hướng dẫn đáng tin cậy, vì vậy hãy cân bằng giữa ngắn gọn và rõ ràng.

Cấu trúc prompt (khuyến nghị)

  1. Chủ thể chính: ai/cái gì trong ảnh.
  2. Hành động hoặc trạng thái: chủ thể đang làm gì.
  3. Môi trường & tâm trạng: bối cảnh, ánh sáng, không khí.
  4. Chỉ thị kỹ thuật: ống kính, tỷ lệ khung hình, độ phân giải, bố cục.
  5. Phong cách & tham chiếu: phong cách nghệ thuật, tham chiếu nghệ sĩ (lưu ý quy tắc bản quyền), thời kỳ.
  6. Ràng buộc: số nhân vật/đối tượng, tránh màu nhất định, kèm văn bản dễ đọc.

Prompt mẫu:

“Một hình ảnh siêu thực của quả chuối nhỏ màu vàng có hình dạng như tên lửa cổ điển, đặt trên bàn gỗ gụ bóng trong một studio ngập nắng. Ống kính 50mm, độ sâu trường ảnh nông, ánh sáng giờ vàng ấm áp, chi tiết cao, không có logo hiển thị, 2048×1152.”

Mẹo cho prompt chỉnh sửa (inpainting / thay thế)

  • Cung cấp mặt nạ rõ ràng và chỉ định vùng nào cần thay đổi.
  • Dùng cách diễn đạt “giữ nguyên” cho các vùng cần giữ (ví dụ: “giữ nguyên nét mặt của chủ thể, chỉ thay nền”).
  • Với chữ trong ảnh, cung cấp chính xác nội dung chữ và nêu phông/kiểu chữ (ví dụ: “sans-serif dễ đọc, căn giữa”). Nano Banana 2 nhấn mạnh khả năng dựng chữ tốt hơn, nhưng hãy diễn đạt rõ ràng.

Danh sách kiểm tra gỡ lỗi prompt

  • Nếu đầu ra lệch: thử đơn giản hóa — giảm hướng dẫn phong cách sáng tạo trước, rồi bổ sung lại chi tiết từng bước.
  • Nếu chữ khó đọc: chỉ định phông, cỡ và độ tương phản trong prompt và tăng độ phân giải.
  • Nếu bố cục sai: dùng đặc tả góc máy và ống kính.

Những sai lầm thường gặp và cách tránh

Sai lầm: Quá phụ thuộc vào prompt một lần

Tránh kỳ vọng một prompt duy nhất xử lý việc cắt xén, bố cục và chỉnh sửa nhiều bước. Chia công việc thành: tạo bản nền → chỉnh sửa/thay thế → đánh bóng lần cuối. Dùng seed và mặt nạ để tăng độ chính xác.

Sai lầm: Bỏ qua truy xuất nguồn gốc và kiểm tra bản quyền

Đừng triển khai ở quy mô lớn mà không có SynthID/C2PA hoặc cơ chế truy xuất nguồn gốc khác. Nhiều doanh nghiệp yêu cầu khả năng truy vết cho nội dung có nguồn gốc AI.

Sai lầm: Ngân sách vượt kiểm soát

Theo dõi mức sử dụng ở cấp mô hình và điểm cuối, đặt giới hạn cứng qua nhà cung cấp hoặc proxy. Tầng Flash rẻ hơn nhưng vẫn có thể tốn kém nếu bạn vô tình render hàng nghìn ảnh 4K.

Thực tiễn khuyến nghị với Nano Banana 2?

Đưa tạo ảnh vào sản xuất đòi hỏi chú ý tới chi phí, độ trễ, kiểm soát chất lượng, truy xuất nguồn gốc và an toàn. Dưới đây là các thực tiễn hữu ích chắt lọc từ báo cáo hiện trường, tài liệu Google và thử nghiệm cộng đồng.

Kỹ thuật prompt & đầu ra quyết định được

  • Tạo mẫu prompt: với đầu ra lặp lại (ví dụ ảnh sản phẩm), dùng prompt có cấu trúc với các đoạn cố định (chủ thể, camera, ánh sáng, kết cấu, hậu kỳ). Điều này giảm trôi giữa các lần gọi.
  • Dùng ảnh tham chiếu và hướng dẫn mặt nạ cho chỉnh sửa thay vì cố gắng đạt các chỉnh sửa cục bộ phức tạp qua văn bản thuần — cách này giảm lỗi ngữ nghĩa và artefact.

Tinh chỉnh chi phí & hiệu năng

  • Chọn chế độ Flash/“Nano Banana 2” cho khối lượng lớn: Nếu cần nhiều vòng lặp nhanh, dùng mô hình tầng Flash và kích thước nhỏ hơn (2K so với 4K) để giảm chi phí và độ trễ.
  • Gộp yêu cầu khi có thể: một số nhà cung cấp cho phép gộp nhiều prompt — giảm tổng độ trễ cho mỗi tài sản tạo ra trong các pipeline thông lượng cao. (Kiểm tra tài liệu nhà cung cấp.)

An toàn, truy xuất nguồn gốc và pháp lý

  • Bật SynthID và metadata C2PA trên tài sản tạo ra để hỗ trợ kiểm toán và tuân thủ phía hạ nguồn (đặc biệt khi ảnh dùng trong quảng cáo/PR). Google và đối tác nhấn mạnh SynthID như cơ chế truy xuất nguồn gốc.
  • Con người tham gia duyệt cho nội dung nhạy cảm: lớp chính sách tự động mạnh nhưng chưa hoàn hảo — dùng kiểm tra thủ công cho chiến dịch công khai hoặc nội dung liên quan nhân vật công chúng.

Đảm bảo chất lượng

  • Tự động hóa kiểm tra QA: chạy bộ phân loại nhanh sau tạo để phát hiện artefact bất thường (lỗi dựng chữ, độ trung thực khuôn mặt thấp, vô tình tạo logo). Duy trì hệ thống chấm điểm và phương án dự phòng chuyển sang render tầng Pro nếu kiểm tra tự động thất bại.
  • Lưu prompt và seed: để đảm bảo khả năng kiểm toán và tái tạo, lưu chính xác prompt, timestamp, phiên bản mô hình và bất kỳ seed hoặc tham số quyết định nào dùng.

UX nhạy cảm với độ trễ

  • UX tiến triển: trả về bản nháp độ phân giải thấp/nhanh trước, rồi thay bằng render độ phân giải cao/Pro khi sẵn sàng. Điều này giữ ứng dụng phản hồi tốt (nhiều nhà cung cấp có “bản nháp” hoặc hương vị Flash).

Ghi chú cuối & bước tiếp theo

Nano Banana 2 được xây dựng để thay đổi kinh tế của các quy trình sản xuất ưu tiên hình ảnh: độ trễ thấp và chi phí thấp trên mỗi lần gọi mở ra các trường hợp như tạo tài sản quảng cáo theo yêu cầu, thử nghiệm A/B sáng tạo nhanh, và công cụ thiết kế cộng tác thời gian thực. Mô hình đã được tích hợp trên các bề mặt tiêu dùng và đám mây của Google; với nhà phát triển muốn triển khai nhanh, CometAPI cung cấp một wrapper marketplace tiện dụng hỗ trợ các điểm cuối mô hình ảnh Gemini cùng các mô hình khác — một bước đi thực tế khi bạn muốn thử nghiệm nhiều engine mà không đổi mã ứng dụng.
Nhà phát triển có thể truy cập Nano Banana 2 qua CometAPI ngay bây giờ. Để bắt đầu, khám phá khả năng của mô hình trong Playground và tham khảo hướng dẫn API để biết chỉ dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu? → Đăng ký Nano Banana 2 ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, XDiscord!

Truy cập các Mô hình Hàng đầu với Chi phí Thấp

Đọc thêm