API hình ảnh Flash Gemini 2.5 (Nano-Banana)

CometAPI
AnnaSep 10, 2025
API hình ảnh Flash Gemini 2.5 (Nano-Banana)

Gemini 2.5 Flash Image (hay còn gọi là "Nano Banana") là mô hình tạo và chỉnh sửa hình ảnh gốc mới nhất của Google trong dòng Gemini 2.5. Nó tập trung vào khả năng hợp nhất nhiều hình ảnh, chỉnh sửa ngôn ngữ tự nhiên chính xác và quy trình làm việc đa phương thức nhanh chóng.

Giới thiệu về mô hình

Nó là gì — Hình ảnh Flash Gemini 2.5 là một mô hình tạo và chỉnh sửa hình ảnh đa phương thức được xây dựng trên nền tảng Gemini 2.5. Nó được thiết kế để sản xuất hình ảnh thực tế, biểu diễn chỉnh sửa có mục tiêu (inpainting, chuyển đổi phong cách, hoán đổi đối tượng) và trộn nhiều hình ảnh nguồn thành một đầu ra mạch lạc duy nhất — trong khi áp dụng khả năng lập luận ngôn ngữ được cải thiện của Gemini để kiểm soát thành phần và ngữ nghĩa.

Đặc tính nổi bật

  • Tạo và chỉnh sửa hình ảnh gốc — tạo hình ảnh hoặc chỉnh sửa ảnh hiện có thông qua lời nhắc bằng ngôn ngữ tự nhiên. (Tạo / Chỉnh sửa).
  • Hợp nhất nhiều hình ảnh — kết hợp nhiều hình ảnh đầu vào thành một cảnh chân thực.
  • Tính nhất quán của ký tự — giữ nguyên chủ đề hoặc hình ảnh nhân vật trong các lần chỉnh sửa và nhắc nhở. (Tính nhất quán).
  • Đánh dấu bản quyền SynthID — tất cả các đầu ra bao gồm một SynthID vô hình để xác định nội dung do AI tạo ra. (Hình mờ).

Chi tiết kỹ thuật

  • Kiến trúc và vị trí: được xây dựng trên nền tảng Gemini 2.5 Flash — được thiết kế như một độ trễ thấp Biến thể "Flash" đánh đổi một chút kích thước/thông lượng mô hình để có phản hồi nhanh hơn nhiều cho mỗi cuộc gọi và hiệu quả về chi phí trong khi vẫn duy trì khả năng lập luận mạnh mẽ hơn so với các tầng Flash trước đó.
  • Định dạng và giới hạn đầu vào: chấp nhận hình ảnh base64 nội tuyến cho các đầu vào nhỏ và tải lên tệp thông qua API Tệp ​​cho hình ảnh lớn hơn (khuyến nghị cho hình ảnh >20 MB). Hỗ trợ các định dạng MIME phổ biến (JPEG, PNG).
  • Phương thức hoạt đông: chuyển văn bản thành hình ảnh, chỉnh sửa hình ảnh (tô màu/che ngữ nghĩa), chuyển đổi kiểu, ghép nhiều hình ảnh và xen kẽ phản hồi văn bản + hình ảnh (hữu ích cho hướng dẫn minh họa, công thức nấu ăn hoặc nội dung hỗn hợp).
  • Nguồn gốc và cơ chế an toàn: hình mờ có thể nhìn thấy trên đầu ra AI cùng với các dấu hiệu SynthID ẩn và các lớp thực thi chính sách để hạn chế nội dung không được phép rõ ràng.

Hiệu suất điểm chuẩn

API hình ảnh Flash Gemini 2.5 (Nano-Banana)

Hạn chế và rủi ro đã biết

  • Ràng buộc chính sách nội dung: các mô hình thực thi chính sách nội dung (ví dụ: không cho phép nội dung khiêu dâm rõ ràng và một số nội dung bất hợp pháp), nhưng việc thực thi không hoàn hảo — việc tạo hình ảnh của các nhân vật công chúng hoặc biểu tượng gây tranh cãi vẫn có thể khả thi trong một số trường hợp, vì vậy kiểm tra chính sách là điều cần thiết. )
  • Chế độ thất bại: có thể sự trôi dạt bản sắc trong các chỉnh sửa cực đoan, đôi khi không khớp ngữ nghĩa (khi lời nhắc không được chỉ định rõ) và hiện tượng lạ trong các cảnh rất phức tạp hoặc thay đổi góc nhìn cực đoan.
  • Nguồn gốc và sử dụng sai mục đích: mặc dù có hình mờ và SynthID, nhưng chúng không ngăn chặn được việc sử dụng sai mục đích — chúng hỗ trợ phát hiện và xác định nhưng không thể thay thế cho việc xem xét của con người trong các quy trình làm việc nhạy cảm.

Các trường hợp sử dụng điển hình

  • Sản phẩm & thương mại điện tử: đặt/liệt kê sản phẩm vào các bức ảnh phong cách sống thông qua việc hợp nhất nhiều hình ảnh.
  • Công cụ sáng tạo / thiết kế: lặp lại nhanh trong các ứng dụng thiết kế (trích dẫn tích hợp Adobe Firefly).
  • Chỉnh sửa và chỉnh sửa ảnh: chỉnh sửa bản địa hóa từ ngôn ngữ tự nhiên (xóa đối tượng, thay đổi màu sắc/ánh sáng, thay đổi kiểu dáng).
  • Kể chuyện / tài sản nhân vật: giữ cho các ký tự nhất quán trên nhiều tấm bảng và cảnh.

Cách gọi Hình ảnh Flash Gemini 2.5 API từ CometAPI

Gemini 2.5 Flash Image Giá API trong CometAPI,giảm giá 20% so với giá chính thức:

Giá$0.3120

Các bước cần thiết

  • Đăng nhập vào " cometapi.com. Nếu bạn chưa phải là người dùng của chúng tôi, vui lòng đăng ký trước
  • Nhận khóa API thông tin xác thực truy cập của giao diện. Nhấp vào “Thêm mã thông báo” tại mã thông báo API trong trung tâm cá nhân, nhận khóa mã thông báo: sk-xxxxx và gửi.
  • Lấy url của trang web này: https://api.cometapi.com/

Phương pháp sử dụng

  1. Chọn hàngGemini-2.5 Flash-Image” điểm cuối để gửi yêu cầu API và thiết lập nội dung yêu cầu. Phương thức yêu cầu và nội dung yêu cầu được lấy từ tài liệu API của trang web của chúng tôi. Trang web của chúng tôi cũng cung cấp thử nghiệm Apifox để thuận tiện cho bạn.
  2. Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn.
  3. Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung—đây là nội dung mà mô hình sẽ phản hồi.
  4. . Xử lý phản hồi API để nhận được câu trả lời đã tạo.

CometAPI cung cấp một API REST hoàn toàn tương thích—cho việc di chuyển liền mạch. Chi tiết chính để  Tài liệu API:

  • Điểm cuối: https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent
  • Thông số mô hình: gemini-2.5-flash-image-preview / gemini-2.5-flash-image
  • Xác thực: Bearer YOUR_CometAPI_API_KEY
  • Loại-Nội dung: application/json .

Lưu ý: Khi gọi API, hãy đặt tham số “stream”: true.

curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
    "contents": [
        {
            "role": "user",
            "parts": [
                {
                    "text": "cat"
                },
                {
                    "inline_data": {
                        "mime_type": "image/jpeg",
						"data": "iVBORw0KGgoA Note: Base64 data here"
						}

            ]
        }
    ],
    "generationConfig": {
        "responseModalities": [
            "TEXT",
            "IMAGE"
        ]
    }
}'

Xem thêm API GPT-image-1

SHARE THIS BLOG

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%