Jak korzystać z Nano Banana za pośrednictwem API? (Gemini-2-5-flash-image)

CometAPI
AnnaDec 10, 2025
Jak korzystać z Nano Banana za pośrednictwem API? (Gemini-2-5-flash-image)

Nano Banana jest pseudonimem społecznościowym (i wewnętrznym skrótem) dla Google Obraz Flash Gemini 2.5 — wysokiej jakości, multimodalny model generowania i edycji obrazów o niskim opóźnieniu. Ten obszerny przewodnik (z kodem, wzorcami, krokami wdrożenia i przykładami CometAPI) przedstawia trzy praktyczne metody wywołań, których można użyć w środowisku produkcyjnym: (1) interfejs czatu zgodny z OpenAI (tekst→obraz), (2) oficjalny interfejs Google generateContent interfejs tekst→obraz i (3) oficjalny interfejs Google generateContent Interfejs obraz→obraz z wykorzystaniem wejścia/wyjścia Base64. Po drodze otrzymasz wskazówki krok po kroku dotyczące dystrybucji/wdrożenia, konfiguracji środowiska, sposobu pobierania operacji API z CometAPI, informacje o cenach i znaku wodnym oraz najlepsze wskazówki dotyczące niezawodnych i ekonomicznych rezultatów.

Czym jest Nano Banana (obraz Flash Gemini 2.5)?

Nano Banana to nieformalna nazwa Gemini 2.5 Flash Image, najnowszego modelu graficznego Google z rodziny Gemini. Został on zaprojektowany zarówno do fotorealistycznego generowania obrazu, jak i precyzyjnej edycji (edycje lokalne, łączenie wielu obrazów, spójne zachowanie znaków w różnych edycjach) i jest dostępny za pośrednictwem API Gemini Google, Google AI Studio oraz Vertex AI. Model jest dostarczany z niewidocznym znakiem wodnym SynthID potwierdzającym pochodzenie.

Dlaczego jest to ważne dla deweloperów: Nano Banana oferuje pojedynczy, wysokiej jakości model multimodalny, który może obsłużyć:

  • Tekst → Obraz (stwórz nowe obrazy z podpowiedzi tekstowych)
  • Obraz → Obraz (edytuj/przekształć dostarczone zdjęcie)
  • Mieszanie wielu obrazów (połączenie wielu zdjęć w jedną całość)
    Do wszystkiego można uzyskać dostęp za pośrednictwem oficjalnej strony Google generateContent punkty końcowe (Vertex AI / Gemini API) lub za pośrednictwem punktów końcowych zgodnych z OpenAI oferowanych przez zewnętrzne bramy API, takie jak CometAPI i OpenRouter. Oznacza to, że możesz zintegrować Gemini 2.5 Flash Image z istniejącymi bazami kodu zgodnymi z OpenAI lub bezpośrednio wywoływać oficjalne zestawy SDK Google.

W czym się wyróżnia

  • Skoncentrowane, lokalne zmiany (zmiana koloru koszulki, usuwanie obiektów, dostosowywanie pozycji).
  • Zachowanie spójności tematu i postaci w przypadku wszystkich ponownych edycji.
  • Łączenie/scalanie wielu obrazów w spójną całość.
  • Niskie opóźnienie i ekonomiczne wnioskowanie w porównaniu do bardziej zaawansowanych modeli badawczych (Google pozycjonuje modele „Flash” jako opcje o wysokiej przepustowości).

Jak skonfigurować środowisko programistyczne, aby móc wywoływać Nano Banana za pośrednictwem interfejsu API?

Poniżej znajduje się lista kontrolna krok po kroku, którą można traktować jako punkt odniesienia dla każdej z trzech metod połączeń opisanych dalej.

Wymagania wstępne (konta, klucze, kwota)

  1. Konto Google + projekt w chmurze — Jeśli planujesz wywołać Gemini bezpośrednio przez Google (Gemini API / Vertex AI), utwórz projekt Google Cloud i włącz interfejsy API Vertex AI / Gemini. Będziesz potrzebować rozliczeń i odpowiednich ról (np. Vertex AI Admin or Service Account z prawem wnioskowania).
  2. Dostęp do API Gemini — Niektóre modele obrazów Gemini są dostępne w wersji zapoznawczej lub o ograniczonej dostępności. W zależności od posiadanego konta konieczne może być poproszenie o dostęp lub skorzystanie z modelu za pośrednictwem Google AI Studio lub Vertex AI.
  3. CometAPI (opcjonalna bramka) — Jeśli wolisz jedno, niezależne od dostawcy API, które może obsługiwać różne modele (w tym Gemini), zarejestruj się w CometAPI, aby uzyskać klucz API i zapoznać się z listą modeli (dostępne są tam warianty Gemini 2.5 Flash oraz punkt końcowy zgodny z OpenAI). CometAPI upraszcza programowanie i pozwala zmieniać dostawców bez konieczności zmiany kodu aplikacji.

Narzędzia lokalne

  • Środowiska wykonawcze języka:Node.js 18+, zalecany Python 3.10+.
  • Klient HTTP: fetch/axios dla JS; requests/httpx dla języka Python (lub oficjalnych zestawów SDK).
  • Pomocnicy obrazu: Pillow (Python) lub sharp (Węzeł) do zmiany rozmiaru, konwersji formatu oraz kodowania/dekodowania Base64.
  • Ochrona: przechowuj klucze w zmiennych środowiskowych lub w sejfie sekretów (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Nigdy nie zatwierdzaj kluczy API.

Zainstaluj pakiet SDK zgodny z Google (opcjonalnie)

Google udostępnia zestawy SDK i openai Podkładki kompatybilności bibliotek — można używać bibliotek klienta OpenAI w Gemini, zmieniając kilka linijek (adres URL + klucz API), ale dla pełnej obsługi funkcji multimodalnych zalecany jest natywny klient Gemini/Google. W przypadku korzystania z CometAPI lub bramy kompatybilnej z OpenAI, użycie klienta OpenAI może przyspieszyć rozwój. Przykłady:

Oficjalna trasa Google (Python):

python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai           # official Google GenAI SDK

pip install Pillow requests jq     # for local image handling in examples

Klient zgodny z CometAPI / OpenAI (Python):

pip install openai requests

Jak wybrać pomiędzy trzema metodami wywołań dla Nano Banana?

Wybór metody połączenia zależy od architektury, wymagań dotyczących opóźnień/kosztów oraz od tego, czy chcesz korzystać z oficjalnego punktu końcowego Google, czy z zewnętrznej bramy sieciowej kompatybilnej z OpenAI. Trzy popularne wzorce to:

1) Interfejs czatu zgodny ze standardem OpenAI (tekst na obraz)

Użyj tego, jeśli masz już kod lub zestawy SDK w stylu OpenAI i chcesz zmieniać modele z minimalnymi zmianami. Wiele bram (CometAPI, OpenRouter) udostępnia modele Gemini w ramach platformy REST zgodnej z OpenAI, dzięki czemu Twoje istniejące chat or completions połączenia działają tylko z innym base_url i nazwę modelu. Często jest to najszybsza droga do produkcji, jeśli nie chcesz zarządzać uwierzytelnianiem Google Cloud.

2) Oficjalny Gemini generateContent — tekst na obraz

Użyj oficjalnego Google generateContent za pośrednictwem genai Klient (Google) lub Vertex AI, jeśli potrzebujesz oficjalnego, w pełni obsługiwanego zestawu SDK i dostępu do najnowszych funkcji (drobnoziarnistych parametrów generowania, strumieniowania, API plików dla dużych zasobów), a także rozliczeń/monitorowania w Google Cloud. Jest to zalecane, gdy potrzebujesz wsparcia produkcyjnego i kontroli klasy korporacyjnej.

3) Oficjalny Gemini generateContent — obraz do obrazu (wejście/wyjście Base64)

Użyj tego, gdy musisz przesłać obrazy binarne w trybie inline (Base64) lub chcesz skorzystać z funkcji edycji obrazów/przetwarzania obrazu do obrazu. generateContent Obsługuje obrazy inline (base64) oraz API plików dla większych lub wielokrotnego użytku zasobów. Odpowiedzi dla wygenerowanych/edytowanych obrazów są zazwyczaj zwracane jako ciągi Base64, które można dekodować i zapisywać. Zapewnia to najbardziej wyraźną kontrolę multimodalną.

Jak mogę zadzwonić do Nano Banana za pomocą interfejsu czatu zgodnego ze standardem OpenAI (tekst na obraz)?

Punkt końcowy czatu zgodny ze standardem OpenAI akceptuje sekwencję {role, content} Wiadomości; opisujesz, jaki obraz chcesz umieścić w wiadomości użytkownika, a bramka (CometAPI lub shim zapewniający zgodność z OpenAI) tłumaczy to na wywołanie bazowego modelu Gemini. Jest to wygodne, jeśli Twoja aplikacja korzysta już z przepływów czatu lub chcesz połączyć generowanie tekstu i obrazu w jednej wymianie.

Cel

1.Zarejestruj się w CometAPI i uzyskaj klucz APIZarejestruj się w CometAPI, utwórz projekt, skopiuj swój klucz API. CometAPI udostępnia wiele modeli za pomocą jednego base_url. ()

  1. Zainstaluj klienta zgodnego z OpenAI:Pyton: pip install openai lub użyj nowszej wersji openai/OpenAI Opakowanie SDK używane przez wiele bramek.

  2. Skieruj zestaw SDK do CometAPI i wywołaj punkt końcowy ukończenia czatu:

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMET_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2-5-flash-image-preview",
     "stream": true,   
     "messages": [{"role": "user", 
                   "content": "Generate a cute kitten sitting on a cloud, in a                cartoon style"}]
      }'

Uwagi:

  1. strumień musi być prawdziwy; odpowiedź zostanie zwrócona jako strumień;

  2. Struktura odpowiedzi jest opakowana w CometAPI w celu zapewnienia zgodności z OpenAI.

  3. Odpowiedź zawiera obraz Base64; należy go zdekodować i zapisać na kliencie w razie potrzeby:

Jak mogę zadzwonić do Nano Banana za pomocą oficjalnej strony Gemini generateContent interfejs tekstowo-obrazowy?

Google zapewnia Interfejs API dla programistów Gemini (API Gemini) i udostępnia również modele Gemini za pośrednictwem Wierzchołek AIAby uzyskać programowy dostęp do obrazu Gemini 2.5 Flash (Nano Banana) w obsługiwany sposób, należy skorzystać z oficjalnej strony generateContent Metoda ta jest kanonicznym punktem wejścia do generowania wyłącznie tekstu lub multimodalnego. Użyj metody Google Zestaw SDK GenAI (Pyton: google-genai) lub bezpośrednio wywołać punkt końcowy REST. Zapewnia to bezpośredni dostęp do parametrów i modalności modelu oraz jest zalecanym sposobem korzystania z zaawansowanych funkcji (precyzyjna edycja, łączenie wielu obrazów) podczas wywoływania punktów końcowych Google.

  1. Użyj Google Zestaw SDK GenAI (Pyton: google-genai)

Etapy dystrybucji/połączenia (przegląd):

  1. Uzyskaj klucz API z Google AI Studio lub załóż konto usługi Vertex AI (w zależności od platformy).
  2. Zainstaluj pakiet SDK (pip install --upgrade google-genai) i uwierzytelnij (klucz API lub domyślne dane uwierzytelniające aplikacji Google).
  3. Dodaj model: gemini-2.5-flash-image lub podgląd ślimaka pokazany w dokumentacji (dokładny ślimak zależy od stanu GA/podglądu).
  4. Numer Telefonu client.models.generate_content(...) z prostym tekstem (tekst na obraz).
  5. Rozszyfrować zwrócone obrazy (jeśli zwrócony Base64) i zapisane/przechowane.

Przykład Pythona (oficjalny klient) — tekst→obraz:

from google import genai
from base64 import b64decode, b64encode

client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
  "content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
  "mime_type": "text/plain"
}
# request generateContent for image output

result = client.generate_content(
  model="gemini-2-5-flash-image-preview",
  prompt=prompt,
  response_modalities=,
  image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)

(Uwaga: dokładne nazwy parametrów można znaleźć w oficjalnym interfejsie API klienta — powyższe przykłady są zgodne ze wzorcami z Dokumentów Google.)

2. Połączenie Nano Banan poprzez punkt końcowy REST

Punkt końcowy EST (przykład konwersji tekstu na obraz): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.

Opcje uwierzytelniania: nagłówek zasilania x-goog-api-key: $CometAPI_API_KEY. (Utwórz klucz w CometAPI.)

Wyświetla monit tekstowy i zapisuje zwrócony obraz base64:

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        { "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
      ]
    }]
  }' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png

Uwagi: Obraz binarny jest zwracany w formacie base64. candidates.content.parts.inline_data.data. W powyższym przykładzie użyto jq aby pobrać dane inline i je zdekodować. Oficjalna dokumentacja pokazuje ten sam schemat działania.

Jak mogę zadzwonić do Nano Banana za pomocą oficjalnej strony Gemini generateContent interfejs obraz-obraz (wejście/wyjście Base64)?

Kiedy należy stosować technologię image-to-image (base64 in/out)?

Użyj funkcji obraz-do-obrazu, gdy potrzebujesz:

  • Edytuj istniejące zdjęcie (podmalowywanie, przenoszenie stylu, podmienianie obiektów).
  • Połącz wiele obrazów źródłowych w jedną kompozycję.
  • Zachowaj tożsamość obiektu podczas edycji (jedna z mocnych stron Nano Banana).

Bliźnięta generateContent Obsługuje dane obrazów w formacie Base64 (lub jako identyfikatory URI plików) i zwraca wygenerowane lub edytowane obrazy jako ciągi znaków Base64. Dokumentacja zawiera szczegółowe przykłady udostępniania. inline_data w mime_type oraz data.

Dystrybucja/kroki wywołania (obraz do obrazu)

  1. Przygotować obraz(y) wejściowy(e): odczytaj bajty pliku, zakoduj Base64 lub przekaż surowe bajty za pomocą pomocnika SDK.
  2. Skonstruować a contents tablica, w której jedna część jest obrazem wbudowanym (z mimeType oraz data) a kolejne części zawierają instrukcje dotyczące edycji tekstu.
  3. POST do generateContent (oficjalny SDK lub REST).
  4. Otrzymasz Odpowiedź: API zwraca wygenerowane/edytowane obrazy zakodowane jako ciągi Base64. Zdekoduj je i zapisz lokalnie.

Przykład — Python (obraz do obrazu z wykorzystaniem wbudowanych bajtów za pośrednictwem zestawu SDK GenAI)

# pip install google-genai

from google import genai
from google.genai import types
import base64

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

# Read local image

with open("input_photo.jpg", "rb") as f:
    img_bytes = f.read()

# Using SDK helper to attach bytes as a part

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[
        types.Part.from_bytes(
            data=img_bytes,
            mime_type="image/jpeg"
        ),
        "Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
    ],
)

# The returned image will typically be in response.candidates[].content.parts with base64-encoded data

# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data  # example path

with open("edited.jpg","wb") as out:
    out.write(base64.b64decode(b64_out))

Przykład w Pythonie: obraz→obraz przy użyciu Base64 przez punkt spoczynku

import base64, json, requests

API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"

# read and base64-encode image

with open("input.jpg","rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")

payload = {
  "model": "gemini-2-5-flash-image-preview",
  "input": [
    {"mime_type": "image/jpeg", "bytes_base64": b64},
    {"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
  ],
  "response_modalities": 
}

resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save

out_b64 = data
with open("edited.png","wb") as out:
    out.write(base64.b64decode(out_b64))

Jeśli chcesz uzyskać do niego dostęp za pomocą portu REST CometAPI:

curl 
--location 
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^ 
--header "Authorization: sk-" ^ 
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^ 
--header "Content-Type: application/json" ^ 
--header "Accept: */*" ^ 
--header "Host: api.CometAPI.com" ^ 
--header "Connection: keep-alive" ^ 
--data-raw "{ \"contents\":  } ], \"generationConfig\": { \"responseModalities\":  }}"

W przypadku inline: odczytaj obraz i zakoduj go w base64. W przypadku wielokrotnego użycia lub >20 MB prześlij przez API plików i odwołaj się do uchwytu pliku w generateContent.Najlepsze rozwiązanie do precyzyjnych edycji i przepływów pracy wymagających obrazów wejściowych i instrukcji edycji w formie tekstu.

Jakie są najlepsze wskazówki dotyczące współpracy z Nano Banana?

Szybka inżynieria i kontrola

  1. Bądź wyraźny: uwzględnij pożądany współczynnik proporcji, odniesienia do stylu (nazwiska artystów tylko, jeśli dozwolone), obiektyw aparatu, oświetlenie i kompozycję. Np. „Fotorealistyczne, 3:2, mała głębia ostrości, złota godzina, obiektyw Nikon 50 mm”.
  2. Użyj kolejnej edycji:wolę mniejsze, lokalne edycje w wielu przejściach niż duże, pojedyncze edycje – dzięki temu zachowana jest spójność tematu. Mocną stroną Nano Banana jest iteracyjna edycja.

Higiena obrazu

  • Wstępne przetwarzanie danych wejściowych: normalizacja przestrzeni kolorów, usuwanie osadzonych danych EXIF, jeśli wymagana jest prywatność, skalowanie do rozsądnych rozdzielczości w celu oszczędzania tokenów.
  • Wyniki postprocesu: uruchomienie wykrywania twarzy, usunięcie drobnych artefaktów za pomocą lekkich filtrów (Pillow / sharp) przed przekazaniem ich użytkownikom.

Zasady bezpieczeństwa, zgodności i treści

  • Przed zapisaniem/udostępnieniem obrazów wprowadź automatyczną kontrolę bezpieczeństwa treści (modele moderacji Vision lub kontrole czarnej listy).
  • Jeśli chcesz zamieścić zdjęcie osoby, postępuj zgodnie z obowiązującymi przepisami o ochronie prywatności (RODO/CCPA) i uzyskaj niezbędne zgody.
  • Należy przestrzegać zasad korzystania z modeli i praw autorskich, gdy prosisz o podanie chronionych prawem autorskim postaci lub istniejących prac graficznych.

Notatki końcowe

Nano Banana (Gemini 2.5 Flash Image) to pragmatyczny krok o wysokiej wierności w zakresie generowania i edycji obrazów multimodalnych: został zaprojektowany z myślą o spójności edycji i bogatszym rozumowaniu multimodalnym. Nano Banana (Gemini 2.5 Flash Image) to ważny krok w generowaniu/edycji obrazów — zapewniający wysoką spójność edycji wieloetapowych i wielu powierzchni integracji (bramy zgodne z OpenAI, takie jak CometAPI i Google generateContent API). Aby przyspieszyć adopcję, bramy takie jak CometAPI umożliwiają ponowne wykorzystanie kodu w stylu OpenAI. Zawsze sprawdzaj poprawność odpowiedzi, przestrzegaj zasad dotyczących treści i funkcji pochodzenia (SynthID) oraz monitoruj koszty w trakcie iteracji.

Jak zacząć

CometAPI to ujednolicona platforma API, która agreguje ponad 500 modeli AI od wiodących dostawców — takich jak seria GPT firmy OpenAI, Gemini firmy Google, Claude firmy Anthropic, Midjourney, Suno i innych — w jednym, przyjaznym dla programistów interfejsie. Oferując spójne uwierzytelnianie, formatowanie żądań i obsługę odpowiedzi, CometAPI radykalnie upraszcza integrację możliwości AI z aplikacjami. Niezależnie od tego, czy tworzysz chatboty, generatory obrazów, kompozytorów muzycznych czy oparte na danych potoki analityczne, CometAPI pozwala Ci szybciej iterować, kontrolować koszty i pozostać niezależnym od dostawcy — wszystko to przy jednoczesnym korzystaniu z najnowszych przełomów w ekosystemie AI.

Deweloperzy mogą uzyskać dostęp Obraz Flash Gemini 2.5(lista Nano Banana CometAPI gemini-2.5-flash-image-preview/gemini-2.5-flash-image (wpisy w stylu w ich katalogu.) poprzez CometAPI, najnowsze wersje modeli są aktualne na dzień publikacji artykułu. Na początek zapoznaj się z możliwościami modelu w Plac zabaw i zapoznaj się z Przewodnik po API aby uzyskać szczegółowe instrukcje. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. Interfejs API Comet zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.

SHARE THIS BLOG

500+ modeli w jednym API

Do 20% zniżki