Jak korzystać z interfejsu API Nano Banana Pro (Gemini 3 Pro Image)?

CometAPI
AnnaNov 20, 2025
Jak korzystać z interfejsu API Nano Banana Pro (Gemini 3 Pro Image)?

Nano Banana Pro — oficjalnie Gemini 3 Pro Image — to nowy, studyjnej klasy model Google/DeepMind do generowania i edycji obrazów, łączący zaawansowane multimodalne wnioskowanie, wierne renderowanie tekstu, kompozycję z wielu obrazów oraz studyjne sterowanie kreatywne.

Czym jest Nano Banana Pro i dlaczego warto się tym zainteresować?

Nano Banana Pro to najnowszy model Google do generowania i edycji obrazów — wydanie „Gemini 3 Pro Image” — zaprojektowany, by tworzyć kontekstowe obrazy i tekst na obrazie o studyjnej jakości do 4K. To następca wcześniejszych modeli Nano Banana (Gemini 2.5 Flash Image / „Nano Banana”) z udoskonalonym wnioskowaniem, ugruntowaniem w wyszukiwarce (fakty ze świata), lepszym renderowaniem tekstu i mocniejszymi lokalnymi narzędziami edycji. Model jest dostępny w aplikacji Gemini dla użytkowników interaktywnych, a także poprzez standardowe API Gemini; wybierz odpowiedni identyfikator modelu (gemini-3-pro-image-preview lub jego stabilnego następcę) do dostępu programowego.

Dlaczego to ważne: Nano Banana Pro został zbudowany nie tylko do tworzenia ładnych obrazów, ale do wizualizacji informacji — infografik, migawkowych podsumowań danych (pogoda, sport), plakatów z dużą ilością tekstu, makiet produktowych i fuzji wielu obrazów (do 14 obrazów wejściowych, z zachowaniem spójności postaci nawet dla 5 osób). Dla projektantów, zespołów produktowych i deweloperów takie połączenie dokładności, tekstu na obrazie i dostępu programowego otwiera przepływy pracy produkcyjnej, które wcześniej trudno było zautomatyzować.

Jakie funkcje są wystawione przez API?

Typowe możliwości API udostępniane deweloperom obejmują:

  • Generowanie obrazu z tekstu (jednoetapowe lub wieloetapowe przepływy kompozycji „thinking”).
  • Edycję obrazu (lokalne maski, inpainting, dostrajanie stylu).
  • Fuzję wielu obrazów (łączenie obrazów referencyjnych).
  • Zaawansowane sterowanie żądaniami: rozdzielczość, proporcje, kroki postprocessingu oraz ślady „composition thought” do debugowania/inspekcji w trybach podglądu.

Kluczowe innowacje i funkcje Nano Banana Pro

Mądrzejsze wnioskowanie o treści

Wykorzystuje stos wnioskowania Gemini 3 Pro do interpretacji złożonych, wieloetapowych instrukcji wizualnych (np. „stwórz 5‑krokową infografikę z tego zestawu danych i dodaj dwujęzyczny podpis”). API wystawia mechanizm „Thinking”, który może tworzyć pośrednie testy kompozycji, aby udoskonalić wynik końcowy.

Dlaczego to ważne: Zamiast pojedynczego przejścia mapującego prompt → piksele, model wykonuje wewnętrzny proces „myślenia”, który dopracowuje kompozycję i może wywoływać narzędzia zewnętrzne (np. Google Search) dla ugruntowania faktów (np. poprawne etykiety diagramu lub oznakowanie właściwe dla danego języka/regionu). Dzięki temu obrazy są nie tylko ładniejsze, ale i bardziej semantycznie poprawne do zadań takich jak infografiki, diagramy czy makiety produktów.

Jak to osiągnąć: „Thinking” w Nano Banana Pro to kontrolowane, wewnętrzne przejście wnioskowania/kompozycji, w którym model generuje pośrednie wizualizacje i ślady rozumowania przed wygenerowaniem obrazu końcowego. API ujawnia, że model może utworzyć do dwóch klatek pośrednich, a obraz finalny jest ostatnim etapem tego łańcucha. W produkcji pomaga to w doborze kompozycji, rozmieszczeniu tekstu i decyzjach layoutowych.

Dokładniejsze renderowanie tekstu

Znacząco poprawiona czytelność i lokalizacja tekstu wewnątrz obrazów (menu, plakaty, diagramy). Nano Banana Pro osiąga nowy poziom w renderowaniu tekstu na obrazach:

  • Tekst na obrazach jest wyraźny, czytelny i poprawnie zapisany;
  • Obsługuje wielojęzyczność (w tym chiński, japoński, koreański, arabski itd.);
  • Pozwala umieszczać długie akapity lub wielowierszowe opisy bezpośrednio na obrazach;
  • Dostępne są automatyczne tłumaczenie i lokalizacja.

Dlaczego to ważne: Tradycyjnie modele obrazowe mają trudność z renderowaniem czytelnego, dobrze wyrównanego tekstu. Nano Banana Pro jest wyraźnie zoptymalizowany do niezawodnego renderowania i lokalizacji tekstu (np. tłumaczenie z zachowaniem układu), co odblokowuje realne zastosowania kreatywne, takie jak plakaty, opakowania czy reklamy wielojęzyczne.

Jak to osiągnąć: Ulepszenia renderowania tekstu wynikają z multimodalnej architektury bazowej oraz treningu na zbiorach danych akcentujących przykłady tekstu w obrazach, w połączeniu z ukierunkowanymi zestawami ewaluacyjnymi (oceny ludzkie i zbiory regresyjne). Model uczy się zestrojenia kształtów glifów, krojów pisma i ograniczeń układu, by generować czytelny, zlokalizowany tekst na obrazach — choć bardzo mały tekst i ekstremalnie gęste akapity mogą nadal być podatne na błędy.

Silniejsza spójność wizualna i wierność

Studyjne sterowanie (oświetlenie, ostrość, kąt kamery, koloryzacja) i kompozycja z wielu obrazów (do 14 obrazów referencyjnych, ze specjalnymi możliwościami dla wielu osób na jednym obrazie) pomaga zachować spójność postaci (ten sam bohater/osoba w kolejnych edycjach) oraz spójność marki w generowanych zasobach. Model obsługuje natywnie wyjścia 1K/2K/4K.

Dlaczego to ważne: Przepływy pracy w marketingu i rozrywce wymagają spójnych postaci między ujęciami i edycjami. Model potrafi utrzymać podobieństwo nawet dla pięciu osób i łączyć do 14 obrazów referencyjnych w jedną kompozycję, generując przejścia od szkicu do renderu 3D. To przydatne przy kreacjach reklamowych, opakowaniach czy opowiadaniu historii w wielu ujęciach.

Jak to osiągnąć: Wejścia modelu akceptują wiele obrazów z przypisanymi rolami (np. „Obraz A: poza”, „Obraz B: referencja twarzy”, „Obraz C: tekstura tła”). Architektura warunkuje generowanie na tych obrazach, aby zachować tożsamość/pozę/styl przy zastosowaniu transformacji (oświetlenie, kamera).

Benchmarki wydajności Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) „wyróżnia się w benchmarkach AI Text→Image” i wykazuje ulepszone wnioskowanie oraz kontekstowe ugruntowanie względem wcześniejszych modeli Nano Banana. Podkreśla wyższą wierność i lepsze renderowanie tekstu w porównaniu z poprzednimi wydaniami.

Jak korzystać z interfejsu API Nano Banana Pro (Gemini 3 Pro Image)?

Praktyczne wskazówki dotyczące wydajności

Spodziewaj się wyższej latencji i kosztów przy renderach 2K/4K o wysokiej wierności niż przy 1K lub modelach „Flash” zoptymalizowanych pod szybkość. Jeśli kluczowa jest przepustowość/latencja, używaj wariantu flash (np. Gemini 2.5 Flash / Nano Banana) dla dużej skali; używaj Nano Banana Pro / gemini-3-pro-image dla jakości i zadań wymagających złożonego wnioskowania.

Jak deweloperzy mogą uzyskać dostęp do Nano Banana Pro?

Jakie endpointy i modele wybrać

Identyfikator modelu (preview / pro): gemini-3-pro-image-preview (preview) — użyj go, gdy potrzebujesz możliwości Nano Banana Pro. Do szybszych, tańszych zadań nadal dostępny jest gemini-2.5-flash-image (Nano Banana).

Dostępne powierzchnie

  • Gemini API (endpoint generativelanguage): Możesz użyć klucza CometAPI, aby uzyskać dostęp do xx. CometAPI oferuje to samo API w korzystniejszej cenie niż oficjalna strona. Bezpośrednie wywołania HTTP/SDK do generateContent w celu generowania obrazów (przykłady poniżej).
  • Google AI Studio: Interfejs webowy do szybkich eksperymentów i przeróbek aplikacji demo.
  • Vertex AI (enterprise): Gwarantowana przepustowość, opcje rozliczeń (pay‑as‑you‑go / poziomy enterprise) i filtry bezpieczeństwa dla produkcji na dużą skalę. Używaj Vertex przy integracji z dużymi potokami lub zadaniami wsadowymi.

Darmowy poziom ma ograniczony limit użycia; po jego przekroczeniu następuje powrót do Nano Banana. Poziomy Plus/Pro/Ultra oferują wyższe limity i wyjścia bez znaku wodnego, a Ultra może być używany w narzędziach wideo Flow i Antigravity IDE w trybie 4K.

Jak wygenerować obraz za pomocą Nano Banana Pro (krok po kroku)?

1) Szybka, interaktywna procedura w aplikacji Gemini

  1. Otwórz Gemini → Narzędzia → Utwórz obrazy.
  2. Wybierz model Thinking (Nano Banana Pro).
  3. Wpisz prompt: opisz temat, akcję, nastrój, oświetlenie, kamerę, proporcje oraz dowolny tekst do umieszczenia na obrazie. Przykład:
    „Utwórz plakat 4K warsztatów robotyki: zróżnicowany zespół przy stole, nałożony rzut techniczny, pogrubiony nagłówek ‘Robots in Action’ bezszeryfowy, ciepłe światło wolframowe, płytka głębia ostrości, filmowe 16:9.”
  4. (Opcjonalnie) Prześlij do 14 obrazów do fuzji lub jako referencje. Użyj narzędzia zaznaczania/maski do lokalnej edycji obszarów.
  5. Generuj, iteruj językiem naturalnym (np. „zrób nagłówek niebieski i wyrównany do góry‑na‑środek; zwiększ kontrast rzutu technicznego”), a następnie eksportuj.

2) Użyj HTTP do wysyłki na endpoint obrazu Gemini

Musisz zalogować się do CometAPI, aby uzyskać klucz.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Ten przykład zapisuje ładunek obrazu w base64 do pliku PNG. Parametr generationConfig.imageConfig.resolution żąda wyjścia 4K (dostępne dla modelu 3 Pro Image).

3) Bezpośrednie wywołania SDK do generateContent dla generowania obrazów

Wymaga instalacji Google SDK i uzyskania autoryzacji Google. Przykład w Pythonie (tekst + obrazy referencyjne + ugruntowanie):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Ten przykład pokazuje przesyłanie wbudowanego obrazu referencyjnego i żądanie kompozycji 4K przy włączeniu google_search jako narzędzia. SDK Pythona zajmie się szczegółami REST na niskim poziomie.

Fuzja wielu obrazów i spójność postaci

Aby utworzyć kompozycję zachowującą tę samą osobę w kolejnych scenach, przekaż wiele części inline_data (wybranych z Twojego zestawu zdjęć) i doprecyzuj, że model powinien „zachować tożsamość w wynikach”.

Krótki przykład praktyczny — realny prompt i oczekiwany przepływ

Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Oczekiwany pipeline: aplikacja → szablon promptu + dane CSV → podmień placeholdery w promptcie → wywołanie API z image_size=2048x1152 → odbierz PNG w base64 → zapisz zasób + metadane pochodzenia → opcjonalnie nałóż dokładny krój pisma przez kompozytor, jeśli potrzebne.

Jak zaprojektować pipeline produkcyjny i zadbać o bezpieczeństwo/pochodzenie?

Rekomendowana architektura produkcyjna

  1. Prompt + wersja robocza (szybki model): Użyj gemini-2.5-flash-image (Nano Banana), aby tanio wygenerować wiele niskorozdzielczych wariantów.
  2. Wybór i dopracowanie: wybierz najlepsze kandydaty, dopracuj prompt’y, zastosuj inpainting/edycje maską dla precyzji.
  3. Wysokiej wierności render końcowy: wywołaj gemini-3-pro-image-preview (Nano Banana Pro) dla finalnych renderów 2K/4K i postprocessingu (upsampling, koloryzacja).
  4. Pochodzenie i metadane: przechowuj prompt, wersję modelu, znaczniki czasu i SynthID w magazynie metadanych zasobu — model dołącza znak wodny SynthID, a wyjścia mogą być śledzone na potrzeby zgodności i audytu treści.

Bezpieczeństwo, prawa i moderacja

  • Prawa autorskie i zgody: nie przesyłaj ani nie generuj treści naruszających prawa. Używaj wyraźnych potwierdzeń użytkownika dla obrazów lub promptów mogących tworzyć rozpoznawalne wizerunki. Muszą być przestrzegane Prohibited Use Policy Google i filtry bezpieczeństwa modelu.
  • Filtrowanie i automatyczne kontrole: przepuszczaj wygenerowane obrazy przez wewnętrzny pipeline moderacji treści (NSFW, symbole nienawiści, treści polityczne/wiążące) przed dalszym użyciem lub publiczną prezentacją.

Jak wykonywać edycję obrazów (inpainting), kompozycję z wielu obrazów i renderowanie tekstu?

Nano Banana Pro obsługuje multimodalne przepływy edycji: podaj jeden lub więcej obrazów wejściowych i instrukcję tekstową opisującą edycje (usuń obiekt, zmień niebo, dodaj tekst). API akceptuje obraz + tekst w tym samym żądaniu; model może zwracać przeplatanie tekstu i obrazów w odpowiedziach. Wzorce obejmują edycje maskowane i mieszanie wielu obrazów (transfer stylu/kompozycja). Zobacz dokumentację contents dla tablic łączących bloki tekstu i dane binarne.

Przykład: Edycja (pseudoprzebieg w Pythonie)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Ta konwersacyjna edycja pozwala iteracyjnie korygować wyniki, aż do uzyskania zasobu gotowego do produkcji.

Przykład w Node.js — edycja obrazu z maską i wieloma referencjami

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API czasem akceptują identyfikatory Cloud Storage lub ładunki obrazów w base64; sprawdź dokumentację Gemini API, aby poznać dokładne formaty wejścia).

Aby uzyskać informacje o generowaniu i edycji obrazów z użyciem CometAPI, zobacz Przewodnik po wywoływaniu gemini-3-pro-image .

Zakończenie

Nano Banana Pro (Gemini 3 Pro Image) to skok do poziomu produkcyjnego w generowaniu obrazów: narzędzie do wizualizacji danych, wykonywania zlokalizowanych edycji i zasilania przepływów deweloperskich. Używaj aplikacji Gemini do szybkiego prototypowania, API do integracji produkcyjnej i stosuj się do powyższych rekomendacji, aby kontrolować koszty, zapewnić bezpieczeństwo i utrzymać jakość marki. Zawsze testuj realne przepływy użytkowników i zapisuj metadane pochodzenia, by spełnić wymogi transparentności i audytu.

Używaj Nano Banana Pro, gdy potrzebujesz zasobów o studyjnej jakości, precyzyjnej kontroli kompozycji, ulepszonego renderowania tekstu na obrazach i możliwości fuzji wielu referencji w jedną spójną całość.

Deweloperzy mogą uzyskać dostęp do Gemini 3 Pro Image( Nano Banana Pro) API poprzez CometAPI. Aby rozpocząć, poznaj możliwości modelu w CometAPI w Playground i zapoznaj się ze szczegółową instrukcją w przewodniku API. Przed uzyskaniem dostępu upewnij się, że zalogowałeś(-aś) się do CometAPI i uzyskałeś(-aś) klucz API. CometAPI oferuje cenę znacznie niższą niż oficjalna, aby ułatwić integrację.

Gotowy(-a) do startu?→ Zarejestruj się w CometAPI już dziś !

Jeśli chcesz poznać więcej porad, przewodników i aktualności o AI, obserwuj nas na VK, X i Discord!

Dostęp do najlepszych modeli po niskich kosztach

Czytaj więcej