Nano Banana Pro — oficjalnie Gemini 3 Pro Image — to nowy, studyjnej klasy model Google/DeepMind do generowania i edycji obrazów, łączący zaawansowane multimodalne wnioskowanie, wierne renderowanie tekstu, kompozycję z wielu obrazów oraz studyjne sterowanie kreatywne.
Czym jest Nano Banana Pro i dlaczego warto się tym zainteresować?
Nano Banana Pro to najnowszy model Google do generowania i edycji obrazów — wydanie „Gemini 3 Pro Image” — zaprojektowany, by tworzyć kontekstowe obrazy i tekst na obrazie o studyjnej jakości do 4K. To następca wcześniejszych modeli Nano Banana (Gemini 2.5 Flash Image / „Nano Banana”) z udoskonalonym wnioskowaniem, ugruntowaniem w wyszukiwarce (fakty ze świata), lepszym renderowaniem tekstu i mocniejszymi lokalnymi narzędziami edycji. Model jest dostępny w aplikacji Gemini dla użytkowników interaktywnych, a także poprzez standardowe API Gemini; wybierz odpowiedni identyfikator modelu (gemini-3-pro-image-preview lub jego stabilnego następcę) do dostępu programowego.
Dlaczego to ważne: Nano Banana Pro został zbudowany nie tylko do tworzenia ładnych obrazów, ale do wizualizacji informacji — infografik, migawkowych podsumowań danych (pogoda, sport), plakatów z dużą ilością tekstu, makiet produktowych i fuzji wielu obrazów (do 14 obrazów wejściowych, z zachowaniem spójności postaci nawet dla 5 osób). Dla projektantów, zespołów produktowych i deweloperów takie połączenie dokładności, tekstu na obrazie i dostępu programowego otwiera przepływy pracy produkcyjnej, które wcześniej trudno było zautomatyzować.
Jakie funkcje są wystawione przez API?
Typowe możliwości API udostępniane deweloperom obejmują:
- Generowanie obrazu z tekstu (jednoetapowe lub wieloetapowe przepływy kompozycji „thinking”).
- Edycję obrazu (lokalne maski, inpainting, dostrajanie stylu).
- Fuzję wielu obrazów (łączenie obrazów referencyjnych).
- Zaawansowane sterowanie żądaniami: rozdzielczość, proporcje, kroki postprocessingu oraz ślady „composition thought” do debugowania/inspekcji w trybach podglądu.
Kluczowe innowacje i funkcje Nano Banana Pro
Mądrzejsze wnioskowanie o treści
Wykorzystuje stos wnioskowania Gemini 3 Pro do interpretacji złożonych, wieloetapowych instrukcji wizualnych (np. „stwórz 5‑krokową infografikę z tego zestawu danych i dodaj dwujęzyczny podpis”). API wystawia mechanizm „Thinking”, który może tworzyć pośrednie testy kompozycji, aby udoskonalić wynik końcowy.
Dlaczego to ważne: Zamiast pojedynczego przejścia mapującego prompt → piksele, model wykonuje wewnętrzny proces „myślenia”, który dopracowuje kompozycję i może wywoływać narzędzia zewnętrzne (np. Google Search) dla ugruntowania faktów (np. poprawne etykiety diagramu lub oznakowanie właściwe dla danego języka/regionu). Dzięki temu obrazy są nie tylko ładniejsze, ale i bardziej semantycznie poprawne do zadań takich jak infografiki, diagramy czy makiety produktów.
Jak to osiągnąć: „Thinking” w Nano Banana Pro to kontrolowane, wewnętrzne przejście wnioskowania/kompozycji, w którym model generuje pośrednie wizualizacje i ślady rozumowania przed wygenerowaniem obrazu końcowego. API ujawnia, że model może utworzyć do dwóch klatek pośrednich, a obraz finalny jest ostatnim etapem tego łańcucha. W produkcji pomaga to w doborze kompozycji, rozmieszczeniu tekstu i decyzjach layoutowych.
Dokładniejsze renderowanie tekstu
Znacząco poprawiona czytelność i lokalizacja tekstu wewnątrz obrazów (menu, plakaty, diagramy). Nano Banana Pro osiąga nowy poziom w renderowaniu tekstu na obrazach:
- Tekst na obrazach jest wyraźny, czytelny i poprawnie zapisany;
- Obsługuje wielojęzyczność (w tym chiński, japoński, koreański, arabski itd.);
- Pozwala umieszczać długie akapity lub wielowierszowe opisy bezpośrednio na obrazach;
- Dostępne są automatyczne tłumaczenie i lokalizacja.
Dlaczego to ważne: Tradycyjnie modele obrazowe mają trudność z renderowaniem czytelnego, dobrze wyrównanego tekstu. Nano Banana Pro jest wyraźnie zoptymalizowany do niezawodnego renderowania i lokalizacji tekstu (np. tłumaczenie z zachowaniem układu), co odblokowuje realne zastosowania kreatywne, takie jak plakaty, opakowania czy reklamy wielojęzyczne.
Jak to osiągnąć: Ulepszenia renderowania tekstu wynikają z multimodalnej architektury bazowej oraz treningu na zbiorach danych akcentujących przykłady tekstu w obrazach, w połączeniu z ukierunkowanymi zestawami ewaluacyjnymi (oceny ludzkie i zbiory regresyjne). Model uczy się zestrojenia kształtów glifów, krojów pisma i ograniczeń układu, by generować czytelny, zlokalizowany tekst na obrazach — choć bardzo mały tekst i ekstremalnie gęste akapity mogą nadal być podatne na błędy.
Silniejsza spójność wizualna i wierność
Studyjne sterowanie (oświetlenie, ostrość, kąt kamery, koloryzacja) i kompozycja z wielu obrazów (do 14 obrazów referencyjnych, ze specjalnymi możliwościami dla wielu osób na jednym obrazie) pomaga zachować spójność postaci (ten sam bohater/osoba w kolejnych edycjach) oraz spójność marki w generowanych zasobach. Model obsługuje natywnie wyjścia 1K/2K/4K.
Dlaczego to ważne: Przepływy pracy w marketingu i rozrywce wymagają spójnych postaci między ujęciami i edycjami. Model potrafi utrzymać podobieństwo nawet dla pięciu osób i łączyć do 14 obrazów referencyjnych w jedną kompozycję, generując przejścia od szkicu do renderu 3D. To przydatne przy kreacjach reklamowych, opakowaniach czy opowiadaniu historii w wielu ujęciach.
Jak to osiągnąć: Wejścia modelu akceptują wiele obrazów z przypisanymi rolami (np. „Obraz A: poza”, „Obraz B: referencja twarzy”, „Obraz C: tekstura tła”). Architektura warunkuje generowanie na tych obrazach, aby zachować tożsamość/pozę/styl przy zastosowaniu transformacji (oświetlenie, kamera).
Benchmarki wydajności Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) „wyróżnia się w benchmarkach AI Text→Image” i wykazuje ulepszone wnioskowanie oraz kontekstowe ugruntowanie względem wcześniejszych modeli Nano Banana. Podkreśla wyższą wierność i lepsze renderowanie tekstu w porównaniu z poprzednimi wydaniami.

Praktyczne wskazówki dotyczące wydajności
Spodziewaj się wyższej latencji i kosztów przy renderach 2K/4K o wysokiej wierności niż przy 1K lub modelach „Flash” zoptymalizowanych pod szybkość. Jeśli kluczowa jest przepustowość/latencja, używaj wariantu flash (np. Gemini 2.5 Flash / Nano Banana) dla dużej skali; używaj Nano Banana Pro / gemini-3-pro-image dla jakości i zadań wymagających złożonego wnioskowania.
Jak deweloperzy mogą uzyskać dostęp do Nano Banana Pro?
Jakie endpointy i modele wybrać
Identyfikator modelu (preview / pro): gemini-3-pro-image-preview (preview) — użyj go, gdy potrzebujesz możliwości Nano Banana Pro. Do szybszych, tańszych zadań nadal dostępny jest gemini-2.5-flash-image (Nano Banana).
Dostępne powierzchnie
- Gemini API (endpoint generativelanguage): Możesz użyć klucza CometAPI, aby uzyskać dostęp do xx. CometAPI oferuje to samo API w korzystniejszej cenie niż oficjalna strona. Bezpośrednie wywołania HTTP/SDK do
generateContentw celu generowania obrazów (przykłady poniżej). - Google AI Studio: Interfejs webowy do szybkich eksperymentów i przeróbek aplikacji demo.
- Vertex AI (enterprise): Gwarantowana przepustowość, opcje rozliczeń (pay‑as‑you‑go / poziomy enterprise) i filtry bezpieczeństwa dla produkcji na dużą skalę. Używaj Vertex przy integracji z dużymi potokami lub zadaniami wsadowymi.
Darmowy poziom ma ograniczony limit użycia; po jego przekroczeniu następuje powrót do Nano Banana. Poziomy Plus/Pro/Ultra oferują wyższe limity i wyjścia bez znaku wodnego, a Ultra może być używany w narzędziach wideo Flow i Antigravity IDE w trybie 4K.
Jak wygenerować obraz za pomocą Nano Banana Pro (krok po kroku)?
1) Szybka, interaktywna procedura w aplikacji Gemini
- Otwórz Gemini → Narzędzia → Utwórz obrazy.
- Wybierz model Thinking (Nano Banana Pro).
- Wpisz prompt: opisz temat, akcję, nastrój, oświetlenie, kamerę, proporcje oraz dowolny tekst do umieszczenia na obrazie. Przykład:
„Utwórz plakat 4K warsztatów robotyki: zróżnicowany zespół przy stole, nałożony rzut techniczny, pogrubiony nagłówek ‘Robots in Action’ bezszeryfowy, ciepłe światło wolframowe, płytka głębia ostrości, filmowe 16:9.” - (Opcjonalnie) Prześlij do 14 obrazów do fuzji lub jako referencje. Użyj narzędzia zaznaczania/maski do lokalnej edycji obszarów.
- Generuj, iteruj językiem naturalnym (np. „zrób nagłówek niebieski i wyrównany do góry‑na‑środek; zwiększ kontrast rzutu technicznego”), a następnie eksportuj.
2) Użyj HTTP do wysyłki na endpoint obrazu Gemini
Musisz zalogować się do CometAPI, aby uzyskać klucz.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Ten przykład zapisuje ładunek obrazu w base64 do pliku PNG. Parametr generationConfig.imageConfig.resolution żąda wyjścia 4K (dostępne dla modelu 3 Pro Image).
3) Bezpośrednie wywołania SDK do generateContent dla generowania obrazów
Wymaga instalacji Google SDK i uzyskania autoryzacji Google. Przykład w Pythonie (tekst + obrazy referencyjne + ugruntowanie):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Ten przykład pokazuje przesyłanie wbudowanego obrazu referencyjnego i żądanie kompozycji 4K przy włączeniu google_search jako narzędzia. SDK Pythona zajmie się szczegółami REST na niskim poziomie.
Fuzja wielu obrazów i spójność postaci
Aby utworzyć kompozycję zachowującą tę samą osobę w kolejnych scenach, przekaż wiele części inline_data (wybranych z Twojego zestawu zdjęć) i doprecyzuj, że model powinien „zachować tożsamość w wynikach”.
Krótki przykład praktyczny — realny prompt i oczekiwany przepływ
Prompt:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Oczekiwany pipeline: aplikacja → szablon promptu + dane CSV → podmień placeholdery w promptcie → wywołanie API z image_size=2048x1152 → odbierz PNG w base64 → zapisz zasób + metadane pochodzenia → opcjonalnie nałóż dokładny krój pisma przez kompozytor, jeśli potrzebne.
Jak zaprojektować pipeline produkcyjny i zadbać o bezpieczeństwo/pochodzenie?
Rekomendowana architektura produkcyjna
- Prompt + wersja robocza (szybki model): Użyj
gemini-2.5-flash-image(Nano Banana), aby tanio wygenerować wiele niskorozdzielczych wariantów. - Wybór i dopracowanie: wybierz najlepsze kandydaty, dopracuj prompt’y, zastosuj inpainting/edycje maską dla precyzji.
- Wysokiej wierności render końcowy: wywołaj
gemini-3-pro-image-preview(Nano Banana Pro) dla finalnych renderów 2K/4K i postprocessingu (upsampling, koloryzacja). - Pochodzenie i metadane: przechowuj prompt, wersję modelu, znaczniki czasu i SynthID w magazynie metadanych zasobu — model dołącza znak wodny SynthID, a wyjścia mogą być śledzone na potrzeby zgodności i audytu treści.
Bezpieczeństwo, prawa i moderacja
- Prawa autorskie i zgody: nie przesyłaj ani nie generuj treści naruszających prawa. Używaj wyraźnych potwierdzeń użytkownika dla obrazów lub promptów mogących tworzyć rozpoznawalne wizerunki. Muszą być przestrzegane Prohibited Use Policy Google i filtry bezpieczeństwa modelu.
- Filtrowanie i automatyczne kontrole: przepuszczaj wygenerowane obrazy przez wewnętrzny pipeline moderacji treści (NSFW, symbole nienawiści, treści polityczne/wiążące) przed dalszym użyciem lub publiczną prezentacją.
Jak wykonywać edycję obrazów (inpainting), kompozycję z wielu obrazów i renderowanie tekstu?
Nano Banana Pro obsługuje multimodalne przepływy edycji: podaj jeden lub więcej obrazów wejściowych i instrukcję tekstową opisującą edycje (usuń obiekt, zmień niebo, dodaj tekst). API akceptuje obraz + tekst w tym samym żądaniu; model może zwracać przeplatanie tekstu i obrazów w odpowiedziach. Wzorce obejmują edycje maskowane i mieszanie wielu obrazów (transfer stylu/kompozycja). Zobacz dokumentację contents dla tablic łączących bloki tekstu i dane binarne.
Przykład: Edycja (pseudoprzebieg w Pythonie)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Ta konwersacyjna edycja pozwala iteracyjnie korygować wyniki, aż do uzyskania zasobu gotowego do produkcji.
Przykład w Node.js — edycja obrazu z maską i wieloma referencjami
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(API czasem akceptują identyfikatory Cloud Storage lub ładunki obrazów w base64; sprawdź dokumentację Gemini API, aby poznać dokładne formaty wejścia).
Aby uzyskać informacje o generowaniu i edycji obrazów z użyciem CometAPI, zobacz Przewodnik po wywoływaniu gemini-3-pro-image .
Zakończenie
Nano Banana Pro (Gemini 3 Pro Image) to skok do poziomu produkcyjnego w generowaniu obrazów: narzędzie do wizualizacji danych, wykonywania zlokalizowanych edycji i zasilania przepływów deweloperskich. Używaj aplikacji Gemini do szybkiego prototypowania, API do integracji produkcyjnej i stosuj się do powyższych rekomendacji, aby kontrolować koszty, zapewnić bezpieczeństwo i utrzymać jakość marki. Zawsze testuj realne przepływy użytkowników i zapisuj metadane pochodzenia, by spełnić wymogi transparentności i audytu.
Używaj Nano Banana Pro, gdy potrzebujesz zasobów o studyjnej jakości, precyzyjnej kontroli kompozycji, ulepszonego renderowania tekstu na obrazach i możliwości fuzji wielu referencji w jedną spójną całość.
Deweloperzy mogą uzyskać dostęp do Gemini 3 Pro Image( Nano Banana Pro) API poprzez CometAPI. Aby rozpocząć, poznaj możliwości modelu w CometAPI w Playground i zapoznaj się ze szczegółową instrukcją w przewodniku API. Przed uzyskaniem dostępu upewnij się, że zalogowałeś(-aś) się do CometAPI i uzyskałeś(-aś) klucz API. CometAPI oferuje cenę znacznie niższą niż oficjalna, aby ułatwić integrację.
Gotowy(-a) do startu?→ Zarejestruj się w CometAPI już dziś !
Jeśli chcesz poznać więcej porad, przewodników i aktualności o AI, obserwuj nas na VK, X i Discord!
