Nano Banana Pro — oficjalnie Obraz Gemini 3 Pro — to nowy model generowania i edycji obrazu klasy studyjnej firmy Google/DeepMind, który łączy w sobie zaawansowane rozumowanie multimodalne, renderowanie tekstu o wysokiej wierności, kompozycję wielu obrazów i kontrolę kreatywną na poziomie studyjnym.
Czym jest Nano Banana Pro i dlaczego powinno Cię to zainteresować?
Nano Banana Pro to najnowszy model Google do generowania i edycji obrazów – wersja „Gemini 3 Pro Image” – zaprojektowany do tworzenia wysokiej jakości, kontekstowych obrazów i tekstu na obrazie w jakości studyjnej do 4K. Jest to następca wcześniejszych modeli Nano Banana (Gemini 2.5 Flash Image / „Nano Banana”) z ulepszonym wnioskowaniem, wyszukiwaniem opartym na rzeczywistych faktach, lepszym renderowaniem tekstu i bardziej rozbudowanymi funkcjami edycji lokalnej. Model jest dostępny w aplikacji Gemini dla interaktywnych użytkowników i umożliwia dostęp do Nano Banana Pro za pośrednictwem standardowego interfejsu API Gemini, ale użytkownik wybiera konkretny identyfikator modelu (gemini-3-pro-image-preview (lub jego stabilniejsza wersja następcza) w celu zapewnienia dostępu programowego.
Dlaczego to ważne: Nano Banana Pro został stworzony nie tylko do robienia ładnych zdjęć, ale także do wizualizować informacje — infografiki, migawki oparte na danych (pogoda, sport), plakaty z dużą ilością tekstu, makiety produktów i łączenia wielu obrazów (do 14 obrazów wejściowych i zachowanie spójności znaków dla maksymalnie 5 osób). Dla projektantów, zespołów produktowych i programistów to połączenie dokładności, tekstu na obrazie i dostępu programowego otwiera przepływy pracy produkcyjnej, które wcześniej trudno było zautomatyzować.
Jakie funkcje są udostępniane poprzez API?
Typowe możliwości interfejsu API udostępniane deweloperom obejmują:
- Tekst → Generowanie obrazu (przepływy kompozycji „myślowych” jedno- lub wielokrokowych).
- Edytowanie obrazu (maski lokalne, domalowywanie, korekty stylu).
- Fuzja wielu obrazów (połącz obrazy referencyjne).
- Zaawansowane sterowanie żądaniami: rozdzielczość, proporcje obrazu, kroki przetwarzania końcowego i ślady „kompozycji” na potrzeby debugowania/inspekcji w trybach podglądu.
Główne innowacje i funkcje Nano Banana Pro
Inteligentniejsze rozumowanie treści
Wykorzystuje stos wnioskowania Gemini 3 Pro do interpretowania złożonych, wieloetapowych instrukcji wizualnych (np. „utwórz 5-etapową infografikę z tego zestawu danych i dodaj dwujęzyczny podpis”). Interfejs API udostępnia mechanizm „myślenia”, który może generować tymczasowe testy kompozycji w celu udoskonalenia końcowego wyniku.
Dlaczego jest to ważne: Zamiast pojedynczego przebiegu, który mapuje monit → piksel, model wykonuje wewnętrzny proces „myślenia”, który dopracowuje kompozycję i może korzystać z zewnętrznych narzędzi (np. wyszukiwarki Google) w celu uzyskania konkretnych danych (np. dokładnych etykiet diagramów lub oznakowania zgodnego z lokalizacją). Dzięki temu obrazy są nie tylko ładniejsze, ale i bardziej poprawne semantycznie w przypadku zadań takich jak infografiki, diagramy czy makiety produktów.
Jak osiągnąć: „Myślenie” w Nano Banana Pro to kontrolowany, wewnętrzny proces wnioskowania/kompozycji, w którym model generuje pośrednie wizualizacje i ślady wnioskowania przed wygenerowaniem obrazu finalnego. Interfejs API ujawnia, że model może utworzyć do dwóch klatek pośrednich, a obraz finalny jest ostatnim etapem tego łańcucha. W środowisku produkcyjnym pomaga to w kompozycji, rozmieszczeniu tekstu i podejmowaniu decyzji dotyczących układu.
Dokładniejsze renderowanie tekstu
Znacznie poprawiono czytelność i lokalizację tekstu wewnątrz obrazów (menu, plakaty, diagramy). Nano Banana Pro osiąga nowe wyżyny w zakresie renderowania tekstu na obrazach:
- Tekst na zdjęciach jest wyraźny, czytelny i poprawnie napisany;
- Obsługuje generowanie wielojęzyczne (w tym chiński, japoński, koreański, arabski itd.);
- Umożliwia użytkownikom pisanie długich akapitów lub wielowierszowego tekstu opisowego bezpośrednio w obrazach;
- Dostępne są funkcje automatycznego tłumaczenia i lokalizacji.
Dlaczego jest to ważne: Tradycyjnie modele graficzne mają problemy z renderowaniem czytelnego, dobrze wyrównanego tekstu. Nano Banana Pro jest zoptymalizowany pod kątem niezawodnego renderowania i lokalizacji tekstu (np. tłumaczenia i zachowania układu), co otwiera nowe możliwości w zakresie kreatywnych zastosowań, takich jak plakaty, opakowania czy reklamy wielojęzyczne.
Jak osiągnąć: Usprawnienia w renderowaniu tekstu wynikają z multimodalnej architektury bazowej i szkolenia na zbiorach danych, kładących nacisk na przykłady tekstu w obrazach, w połączeniu z ukierunkowanymi zestawami ewaluacyjnymi (ewaluacje ludzkie i zestawy regresyjne). Model uczy się dopasowywać kształty glifów, czcionki i ograniczenia układu, aby generować czytelny, zlokalizowany tekst wewnątrz obrazów – choć mały tekst i bardzo gęste akapity nadal mogą być podatne na błędy.
Większa spójność i wierność wizualna
Sterowanie studyjne (oświetlenie, ostrość, kąt kamery, gradacja kolorów) i kompozycja wieloobrazowa (do 14 obrazów referencyjnych, ze specjalnymi uwzględnieniami dla wielu postaci) pomagają zachować spójność postaci (zachować tę samą osobę/postać we wszystkich edycjach) oraz tożsamość marki w generowanych zasobach. Model obsługuje natywne wyjścia 1K/2K/4K.
Dlaczego jest to ważne: Procesy pracy w marketingu i rozrywce wymagają spójnych postaci w różnych ujęciach i edycjach. Model może zachować podobieństwo nawet przez… pięć ludzie i mieszają się 14 Łączenie obrazów referencyjnych w jedną kompozycję podczas tworzenia szkicu → renderowania 3D. Jest to przydatne w przypadku tworzenia reklam, opakowań lub opowiadania historii w wielu ujęciach.
Jak osiągnąć: Dane wejściowe modelu akceptują wiele obrazów z wyraźnymi przypisaniami ról (np. „Obraz A: poza”, „Obraz B: odniesienie do twarzy”, „Obraz C: tekstura tła”). Architektura warunkuje generowanie tych obrazów, aby zachować tożsamość/pozę/styl podczas stosowania transformacji (oświetlenie, kamera).
Testy wydajności Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) „wyróżnia się w testach porównawczych AI Tekst→Obraz” i wykazuje lepsze rozumowanie oraz lepsze osadzanie w kontekście w porównaniu z wcześniejszymi modelami Nano Banana. Podkreśla wyższą wierność i lepsze renderowanie tekstu w porównaniu z poprzednimi wersjami.

Praktyczne wskazówki dotyczące wydajności
Oczekiwać wyższa latencja i koszt renderowania 2K/4K o wysokiej wierności niż w przypadku 1K lub modeli „Flash” zoptymalizowanych pod kątem szybkości. Jeśli przepustowość/opóźnienie mają kluczowe znaczenie, należy użyć wariantu Flash (np. Gemini 2.5 Flash / Nano Banana) do dużych wolumenów; Nano Banana Pro / gemini-3-pro-image do zadań wymagających wysokiej jakości i złożonego rozumowania.
W jaki sposób programiści mogą uzyskać dostęp do Nano Banana Pro?
Jakie punkty końcowe i modele wybrać
Identyfikator modelu (wersja zapoznawcza / pro): gemini-3-pro-image-preview (podgląd) — użyj tego, gdy potrzebujesz możliwości Nano Banana Pro. Aby pracować szybciej i taniej, gemini-2.5-flash-image (Nano Banana) pozostaje dostępny.
Powierzchnie do wykorzystania
- Gemini API (punkt końcowy języka generatywnego): Możesz użyć klucza CometAPI, aby uzyskać dostęp do xx. CometAPI oferuje to samo API w korzystniejszej cenie niż oficjalna strona internetowa. Bezpośrednie wywołania HTTP/SDK do
generateContentdo generowania obrazu (przykłady poniżej). - Google AI Studio: Platforma internetowa do szybkiego eksperymentowania i tworzenia aplikacji demonstracyjnych.
- Vertex AI (przedsiębiorstwo): Zapewniona przepustowość, opcje rozliczeń (płatność za rzeczywiste użycie / poziomy korporacyjne) oraz filtry bezpieczeństwa dla produkcji na dużą skalę. Użyj Vertex podczas integracji z dużymi potokami lub zadaniami renderowania wsadowego.
Bezpłatny poziom ma ograniczony limit użytkowania; przekroczenie limitu spowoduje powrót do Nano Banana. Poziomy Plus/Pro/Ultra oferują wyższe limity i dane wyjściowe bez znaku wodnego, ale poziom Ultra można używać w narzędziach wideo Flow i środowisku Antigravity IDE w trybie 4K.
Jak wygenerować obraz za pomocą Nano Banana Pro (krok po kroku)?
1) Szybki interaktywny przepis do wykorzystania w aplikacji Gemini
- Otwórz Gemini → Narzędzia → Twórz obrazy.
- Wybierz Myślenie (Nano Banana Pro) jako modelka.
- Wprowadź podpowiedź: wyjaśnij temat, akcję, nastrój, oświetlenie, kamerę, proporcje obrazu i ewentualny tekst, który ma się pojawić na obrazie. Przykład:
„Stwórz plakat 4K przedstawiający warsztaty robotyki: zróżnicowany zespół przy stole, nakładka na plan, pogrubiony nagłówek „Roboty w akcji” czcionką bezszeryfową, ciepłe światło żarówki wolframowej, mała głębia ostrości, kinowy format 16:9”. - (Opcjonalnie) Prześlij maksymalnie 14 obrazów do połączenia lub wykorzystania jako odniesienia. Użyj narzędzia zaznaczania/maski, aby edytować obszary lokalnie.
- Generuj, powtarzaj za pomocą języka naturalnego (np. „uczyń nagłówek niebieskim i wyrównaj go do środka u góry; zwiększ kontrast na planie”), a następnie eksportuj
2) Użyj protokołu HTTP do wysłania do punktu końcowego obrazu Gemini
Aby uzyskać klucz, musisz zalogować się do CometAPI.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Ten przykład zapisuje ładunek obrazu base64 do pliku PNG. generationConfig.imageConfig.resolution żąda parametrów wyjścia 4K (dostępne dla modelu 3 Pro Image)
3) Bezpośrednie wywołania SDK do generateContent do generowania obrazu
Wymaga zainstalowania pakietu Google SDK i uzyskania uwierzytelnienia Google. Przykład w Pythonie (tekst + obrazy referencyjne + uziemienie):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
W tym przykładzie pokazano przesyłanie obrazu referencyjnego i żądanie kompozycji 4K przy jednoczesnym włączeniu google_search jako narzędzie. Zestaw SDK Pythona będzie obsługiwał szczegóły REST niskiego poziomu.
Fuzja wielu obrazów i spójność postaci
Aby utworzyć kompozycję, która zachowuje tę samą osobę we wszystkich scenach, przepuść wielokrotność inline_data części (wybranych z zestawu zdjęć) i określ kreatywne instrukcje, zgodnie z którymi model powinien „zachować tożsamość we wszystkich wynikach”.
Krótki przykład praktyczny — rzeczywisty, szybki i oczekiwany przebieg zdarzeń
zapyta:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Oczekiwany przebieg procesu: aplikacja → szablon monitu + dane CSV → zamień symbole zastępcze w monicie → wywołanie API za pomocą image_size=2048x1152 → odbierz PNG w formacie base64 → zapisz zasób + metadane pochodzenia → opcjonalnie nałóż dokładną czcionkę za pomocą kompozytora, jeśli to konieczne.
Jak zaprojektować proces produkcyjny i zadbać o bezpieczeństwo/pochodzenie?
Zalecana architektura produkcyjna
- Szybki + przepustka robocza (szybki model): Zastosowanie
gemini-2.5-flash-image(Nano Banana) umożliwiająca tanią produkcję wielu wariantów o małej rozdzielczości. - Selekcja i udoskonalanie: wybierz najlepszych kandydatów, dopracuj podpowiedzi, zastosuj edycję uzupełniania/maskowania w celu uzyskania precyzji.
- Wysokiej jakości renderowanie końcowe: wezwanie
gemini-3-pro-image-preview(Nano Banana Pro) do ostatecznych renderów 2K/4K i postprocessingu (próbkowanie w górę, gradacja kolorów). - Pochodzenie i metadane: przechowuj monity, wersję modelu, znaczniki czasu i informacje SynthID w magazynie metadanych zasobów — model dołącza znak wodny SynthID, a dane wyjściowe można śledzić w celu zapewnienia zgodności i audytu zawartości.
Bezpieczeństwo, prawa i moderacja
- Prawa autorskie i wyjaśnienia dotyczące praw: Nie przesyłaj ani nie generuj treści naruszających prawa. Używaj wyraźnych potwierdzeń użytkownika w przypadku obrazów lub podpowiedzi dostarczonych przez użytkownika, które mogłyby tworzyć rozpoznawalne podobizny. Należy przestrzegać Zasad zabronionego użytkowania Google i filtrów bezpieczeństwa modeli.
- Filtrowanie i automatyczne sprawdzanie: przepuść wygenerowane obrazy przez wewnętrzny proces moderacji treści (wykrywanie treści NSFW, symboli nienawiści, treści politycznych/wiążących) przed ich dalszym wykorzystaniem lub publicznym wyświetleniem.
Jak mogę edytować obraz (inpainting), komponować wiele obrazów i renderować tekst?
Nano Banana Pro obsługuje multimodalne procesy edycji: dostarcza jeden lub więcej obrazów wejściowych oraz instrukcję tekstową opisującą edycję (usunięcie obiektu, zmiana nieba, dodanie tekstu). API akceptuje obraz i tekst w jednym żądaniu; model może generować przeplatany tekst i obrazy jako odpowiedzi. Przykładowe wzorce obejmują edycje maskowane i łączenie wielu obrazów (przenoszenie stylu / kompozycja). Więcej informacji można znaleźć w dokumentacji. contents tablice łączące fragmenty tekstu i obrazy binarne.
Przykład: Edycja (pseudo-przepływ Pythona)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Dzięki edycji konwersacyjnej możesz iteracyjnie dostosowywać wyniki, aż do uzyskania zasobu gotowego do produkcji.
Przykład Node.js — edycja obrazu z maską i wieloma odniesieniami
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(Interfejsy API czasami akceptują identyfikatory URI usługi Cloud Storage lub ładunki obrazów w formacie base64; dokładne formaty wejściowe można znaleźć w dokumentacji interfejsu API Gemini.)
Aby uzyskać informacje na temat generowania i edytowania obrazów za pomocą interfejsu CometAPI, zapoznaj się z Przewodnik po wywołaniu gemini-3-pro-image .
Podsumowanie
Nano Banana Pro (Gemini 3 Pro Image) to przełom w generowaniu obrazów klasy produkcyjnej: narzędzie do wizualizacji danych, wprowadzania lokalnych edycji i usprawniania procesów pracy programistów. Użyj aplikacji Gemini do szybkiego prototypowania, API do integracji produkcyjnej i postępuj zgodnie z powyższymi zaleceniami, aby kontrolować koszty, zapewnić bezpieczeństwo i utrzymać jakość marki. Zawsze testuj rzeczywiste procesy pracy użytkowników i przechowuj metadane pochodzenia, aby spełnić wymogi przejrzystości i audytu.
Używaj Nano Banana Pro, gdy tego potrzebujesz jakość studyjna zasoby, precyzyjna kontrola nad kompozycją, ulepszone renderowanie tekstu wewnątrz obrazów oraz możliwość łączenia wielu odniesień w jeden spójny wynik.
Deweloperzy mogą uzyskać dostęp Interfejs API obrazu Gemini 3 Pro (Nano Banana Pro) poprzez CometAPI. Na początek zapoznaj się z możliwościami modeluInterfejs API Comet Plac zabaw Szczegółowe instrukcje znajdziesz w przewodniku API. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. ZetAPI zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.
Gotowy do drogi?→ Zarejestruj się w CometAPI już dziś !
Jeśli chcesz poznać więcej wskazówek, poradników i nowości na temat sztucznej inteligencji, obserwuj nas na VK, X oraz Discord!



