Podstawowe funkcje

Tekst → Obraz: pełne generowanie sterowane promptem z wysoką zgodnością z promptem.
Obraz → Obraz (edycje): precyzyjne, ukierunkowane edycje z zachowaniem spójności obiektu/postaci w wielu kolejnych edycjach.
Maksymalna rozdzielczość wyjściowa: do 4K (przykłady i obsługiwane dokładne rozmiary w pikselach zależą od proporcji obrazu; API udostępnia presety 1K/2K/4K)
Iteracyjne planowanie i samokorekta: wewnętrzny, „wieloetapowy” pipeline, który wykrywa i koryguje typowe błędy wizualne (perspektywa, tekst, drobna geometria).
Zaawansowane renderowanie tekstu wewnątrz obrazu: wyraźny, czytelny tekst wielojęzyczny (od krótkich podpisów po długie akapity), odpowiedni do plakatów, mockupów i infografik.
5 postaci oraz wysoka wierność dla maksymalnie 14 obiektów/obrazów referencyjnych w jednym workflow.
Watermarking / pochodzenie: wszystkie wygenerowane obrazy zawierają znak wodny SynthID; model osadza metadane C2PA dotyczące pochodzenia w niektórych integracjach produktowych.

Wersje i nazewnictwo Gemini 3 Pro Image

gemini-3-pro-image-preview
gemini-3-pro-image

Szczegóły techniczne

Architektura

Rodowód / backbone: Nano Banana Pro jest zbudowany na rozwijającym się stosie obrazowym Gemini od Google — konkretnie na nowej architekturze Gemini 3 Pro Image / GEMPIX 2 (wyższej pojemności multimodalny framework obraz+tekst). Jest to ewolucja od Gemini 2.5 Flash Image (oryginalnego „nano-banana”) do natywnie multimodalnego modelu obrazu z rozszerzonymi możliwościami rozumowania obrazowo-językowego.
Zachowanie modelu: natywna multimodalność (obraz + tekst + wiedza o świecie), jawne pipeline’y do fuzji wielu obrazów oraz wewnętrzny etapowy planer, który udoskonala wyniki w wielu przebiegach zamiast generować pojedynczą statyczną próbkę. Wczesne raporty wskazują na silniejsze rozumowanie geometryczne/optyczne (szkło, refrakcja) względem wcześniejszych wersji.
Thinking / wewnętrzne udoskonalanie: model wykorzystuje wewnętrzny widoczny proces „thinking” do dopracowywania kompozycji (dokumentacja API opisuje to zachowanie i zaznacza, że te wewnętrzne kroki nie są naliczane jako końcowe tokeny obrazu).
Grounding i narzędzia: obsługuje Search grounding (może uwzględniać fakty z sieci przy generowaniu diagramów/infografik). Obsługuje także instrukcje systemowe dla bardziej deterministycznej kontroli.

Kluczowe parametry API:

thinking_level (low / high) do wyboru między opóźnieniem a głębokością rozumowania;
media_resolution (low/medium/high) do kontrolowania tokenów odczytu OCR/szczegółów obrazu;
generationConfig.imageConfig do kontrolowania proporcji obrazu/rozdzielczości w wyjściach obrazów.

Limity obrazów:

Obsługiwane modalności wejściowe: tekst i obrazy (model nie przyjmuje audio ani wideo jako danych wejściowych do generowania obrazów).
Maks. liczba obrazów na prompt: 14 (dla podglądowej wersji Gemini 3 Pro Image).
Maks. rozmiar obrazu (upload): 7 MB na jeden obraz wejściowy.
Obsługiwane proporcje obrazu: 1:1, 3:2, 16:9, 9:16, 21:9 itd.

Obrazy wyjściowe / tokeny: wysokie limity, z obsługą 4K/4096 px.

Wydajność w benchmarkach

Krótkie podsumowanie: dotychczas publiczne/wczesne benchmarki są głównie jakościowe i oparte na testach społeczności, ale konsekwentnie wskazują na znaczące ulepszenia w zakresie rozdzielczości, redukcji artefaktów i wierności fizycznej względem oryginalnego nano-banana (Gemini 2.5 Flash Image). Konkretne nazwane „challenge’e” pokazały wyraźne zyski wizualne, ale nie ma jeszcze (publicznych) ustandaryzowanych tabel liczbowych od Google porównujących v1 → v2 według standardowych metryk generowania obrazów.

Jakościowe testy społeczności: czystsze krawędzie, ostrzejsze mikroszczegóły, wierniejsze kolory i lepsza zgodność z promptem (mniej zhalucynowanych rekwizytów, bardziej spójne postacie). Popularne nieformalne testy obejmują tzw. „Wine Glass Test” i „Glass Burger Challenge”, w których GEMPIX2 (Nano Banana Pro) radzi sobie ze przezroczystością i refrakcją wyraźnie lepiej niż wcześniejsze wersje.
Obsługa tekstu: Nano Banana Pro wykazuje zauważalnie lepszą typografię i rozmieszczenie tekstu wewnątrz obrazów (trwała słabość wielu modeli obrazowych). Porównania społeczności wskazują na mniejszą liczbę zniekształconych renderowanych glifów.
Przepustowość / UX: szybsza iteracja i UX, który wykonuje wieloetapowe dopracowywanie po stronie backendu, dzięki czemu użytkownicy otrzymują bardziej niezawodne wyniki już w pierwszym podejściu (co ogranicza konieczność ręcznych ponowień).

Ograniczenia i ryzyka

Filtry treści i wykrywanie: platformy integrujące model (np. Whisk/aplikacje firm trzecich) mogą włączać rygorystyczne wykrywanie celebrytów lub podobizn i blokować niektóre wyniki, co wpływa na workflow kreatywne opierające się na realistycznych podobiznach celebrytów.
Halucynacje / graniczne przypadki rozumowania: mimo ulepszeń model nadal może generować fizycznie nierealistyczne artefakty, zwłaszcza przy gęstym symbolicznym tekście wewnątrz obrazów lub bardzo technicznych diagramach — choć NB2 wydaje się ograniczać te błędy względem wcześniejszych wersji.
Bezpieczeństwo i nadużycia: modele generowania obrazów mogą być wykorzystywane do tworzenia problematycznych lub szkodliwych treści. Google stosuje ograniczenia, filtry treści i znak wodny SynthID, aby wspierać ustalanie pochodzenia; mimo to dochodziło do nadużyć (głośna kontrowersja związana z obrazem wygenerowanym przez Nano Banana w politycznie wrażliwym kontekście).

Jak Nano Banana Pro wypada na tle innych modeli

Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — mocna integracja mobilna, fuzja wielu obrazów, iteracyjna samokorekta, natywne 2K / skalowanie do 4K, ścisła integracja z aplikacjami Google (Search, Photos, Workspace/Gemini). Najlepszy do workflow wymagających niezawodnych edycji, ciągłości i integracji z usługami Google.
Midjourney — wyróżnia się stylizowanymi artystycznymi wynikami i społecznościowo rozwijanym prompt engineeringiem; zwykle nie jest ukierunkowany na fotorealistyczną fuzję wielu obrazów ani głębokie multimodalne pipeline’y edycji.
Stable Diffusion / open weights — w pełni otwarty, wysoce konfigurowalny i możliwy do hostowania lokalnie; ekosystem checkpointów i fine-tuningu stanowi kluczową przewagę dla badań i zastosowań offline. Mniej „jednoklikowej” integracji mobilnej i mniej spójnej koherencji w edycji wielu obrazów od razu po uruchomieniu niż Nano Banana Pro.
Seedream 4.0 (ByteDance) — niedawno pozycjonowany bezpośrednio jako konkurent Nano Banana, z naciskiem na ultraszybkie renderowanie, wyjście 2K i obsługę wielu obrazów referencyjnych (do sześciu). Pozycjonowany jako profesjonalna alternatywa dla twórców.

(Porównania te są ogólne; wybierz zwycięzcę, dopasowując narzędzie do swojego workflow: otwartość/konfigurowalność → Stable Diffusion; sztuka stylizowana → Midjourney; zintegrowana, spójna mobilna edycja z agresywną iteracją → Nano Banana Pro / rodzina Gemini 3 Pro Image.)

Przykłady zastosowań w praktyce

Mobilna edycja zdjęć i filtry kreatywne (integracje z Google Photos — zmiana stylu, fuzja tła, rekompozycja portretu).
Materiały marketingowe i reklamowe — szybkie generowanie koncepcji, spójne postacie marki w wielu kadrach/ujęciach.
Concept art i storyboardy — fuzja wielu obrazów pomaga zachować ciągłość postaci między panelami.
E-commerce / mockupy produktów — generowanie spójnych ujęć produktów w różnych kontekstach/warunkach oświetleniowych.
Szybkie prototypowanie zasobów AR/VR — wysokiej jakości wyjścia 2K/4K, które można skalować do zastosowań immersyjnych.
Jak uzyskać dostęp do API gemini-3-pro-image (Nano Banana Pro)

Wymagane kroki

Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, najpierw się zarejestruj
Uzyskaj poświadczenie dostępu, czyli klucz API interfejsu. Kliknij „Add Token” w sekcji tokenów API w centrum osobistym, uzyskaj klucz tokenu: sk-xxxxx i prześlij go.
Pobierz adres URL tej strony: https://api.cometapi.com/

Metoda użycia

Wybierz endpoint gemini-3-pro-image, aby wysłać żądanie API, i ustaw body żądania. Metoda żądania i body żądania są dostępne w dokumentacji API na naszej stronie. Nasza strona udostępnia również testy Apifox dla Twojej wygody.
Zamień <YOUR_API_KEY> na rzeczywisty klucz CometAPI ze swojego konta.
Wstaw swoje pytanie lub żądanie do pola content — to właśnie na nie model odpowie.
Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

CometAPI zapewnia w pełni kompatybilne REST API — dla płynnej migracji. Kluczowe szczegóły:

Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Nazwy modeli: gemini-3-pro-image
Uwierzytelnianie: nagłówek Bearer YOUR_CometAPI_API_KEY
Content-Type: application/json .

variant / alias	Price
gemini-3-pro-image (1K/2K)	≈ $0.10720
gemini-3-pro-image (4K)	≈ $0.19200
gemini-3-pro-image-preview (1K/2K)	≈ $0.10720
gemini-3-pro-image-preview (4K)	≈ $0.19200
nano-banana-pro-all	$0.09600

Model id	opis	Dostępność	Żądanie
nano-banana-pro-all	Używana technologia jest nieoficjalna, a generowanie jest niestabilne itd., Chat format	✅	format Chat
gemini-3-pro-image	Zalecane, wskazuje na najnowszy model	✅	Gemini generuje obraz
gemini-3-pro-image-preview	Oficjalna wersja podglądowa	✅	Gemini generuje obraz

Nano Banana Pro

Podstawowe funkcje

Szczegóły techniczne

Architektura

Kluczowe parametry API:

Limity obrazów:

Wydajność w benchmarkach

Ograniczenia i ryzyka

Jak Nano Banana Pro wypada na tle innych modeli

Przykłady zastosowań w praktyce

Wymagane kroki

Metoda użycia

Najczęściej zadawane pytania

Can Gemini 3 Pro Image generate 4K resolution images?

How does Nano Banana Pro handle text rendering inside images?

Can I edit images conversationally with Gemini 3 Pro Image?

What makes Nano Banana Pro different from FLUX 2 Pro or Midjourney?

Does Nano Banana Pro use Google Search for grounded image generation?

How many reference images can Nano Banana Pro process in one request?

Funkcje dla Nano Banana Pro

Cennik dla Nano Banana Pro

nano-banana-pro（image）

Przykładowy kod i API dla Nano Banana Pro

Wersje modelu Nano Banana Pro

Więcej modeli