Podstawowe funkcje
- Tekst → Obraz: pełne generowanie sterowane promptem z wysoką zgodnością z promptem.
- Obraz → Obraz (edycje): precyzyjne, ukierunkowane edycje z zachowaniem spójności obiektu/postaci w wielu kolejnych edycjach.
- Maksymalna rozdzielczość wyjściowa: do 4K (przykłady i obsługiwane dokładne rozmiary w pikselach zależą od proporcji obrazu; API udostępnia presety 1K/2K/4K)
- Iteracyjne planowanie i samokorekta: wewnętrzny, „wieloetapowy” pipeline, który wykrywa i koryguje typowe błędy wizualne (perspektywa, tekst, drobna geometria).
- Zaawansowane renderowanie tekstu wewnątrz obrazu: wyraźny, czytelny tekst wielojęzyczny (od krótkich podpisów po długie akapity), odpowiedni do plakatów, mockupów i infografik.
- 5 postaci oraz wysoka wierność dla maksymalnie 14 obiektów/obrazów referencyjnych w jednym workflow.
- Watermarking / pochodzenie: wszystkie wygenerowane obrazy zawierają znak wodny SynthID; model osadza metadane C2PA dotyczące pochodzenia w niektórych integracjach produktowych.
Wersje i nazewnictwo Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Szczegóły techniczne
Architektura
- Rodowód / backbone: Nano Banana Pro jest zbudowany na rozwijającym się stosie obrazowym Gemini od Google — konkretnie na nowej architekturze Gemini 3 Pro Image / GEMPIX 2 (wyższej pojemności multimodalny framework obraz+tekst). Jest to ewolucja od Gemini 2.5 Flash Image (oryginalnego „nano-banana”) do natywnie multimodalnego modelu obrazu z rozszerzonymi możliwościami rozumowania obrazowo-językowego.
- Zachowanie modelu: natywna multimodalność (obraz + tekst + wiedza o świecie), jawne pipeline’y do fuzji wielu obrazów oraz wewnętrzny etapowy planer, który udoskonala wyniki w wielu przebiegach zamiast generować pojedynczą statyczną próbkę. Wczesne raporty wskazują na silniejsze rozumowanie geometryczne/optyczne (szkło, refrakcja) względem wcześniejszych wersji.
- Thinking / wewnętrzne udoskonalanie: model wykorzystuje wewnętrzny widoczny proces „thinking” do dopracowywania kompozycji (dokumentacja API opisuje to zachowanie i zaznacza, że te wewnętrzne kroki nie są naliczane jako końcowe tokeny obrazu).
- Grounding i narzędzia: obsługuje Search grounding (może uwzględniać fakty z sieci przy generowaniu diagramów/infografik). Obsługuje także instrukcje systemowe dla bardziej deterministycznej kontroli.
Kluczowe parametry API:
thinking_level(low / high) do wyboru między opóźnieniem a głębokością rozumowania;media_resolution(low/medium/high) do kontrolowania tokenów odczytu OCR/szczegółów obrazu;generationConfig.imageConfigdo kontrolowania proporcji obrazu/rozdzielczości w wyjściach obrazów.
Limity obrazów:
- Obsługiwane modalności wejściowe: tekst i obrazy (model nie przyjmuje audio ani wideo jako danych wejściowych do generowania obrazów).
- Maks. liczba obrazów na prompt: 14 (dla podglądowej wersji Gemini 3 Pro Image).
- Maks. rozmiar obrazu (upload): 7 MB na jeden obraz wejściowy.
- Obsługiwane proporcje obrazu: 1:1, 3:2, 16:9, 9:16, 21:9 itd.
Obrazy wyjściowe / tokeny: wysokie limity, z obsługą 4K/4096 px.
Wydajność w benchmarkach
Krótkie podsumowanie: dotychczas publiczne/wczesne benchmarki są głównie jakościowe i oparte na testach społeczności, ale konsekwentnie wskazują na znaczące ulepszenia w zakresie rozdzielczości, redukcji artefaktów i wierności fizycznej względem oryginalnego nano-banana (Gemini 2.5 Flash Image). Konkretne nazwane „challenge’e” pokazały wyraźne zyski wizualne, ale nie ma jeszcze (publicznych) ustandaryzowanych tabel liczbowych od Google porównujących v1 → v2 według standardowych metryk generowania obrazów.
- Jakościowe testy społeczności: czystsze krawędzie, ostrzejsze mikroszczegóły, wierniejsze kolory i lepsza zgodność z promptem (mniej zhalucynowanych rekwizytów, bardziej spójne postacie). Popularne nieformalne testy obejmują tzw. „Wine Glass Test” i „Glass Burger Challenge”, w których GEMPIX2 (Nano Banana Pro) radzi sobie ze przezroczystością i refrakcją wyraźnie lepiej niż wcześniejsze wersje.
- Obsługa tekstu: Nano Banana Pro wykazuje zauważalnie lepszą typografię i rozmieszczenie tekstu wewnątrz obrazów (trwała słabość wielu modeli obrazowych). Porównania społeczności wskazują na mniejszą liczbę zniekształconych renderowanych glifów.
- Przepustowość / UX: szybsza iteracja i UX, który wykonuje wieloetapowe dopracowywanie po stronie backendu, dzięki czemu użytkownicy otrzymują bardziej niezawodne wyniki już w pierwszym podejściu (co ogranicza konieczność ręcznych ponowień).
Ograniczenia i ryzyka
- Filtry treści i wykrywanie: platformy integrujące model (np. Whisk/aplikacje firm trzecich) mogą włączać rygorystyczne wykrywanie celebrytów lub podobizn i blokować niektóre wyniki, co wpływa na workflow kreatywne opierające się na realistycznych podobiznach celebrytów.
- Halucynacje / graniczne przypadki rozumowania: mimo ulepszeń model nadal może generować fizycznie nierealistyczne artefakty, zwłaszcza przy gęstym symbolicznym tekście wewnątrz obrazów lub bardzo technicznych diagramach — choć NB2 wydaje się ograniczać te błędy względem wcześniejszych wersji.
- Bezpieczeństwo i nadużycia: modele generowania obrazów mogą być wykorzystywane do tworzenia problematycznych lub szkodliwych treści. Google stosuje ograniczenia, filtry treści i znak wodny SynthID, aby wspierać ustalanie pochodzenia; mimo to dochodziło do nadużyć (głośna kontrowersja związana z obrazem wygenerowanym przez Nano Banana w politycznie wrażliwym kontekście).
Jak Nano Banana Pro wypada na tle innych modeli
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — mocna integracja mobilna, fuzja wielu obrazów, iteracyjna samokorekta, natywne 2K / skalowanie do 4K, ścisła integracja z aplikacjami Google (Search, Photos, Workspace/Gemini). Najlepszy do workflow wymagających niezawodnych edycji, ciągłości i integracji z usługami Google.
- Midjourney — wyróżnia się stylizowanymi artystycznymi wynikami i społecznościowo rozwijanym prompt engineeringiem; zwykle nie jest ukierunkowany na fotorealistyczną fuzję wielu obrazów ani głębokie multimodalne pipeline’y edycji.
- Stable Diffusion / open weights — w pełni otwarty, wysoce konfigurowalny i możliwy do hostowania lokalnie; ekosystem checkpointów i fine-tuningu stanowi kluczową przewagę dla badań i zastosowań offline. Mniej „jednoklikowej” integracji mobilnej i mniej spójnej koherencji w edycji wielu obrazów od razu po uruchomieniu niż Nano Banana Pro.
- Seedream 4.0 (ByteDance) — niedawno pozycjonowany bezpośrednio jako konkurent Nano Banana, z naciskiem na ultraszybkie renderowanie, wyjście 2K i obsługę wielu obrazów referencyjnych (do sześciu). Pozycjonowany jako profesjonalna alternatywa dla twórców.
(Porównania te są ogólne; wybierz zwycięzcę, dopasowując narzędzie do swojego workflow: otwartość/konfigurowalność → Stable Diffusion; sztuka stylizowana → Midjourney; zintegrowana, spójna mobilna edycja z agresywną iteracją → Nano Banana Pro / rodzina Gemini 3 Pro Image.)
Przykłady zastosowań w praktyce
- Mobilna edycja zdjęć i filtry kreatywne (integracje z Google Photos — zmiana stylu, fuzja tła, rekompozycja portretu).
- Materiały marketingowe i reklamowe — szybkie generowanie koncepcji, spójne postacie marki w wielu kadrach/ujęciach.
- Concept art i storyboardy — fuzja wielu obrazów pomaga zachować ciągłość postaci między panelami.
- E-commerce / mockupy produktów — generowanie spójnych ujęć produktów w różnych kontekstach/warunkach oświetleniowych.
- Szybkie prototypowanie zasobów AR/VR — wysokiej jakości wyjścia 2K/4K, które można skalować do zastosowań immersyjnych.
- Jak uzyskać dostęp do API gemini-3-pro-image (Nano Banana Pro)
Wymagane kroki
- Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, najpierw się zarejestruj
- Uzyskaj poświadczenie dostępu, czyli klucz API interfejsu. Kliknij „Add Token” w sekcji tokenów API w centrum osobistym, uzyskaj klucz tokenu: sk-xxxxx i prześlij go.
- Pobierz adres URL tej strony: https://api.cometapi.com/
Metoda użycia
- Wybierz endpoint
gemini-3-pro-image, aby wysłać żądanie API, i ustaw body żądania. Metoda żądania i body żądania są dostępne w dokumentacji API na naszej stronie. Nasza strona udostępnia również testy Apifox dla Twojej wygody. - Zamień <YOUR_API_KEY> na rzeczywisty klucz CometAPI ze swojego konta.
- Wstaw swoje pytanie lub żądanie do pola content — to właśnie na nie model odpowie.
- Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
CometAPI zapewnia w pełni kompatybilne REST API — dla płynnej migracji. Kluczowe szczegóły:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nazwy modeli:
gemini-3-pro-image - Uwierzytelnianie: nagłówek
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.