Podstawowe funkcje
- Tekst → Obraz: pełna generacja sterowana promptem z wysoką zgodnością z poleceniem.
- Obraz → Obraz (edytowanie): precyzyjne, ukierunkowane poprawki przy zachowaniu spójności postaci/bohatera w wielu edycjach.
- Maksymalna rozdzielczość wyjściowa: do 4K (przykłady i obsługiwane dokładne rozmiary w pikselach zależą od proporcji; API udostępnia presety 1K/2K/4K)
- Planowanie iteracyjne i autokorekta: wewnętrzny „wieloetapowy” pipeline, który wykrywa i koryguje typowe błędy wizualne (perspektywa, tekst, drobna geometria).
- Zaawansowane renderowanie tekstu w obrazie: wyraźny, czytelny tekst wielojęzyczny (od krótkich podpisów po długie akapity) odpowiedni do plakatów, makiet i infografik.
- 5 postaci oraz wierność dla maksymalnie 14 obiektów/obrazów referencyjnych w jednym przebiegu.
- Znakowanie wodne / pochodzenie: wszystkie generowane obrazy zawierają znak wodny SynthID; model osadza metadane C2PA dotyczące pochodzenia w niektórych integracjach produktowych.
Wersje i nazewnictwo Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Dane techniczne
Architektura
- Pochodzenie / backbone: Nano Banana Pro jest zbudowany na ewoluującym stosie obrazowym Google Gemini — konkretnie na nowej architekturze Gemini 3 Pro Image / GEMPIX 2 (model multimodalny obraz+tekst o wyższej pojemności). To ewolucja z Gemini 2.5 Flash Image (oryginalne „nano-banana”) do natywnie multimodalnego modelu obrazowego z rozszerzonymi zdolnościami rozumowania wizualno-językowego.
- Zachowanie modelu: natywna multimodalność (obraz + tekst + wiedza o świecie), jawne pipeline’y do fuzji wielu obrazów oraz wewnętrzny planista etapowy, który udoskonala wyniki w wielu przebiegach zamiast tworzyć pojedynczą statyczną próbkę. Wczesne relacje wskazują na silniejsze rozumienie geometrii/optyki (szkło, refrakcja) względem poprzednich wersji.
- Myślenie / wewnętrzne dopracowanie: model używa widocznego procesu „myślenia” wewnętrznie do dopracowania kompozycji (API dokumentuje to zachowanie i zaznacza, że te wewnętrzne kroki nie są naliczane jako końcowe tokeny obrazowe).
- Grounding i narzędzia: obsługuje Search grounding (może włączać fakty z sieci do generowania diagramów/infografik). Wspiera także instrukcje systemowe dla bardziej deterministycznej kontroli.
Kluczowe parametry API:
thinking_level(low / high) do równoważenia opóźnienia względem głębokości rozumowania;media_resolution(low/medium/high) do kontrolowania tokenów OCR/szczegółów odczytu obrazu;generationConfig.imageConfigdo kontrolowania proporcji/rozdzielczości w obrazach wyjściowych.
Limity obrazów:
- Obsługiwane tryby wejścia: Tekst i obrazy (model nie akceptuje audio ani wideo jako wejść do generowania obrazów).
- Maks. liczba obrazów na prompt: 14 (dla podglądu Gemini 3 Pro Image).
- Maks. rozmiar obrazu (upload): 7 MB na obraz wejściowy.
- Obsługiwane proporcje: 1:1, 3:2, 16:9, 9:16, 21:9 itd.
Obrazy wyjściowe / tokeny: wysokie limity, z obsługą 4K/4096 px.
Wydajność w benchmarkach
Krótko: publiczne/wczesne benchmarki są głównie jakościowe/społecznościowe, ale konsekwentnie raportują istotne poprawy rozdzielczości, redukcji artefaktów i zgodności fizycznej względem oryginalnego nano-banana (Gemini 2.5 Flash Image). Konkretne „wyzwania” nazwane z nazwy wykazały wyraźne zyski wizualne, lecz nie ma jeszcze publicznych, ustandaryzowanych tabel liczbowych od Google porównujących v1 → v2 na standardowych metrykach generowania obrazów.
- Jakościowe testy społeczności: czystsze krawędzie, ostrzejsze mikroszczegóły, wierniejsze kolory i lepsza zgodność z promptem (mniej halucynowanych rekwizytów, bardziej spójne postacie). Popularne nieformalne testy to tzw. „Wine Glass Test” i „Glass Burger Challenge”, gdzie GEMPIX2 (Nano Banana Pro) znacznie lepiej radzi sobie z przezroczystością i refrakcją niż wcześniejsze wydania.
- Obsługa tekstu: Nano Banana Pro wykazuje widocznie ulepszoną typografię i rozmieszczanie tekstu w obrazach (trwała słabość wielu modeli obrazowych). Porównania społeczności wskazują na mniej zniekształconych glifów.
- Przepustowość / UX: szybsza iteracja i zaplecze wykonujące wieloetapowe dopracowanie, dzięki czemu użytkownicy widzą bardziej wiarygodne wyniki już w pierwszym przebiegu (mniej ręcznych powtórzeń).
Ograniczenia i ryzyka
- Filtry treści i detekcja: platformy integrujące model (np. Whisk/aplikacje zewnętrzne) mogą włączać restrykcyjną detekcję celebrytów lub podobizn i blokować określone wyniki, co wpływa na kreatywne przepływy pracy polegające na realistycznych podobiznach celebrytów.
- Halucynacje / trudne przypadki rozumowania: mimo ulepszeń model może wciąż tworzyć fizycznie nierealistyczne artefakty, zwłaszcza przy gęstym symbolicznym tekście w obrazach lub wysoko technicznych diagramach — choć NB2 zdaje się ograniczać te błędy względem wcześniejszych wersji.
- Bezpieczeństwo i nadużycia: generatywne modele obrazowe mogą być wykorzystywane do problematycznych lub szkodliwych treści. Google stosuje ograniczenia, filtry treści oraz znak wodny SynthID w celu weryfikacji pochodzenia; niemniej do nadużyć dochodziło (głośny incydent związany z obrazem Nano Banana w politycznie wrażliwym kontekście).
Jak Nano Banana Pro wypada na tle innych modeli
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — silna integracja mobilna, fuzja wielu obrazów, iteracyjna autokorekta, natywne 2K/skalowanie do 4K, ścisła integracja z aplikacjami Google (Search, Photos, Workspace/Gemini). Najlepszy do przepływów wymagających niezawodnych edycji, ciągłości i integracji z usługami Google.
- Midjourney — doskonały do stylizowanych, artystycznych efektów i inżynierii promptów napędzanej społecznością; zazwyczaj nie jest ukierunkowany na foto-realistyczną fuzję wielu obrazów ani głębokie multimodalne pipeline’y edycyjne.
- Stable Diffusion / open weights — w pełni otwarty, wysoko konfigurowalny i możliwy do hostowania lokalnie; ekosystem checkpointów i fine-tuningu to decydująca przewaga dla badań i pracy offline. Mniej „jednoklikowej” integracji mobilnej i mniej spójnej koherencji edycji wielu obrazów „z pudełka” niż Nano Banana Pro.
- Seedream 4.0 (ByteDance) — ostatnio pozycjonowany wprost jako konkurent Nano Banana, podkreślający ultraszybkie renderowanie, wyjścia 2K i wsparcie wielu obrazów referencyjnych (do sześciu). Pozycjonowany jako alternatywa pro/creator.
(Te porównania są wysokopoziomowe; wybierz zwycięzcę, dopasowując narzędzie do swojego workflow: otwartość/konfigurowalność → Stable Diffusion; stylizowana sztuka → Midjourney; zintegrowana, spójna edycja mobilna z agresywną iteracją → rodzina Nano Banana Pro/Gemini 3 Pro Image.)
Zastosowania w praktyce
- Mobilna edycja zdjęć i kreatywne filtry (integracje z Google Photos — restylizacja, łączenie tła, rekadrowanie portretów).
- Zasoby marketingowe i reklamowe — szybkie tworzenie koncepcji, spójne postacie marki w wielu kadrach/kątach.
- Concept art i storyboardy — fuzja wielu obrazów pomaga zachować ciągłość postaci między panelami.
- E-commerce / mockupy produktów — generowanie spójnych ujęć produktów w różnych kontekstach/warunkach oświetleniowych.
- Szybkie prototypowanie zasobów AR/VR — wysokiej jakości wyjścia 2K/4K, które można skalować dla immersyjnych zastosowań.
- Jak uzyskać dostęp do API gemini-3-pro-image (Nano Banana Pro)
Wymagane kroki
- Zaloguj się na cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw
- Uzyskaj klucz API dostępu do interfejsu. Kliknij „Add Token” w sekcji API token w centrum osobistym, pobierz klucz tokena: sk-xxxxx i zatwierdź.
- Pobierz adres URL tej witryny:
https://api.cometapi.com/
Sposób użycia
- Wybierz endpoint „
gemini-3-pro-image”, aby wysłać żądanie do API i ustaw treść żądania. Metodę żądania i treść żądania znajdziesz w dokumentacji API na naszej stronie. Dla wygody nasza strona udostępnia także test w Apifox. - Zastąp <YOUR_API_KEY> swoim rzeczywistym kluczem CometAPI z konta.
- Wstaw swoje pytanie lub prośbę w pole content — na to odpowie model.
- . Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
CometAPI zapewnia w pełni kompatybilne REST API — dla płynnej migracji. Kluczowe szczegóły :
- Adres bazowy: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nazwy modeli:
gemini-3-pro-image - Uwierzytelnianie:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json