Podstawowe funkcje
- Text → Image: pełna generacja sterowana promptem z wysoką zgodnością z promptem.
- Image → Image (edits): precyzyjne, ukierunkowane edycje z zachowaniem spójności obiektu/postaci w wielu edycjach.
- Maksymalna rozdzielczość wyjściowa: do 4K (przykłady i dokładne wspierane rozmiary pikseli zależą od proporcji; API udostępnia presety 1K/2K/4K)
- Iteracyjne planowanie i samokorekta: wewnętrzny „wielostopniowy” pipeline, który wykrywa i koryguje typowe błędy wizualne (perspektywa, tekst, drobna geometria).
- Zaawansowane renderowanie tekstu w obrazie: wyraźny, czytelny wielojęzyczny tekst (od krótkich podpisów po długie akapity) odpowiedni dla plakatów, makiet i infografik.
- 5 characters i wierność dla maksymalnie 14 obiektów/obrazów referencyjnych w jednym przepływie pracy.
- Znakowanie wodne / pochodzenie: wszystkie generowane obrazy zawierają znak wodny SynthID; model osadza metadane C2PA dla pochodzenia w niektórych integracjach produktu.
Wersje i nazewnictwo Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Szczegóły techniczne
Architektura
- Pochodzenie / baza: Nano Banana Pro jest zbudowany na ewoluującym stosie obrazów Gemini firmy Google — konkretnie nowej Gemini 3 Pro Image / GEMPIX 2 architekturze (wysokopojemnościowy multimodalny framework obraz+tekst). To ewolucja z Gemini 2.5 Flash Image (oryginalnego „nano-banana”) w kierunku natywnie multimodalnego modelu obrazu z rozszerzonymi możliwościami rozumowania wizja‑język.
- Zachowanie modelu: natywna multimodalność (obraz + tekst + wiedza o świecie), jawne pipeline’y dla fuzji wielu obrazów oraz wewnętrzny etapowy planer, który udoskonala wyniki przez wiele przebiegów zamiast tworzyć pojedynczą statyczną próbkę. Wczesne raporty wskazują na silniejsze rozumowanie geometryczno‑optyczne (szkło, refrakcja) względem wcześniejszych wersji.
- Myślenie / wewnętrzne udoskonalanie: Model używa widocznego procesu „thinking” wewnętrznie do udoskonalania kompozycji (API dokumentuje to zachowanie i zauważa, że te wewnętrzne kroki nie są naliczane jako końcowe tokeny obrazu).
- Grounding i narzędzia: Obsługuje Search grounding (może włączać fakty z sieci do generowania diagramów/infografik). Obsługuje też instrukcje systemowe dla bardziej deterministycznej kontroli.
Kluczowe parametry API:
thinking_level(low / high) do zrównoważenia opóźnienia vs głębokość rozumowania;media_resolution(low/medium/high) do sterowania tokenami odczytu szczegółów/OCR obrazu;generationConfig.imageConfigdo kontroli proporcji/rozdzielczości w wyjściowych obrazach.
Ograniczenia obrazów:
- Obsługiwane tryby wejściowe: Tekst i obrazy (model nie akceptuje audio ani wideo jako wejść do generowania obrazów).
- Maksymalna liczba obrazów na prompt: 14 (dla wersji preview Gemini 3 Pro Image).
- Maksymalny rozmiar obrazu (upload): 7 MB na obraz wejściowy.
- Obsługiwane proporcje: 1:1, 3:2, 16:9, 9:16, 21:9 itd.
Wyjściowe obrazy / tokeny: wysokie limity, z obsługą 4K/4096px.
Wydajność w benchmarkach
Krótka synteza: publiczne/wczesne benchmarki są głównie jakościowe / oparte na społeczności, ale konsekwentnie raportują znaczące ulepszenia w rozdzielczości, redukcji artefaktów i wierności fizycznej względem oryginalnego nano-banana (Gemini 2.5 Flash Image). Konkretne nazwane „wyzwania” wykazały wyraźne zyski wizualne, ale jak dotąd nie ma (publicznych) zestandaryzowanych tabel benchmarków od Google porównających v1 → v2 według standardowych metryk generowania obrazów.
- Jakościowe testy społeczności: Czystsze krawędzie, ostrzejsze mikro‑detale, wierniejsze kolory oraz lepsza zgodność z promptem (mniej halucynowanych rekwizytów, bardziej spójne postacie). Popularne nieformalne testy obejmują tzw. „Wine Glass Test” i „Glass Burger Challenge”, gdzie GEMPIX2 (Nano Banana Pro) znacznie lepiej radzi sobie z przezroczystością i refrakcją niż wcześniejsze wersje.
- Obsługa tekstu: Nano Banana Pro wykazuje widocznie poprawioną typografię i rozmieszczenie tekstu wewnątrz obrazów (trwała słabość wielu modeli obrazowych). Porównania społeczności wskazują na mniej zniekształconych renderowanych glifów.
- Przepustowość / UX: szybsze tempo iteracji i UX, który wykonuje wieloetapowe udoskonalanie w tle, dzięki czemu użytkownicy widzą bardziej wiarygodne wyniki już w pierwszym przebiegu (redukując ręczne ponowne generacje).
Ograniczenia i ryzyka
- Filtry treści i detekcja: Platformy integrujące model (np. Whisk/aplikacje zewnętrzne) mogą włączać restrykcyjne wykrywanie celebrytów lub podobizn i blokować określone wyniki, co wpływa na procesy kreatywne polegające na realistycznych podobiznach celebrytów.
- Halucynacje / przypadki brzegowe rozumowania: mimo ulepszeń model nadal może generować fizycznie nierealistyczne artefakty, zwłaszcza przy gęstym symbolicznym tekście w obrazach lub bardzo technicznych diagramach — choć NB2 wydaje się ograniczać te błędy względem wcześniejszych wersji.
- Bezpieczeństwo i nadużycia: generatywne modele obrazowe mogą być używane do tworzenia problematycznych lub szkodliwych treści. Google stosuje ograniczenia, filtry treści oraz znak wodny SynthID, aby wspierać pochodzenie; niemniej do nadużyć dochodziło (głośne kontrowersje związane z obrazem Nano Banana wygenerowanym w politycznie wrażliwym kontekście).
Jak Nano Banana Pro wypada na tle innych modeli
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — silna integracja mobilna, fuzja wielu obrazów, iteracyjna samokorekta, natywne 2K/skalowanie do 4K, ścisła integracja z aplikacjami Google (Search, Photos, Workspace/Gemini). Najlepsze dla przepływów pracy wymagających wiarygodnych edycji, ciągłości oraz integracji z usługami Google.
- Midjourney — świetny w stylizowanych artystycznych wynikach i społecznościowym podejściu do promptów; zwykle nie jest nastawiony na foto‑dokładną fuzję wielu obrazów ani głębokie multimodalne pipeline’y edycji.
- Stable Diffusion / open weights — w pełni otwarty, wysoce konfigurowalny i możliwy do hostowania lokalnie; ekosystem checkpointów i fine‑tuning jest decydującą zaletą dla badań i pracy offline. Mniej „jednoklikowej” integracji mobilnej i mniej spójnej koherencji edycji wielu obrazów out‑of‑the‑box niż Nano Banana Pro.
- Seedream 4.0 (ByteDance) — ostatnio pozycjonowany wprost jako konkurent Nano Banana, z naciskiem na ultraszybkie renderowanie, wyjście 2K i obsługę wielu obrazów referencyjnych (do sześciu). Pozycjonowany jako alternatywa dla profesjonalistów/twórców.
(Te porównania są wysokopoziomowe; wybierz „zwycięzcę” dopasowując narzędzie do przepływu pracy: otwartość/konfigurowalność → Stable Diffusion; stylizowana sztuka → Midjourney; zintegrowana, spójna edycja mobilna z agresywną iteracją → Nano Banana Pro/ rodzina Gemini 3 Pro Image.)
Zastosowania w rzeczywistym świecie
- Mobilna edycja zdjęć i kreatywne filtry (integracje Google Photos — zmiana stylu, łączenie tła, rekonstrukcja portretów).
- Zasoby marketingowe i reklamowe — szybka generacja koncepcji, spójne postaci marki w wielu kadrach/kątach.
- Grafika koncepcyjna i storyboardy — fuzja wielu obrazów pomaga zachować ciągłość postaci między panelami.
- E‑commerce / makiety produktów — generowanie spójnych ujęć produktów w różnych kontekstach/warunkach oświetleniowych.
- Szybkie prototypowanie zasobów AR/VR — wysokiej jakości wyjścia 2K/4K, które mogą być skalowane dla zastosowań immersyjnych.
- Jak uzyskać dostęp do API gemini-3-pro-image(Nano Banana Pro)
Wymagane kroki
- Zaloguj się do cometapi.com. Jeśli nie jesteś jeszcze naszym użytkownikiem, zarejestruj się najpierw
- Uzyskaj poświadczenie — klucz API interfejsu. Kliknij „Add Token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i prześlij.
- Uzyskaj adres URL tej witryny: https://api.cometapi.com/
Sposób użycia
- Wybierz endpoint „
gemini-3-pro-image”, wyślij żądanie API i ustaw body żądania. Metoda i body żądania są dostępne w naszej dokumentacji API na stronie. Nasza strona udostępnia również Apifox do testów. - Zastąp <YOUR_API_KEY> swoim rzeczywistym kluczem CometAPI z konta.
- Wstaw swoje pytanie lub żądanie do pola content — na to model odpowie.
- . Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
CometAPI zapewnia w pełni kompatybilne REST API — dla bezproblemowej migracji. Kluczowe szczegóły :
- Bazowy URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Nazwy modeli:
gemini-3-pro-image - Uwierzytelnianie:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json