Interfejs API obrazu Gemini 3 Pro (Nano Banana Pro)

Google'a Nano Banana Pro (oficjalny identyfikator modelu gemini-3-pro-image-preview) to wariant Gemini 3 Pro do generowania i edycji obrazu. To profesjonalny model obrazu z podglądem, który oferuje wyjście 2K/4K i wysokiej jakości kompozycję wielu obrazów (do 14 obrazów referencyjnych, spójność znaków dla do 5 osób), lepsze renderowanie tekstu w obrazie i oparcie wyszukiwania na faktach ze świata rzeczywistego.

Podstawowe funkcje

Tekst → Obraz:pełne generowanie w sposób natychmiastowy z silnym, szybkim przestrzeganiem.
Obraz → Obraz (edycje):dokładne, ukierunkowane edycje, zachowujące spójność tematu/postaci w wielu edycjach.
Maksymalna rozdzielczość wyjściowa: aż do 4K (przykłady i obsługiwane dokładne rozmiary pikseli zależą od współczynnika proporcji; API udostępnia ustawienia wstępne 1K/2K/4K)
Iteracyjne planowanie i samokorekta:wewnętrzny „wieloetapowy” proces, który wykrywa i koryguje typowe błędy wizualne (perspektywa, tekst, geometria szczegółowa).
Zaawansowane renderowanie tekstu w obrazie: czytelny, przejrzysty tekst wielojęzyczny (od krótkich podpisów do długich akapitów) odpowiedni do plakatów, makiet i infografik.
znaki 5 i wierność do 14 obiektów/obrazów referencyjnych w jednym przepływie pracy.
Znak wodny / pochodzenie: wszystkie wygenerowane obrazy obejmują znak wodny SynthID; w przypadku niektórych integracji produktów model osadza metadane C2PA dotyczące pochodzenia.

Gemini 3 Pro Wersje obrazów i nazewnictwo

gemini-3-pro-image-preview
gemini-3-pro-image

Szczegóły techniczne

Architektura

Linia / kręgosłup:Nano Banana Pro będzie oparty na rozwijającym się stosie obrazów Gemini firmy Google — konkretnie na nowym Obraz Gemini 3 Pro / GEMPIX 2 architektura (multimodalny framework obrazu i tekstu o większej pojemności). To ewolucja od Obraz Flash Gemini 2.5 (oryginalnego „nano-banana”) w natywnie multimodalny model obrazu z rozszerzonymi możliwościami rozumowania wizyjno-językowego.
Zachowanie modelu: natywna multimodalność (obraz + tekst + wiedza o świecie), jawne potoki do łączenia wielu obrazów oraz wewnętrzny planer etapowy, który udoskonala wyniki w wielu przejściach, zamiast generować pojedynczą, statyczną próbkę. Wstępne raporty wskazują na silniejsze rozumowanie geometryczne/optyczne (szkło, refrakcja) w porównaniu z poprzednimi wersjami.
Myślenie / wewnętrzne udoskonalenieModel wykorzystuje widoczny proces „myślenia” wewnętrznie w celu udoskonalenia kompozycji (interfejs API dokumentuje to zachowanie i zauważa, że te wewnętrzne kroki nie są naliczane jako ostateczne tokeny obrazu).
Uziemienie i narzędzia: Obsługuje Wyszukaj uziemienie (może uwzględniać fakty internetowe w generowaniu diagramów/infografik). Obsługuje również instrukcje systemowe, co zapewnia bardziej deterministyczną kontrolę.

Kluczowe parametry API:

thinking_level (niskie/wysokie) do handlu opóźnieniem vs. głębokością rozumowania;
media_resolution (niskie/średnie/wysokie) do kontrolowania tokenów OCR/odczytu szczegółów obrazu;
generationConfig.imageConfig do kontrolowania współczynnika proporcji/rozdzielczości obrazów wyjściowych.

Limity obrazu:

Obsługiwane sposoby wprowadzania danych: Tekst i obrazy (model nie akceptuje danych wejściowych w postaci dźwięku i obrazu do generowania obrazu).
Maksymalna liczba obrazów na monit: 14 (dla podglądu obrazu Gemini 3 Pro).
Maksymalny rozmiar obrazu (przesyłanie): 7 MB na obraz wejściowy.
Obsługiwane proporcje obrazu: 1:1, 3:2, 16:9, 9:16, 21:9, itd.

Obrazy wyjściowe/tokeny: wysokie limity, z obsługą 4K/4096px.

Wydajność wzorcowa

Krótkie podsumowanie: Publiczne/wczesne testy porównawcze są jak dotąd głównie jakościowe/oparte na społeczności, ale konsekwentnie wskazują na znaczną poprawę rozdzielczości, redukcji artefaktów i wierności odwzorowania fizycznego w porównaniu z oryginalnym nano-bananem (obraz Gemini 2.5 Flash). Konkretne, nazwane „wyzwania” wykazały wyraźne korzyści wizualne, ale nie ma jeszcze (publicznych) znormalizowanych tabel testów porównawczych Google porównujących v1 → v2 w oparciu o standardowe metryki generowania obrazu.

Jakościowe testy społecznościowe: Czystsze krawędzie, ostrzejsze mikrodetale, bardziej realistyczne kolory i wierniejsze przyleganie (mniej halucynogennych rekwizytów, bardziej spójne postacie). Popularne, nieformalne testy obejmują tzw. „Test Kieliszka do Wina” i „Wyzwanie Szklanego Burgera”, w których GEMPIX2 (Nano Banana Pro) radzi sobie z przezroczystością i refrakcją znacznie lepiej niż wcześniejsze wersje.
Obsługa tekstu: Nano Banana Pro charakteryzuje się widocznie poprawioną typografią i rozmieszczeniem tekstu w obrazach (co jest stałą słabością wielu modeli obrazów). Porównania społeczności wskazują na mniejszą liczbę zniekształconych glifów.
Przepustowość / UX: szybsza iteracja i UX, który wykonuje wieloetapowe udoskonalanie w zapleczu, dzięki czemu użytkownicy widzą bardziej wiarygodne wyniki już za pierwszym razem (zmniejszając liczbę ręcznych ponownych uruchomień).

Ograniczenia i ryzyko

Filtry i wykrywanie treści:Platformy integrujące ten model (np. Whisk/aplikacje innych firm) mogą umożliwiać rygorystyczne wykrywanie celebrytów lub podobieństw oraz blokować niektóre wyniki, co ma wpływ na kreatywne procesy pracy, które opierają się na realistycznych podobieństwach celebrytów.
Przypadki skrajne halucynacji/rozumowania:pomimo udoskonaleń model nadal może wytwarzać fizycznie nierealistyczne artefakty, szczególnie w przypadku gęstego tekstu symbolicznego wewnątrz obrazów lub wysoce technicznych diagramów — choć wydaje się, że NB2 zmniejsza liczbę tych błędów w porównaniu ze starszymi wersjami.
Bezpieczeństwo i niewłaściwe użycie: Generatywne modele obrazów mogą być wykorzystywane do tworzenia problematycznych lub szkodliwych treści. Google stosuje ograniczenia, filtry treści i znak wodny SynthID, aby ułatwić identyfikację pochodzenia; niemniej jednak zdarzały się przypadki nadużyć (głośna kontrowersja związana z obrazem wygenerowanym przez Nano Banana w kontekście politycznie wrażliwym).

Porównanie Nano Banana Pro z innymi modelami

Nano Banana Pro (obraz GEMPIX 2 / Gemini 3 Pro) — silna integracja z urządzeniami mobilnymi, łączenie wielu obrazów, iteracyjna autokorekta, skalowanie do rozdzielczości natywnej 2K/4K, ścisła integracja z aplikacjami Google (Wyszukiwarka, Zdjęcia, Obszar roboczy/Gemini). Idealne dla przepływów pracy wymagających niezawodnych edycji, ciągłości i integracji z usługami Google.
W połowie drogi — wyróżnia się stylizowanymi wynikami artystycznymi i błyskawiczną inżynierią generowaną przez społeczność; nie jest typowo ukierunkowany na fotodokładne łączenie wielu obrazów lub dogłębną, multimodalną edycję.
Stabilna dyfuzja / otwarte ciężary — w pełni otwarty, wysoce konfigurowalny i hostowany lokalnie; ekosystem punktów kontrolnych i możliwości precyzyjnego dostrajania to decydująca zaleta w przypadku badań i użytkowania offline. Mniej integracji mobilnej „jednym kliknięciem” i mniej spójnej, gotowej edycji wielu obrazów niż w Nano Banana Pro.
Seedream 4.0 (ByteDance) — niedawno pozycjonowany jako konkurent Nano Banana, kładący nacisk na ultraszybkie renderowanie, wyjście 2K i obsługę wielu obrazów referencyjnych (do sześciu). Pozycjonowany jako alternatywa dla profesjonalistów/twórców.

(Porównania te są na wysokim poziomie; wybierz zwycięzcę, dopasowując narzędzie do swojego przepływu pracy: otwartość/możliwość dostosowania → Stabilna dyfuzja; stylizowana grafika → Midjourney; zintegrowana, spójna edycja mobilna z agresywną iteracją → rodzina obrazów Nano Banana Pro/Gemini 3 Pro.)

Rzeczywiste przypadki użycia

Edycja zdjęć mobilnych i filtry kreatywne (Integracja Zdjęć Google — zmiana stylizacji, fuzja tła, zmiana kompozycji portretów).
Materiały marketingowe i reklamowe — szybkie generowanie koncepcji, spójny charakter marki w wielu ujęciach/pod różnymi kątami.
Koncepcja artystyczna i storyboarding — łączenie wielu obrazów pozwala zachować ciągłość charakteru na różnych panelach.
E-commerce / makiety produktów — generuj spójne zdjęcia produktów w różnych kontekstach/warunkach oświetleniowych.
Szybkie prototypowanie zasobów AR/VR — wysokiej jakości sygnały wyjściowe 2K/4K, które można skalować do zastosowań immersyjnych.

Jak wywołać gemini-3-pro-image(Nano Banana Pro) API

Ceny Nano Banana API w CometAPI, 20% zniżki od ceny oficjalnej:


Cena	$0.19200

Wymagane kroki

Zaloguj się do pl.com. Jeśli jeszcze nie jesteś naszym użytkownikiem, zarejestruj się najpierw
Pobierz klucz API uwierzytelniania dostępu do interfejsu. Kliknij „Dodaj token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i prześlij.
Uzyskaj adres URL tej witryny: https://api.cometapi.com/

Użyj metody

Wybierz "gemini-3-pro-image” punkt końcowy do wysłania żądania API i ustawienia treści żądania. Metoda żądania i treść żądania są pobierane z naszej witryny internetowej API doc. Nasza witryna internetowa udostępnia również test Apifox dla Twojej wygody.
Zastępować za pomocą aktualnego klucza CometAPI ze swojego konta.
Wpisz swoje pytanie lub prośbę w polu treści — model odpowie właśnie na tę wiadomość.
. Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.

CometAPI zapewnia w pełni kompatybilne API REST, co umożliwia bezproblemową migrację. Najważniejsze szczegóły:

Adres URL bazowy: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Nazwy modeli: gemini-3-pro-image
Poświadczenie: Bearer YOUR_CometAPI_API_KEY nagłówek
Typ zawartości: application/json .

Zobacz też Interfejs API obrazów Flash Gemini 2.5 (Nano-Banana)