Jak korzystać z interfejsu API Nano Banana Pro (obraz Gemini 3 Pro)?

CometAPI
AnnaDec 10, 2025
Jak korzystać z interfejsu API Nano Banana Pro (obraz Gemini 3 Pro)?

Nano Banana Pro — oficjalnie Obraz Gemini 3 Pro — to nowy model generowania i edycji obrazu klasy studyjnej firmy Google/DeepMind, który łączy w sobie zaawansowane rozumowanie multimodalne, renderowanie tekstu o wysokiej wierności, kompozycję wielu obrazów i kontrolę kreatywną na poziomie studyjnym.

Czym jest Nano Banana Pro i dlaczego powinno Cię to zainteresować?

Nano Banana Pro to najnowszy model Google do generowania i edycji obrazów – wersja „Gemini 3 Pro Image” – zaprojektowany do tworzenia wysokiej jakości, kontekstowych obrazów i tekstu na obrazie w jakości studyjnej do 4K. Jest to następca wcześniejszych modeli Nano Banana (Gemini 2.5 Flash Image / „Nano Banana”) z ulepszonym wnioskowaniem, wyszukiwaniem opartym na rzeczywistych faktach, lepszym renderowaniem tekstu i bardziej rozbudowanymi funkcjami edycji lokalnej. Model jest dostępny w aplikacji Gemini dla interaktywnych użytkowników i umożliwia dostęp do Nano Banana Pro za pośrednictwem standardowego interfejsu API Gemini, ale użytkownik wybiera konkretny identyfikator modelu (gemini-3-pro-image-preview (lub jego stabilniejsza wersja następcza) w celu zapewnienia dostępu programowego.

Dlaczego to ważne: Nano Banana Pro został stworzony nie tylko do robienia ładnych zdjęć, ale także do wizualizować informacje — infografiki, migawki oparte na danych (pogoda, sport), plakaty z dużą ilością tekstu, makiety produktów i łączenia wielu obrazów (do 14 obrazów wejściowych i zachowanie spójności znaków dla maksymalnie 5 osób). Dla projektantów, zespołów produktowych i programistów to połączenie dokładności, tekstu na obrazie i dostępu programowego otwiera przepływy pracy produkcyjnej, które wcześniej trudno było zautomatyzować.

Jakie funkcje są udostępniane poprzez API?

Typowe możliwości interfejsu API udostępniane deweloperom obejmują:

  • Tekst → Generowanie obrazu (przepływy kompozycji „myślowych” jedno- lub wielokrokowych).
  • Edytowanie obrazu (maski lokalne, domalowywanie, korekty stylu).
  • Fuzja wielu obrazów (połącz obrazy referencyjne).
  • Zaawansowane sterowanie żądaniami: rozdzielczość, proporcje obrazu, kroki przetwarzania końcowego i ślady „kompozycji” na potrzeby debugowania/inspekcji w trybach podglądu.

Główne innowacje i funkcje Nano Banana Pro

Inteligentniejsze rozumowanie treści

Wykorzystuje stos wnioskowania Gemini 3 Pro do interpretowania złożonych, wieloetapowych instrukcji wizualnych (np. „utwórz 5-etapową infografikę z tego zestawu danych i dodaj dwujęzyczny podpis”). Interfejs API udostępnia mechanizm „myślenia”, który może generować tymczasowe testy kompozycji w celu udoskonalenia końcowego wyniku.

Dlaczego jest to ważne: Zamiast pojedynczego przebiegu, który mapuje monit → piksel, model wykonuje wewnętrzny proces „myślenia”, który dopracowuje kompozycję i może korzystać z zewnętrznych narzędzi (np. wyszukiwarki Google) w celu uzyskania konkretnych danych (np. dokładnych etykiet diagramów lub oznakowania zgodnego z lokalizacją). Dzięki temu obrazy są nie tylko ładniejsze, ale i bardziej poprawne semantycznie w przypadku zadań takich jak infografiki, diagramy czy makiety produktów.

Jak osiągnąć: „Myślenie” w Nano Banana Pro to kontrolowany, wewnętrzny proces wnioskowania/kompozycji, w którym model generuje pośrednie wizualizacje i ślady wnioskowania przed wygenerowaniem obrazu finalnego. Interfejs API ujawnia, że ​​model może utworzyć do dwóch klatek pośrednich, a obraz finalny jest ostatnim etapem tego łańcucha. W środowisku produkcyjnym pomaga to w kompozycji, rozmieszczeniu tekstu i podejmowaniu decyzji dotyczących układu.

Dokładniejsze renderowanie tekstu

Znacznie poprawiono czytelność i lokalizację tekstu wewnątrz obrazów (menu, plakaty, diagramy). Nano Banana Pro osiąga nowe wyżyny w zakresie renderowania tekstu na obrazach:

  • Tekst na zdjęciach jest wyraźny, czytelny i poprawnie napisany;
  • Obsługuje generowanie wielojęzyczne (w tym chiński, japoński, koreański, arabski itd.);
  • Umożliwia użytkownikom pisanie długich akapitów lub wielowierszowego tekstu opisowego bezpośrednio w obrazach;
  • Dostępne są funkcje automatycznego tłumaczenia i lokalizacji.

Dlaczego jest to ważne: Tradycyjnie modele graficzne mają problemy z renderowaniem czytelnego, dobrze wyrównanego tekstu. Nano Banana Pro jest zoptymalizowany pod kątem niezawodnego renderowania i lokalizacji tekstu (np. tłumaczenia i zachowania układu), co otwiera nowe możliwości w zakresie kreatywnych zastosowań, takich jak plakaty, opakowania czy reklamy wielojęzyczne.

Jak osiągnąć: Usprawnienia w renderowaniu tekstu wynikają z multimodalnej architektury bazowej i szkolenia na zbiorach danych, kładących nacisk na przykłady tekstu w obrazach, w połączeniu z ukierunkowanymi zestawami ewaluacyjnymi (ewaluacje ludzkie i zestawy regresyjne). Model uczy się dopasowywać kształty glifów, czcionki i ograniczenia układu, aby generować czytelny, zlokalizowany tekst wewnątrz obrazów – choć mały tekst i bardzo gęste akapity nadal mogą być podatne na błędy.

Większa spójność i wierność wizualna

Sterowanie studyjne (oświetlenie, ostrość, kąt kamery, gradacja kolorów) i kompozycja wieloobrazowa (do 14 obrazów referencyjnych, ze specjalnymi uwzględnieniami dla wielu postaci) pomagają zachować spójność postaci (zachować tę samą osobę/postać we wszystkich edycjach) oraz tożsamość marki w generowanych zasobach. Model obsługuje natywne wyjścia 1K/2K/4K.

Dlaczego jest to ważne: Procesy pracy w marketingu i rozrywce wymagają spójnych postaci w różnych ujęciach i edycjach. Model może zachować podobieństwo nawet przez… pięć ludzie i mieszają się 14 Łączenie obrazów referencyjnych w jedną kompozycję podczas tworzenia szkicu → renderowania 3D. Jest to przydatne w przypadku tworzenia reklam, opakowań lub opowiadania historii w wielu ujęciach.

Jak osiągnąć: Dane wejściowe modelu akceptują wiele obrazów z wyraźnymi przypisaniami ról (np. „Obraz A: poza”, „Obraz B: odniesienie do twarzy”, „Obraz C: tekstura tła”). Architektura warunkuje generowanie tych obrazów, aby zachować tożsamość/pozę/styl podczas stosowania transformacji (oświetlenie, kamera).

Testy wydajności Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) „wyróżnia się w testach porównawczych AI Tekst→Obraz” i wykazuje lepsze rozumowanie oraz lepsze osadzanie w kontekście w porównaniu z wcześniejszymi modelami Nano Banana. Podkreśla wyższą wierność i lepsze renderowanie tekstu w porównaniu z poprzednimi wersjami.

Jak korzystać z interfejsu API Nano Banana Pro (obraz Gemini 3 Pro)?

Praktyczne wskazówki dotyczące wydajności

Oczekiwać wyższa latencja i koszt renderowania 2K/4K o wysokiej wierności niż w przypadku 1K lub modeli „Flash” zoptymalizowanych pod kątem szybkości. Jeśli przepustowość/opóźnienie mają kluczowe znaczenie, należy użyć wariantu Flash (np. Gemini 2.5 Flash / Nano Banana) do dużych wolumenów; Nano Banana Pro / gemini-3-pro-image do zadań wymagających wysokiej jakości i złożonego rozumowania.

W jaki sposób programiści mogą uzyskać dostęp do Nano Banana Pro?

Jakie punkty końcowe i modele wybrać

Identyfikator modelu (wersja zapoznawcza / pro): gemini-3-pro-image-preview (podgląd) — użyj tego, gdy potrzebujesz możliwości Nano Banana Pro. Aby pracować szybciej i taniej, gemini-2.5-flash-image (Nano Banana) pozostaje dostępny.

Powierzchnie do wykorzystania

  • Gemini API (punkt końcowy języka generatywnego): Możesz użyć klucza CometAPI, aby uzyskać dostęp do xx. CometAPI oferuje to samo API w korzystniejszej cenie niż oficjalna strona internetowa. Bezpośrednie wywołania HTTP/SDK do generateContent do generowania obrazu (przykłady poniżej).
  • Google AI Studio: Platforma internetowa do szybkiego eksperymentowania i tworzenia aplikacji demonstracyjnych.
  • Vertex AI (przedsiębiorstwo): Zapewniona przepustowość, opcje rozliczeń (płatność za rzeczywiste użycie / poziomy korporacyjne) oraz filtry bezpieczeństwa dla produkcji na dużą skalę. Użyj Vertex podczas integracji z dużymi potokami lub zadaniami renderowania wsadowego.

Bezpłatny poziom ma ograniczony limit użytkowania; przekroczenie limitu spowoduje powrót do Nano Banana. Poziomy Plus/Pro/Ultra oferują wyższe limity i dane wyjściowe bez znaku wodnego, ale poziom Ultra można używać w narzędziach wideo Flow i środowisku Antigravity IDE w trybie 4K.

Jak wygenerować obraz za pomocą Nano Banana Pro (krok po kroku)?

1) Szybki interaktywny przepis do wykorzystania w aplikacji Gemini

  1. Otwórz Gemini → Narzędzia → Twórz obrazy.
  2. Wybierz Myślenie (Nano Banana Pro) jako modelka.
  3. Wprowadź podpowiedź: wyjaśnij temat, akcję, nastrój, oświetlenie, kamerę, proporcje obrazu i ewentualny tekst, który ma się pojawić na obrazie. Przykład:
    „Stwórz plakat 4K przedstawiający warsztaty robotyki: zróżnicowany zespół przy stole, nakładka na plan, pogrubiony nagłówek „Roboty w akcji” czcionką bezszeryfową, ciepłe światło żarówki wolframowej, mała głębia ostrości, kinowy format 16:9”.
  4. (Opcjonalnie) Prześlij maksymalnie 14 obrazów do połączenia lub wykorzystania jako odniesienia. Użyj narzędzia zaznaczania/maski, aby edytować obszary lokalnie.
  5. Generuj, powtarzaj za pomocą języka naturalnego (np. „uczyń nagłówek niebieskim i wyrównaj go do środka u góry; zwiększ kontrast na planie”), a następnie eksportuj

2) Użyj protokołu HTTP do wysłania do punktu końcowego obrazu Gemini

Aby uzyskać klucz, musisz zalogować się do CometAPI.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Ten przykład zapisuje ładunek obrazu base64 do pliku PNG. generationConfig.imageConfig.resolution żąda parametrów wyjścia 4K (dostępne dla modelu 3 Pro Image)

3) Bezpośrednie wywołania SDK do generateContent do generowania obrazu

Wymaga zainstalowania pakietu Google SDK i uzyskania uwierzytelnienia Google. Przykład w Pythonie (tekst + obrazy referencyjne + uziemienie):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

W tym przykładzie pokazano przesyłanie obrazu referencyjnego i żądanie kompozycji 4K przy jednoczesnym włączeniu google_search jako narzędzie. Zestaw SDK Pythona będzie obsługiwał szczegóły REST niskiego poziomu.

Fuzja wielu obrazów i spójność postaci

Aby utworzyć kompozycję, która zachowuje tę samą osobę we wszystkich scenach, przepuść wielokrotność inline_data części (wybranych z zestawu zdjęć) i określ kreatywne instrukcje, zgodnie z którymi model powinien „zachować tożsamość we wszystkich wynikach”.

Krótki przykład praktyczny — rzeczywisty, szybki i oczekiwany przebieg zdarzeń

zapyta:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Oczekiwany przebieg procesu: aplikacja → szablon monitu + dane CSV → zamień symbole zastępcze w monicie → wywołanie API za pomocą image_size=2048x1152 → odbierz PNG w formacie base64 → zapisz zasób + metadane pochodzenia → opcjonalnie nałóż dokładną czcionkę za pomocą kompozytora, jeśli to konieczne.

Jak zaprojektować proces produkcyjny i zadbać o bezpieczeństwo/pochodzenie?

Zalecana architektura produkcyjna

  1. Szybki + przepustka robocza (szybki model): Zastosowanie gemini-2.5-flash-image (Nano Banana) umożliwiająca tanią produkcję wielu wariantów o małej rozdzielczości.
  2. Selekcja i udoskonalanie: wybierz najlepszych kandydatów, dopracuj podpowiedzi, zastosuj edycję uzupełniania/maskowania w celu uzyskania precyzji.
  3. Wysokiej jakości renderowanie końcowe: wezwanie gemini-3-pro-image-preview (Nano Banana Pro) do ostatecznych renderów 2K/4K i postprocessingu (próbkowanie w górę, gradacja kolorów).
  4. Pochodzenie i metadane: przechowuj monity, wersję modelu, znaczniki czasu i informacje SynthID w magazynie metadanych zasobów — model dołącza znak wodny SynthID, a dane wyjściowe można śledzić w celu zapewnienia zgodności i audytu zawartości.

Bezpieczeństwo, prawa i moderacja

  • Prawa autorskie i wyjaśnienia dotyczące praw: Nie przesyłaj ani nie generuj treści naruszających prawa. Używaj wyraźnych potwierdzeń użytkownika w przypadku obrazów lub podpowiedzi dostarczonych przez użytkownika, które mogłyby tworzyć rozpoznawalne podobizny. Należy przestrzegać Zasad zabronionego użytkowania Google i filtrów bezpieczeństwa modeli.
  • Filtrowanie i automatyczne sprawdzanie: przepuść wygenerowane obrazy przez wewnętrzny proces moderacji treści (wykrywanie treści NSFW, symboli nienawiści, treści politycznych/wiążących) przed ich dalszym wykorzystaniem lub publicznym wyświetleniem.

Jak mogę edytować obraz (inpainting), komponować wiele obrazów i renderować tekst?

Nano Banana Pro obsługuje multimodalne procesy edycji: dostarcza jeden lub więcej obrazów wejściowych oraz instrukcję tekstową opisującą edycję (usunięcie obiektu, zmiana nieba, dodanie tekstu). API akceptuje obraz i tekst w jednym żądaniu; model może generować przeplatany tekst i obrazy jako odpowiedzi. Przykładowe wzorce obejmują edycje maskowane i łączenie wielu obrazów (przenoszenie stylu / kompozycja). Więcej informacji można znaleźć w dokumentacji. contents tablice łączące fragmenty tekstu i obrazy binarne.

Przykład: Edycja (pseudo-przepływ Pythona)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Dzięki edycji konwersacyjnej możesz iteracyjnie dostosowywać wyniki, aż do uzyskania zasobu gotowego do produkcji.

Przykład Node.js — edycja obrazu z maską i wieloma odniesieniami

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(Interfejsy API czasami akceptują identyfikatory URI usługi Cloud Storage lub ładunki obrazów w formacie base64; dokładne formaty wejściowe można znaleźć w dokumentacji interfejsu API Gemini.)

Aby uzyskać informacje na temat generowania i edytowania obrazów za pomocą interfejsu CometAPI, zapoznaj się z Przewodnik po wywołaniu gemini-3-pro-image .

Podsumowanie

Nano Banana Pro (Gemini 3 Pro Image) to przełom w generowaniu obrazów klasy produkcyjnej: narzędzie do wizualizacji danych, wprowadzania lokalnych edycji i usprawniania procesów pracy programistów. Użyj aplikacji Gemini do szybkiego prototypowania, API do integracji produkcyjnej i postępuj zgodnie z powyższymi zaleceniami, aby kontrolować koszty, zapewnić bezpieczeństwo i utrzymać jakość marki. Zawsze testuj rzeczywiste procesy pracy użytkowników i przechowuj metadane pochodzenia, aby spełnić wymogi przejrzystości i audytu.

Używaj Nano Banana Pro, gdy tego potrzebujesz jakość studyjna zasoby, precyzyjna kontrola nad kompozycją, ulepszone renderowanie tekstu wewnątrz obrazów oraz możliwość łączenia wielu odniesień w jeden spójny wynik.

Deweloperzy mogą uzyskać dostęp Interfejs API obrazu Gemini 3 Pro (Nano Banana Pro) poprzez CometAPI. Na początek zapoznaj się z możliwościami modeluInterfejs API Comet   Plac zabaw Szczegółowe instrukcje znajdziesz w przewodniku API. Przed uzyskaniem dostępu upewnij się, że zalogowałeś się do CometAPI i uzyskałeś klucz API. ZetAPI zaoferuj cenę znacznie niższą niż oficjalna, aby ułatwić Ci integrację.

Gotowy do drogi?→ Zarejestruj się w CometAPI już dziś !

Jeśli chcesz poznać więcej wskazówek, poradników i nowości na temat sztucznej inteligencji, obserwuj nas na VKX oraz Discord!

SHARE THIS BLOG

500+ modeli w jednym API

Do 20% zniżki