Niedawne wydanie Google Obraz Flash Gemini 2.5 — nazywany „Nano-Bananem” Szybko stał się najpopularniejszym narzędziem do edycji obrazów w konwersacjach: zachowuje spójność podobizn w różnych edycjach, łączy wiele obrazów w sposób czysty i obsługuje bardzo naturalne edycje lokalne oparte na komendach. Poniżej wyjaśnię, czym jest Nano Banana i jak go używać. Bliźnięta Google’a i za pośrednictwem dostęp stron trzecich (np. CometAPI), podaj konkretne przykłady poleceń i kod, który możesz wpleść w projekt, oraz podziel się wskazówkami programistycznymi dotyczącymi edycji wieloetapowej, skalowania i zaawansowanych poleceń. Piszę to jako programista, który codziennie korzysta z modeli obrazów — potraktuj to jako praktyczny, nieco subiektywny podręcznik.
Czym jest Nano-Banana?
Co właściwie oznacza „Gemini 2.5 Flash Image / Nano-Banana”?
Nano-Banan jest pseudonimem społecznościowym / nazwą kodową Obraz Flash Gemini 2.5Najnowszy model generowania i edycji obrazu Google DeepMind. Zaprojektowany dla najpierw monit edycja (udzielasz mu instrukcji w języku naturalnym) ze szczególnym uwzględnieniem spójność charakteru (utrzymywanie tej samej osoby/zwierzaka/obiektu patrzącego prosto na edycję), fuzja wielu obrazów (łączenie obiektów na zdjęciach źródłowych) oraz interaktywne wykorzystanie o niskim opóźnieniu w aplikacjach, takich jak Gemini i Google AI Studio. Model jest dostępny za pośrednictwem interfejsu API Gemini firmy Google, AI Studio, a także jest już obecny w CometAPI.
Jako programista, pomyśl o Nano-Banana nie tylko jako o czystym generatorze obrazów „od podstaw”, ale także jako o bardzo wydajnym asystent edycji i kompozycji zdjęć: rozumie treść obrazu, zapamiętuje temat podczas edycji i reaguje na instrukcje w języku naturalnym w sposób, który pasuje do szybkiej, iteracyjnej pętli projektowania. Dzięki temu jest szczególnie przydatny do makiet produktów, spójnych ujęć postaci, szybkich iteracji koncepcyjnych i społecznościowej zabawy kreatywnej.
podsumowanie dla programistów
- Nazwa modelu: gemini-2.5-flash-image-preview / gemini-2.5-flash-image.
- Spójność i ciągłość: Nano-Banana zachowuje szczegóły postaci w kolejnych edycjach lepiej niż wiele konkurencyjnych programów, co czyni go lepszym wyborem do edycji sekwencyjnych i opowiadania historii.
- Prędkość: Użytkownicy zgłaszają szybkie generowanie zmian — często poniżej 10 sekund w przypadku wielu edycji — co jest przydatne w przypadku iteracyjnych przepływów pracy.
- Projekt w fazie edycji: Podczas gdy wiele modeli jest zoptymalizowanych pod kątem generowania tekstu, UX i API Nano-Banana kładą nacisk na edycję (edycję pojedynczych ujęć, łączenie wielu obrazów, przenoszenie stylów).
Jak mogę edytować za pomocą Nano-Banana w CometAPI?
CometAPI to platforma/wrapper API, który agreguje wiele modeli (w tym Gemini 2.5 Flash Image API (Nano Banana)) za pojedynczym, zgodnym z OpenAI punktem końcowym. Jeśli chcesz szybko stworzyć prototyp lub uniknąć aprowizacji kont Google Cloud/Vertex na potrzeby pierwszego testu, CometAPI to praktyczne rozwiązanie — otrzymujesz klucz API, wybierasz gemini-2.5-flash-image (lub gemini-2.5-flash-image-preview ), a następnie wysyłaj żądania w sposób przypominający edycję obrazów w stylu czatu. CometAPI oferuje również przykłady i aby wypróbować model.
Dlaczego warto używać CometAPI?
- Jeden klucz API do zarządzania nimi wszystkimi — upraszcza testowanie wielu dostawców.
- Zmień dostawcę w trakcie produkcji, jeśli ulegną zmianie ceny lub SLA.
- Przydatne dla zespołów, które chcą mieć kontrolę nad poziomem usług (ograniczenie przepustowości, scentralizowane rejestrowanie).
Jak wywołać Nano-Banana (CometAPI) — przykład praktyczny
Poniżej znajduje się prosty przykład. Zastąp YOUR_COMET_KEY i ścieżki plików swoje własne.
CURL — podstawowa edycja (obraz + monit → edytowany obraz)
Przykład:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
**Opis:**Najpierw przekonwertuj plik obrazu źródłowego na ciąg Base64 i umieść go w inline_data.dataPo drugie, nie dodawaj prefiksów takich jak data:image/jpeg;base64, Wyjście znajduje się również w candidates.content.parts i obejmuje:
- Opcjonalna część tekstowa (opis lub monit).
- Część obrazu jako
inline_data(gdziedatajest kodem Base64 obrazu wyjściowego).
Jeśli chcesz po prostu wypróbować edycję obrazu w Nano-Bananie, CometAPI oferuje darmowe kredyty nowym użytkownikom. Możesz wypróbować Nano-Bananę w wersji testowej lub skorzystać z Gemini 2.5 Flash Image API. Jeśli jednak chcesz korzystać z niego bez ograniczeń, możesz zapłacić 20% zniżki na Gemini.
Nano-Banana ma kilka podstawowych zalet: spójne podobieństwo, ukierunkowane lokalne edycje za pomocą języka naturalnego i łączenie wielu obrazów.
Następnie pokażę zalety Nano-Banana na przykładzie kilku przypadków użycia, a Ty zobaczysz jego magię.
Przykład 1: Łączenie wielu obrazów w jeden kolaż
Prześlij obraz:

Przykładowy opis wejścia: Modelka pozuje, opierając się o różowe BMW. Ma na sobie następujące elementy, scena rozgrywa się na jasnoszarym tle. Zielony kosmita to brelok do kluczy, przyczepiony do różowej torebki. Modelka ma również różową papugę na ramieniu. Obok niej siedzi mops w różowej obroży i złotych słuchawkach.
Zwrócono kod Base64 przekonwertowany z powrotem na obraz:

Kod:
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "A model is posing and leaning against a pink bmw. She is wearing the following items, the scene is against a light grey background. The green alien is a keychain and it's attached to the pink handbag. The model also has a pink parrot on her shoulder. There is a pug sitting next to her wearing a pink collar and gold headphones"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
Uwagi: przekonwertuj plik obrazu źródłowego na ciąg Base64 i wstaw go do inline_data.data (nie uwzględniaj prefiksów takich jak data:image/jpeg;base64,).
Analiza przypadków użycia: Dzięki fuzji wielu obrazów projektanci mogą wykazać się większą kreatywnością. Na przykład projektanci wnętrz mogą łączyć obrazy, aby stworzyć wstępny rendering efektu. Konsumenci mogą łączyć zdjęcia całej swojej sylwetki z przedmiotami, które chcą kupić, co pomaga im w podjęciu decyzji o zakupie. Może to również służyć jako punkt odniesienia w produkcji animacji i komiksów.
Przykład 2: Edycja obrazów w celu zachowania podobieństwa
Poniżej przedstawię kilka rund edycji w celu przetestowania nano banana.
Najpierw prześlij obraz:

Po drugie, zapyta: Dodaj szczeniaka do trawnika
wyjście:

Wreszcie, zapyta: Użyj załączonego obrazu referencyjnego postaci. Zachowaj psa. Umieść postać na deszczowej, nocnej ulicy z neonami. Zachowaj rysy twarzy identyczne z referencyjnymi.

Analiza przypadków użycia: Można zauważyć, że w wielu rundach modyfikacji obrazu zachowana jest dość duża spójność.
Przykład 3: Przenoszenie stylu i modyfikowanie szczegółów twarzy
Prześlij obraz:

zapyta: Delikatnie wyostrz twarz, dodaj 6% ziarna filmu i przytnij do formatu 16:9. Nie zmieniaj rysów twarzy. Dodaj delikatne światło konturowe po prawej stronie.
wydajność:

Inne przypadki zastosowania Nano-Banana
1) Zdjęcia korporacyjne i profesjonalne portrety
Zastosowanie: szybkie tworzenie spójnych zdjęć portretowych marek (marketing, LinkedIn, biografie firm). Nano-Banana zachowuje wierność twarzy podczas zmiany stroju, tła czy oświetlenia.
Podpowiedź — strój + oświetlenie (edycja)
Edit the uploaded photo into a professional corporate headshot:
- Replace outfit with a navy single-breasted blazer and white shirt.
- Preserve face shape, eyeglasses, and expression exactly.
- Apply softbox studio lighting (slightly warm), remove harsh shadows.
- Output ratio 4:5 portrait, photorealistic, high detail.
Podpowiedź — zamiana tła + retusz
Edit the uploaded image: replace background with a clean light-gray studio backdrop, remove small blemishes, slightly sharpen eyes, and keep all facial proportions. Preserve left ear earring and hairline.
2) E-commerce i wizualizacja produktów
Zastosowanie: umieszczanie produktów w scenach lifestylowych, generowanie spójnych ujęć produktów z różnych kątów lub pokazywanie wariantów kolorystycznych.
Monit — produkt w scenie (połączenie wielu obrazów)
Using Image A (product photo on white) and Image B (cozy living room scene), place the product on the living room coffee table with natural shadows matching the scene. Keep product scale realistic and preserve product texture and labeling.
Monit — warianty kolorów (edycja)
Edit the uploaded product image: generate three color variants (forest green, deep navy, and charcoal). Keep product dimensions, seams, and label legible; output as a 3-up grid, photorealistic.
3) Treści społecznościowe i marketing influencerów
Zastosowanie: szybkie zmiany stylistyczne, zamiany strojów, nakładki sezonowe lub kadrowanie w wielu formatach na potrzeby platform społecznościowych.
Monit — edycja sezonowa dla kanału informacyjnego i historii
Edit the uploaded photo: swap casual tee for a chic leather jacket, add subtle golden-hour lighting from top-left, crop a square for feed and a 9:16 vertical for story. Preserve face and sunglasses.
Prompt — stylizowana odmiana promocyjna
Edit the uploaded portrait to create a high-contrast editorial style: increase contrast moderately, add film grain, and maintain natural skin texture; preserve facial proportions and jewelry.
4) Spójność postaci/cech marki (maskotki, postacie powtarzające się)
Zastosowanie: utrzymuj wizualnie identyczny wygląd logo, maskotek i postaci we wszystkich scenach, kampaniach i odcinkach.
Monit — egzekwowanie arkusza postaci
Reference: character_sheet.png (attached). Key identifiers to preserve exactly across edits: warm olive skin, split-dimple on right cheek, green scarf with gold pin. Create a portrait of the character on a busy café terrace; maintain identifiers and expression.
5) Naprawa i koloryzacja historycznych zdjęć
Zastosowanie: odnawianie lub kolorowanie obrazów archiwalnych z zachowaniem kompozycji i drobnych szczegółów twarzy.
Monit — pokoloruj + napraw
Edit uploaded black-and-white photo: colorize with natural skin tones based on European 1940s palette, remove scratches and dust, repair torn left border, preserve original composition and facial proportions. Output: high-resolution TIFF-quality.
Jakie zaawansowane techniki podpowiedzi zwiększają niezawodność?
Zastosowanie kotwice odniesienia oraz mikroograniczenia
Punkty odniesienia to krótkie, weryfikowalne informacje, które dodajesz, aby zmniejszyć niejednoznaczność: dokładne nazwy ubrań („granatowa marynarka, jednorzędowa, klapa z wycięciem”), odniesienia do oświetlenia („oświetlenie Rembrandta”) lub terminy dotyczące aparatu („obiektyw portretowy 50 mm, f/2.8”). Mikroograniczenia informują modelkę, czego nie może zmieniać (np. „nie modyfikuj tatuaży na prawym przedramieniu”). Ograniczają one swobodę modelki w sposób produktywny i zazwyczaj poprawiają wierność rezultatu.
Pętla iteracyjna: zapytaj, oceń, udoskonal
- Pierwsze przejście: użyj precyzyjnego, ale zwięzłego komunikatu.
- Oceń wyniki: zanotuj, co model zrobił źle (np. zmienił kształt twarzy, zgubił dodatek).
- Celowana korekta: Wyślij krótką wiadomość z przypomnieniem, odwołując się do poprzedniego wyniku („Zachowaj wszystko z ostatniego wyniku, ale zachowaj oryginalny kolczyk w lewym uchu i zagęść brwi”). Mocne strony edycji konwersacyjnej Nano-Banana pozwalają szybko wrócić do formy.
Łańcuch edycji dla złożonych transformacji
W przypadku dużych edycji, podziel pracę na szereg mniejszych edycji, zamiast jednego obszernego polecenia. Przykładowy ciąg: (1) zamiana tła → (2) aktualizacja stroju → (3) korekta kolorów → (4) ostateczny retusz. Dzięki temu każde polecenie będzie spójne i zminimalizujesz nieoczekiwane efekty krzyżowe.
Jak powinienem skonstruować polecenia dla Nano-Banana? (Anatomia poleceń)
Dobre podpowiedzi graficzne mają spójną strukturę. Użyj następujących szybka anatomia aby uzyskać precyzyjne, powtarzalne wyniki:
Szybka anatomia (zalecana kolejność)
- Działanie / Cel — czego chcesz od modelu do? (np. „Edytuj to selfie, aby utworzyć profesjonalne zdjęcie portretowe” lub „Wygeneruj zdjęcie produktu przedstawiające styl życia, łącząc te dwa obrazy”).
- Temat (y) — Kto lub co jest na zdjęciu? Podaj konkretne dane dotyczące tożsamości, wieku, liczby osób, przedmiotów itp.
- Atrybuty — cechy wizualne: ubiór, mimika twarzy, kolor oczu, włosy, rekwizyty.
- Środowisko i oświetlenie — lokalizacja, pora dnia, nastrojowe oświetlenie, ogniskowa, wskazówki dotyczące obiektywu („portret 35 mm”).
- Styl i wykończenie — styl fotograficzny (kinowy, studyjny, ziarnisty, hiperrealistyczny) lub styl artystyczny (malarstwo olejne, wektor, komiks).
- Ograniczenia / Bezpieczeństwo — czegokolwiek, czego należy unikać (żadnych logotypów, nagości, tekstów medycznych).
- Token spójności (opcjonalnie) — krótka fraza, którą możesz wykorzystać ponownie, aby zachować rozpoznawanie znaków w wielu monitach (np. „Użyj odniesienia do znaku „Szalik Luna”).
Wskazówki dotyczące spójności postaci (kroki praktyczne)
- Użyj „frazy odniesienia”: dołącz krótką, unikalną frazę powiązaną z tematem (np. „token postaci: 'Maya-blue-jacket'”) w każdym monicie. Model będzie skuteczniej łączyć edycje z tą samą postacią, jeśli ponownie użyjesz tej frazy.
- Uwzględnij zakotwiczone szczegóły:określ charakterystyczne, niezmienne cechy (np. „blizna po lewej brwi, zielony pieprzyk na prawym policzku”), aby model miał stałe punkty zaczepienia, które należy zachować.
- Utrzymuj pozę i kadrowanie, gdy jest to możliwe:jeśli chcesz zachować prawdziwą ciągłość, zachowaj podobny kąt widzenia kamery/opis pozy we wszystkich monitach.
- Zacznij od tego samego oryginalnego obrazu: w przypadku edycji przepływów pracy zawsze podawaj ten sam obraz źródłowy jako zakotwiczenie. W przypadku konieczności zmiany zdjęć, dołącz oryginalny obraz jako dodatkowe dane wejściowe i wyjaśnij transformację.
Jakie są najczęstsze rodzaje awarii i jak je naprawić?
Niepowodzenie: dryf tożsamości (podmiot wygląda inaczej)
Przyczyna: model zbyt uogólnił żądany styl lub błędnie zinterpretował ograniczenie.
poprawki: dodaj wyraźną klauzulę „zachowaj”, dołącz oryginalny obraz jako odniesienie lub wykonuj edycję mniejszymi krokami i sprawdzaj poprawność wyników pośrednich.
Błąd: niespójne rekwizyty lub ręce
Przyczyna: dłonie i drobne akcesoria są historycznie trudne do uchwycenia dla wielu modelek.
poprawki: uwzględnij mikroograniczenia („trzymaj zegarek na prawym nadgarstku”), podaj szczegółowe odniesienie do małych elementów lub przeprowadź ostateczny, ukierunkowany krok korekcyjny, skupiając się tylko na problematycznym elemencie.
Wada: oświetlenie lub cienie wyglądają nienaturalnie
Przyczyna: duże zmiany (zamiana tła lub gruntowne zmiany oświetlenia) mogą powodować niedopasowanie.
poprawki: poproś modelkę o dopasowanie „światła kierunkowego z lewego górnego rogu, miękkich cieni” lub podaj pożądany obraz referencyjny oświetlenia.
Podsumowanie
Nano-Banana (Gemini 2.5 Flash Image) to znaczący krok naprzód w edycji i generowaniu obrazów na poziomie konsumenckim: szybki, spójny i zintegrowany z ekosystemem Gemini firmy Google oraz narzędziami bezpieczeństwa. Najlepsze rezultaty uzyskuje się dzięki jasne, skoncentrowane na zadaniu podpowiedzi, wyraźne instrukcje dotyczące zachowania spójności tożsamości, a także etapowe przepływy pracy, które oddzielają szybkie podglądy od finalnych renderów. W miarę rozwoju modelu i ekosystemu, inżynierowie odpowiedzialni za szybkie testy powinni stale testować, rejestrować wyniki i tworzyć widoczne dla użytkownika elementy sterujące, które zapewnią transparentność i odwracalność edycji.


