Gemini 2.5 Flash Image (znany również jako „Nano Banana”) to najnowszy natywny model generowania i edycji obrazów Google w rodzinie Gemini 2.5. Koncentruje się na łączeniu wielu obrazów, precyzyjnej edycji w języku naturalnym i szybkich, multimodalnych przepływach pracy.
Wprowadzenie do modelu
Co to jest — Obraz Flash Gemini 2.5 to multimodalny model do generowania i edycji obrazów, zbudowany na bazie rodziny Gemini 2.5. Został zaprojektowany do produkcji fotorealistyczne obrazy, wykonać ukierunkowane edycje (inpainting, transfer stylu, zamiana obiektów) i łączenie wielu obrazów źródłowych w jeden spójny wynik — stosując ulepszone rozumowanie językowe Gemini w celu kontrolowania kompozycji i semantyki.
Główne cechy
- Natywne generowanie i edycja obrazów — generuj obrazy lub edytuj istniejące zdjęcia za pomocą podpowiedzi w języku naturalnym. (Generuj / Edytuj).
- Fuzja wielu obrazów — łączenie wielu obrazów wejściowych w jedną fotorealistyczną scenę.
- Spójność postaci — zachowaj ten sam temat lub wygląd postaci we wszystkich edycjach i monitach. (Konsystencja).
- Znakowanie wodne SynthID — wszystkie wyniki obejmują niewidoczny SynthID do identyfikacji treści generowanych przez sztuczną inteligencję. (Filigran).
Szczegóły techniczne
- Architektura i pozycjonowanie: zbudowany na bazie rodziny Gemini 2.5 Flash — zaprojektowany jako małe opóźnienia Wariant „Flash” charakteryzujący się niewielkim rozmiarem modelu/przepustowością, co przekłada się na szybszą reakcję na każde połączenie i niższe koszty, przy jednoczesnym zachowaniu większej efektywności w zakresie wnioskowania niż wcześniejsze wersje Flash.
- Formaty wejściowe i limity: akceptuje obrazy w formacie base64 dla małych nakładów i przesyłanie plików za pośrednictwem interfejsu API plików w przypadku większych obrazów (zalecane dla obrazów o rozmiarze >20 MB). Obsługuje popularne typy MIME (JPEG, PNG).
- Tryby działania: tekst na obraz, edycja obrazu (inpainting/maskowanie semantyczne), przenoszenie stylu, kompozycja wielu obrazów i przeplatane odpowiedzi w formie tekstu i obrazu (przydatne w przypadku ilustrowanych instrukcji, przepisów lub treści mieszanych).
- Pochodzenie i mechanizmy bezpieczeństwa: widoczne znaki wodne na wynikach AI, a także ukryte znaczniki SynthID i warstwy egzekwowania zasad w celu ograniczenia wyraźnie niedozwolonej treści.
Wydajność wzorcowa

Ograniczenia i znane ryzyka
- Ograniczenia polityki treści: modele egzekwują zasady dotyczące treści (np. niedopuszczające treści o charakterze wyraźnie seksualnym i niektórych treści nielegalnych), ale egzekwowanie nie jest idealne — w niektórych scenariuszach nadal możliwe może być generowanie obrazów osób publicznych lub kontrowersyjnych ikon, więc kontrole zasad są niezbędne. )
- Tryby awaryjne: możliwy dryf tożsamości w przypadku drastycznych edycji, sporadycznego braku spójności semantycznej (gdy podpowiedzi są niedookreślone) oraz artefaktów w bardzo złożonych scenach lub drastycznych zmianach punktu widzenia.
- Pochodzenie i niewłaściwe użycie: chociaż znaki wodne i SynthID są obecne, nie zapobiegają one niewłaściwemu wykorzystaniu — wspomagają wykrywanie i przypisywanie, ale nie zastępują przeglądu przez człowieka w przypadku wrażliwych przepływów pracy.
Typowe przypadki użycia
- Produkt i handel elektroniczny: umieszczanie/katalogowanie produktów w ujęciach lifestylowych poprzez fuzję wielu obrazów.
- Narzędzia kreatywne / projekt: szybkie iteracje w aplikacjach do projektowania (w tym integracja Adobe Firefly).
- Edycja i retusz zdjęć: zlokalizowane edycje z języka naturalnego (usuwanie obiektów, zmiana koloru/oświetlenia, zmiana stylu).
- Opowiadanie historii / zasoby postaci: zachowaj spójność postaci przez panele i sceny.
Jak zadzwonić Obraz Flash Gemini 2.5 API z CometAPI
Gemini 2.5 Flash Image Ceny API w CometAPI, 20% zniżki od ceny oficjalnej:
| Cena | $0.3120 |
Wymagane kroki
- Zaloguj się do pl.com. Jeśli jeszcze nie jesteś naszym użytkownikiem, zarejestruj się najpierw
- Pobierz klucz API uwierzytelniania dostępu do interfejsu. Kliknij „Dodaj token” przy tokenie API w centrum osobistym, pobierz klucz tokena: sk-xxxxx i prześlij.
- Uzyskaj adres URL tej witryny: https://api.cometapi.com/
Użyj metody
- Wybierz "
Gemini-2.5 Flash-Image” punkt końcowy do wysłania żądania API i ustawienia treści żądania. Metoda żądania i treść żądania są pobierane z naszej witryny internetowej API doc. Nasza witryna internetowa udostępnia również test Apifox dla Twojej wygody. - Zastępować za pomocą aktualnego klucza CometAPI ze swojego konta.
- Wpisz swoje pytanie lub prośbę w polu treści — model odpowie właśnie na tę wiadomość.
- . Przetwórz odpowiedź API, aby uzyskać wygenerowaną odpowiedź.
CometAPI zapewnia w pełni kompatybilne API REST, co umożliwia bezproblemową migrację. Kluczowe szczegóły Dokumentacja API:
- Punkt końcowy:
https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent - Parametr modelu: gemini-2.5-flash-image-preview / gemini-2.5-flash-image
- Poświadczenie:
Bearer YOUR_CometAPI_API_KEY - Typ zawartości:
application/json.
Uwaga: Podczas wywoływania API należy ustawić parametr „stream” na wartość true.
curl --location --request POST 'https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent' \
--header 'Authorization: sk-xxx' \
--header 'User-Agent: Apidog/1.0.0 (https://apidog.com)' \
--header 'Content-Type: application/json' \
--header 'Accept: */*' \
--header 'Host: api.cometapi.com' \
--header 'Connection: keep-alive' \
--data-raw '{
"contents": [
{
"role": "user",
"parts": [
{
"text": "cat"
},
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgoA Note: Base64 data here"
}
]
}
],
"generationConfig": {
"responseModalities": [
"TEXT",
"IMAGE"
]
}
}'
Zobacz także Interfejs API GPT-image-1



