2025 жылдың тамыз айының соңында Google (DeepMind) шығарылды Gemini 2.5 Flash кескіні — кең тараған лақап ат «нано-банан» — Gemini қолданбасы, Google AI Studio, Gemini API және CometAPI біріктірілген төмен кідіріс, жоғары сапалы кескін жасау + өңдеу моделі. Ол фотореалистік кескіндерді жасауға, өңдеулер арасында таңбалардың сәйкестігін сақтауға, бірнеше кіріс кескіндерін біріктіруге және табиғи тілдегі сұраулар арқылы жақсы, локализацияланған өңдеулерді орындауға арналған. Модель алдын ала қарауда / ерте GA нұсқасында қол жетімді және қауіпсіздік механизмдерімен (SynthID су таңбасы және өнім деңгейіндегі сүзгілер) тасымалдау кезінде кескін көшбасшылар тақтасында (LMArena) бірінші орында тұр.
Gemini 2.5 Flash Image (aka «Nano Banana») дегеніміз не?
Gemini 2.5 Flash Image — ойнақы лақап ат Нано банан — Google DeepMind компаниясының Gemini отбасындағы кескіндерді жасау және өңдеудің соңғы үлгісі. 2025 жылдың тамыз айының соңында жарияланған модель жоғары дәлдіктегі өңдеулерді, көп кескінді біріктіруді, жақсырақ таңбалардың үйлесімділігін (бір адам/үй жануарларын/объектіні бірнеше өңдеулер кезінде тануға мүмкіндік береді) және Gemini мультимодальды құралдар жинағында аз кідіріспен кескін жасауды қамтамасыз ететін алдын ала қарау шығарылымы ретінде орналастырылған. Ол Gemini API, Google AI Studio, Gemini мобильді/веб қолданбалары және корпоративтік тұтынушыларға арналған Vertex AI арқылы қол жетімді.
Шығу және атау
«Нано банан» лақап аты ерте тестерлер мен LMArena жазбалары жеміс-жидек тақырыбын пайдаланғаннан кейін әлеуметтік арналар мен қауымдастық көшбасшылар тақтасындағы вирустық стенографияға айналды; Google қосылымды растады және әзірлеуші және өнім жазбаларында ойнақы тұтқаны көпшілікке жариялады. Өнімнің ресми атауы Gemini 2.5 Flash кескіні және әдетте код пен API қоңырауларында пайдаланылатын үлгі идентификаторын көресіз (алдын ала қарау үшін ол мысалы ретінде пайда болады gemini-2.5-flash-image-preview).
Gemini 2.5 Flash кескінінің тақырыптық мүмкіндіктері қандай?
«Таңбалардың үйлесімділігі» шын мәнінде нені білдіреді?
Марка мүмкіндіктерінің бірі болып табылады кейіпкерлердің үйлесімділігі: модельден бірдей нысанды (адам, үй жануары, тұмар немесе өнімді) анықтаушы көрнекі мүмкіндіктерді (бет/пішін, түстер палитрасы, ерекшелеу белгілері) сақтай отырып, көптеген өңдеулер немесе жаңа көріністер бойынша қайта пайдалануды сұрауға болады. Бұл кейінгі өңдеулер көзбен көретін, бірақ айтарлықтай әртүрлі адамдарды/нысандарды жасайтын бұрынғы кескін үлгілеріндегі жалпы әлсіздікке бағытталған. Сондықтан әзірлеушілер өнім каталогтары, эпизодтық әңгімелер немесе қолмен түзету азырақ бренд активтерін құру үшін жұмыс процестерін құра алады.
Басқа қандай өңдеу басқару элементтері қамтылған?
Gemini 2.5 Flash Image мыналарды қолдайды:
- Мақсатты жергілікті өңдеулер қарапайым тілдегі сұраулар арқылы (нысанды алып тастау, киімді өзгерту, теріге өңдеу, фондық элементті жою).
- Көп кескінді біріктіру: үш кіріске дейін кескінді біртұтас композицияға біріктіріңіз (мысалы, жарықтандыруды сақтай отырып, А кескініндегі өнімді B көрінісіне қойыңыз).
- Стиль мен пішімді басқару элементтері: фотореалистік нұсқаулар, камера мен объектив атрибуттары, арақатынасы және стильдендірілген шығыстар (иллюстрация, стикер, т.б.).
- Туған дүниетану: модель семантикалық тұрғыдан хабардар өңдеулер жасау үшін кеңірек Gemini отбасының білімін пайдаланады (мысалы, «Ренессанс жарығы» немесе «Токио жаяу жүргіншілер жолы» нені білдіретінін түсіну).
Жылдамдық, баға және қолжетімділік туралы не деуге болады?
Gemini 2.5 Flash кескіні Gemini 2.5 Flash деңгейінің бөлігі болып табылады — жоғары сапаны сақтай отырып, төмен кідіріс пен баға үшін оңтайландырылған. Google кескінді шығару таңбалауыштарының бағасын алдын ала қарап шықты және API және AI Studio арқылы қолжетімділікті қамтамасыз етті; кәсіпорын тұтынушылары оған Vertex AI арқылы қол жеткізе алады. Хабарландыруда Gemini 2.5 Flash Image деңгейіне жарияланған баға белгіленді. \30М шығыс таңбалауышы үшін $1, мысал ретінде бір суреттің құны ретінде хабарланады 1290 шығыс таңбалауышы ≈ $0.039 сурет үшін.
Gemini 2.5 Flash Image сорғыштың астында қалай жұмыс істейді?
Сәулет және оқыту тәсілі
Gemini 2.5 Flash Image Gemini 2.5 отбасы архитектурасын мұра етеді: мәтінді, кескінді, дыбысты және басқа деректерді біріктіретін мультимодальды оқытумен сирек сарапшылар қоспасы (МЭ) стиліндегі магистраль. Google Flash кескінін өте үлкен, сүзгіден өткен мультимодальды корпусқа үйретті және кескін тапсырмалары (генерациялау, өңдеу, біріктіру) және қауіпсіздік тәртібі үшін үлгіні дәл баптады. Тренинг Google компаниясының TPU материалында жүргізілді және автоматты және адамның пайымдау көрсеткіштерімен бағаланды.
Әңгімелесуге негізделген өңдеу
Модель жоғары деңгейде контекстік кондициялауды пайдаланады: кескінді (немесе бірнеше кескіндерді) плюс мәтіндік шақыруларды бергенде, модель нысанның көрнекі сәйкестігін ішкі көрінісіне кодтайды. Кейінгі өңдеулер немесе жаңа көріністер кезінде ол қалаған көрнекі атрибуттардың (бет геометриясы, негізгі киім немесе өнім идентификаторлары, түстер палитрасы) сақталуы үшін сол бейнеде жасауды шарттайды. Іс жүзінде бұл Gemini API ашатын мультимодальды мазмұн құбырының бөлігі ретінде жүзеге асырылады: сіз анықтамалық кескіндерді өңдеу нұсқауларымен бірге жібересіз және модель бір жауапта өңделген кескін шығыстарын (немесе бірнеше үміткер кескіндерді) қайтарады.
Су таңбалау және шығу тегі
Google қауіпсіздік және мазмұн саясаты сүзгілерін Gemini 2.5 Flash кескініне біріктіреді. Шығарылым зиянды нәтижелерді азайта отырып, келесі нұсқау үшін бағалау мен қызыл топтастыруға, автоматтандырылған сүзгілеу қадамдарына, бақыланатын дәлдікке және оқуды күшейтуге баса назар аударады. Шығаруларға көрінбейтін SynthID су таңбасы кіреді, осылайша модель шығарған немесе өңдеген кескіндерді кейінірек AI жасалған деп анықтауға болады.
Ол қаншалықты жақсы жұмыс істейді? (Эталондық деректер)
Gemini 2.5 Flash кескіні (кейбір салыстыру контексттерінде «нано-банан» ретінде сатылады) жетті LMArena кескінді өңдеу және мәтіннен суретке көшбасшылар тақтасындағы №1 2025 жылдың тамыз айының соңындағы жағдай бойынша, есептелген салыстыруларда үлкен Elo/артықшылық бәсекелестерден алда келеді. Мен LMArena және GenAI-Bench адамдық бағалау нәтижелеріне сілтеме жасаймын, олар мәтінді суретке және кескінді өңдеу тапсырмалары үшін ең жоғары таңдау ұпайларын көрсетеді.
Мәтінді суретке салыстыру
| Мүмкіндік эталоны | Gemini Flash 2.5 кескіні | Imagen 4 Ultra 06-06 | ChatGPT 4o / GPT кескіні 1 (жоғары) | FLUX.1 Контекст | Gemini Flash 2.0 кескіні |
|---|---|---|---|---|---|
| Жалпы артықшылық (LMArena) | 1147 | 1135 | 1129 | 1075 | 988 |
| Көрнекі сапа (GenAI-Bench) | 1103 | 1094 | 1013 | 864 | 926 |
| Мәтінді кескінге туралау (GenAI-Bench) | 1042 | 1053 | 1046 | 937 | 922 |
Суретті өңдеу
| Мүмкіндік эталоны | Gemini Flash 2.5 кескіні | ChatGPT 4o / GPT кескіні 1 (жоғары) | FLUX.1 Контекст | Qwen кескінін өңдеу | Gemini Flash 2.0 кескіні |
|---|---|---|---|---|---|
| Жалпы артықшылық (LMArena) | 1362 | 1170 | 1191 | 1145 | 1093 |
| кейіпкер | 1170 | 1059 | 1010 | 911 | 850 |
| шығармашылық | 1112 | 1057 | 968 | 983 | 879 |
| Инфографика | 1067 | 1029 | 967 | 1012 | 925 |
| Нысан / Қоршаған орта | 1064 | 1023 | 1002 | 1010 | 901 |
| Өнімді қайта контекстуализациялау | 1128 | 1032 | 943 | 1009 | 888 |
| Стилизация | 1062 | 1165 | 949 | 1091 | 733 |

Бұл көрсеткіштер іс жүзінде нені білдіреді?
Эталондар бізге екі нәрсені айтады: (1) модель фотореалистикалық генерацияда бәсекеге қабілетті және (2) ол ерекшеленеді өңдеу кейіпкерлердің бірізділігі мен жедел ұстану маңызды болатын тапсырмалар. Адамдардың қалауы бойынша рейтингтер нәтижелерді қарайтын пайдаланушылар Gemini нәтижелерін шынайылық және көптеген бағаланған сұраулардағы нұсқаулармен сәйкестендіру үшін жоғары бағалағанын көрсетеді. Дегенмен, белгілі шектеулер туралы анық (жақсы фактілердегі галлюцинация қаупі, кескіндердің ішіндегі ұзын пішінді мәтінді көрсету, стильді тасымалдаудың шеткі жағдайлары) — сондықтан эталондар кепілдік емес, нұсқаулық болып табылады.
Gemini 2.5 Flash Image (пайдалану жағдайлары) арқылы не істей аласыз?
Gemini 2.5 Flash кескіні шығармашылық, өнімділік және қолданбалы бейнелеу сценарийлері үшін нақты түрде жасалған. Типтік және шұғыл пайдалану жағдайларына мыналар жатады:
Өнімнің жылдам макеттері және электрондық коммерция
Өнім фотосуреттерін көріністерге сүйреп апарыңыз, орталар бойынша дәйекті каталог кескіндерін жасаңыз немесе өнім желісі бойынша түстерді/маталарды ауыстырыңыз — барлығы өнімнің сәйкестігін сақтай отырып. Көп кескінді біріктіру мүмкіндіктері және таңба/өнім консистенциясы оны каталог жұмыс үрдістері үшін тартымды етеді.
Фотосуреттерді ретуш және мақсатты өңдеулер
Нысандарды алып тастаңыз, ақауларды түзетіңіз, киімді/аксессуарларды өзгертіңіз немесе табиғи тілдегі ескертулермен жарықтандыруды реттеңіз. Жергілікті өңдеу мүмкіндігі сарапшы емес адамдарға сөйлесу пәрмендері арқылы кәсіби стильде өңдеуді орындауға мүмкіндік береді.
Сюжеттік тақта және визуалды әңгімелеу
Бір кейіпкерді әртүрлі көріністерге орналастырыңыз және олардың көрінісін біркелкі ұстаңыз (комикстерге, сюжеттік тақталарға немесе алаңдық палубаларға пайдалы). Итеративті өңдеулер авторларға активтерді нөлден қайта құрмай-ақ көңіл-күйді, фреймді және баяндау үздіксіздігін нақтылауға мүмкіндік береді.
Білім беру, диаграммалар және дизайн прототипі
Ол мәтіндік кеңестер мен кескіндерді біріктіре алатындықтан және «әлемдік білімге» ие болғандықтан, модель аннотацияланған диаграммаларды, білім беру көрнекілігін немесе презентацияларға арналған жылдам макеттерді жасауға көмектеседі. Google тіпті жылжымайтын мүлік макеттері және өнім дизайны сияқты пайдалану жағдайлары үшін AI Studio бағдарламасындағы үлгілерді ерекшелейді.
Nano Banana API қалай пайдаланасыз?
Төменде бейімделген практикалық үзінділер берілген CometAPI API құжаттары және Google API құжаттары. Олар жалпы ағындарды көрсетеді: мәтіннен суретке және сурет + мәтіннен суретке (өңдеу) ресми GenAI SDK немесе REST соңғы нүктесін пайдалану.
Ескерту: CometAPI құжаттарында алдын ала қарау үлгісінің атауы ретінде көрсетіледі
gemini-2.5-flash-image-preview. Төмендегі мысалдар ресми SDK мысалдарымен (Python және JavaScript) және REST бұралу үлгісімен үндеседі; кілттер мен файл жолдарын ортаға бейімдеңіз.
CometAPI-дан REST бұралу мысалы
Gemini ресми пайдаланыңыз generateContent мәтіннен кескінге арналған соңғы нүкте. Мәтіндік нұсқауды қойыңыз contents.parts[].text.Мысал (Windows қабығы, пайдалану ^ жолды жалғастыру үшін):
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ "contents": [{
"parts": [
{"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
]
}]
}'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png
Жауапта негізгі 64 кескін байты бар; жоғарыдағы құбырды шығарады "data" жол және оны декодтау gemini-generated.png.
Бұл соңғы нүкте «суреттен кескінге» генерациясын қолдайды: кіріс кескінін жүктеп салыңыз (Base64 ретінде) және өзгертілген жаңа кескінді алыңыз (сонымен қатар Base64 пішімінде).Мысал:
curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
**Анықтама:**Алдымен, бастапқы кескін файлын Base64 жолына түрлендіріңіз және оны орналастырыңыз inline_data.data. сияқты префикстерді қоспаңыз data:image/jpeg;base64,.Шығыс сонымен қатар орналасқан candidates.content.parts және мыналарды қамтиды: Қосымша мәтін бөлігі (сипаттама немесе сұрау). Кескін бөлігі ретінде inline_data (мұнда data шығыс кескінінің Base64 болып табылады).Бірнеше кескіндер үшін оларды тікелей қосуға болады, мысалы:
{
"inline_data": {
"mime_type": "image/jpeg",
"data": "iVBORw0KGgo...",
"data": "iVBORw0KGgo..."
}
}
Төменде Google ресми құжаттары мен блогынан бейімделген әзірлеушілер мысалдары берілген. Тіркелгі деректері мен файл жолдарын өзіңіздікімен ауыстырыңыз.
Python (ресми SDK стилі)
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"
# Text-to-Image
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=,
)
for part in response.candidates.content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
Бұл Google құжаттарындағы канондық Python үзіндісі (алдын ала қарау үлгі идентификаторы көрсетілген). Дәл сол SDK қоңырау үлгісі кескінді + жедел өңдеуді қолдайды (суретті мыналардың бірі ретінде жіберіңіз contents).Толығырақ ақпаратты қараңыз Geni doc.
қорытынды
Егер сіздің өніміңізге сенімді, төмен кідіріспен кескін жасау қажет болса және, әсіресе, тақырып сәйкестігімен сенімді редакциялау, Gemini 2.5 Flash Image қазір бағалауға тұрарлық өндіріс деңгейіндегі опция болып табылады: ол ең заманауи кескін сапасын әзірлеушілерді біріктіруге арналған API интерфейстерімен біріктіреді (AI Studio, Gemini API және Vertex AI). Модельдің ағымдағы шектеулерін мұқият өлшеп (суреттердегі жақсы мәтін, кейбір стильдеу жиектері) және жауапты пайдалану шараларын орындаңыз.
Басталу
CometAPI – OpenAI GPT сериялары, Google Gemini, Anthropic's Claude, Midjourney, Suno және т.б. сияқты жетекші провайдерлердің 500-ден астам AI үлгілерін бір, әзірлеушілерге ыңғайлы интерфейске біріктіретін бірыңғай API платформасы. Тұрақты аутентификацияны, сұрауды пішімдеуді және жауаптарды өңдеуді ұсына отырып, CometAPI қолданбаларыңызға AI мүмкіндіктерін біріктіруді айтарлықтай жеңілдетеді. Чат-боттарды, кескін генераторларын, музыкалық композиторларды немесе деректерге негізделген аналитикалық құбырларды құрастырып жатсаңыз да, CometAPI сізге AI экожүйесіндегі соңғы жетістіктерге қол жеткізе отырып, жылдамырақ қайталауға, шығындарды басқаруға және жеткізуші-агностикалық күйде қалуға мүмкіндік береді.
Әзірлеушілер қол жеткізе алады Gemini 2.5 Flash кескіні(Nano Banana CometAPI тізімі gemini-2.5-flash-image-preview/gemini-2.5-flash-image олардың каталогындағы стиль жазбалары.) CometAPI арқылы тізімделген соңғы үлгілер нұсқасы мақаланың жарияланған күнінде берілген. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз. CometAPI біріктіруге көмектесу үшін ресми бағадан әлдеқайда төмен баға ұсыныңыз.
