Образ Gemini 2.5 Flash (Nano Banana): характеристики, тесты и использование

CometAPI
AnnaAug 31, 2025
Образ Gemini 2.5 Flash (Nano Banana): характеристики, тесты и использование

В конце августа 2025 года Google (DeepMind) выпустила Флэш-изображение Gemini 2.5 — широко известный как «нано-банан» — модель генерации и редактирования изображений высокого качества с низкой задержкой, интегрированная в приложение Gemini, Google AI Studio, API Gemini и CometAPI. Она разработана для создания фотореалистичных изображений, сохранения единообразия персонажей при редактировании, объединения нескольких входных изображений и выполнения точного локального редактирования с помощью подсказок на естественном языке. Модель доступна в предварительной версии и ранней версии GA и уже занимает лидирующие позиции в рейтингах изображений (LMArena) и поставляется с механизмами безопасности (водяные знаки SynthID и фильтры на уровне продукта).

Что такое Gemini 2.5 Flash Image (он же «Nano Banana»)?

Флэш-изображение Gemini 2.5 — шутливо прозванное Нано Банан — новейшая модель Google DeepMind для генерации и редактирования изображений в семействе Gemini. Представленная в конце августа 2025 года, эта модель позиционируется как предварительная версия, которая обеспечивает более точное редактирование, слияние нескольких изображений, лучшую согласованность персонажей (сохранение узнаваемости одного и того же человека/питомца/объекта при нескольких редактировании) и генерацию изображений с низкой задержкой в ​​рамках мультимодального инструментария Gemini. Она доступна через API Gemini, Google AI Studio, мобильные и веб-приложения Gemini, а также через Vertex AI для корпоративных клиентов.

Происхождение и наименование

Прозвище «нанобанан» стало вирусным сокращением в социальных сетях и рейтингах сообщества после того, как первые тестировщики и участники LMArena использовали фруктовую тематику. Google подтвердила эту связь и публично использовала это шутливое прозвище в своих публикациях для разработчиков и о продукте. Официальное название продукта: Флэш-изображение Gemini 2.5 и вы обычно увидите идентификатор модели, используемый в коде и вызовах API (для предварительного просмотра он выглядит так, например, gemini-2.5-flash-image-preview).

Каковы основные особенности образа Gemini 2.5 Flash?

Что на самом деле означает «последовательность характера»?

Одна из возможностей Marquee — это постоянство характера: вы можете попросить модель повторно использовать один и тот же объект (человека, домашнее животное, талисман или продукт) в нескольких редакциях или новых сценах, сохраняя при этом идентифицирующие визуальные особенности (лицо/форма, цветовая палитра, отличительные признаки). Это устраняет распространённый недостаток ранних моделей изображений, когда последующие правки приводили к созданию визуально правдоподобных, но заметно отличающихся людей/объектов. Таким образом, разработчики могут создавать рабочие процессы для каталогов продукции, создания эпизодических историй или создания брендовых активов с меньшим объёмом ручной коррекции.

Какие еще элементы управления редактированием включены?

Flash-образ Gemini 2.5 поддерживает:

  • Целевые локальные правки с помощью подсказок на понятном языке (удалить объект, сменить наряд, отретушировать кожу, удалить элемент фона).
  • Слияние нескольких изображений: объединить до трех входных изображений в одну связную композицию (например, поместить продукт из изображения A в сцену B, сохранив освещение).
  • Элементы управления стилем и форматом: фотореалистичные инструкции, атрибуты камеры и объектива, соотношение сторон и стилизованные выходные данные (иллюстрации, наклейки и т. д.).
  • Знания о мире коренных народов: модель использует более широкие знания семейства Gemini для выполнения семантически обоснованных правок (например, понимания того, что подразумевают «Освещение эпохи Возрождения» или «Токийский пешеходный переход»).

А как насчет скорости, стоимости и доступности?

Gemini 2.5 Flash Image — это часть Flash-уровня Gemini 2.5, оптимизированного для низкой задержки и стоимости при сохранении высокого качества. Google представила предварительные цены на токены вывода изображений и обеспечила доступность через API и AI Studio; корпоративные клиенты могут получить к нему доступ через Vertex AI. На момент анонса опубликованная цена на Gemini 2.5 Flash Image составляла $30 за 1 млн выходных токенов, с примером стоимости за изображение, указанной как 1290 выходных токенов ≈ 0.039$ за изображение.

Как работает Gemini 2.5 Flash Image изнутри?

Архитектура и подход к обучению

Gemini 2.5 Flash Image наследует архитектуру семейства Gemini 2.5: разреженную структуру в стиле «смешанная экспертная модель» (MoE) с мультимодальным обучением, объединяющим текст, изображения, аудио и другие данные. Google обучил Flash Image на очень больших отфильтрованных мультимодальных корпусах и доработал модель для задач с изображениями (генерация, редактирование, слияние) и безопасного поведения. Обучение проводилось на основе TPU-структуры Google и оценивалось с помощью как автоматических, так и ручных метрик.

Редактирование на основе диалога

На высоком уровне модель использует контекстное обусловливание: когда вы предоставляете изображение (или несколько изображений) и текстовые подсказки, модель кодирует визуальную идентичность объекта во внутреннее представление. При последующем редактировании или создании новых сцен она обуславливает генерацию на основе этого представления, чтобы сохранить желаемые визуальные атрибуты (геометрию лица, ключевые идентификаторы одежды или продукта, цветовые палитры). На практике это реализовано в рамках мультимодального конвейера контента, предоставляемого API Gemini: вы отправляете референсные изображения вместе с инструкциями по редактированию, а модель возвращает отредактированные изображения (или несколько изображений-кандидатов) в одном ответе.

Водяные знаки и происхождение

Google интегрирует фильтры безопасности и контентной политики в Gemini 2.5 Flash Image. В релизе особое внимание уделяется оценке и редактированию, автоматизированным этапам фильтрации, контролируемой тонкой настройке и обучению с подкреплением для выполнения инструкций и минимизации вредоносных результатов. Результаты включают невидимый водяной знак SynthID, что позволяет впоследствии идентифицировать изображения, созданные или отредактированные моделью, как созданные ИИ.

Насколько хорошо он работает? (Контрольные данные)

Образ Gemini 2.5 Flash (в некоторых контекстах бенчмаркинга продается как «нано-банан») №1 в рейтингах LMArena по редактированию изображений и преобразованию текста в изображение По состоянию на конец августа 2025 года, с большим отрывом по Эло/предпочтениям над конкурентами в представленных сравнениях. Я ссылаюсь на результаты оценки, полученные с помощью LMArena и GenAI-Bench, которые показывают наивысшие показатели предпочтений как в задачах преобразования текста в изображение, так и в задачах редактирования изображений.

Сравнение текста с изображением

Тест возможностейИзображение Gemini Flash 2.5Imagen 4 Ultra 06-06ChatGPT 4o / GPT Image 1 (Высокое)FLUX.1 КонтекстИзображение Gemini Flash 2.0
Общие предпочтения (LMArena)1147113511291075988
Визуальное качество (GenAI-Bench)110310941013864926
Выравнивание текста и изображения (GenAI-Bench)104210531046937922

Редактирование изображений

Тест возможностейИзображение Gemini Flash 2.5ChatGPT 4o / GPT Image 1 (Высокое)FLUX.1 КонтекстРедактирование изображений QwenИзображение Gemini Flash 2.0
Общие предпочтения (LMArena)13621170119111451093
Характер117010591010911850
творческий11121057968983879
Инфографика106710299671012925
Объект/Окружающая среда1064102310021010901
Реконтекстуализация продукта112810329431009888
стилизация106211659491091733

Образ Gemini 2.5 Flash (Nano Banana): характеристики, тесты и использование

Что эти показатели означают на практике?

Тесты говорят нам о двух вещах: (1) модель конкурентоспособна в области фотореалистичной генерации и (2) она выделяется в редактирование Задачи, где важны последовательность символов и соблюдение подсказок. Рейтинги предпочтений пользователей показывают, что пользователи, просматривающие результаты Gemini, высоко оценили реалистичность и соответствие инструкциям во многих оцениваемых подсказках. Однако в них подробно описываются известные ограничения (риск галлюцинаций при восприятии мелких деталей, отображение длинного текста внутри изображений, граничные случаи переноса стиля), поэтому бенчмарки являются лишь ориентиром, а не гарантией.

Что можно сделать с образом Gemini 2.5 Flash (варианты использования)?

Образ Gemini 2.5 Flash специально разработан для творческих, продуктивных и прикладных задач создания изображений. Типичные и нестандартные варианты использования:

Быстрые макеты продуктов и электронная коммерция

Перетаскивайте фотографии продуктов в сцены, создавайте единообразные изображения для каталога в разных средах или меняйте цвета/ткани в рамках линейки продуктов — и всё это с сохранением идентичности продукта. Функции объединения нескольких изображений и согласованность персонажей/продуктов делают этот подход привлекательным для рабочих процессов каталога.

Ретушь фотографий и целевые правки

Удаляйте объекты, исправляйте недостатки, меняйте одежду/аксессуары или корректируйте освещение с помощью подсказок на естественном языке. Возможность локализованного редактирования позволяет неспециалистам выполнять профессиональную ретушь, используя голосовые команды.

Раскадровка и визуальное повествование

Размещайте одного и того же персонажа в разных сценах и поддерживайте его единообразный вид (полезно для комиксов, раскадровок и презентаций). Итеративное редактирование позволяет авторам улучшить настроение, построение кадра и последовательность повествования, не переписывая материалы с нуля.

Образование, схемы и прототипирование дизайна

Благодаря способности комбинировать текстовые подсказки и изображения, а также благодаря наличию «мировых знаний», модель может помочь в создании аннотированных диаграмм, обучающих визуальных материалов или быстрых макетов для презентаций. Google даже предлагает шаблоны в AI Studio для таких случаев использования, как макеты недвижимости и дизайн продукта.

Как использовать API Nano Banana?

Ниже приведены практические фрагменты, адаптированные из Документация по API CometAPI и документация API Google. В ней показаны общие процессы: текст в изображение и изображение + текст в изображение (редактирование) с использованием официального GenAI SDK или конечной точки REST.

Примечание: в документации CometAPI название модели предварительного просмотра выглядит так: gemini-2.5-flash-image-preview. Приведённые ниже примеры соответствуют официальным примерам SDK (Python и JavaScript) и примеру REST curl; адаптируйте ключи и пути к файлам к своей среде.

Пример REST curl из CometAPI

Используйте официальный сайт Gemini generateContent Конечная точка для преобразования текста в изображение. Поместите текстовую подсказку в contents.parts[].text.Пример (оболочка Windows, с использованием ^ для продолжения строки):

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{    "contents": [{
      "parts": [
        {"text": "A photorealistic macro shot of a nano-banana on a silver fork, shallow depth of field"}
      ]
    }]
  }'}"
| grep -o '"data": "*"' \
| cut -d'"' -f4 \
| base64 --decode > gemini-generated.png

Ответ содержит байты изображения в кодировке base64; конвейер, указанный выше, извлекает "data" строку и декодирует ее в gemini-generated.png.

Эта конечная точка поддерживает генерацию «изображения в изображение»: загрузите входное изображение (в формате Base64) и получите измененное новое изображение (также в формате Base64).Пример:

curl --location --request POST "https://api.cometapi.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-xxxx" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.cometapi.com" ^
--header "Connection: keep-alive" ^
--data-raw "{  \"contents\":     }  ],  \"generationConfig\": {    \"responseModalities\":   }}"

**Описание:**Сначала преобразуйте исходный файл изображения в строку Base64 и поместите его в inline_data.data. Не включайте префиксы типа data:image/jpeg;base64,.Выход также находится в candidates.content.parts и включает в себя: Необязательную текстовую часть (описание или подсказку). Часть изображения как inline_data (где data — это Base64 выходного изображения). Для нескольких изображений вы можете добавить их напрямую, например:

{
  "inline_data": {
    "mime_type": "image/jpeg",
    "data": "iVBORw0KGgo...",
    "data": "iVBORw0KGgo..."
  }
}

Ниже приведены примеры для разработчиков, адаптированные из официальной документации и блога Google. Замените учётные данные и пути к файлам своими.

Python (официальный стиль SDK)

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of a nano banana dish in a fancy restaurant with a Gemini theme"

# Text-to-Image

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=,
)

for part in response.candidates.content.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = Image.open(BytesIO(part.inline_data.data))
        image.save("generated_image.png")

Это канонический фрагмент кода Python из документации Google (показан предварительный идентификатор модели). Тот же шаблон вызова SDK поддерживает редактирование изображения + подсказки (передача изображения в качестве одного из contents). Более подробную информацию см. близнецы док.

Заключение

Если вашему продукту требуется надежная генерация изображений с малой задержкой и, в особенности, надежное редактирование с постоянством темыGemini 2.5 Flash Image теперь представляет собой вариант промышленного уровня, достойный внимания: он сочетает в себе передовое качество изображений с API, разработанными для интеграции с разработчиками (AI Studio, Gemini API и Vertex AI). Тщательно взвесьте текущие ограничения модели (мелкий текст на изображениях, некоторые пограничные случаи стилизации) и внедрите меры по обеспечению ответственного использования.

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ Флэш-изображение Gemini 2.5(список API Nano Banana Comet gemini-2.5-flash-image-preview/gemini-2.5-flash-image (Записи стилей в их каталоге.) через CometAPI, последние версии моделей указаны на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Читать далее

500+ моделей в одном API

Скидка до 20%