Nano Banana Pro — официально Изображение Gemini 3 Pro — это новая модель создания и редактирования изображений студийного уровня от Google/DeepMind, которая сочетает в себе передовые мультимодальные рассуждения, высококачественную визуализацию текста, композицию из нескольких изображений и творческие возможности студийного уровня.
Что такое Nano Banana Pro и почему вас это должно волновать?
Nano Banana Pro — это новейшая модель Google для создания и редактирования изображений, получившая название «Gemini 3 Pro Image», разработанная для создания высококачественных изображений с учётом контекста и текста на изображении студийного качества до 4K. Она является преемницей более ранних моделей Nano Banana (Gemini 2.5 Flash Image / «Nano Banana») с улучшенным алгоритмом обработки, поисковой обработкой (фактами из реального мира), более качественной визуализацией текста и более мощными элементами управления локальным редактированием. Модель доступна в приложении Gemini для интерактивных пользователей и доступа к Nano Banana Pro через стандартный API Gemini, но вы можете выбрать конкретный идентификатор модели (gemini-3-pro-image-preview или его стабильный преемник). для программного доступа.
Почему это важно: Nano Banana Pro создан не только для создания красивых изображений, но и для визуализировать информацию — инфографика, моментальные снимки на основе данных (погода, спорт), постеры с большим количеством текста, макеты продуктов и многокадровые слияния (до 14 исходных изображений и сохранение единообразия персонажей для до 5 человек). Для дизайнеров, команд по продуктам и разработчиков это сочетание точности, текста на изображении и программного доступа открывает производственные процессы, которые ранее было трудно автоматизировать.
Какие функции доступны через API?
Типичные возможности API, доступные разработчикам, включают:
- Текст → Генерация изображения (одношаговые или многошаговые «мыслительные» потоки композиции).
- Редактирование изображений (локальные маски, тонировка, корректировка стиля).
- Слияние нескольких изображений (объединить референтные изображения).
- Расширенные элементы управления запросами: разрешение, соотношение сторон, этапы постобработки и трассировки «композиционной мысли» для отладки/проверки в режимах предварительного просмотра.
Основные инновации и функции Nano Banana Pro
Более разумное обоснование содержания
Использует стек логики Gemini 3 Pro для интерпретации сложных многошаговых визуальных инструкций (например, «создать инфографику из 5 шагов на основе этого набора данных и добавить двуязычную подпись»). API предоставляет механизм «мышления», который может проводить промежуточные тесты на составление для уточнения окончательного результата.
Почему это важно: Вместо одного прохода, преобразующего подсказку в пиксель, модель выполняет внутренний «мыслительный» процесс, который улучшает композицию и может вызывать внешние инструменты (например, Google Поиск) для фактической подстановки (например, точных подписей к схемам или корректных в локали вывесок). Это позволяет создавать изображения, которые не только более привлекательны, но и более семантически корректны для таких задач, как инфографика, диаграммы или макеты продуктов.
Как этого добиться: «Thinking» в Nano Banana Pro — это контролируемый внутренний этап рассуждений/композиции, в котором модель генерирует промежуточные визуальные данные и трассировки рассуждений перед созданием финального изображения. API показывает, что модель может создавать до двух промежуточных кадров, а финальное изображение является последним этапом этой цепочки. В процессе производства это помогает в выборе композиции, размещении текста и макета.
Более точная визуализация текста
Значительно улучшена читаемость локализованного текста внутри изображений (меню, плакаты, диаграммы). Nano Banana Pro достигает новых высот в рендеринге текста изображений:
- Текст на изображениях четкий, разборчивый и правильно написан;
- Поддерживает многоязыковую генерацию (включая китайский, японский, корейский, арабский и т. д.);
- Позволяет пользователям писать длинные абзацы или многострочные описательные тексты непосредственно на изображениях;
- Доступны автоматический перевод и локализация.
Почему это важно: Традиционно модели изображений испытывают трудности с отображением читабельного, хорошо выровненного текста. Nano Banana Pro специально оптимизирован для надёжного отображения и локализации текста (например, перевода и сохранения макета), что открывает возможности для креативного использования, например, для создания плакатов, упаковки или многоязычной рекламы.
Как этого добиться: Улучшения в рендеринге текста достигаются благодаря базовой мультимодальной архитектуре и обучению на наборах данных, в которых особое внимание уделяется примерам текста на изображениях, в сочетании с целевыми наборами оценки (человеческими оценками и наборами регрессионного анализа). Модель обучается согласовывать формы глифов, шрифты и ограничения макета для создания разборчивого, локализованного текста внутри изображений, хотя мелкий текст и очень плотные абзацы по-прежнему могут быть подвержены ошибкам.
Более высокая визуальная согласованность и точность
Управление студией (освещение, фокусировка, ракурс, цветокоррекция) и многокадровая композиция (до 14 референсных изображений с учетом возможности использования нескольких людей в качестве главных героев) помогают сохранить единообразие персонажей (один и тот же человек/персонаж при редактировании) и идентичность бренда во всех создаваемых материалах. Модель поддерживает нативные форматы 1K/2K/4K.
Почему это важно: Маркетинговые и развлекательные рабочие процессы требуют единообразия персонажей на всех этапах съёмки и монтажа. Модель может сохранять сходство до 5 люди и смешаться с 14 Объединяйте изображения в единую композицию при создании эскиза → 3D-рендера. Это полезно для создания рекламных материалов, упаковки или многокадрового сторителлинга.
Как этого добиться: Входные данные модели принимают несколько изображений с явным назначением ролей (например, «Изображение A: поза», «Изображение B: эталон лица», «Изображение C: текстура фона»). Архитектура обуславливает генерацию на основе этих изображений для сохранения идентичности/позы/стиля при применении преобразований (освещение, камера).
Тесты производительности Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) «превосходно показывает себя в тестах ИИ «текст→изображение» и демонстрирует улучшенные функции рассуждения и контекстного обоснования по сравнению с более ранними моделями Nano Banana. В нём подчёркивается более высокая точность и улучшенная визуализация текста по сравнению с предыдущими версиями.

Практическое руководство по эффективности
Ожидать более высокая задержка и стоимость высококачественного рендеринга 2K/4K, чем для 1K или моделей Flash, оптимизированных для скорости. Если пропускная способность/задержка критичны, используйте вариант с Flash (например, Gemini 2.5 Flash/Nano Banana) для больших объёмов; для задач с высоким качеством и сложными логическими рассуждениями используйте Nano Banana Pro/gemini-3-pro-image.
Как разработчики могут получить доступ к Nano Banana Pro?
Какие конечные точки и модели выбрать
Идентификатор модели (превью/профессиональная версия): gemini-3-pro-image-preview (предварительная версия) — используйте этот вариант, когда вам нужны возможности Nano Banana Pro. Для более быстрой и экономичной работы gemini-2.5-flash-image (Nano Banana) остаётся в наличии.
Поверхности для использования
- API Gemini (конечная точка генеративного языка): Вы можете использовать ключ CometAPI для доступа к xx. CometAPI предлагает тот же API по более выгодной цене, чем официальный сайт. Прямые HTTP/SDK-вызовы к
generateContentдля генерации изображений (примеры ниже). - Google AI-студия: Веб-поверхность для быстрого экспериментирования и создания ремиксов демонстрационных приложений.
- Vertex AI (корпоративный): Выделенная пропускная способность, варианты оплаты (оплата по факту использования/корпоративные уровни) и фильтры безопасности для крупномасштабного производства. Используйте Vertex для интеграции в крупные конвейеры или пакетные задания рендеринга.
Бесплатный тариф имеет ограниченный лимит использования; при его превышении будет активирована подписка Nano Banana. Тарифы Plus/Pro/Ultra предлагают более высокие лимиты и вывод без водяных знаков, но Ultra можно использовать в видеоинструментах Flow и Antigravity IDE в режиме 4K.
Как создать изображение с помощью Nano Banana Pro (пошагово)?
1) Быстрый интерактивный рецепт с использованием приложения Gemini
- Открыть Gemini → Инструменты → Создание изображений.
- Выберите Мышление (Nano Banana Pro) как модель.
- Введите подсказку: опишите тему, действие, настроение, освещение, камеру, соотношение сторон и любой текст, который будет отображаться на изображении. Пример:
«Создайте 4K-постер с изображением семинара по робототехнике: разнообразная команда за столом, наложение чертежей, жирный заголовок «Роботы в действии» шрифтом без засечек, теплый вольфрамовый свет, малая глубина резкости, кинематографическое соотношение сторон 16:9». - (Необязательно) Загрузите до 14 изображений для объединения или использования в качестве референсов. Используйте инструмент выделения/маски для локального редактирования областей.
- Сгенерируйте, повторите с помощью естественного языка (например, «сделать заголовок синим и выровнять по центру сверху; увеличить контрастность на чертеже»), затем экспортируйте
2) Используйте HTTP для отправки изображения на конечную точку Gemini
Для получения ключа вам необходимо войти в CometAPI.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Этот пример записывает полезную нагрузку изображения в формате Base64 в файл PNG. generationConfig.imageConfig.resolution параметр запрашивает вывод 4K (доступно для модели 3 Pro Image)
3) Прямые вызовы SDK generateContent для генерации изображения
Требуется установка Google SDK и получение аутентификации Google. Пример на Python (текст + справочные изображения + обоснование):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
В этом примере показана загрузка встроенного справочного изображения и запрос композиции 4K с включением google_search в качестве инструмента. Python SDK будет обрабатывать низкоуровневые детали REST.
Слияние нескольких изображений и согласованность персонажей
Чтобы создать композицию, которая сохраняет одного и того же человека во всех сценах, передайте с разными inline_data детали (выбранные из вашего набора фотографий) и укажите творческую инструкцию о том, что модель должна «сохранять идентичность во всех выходных данных».
Короткий практический пример — реальный быстрый и ожидаемый поток
подскажите:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Ожидаемый трубопровод: приложение → шаблон приглашения + данные CSV → заменить заполнители в приглашении → вызов API с image_size=2048x1152 → получить base64 PNG → сохранить метаданные активов и происхождения → при необходимости можно наложить точный шрифт с помощью композитора.
Как следует проектировать производственный трубопровод и обеспечивать безопасность/происхождение?
Рекомендуемая производственная архитектура
- Быстрый + черновой проход (быстрая модель): Используйте
gemini-2.5-flash-image(Nano Banana) для дешевого производства множества вариаций с малым разрешением. - Отбор и уточнение: выберите лучших кандидатов, уточните подсказки, примените редактирование зарисовок/масок для большей точности.
- Высококачественный финальный рендер: призывают
gemini-3-pro-image-preview(Nano Banana Pro) для финального рендеринга 2K/4K и постобработки (повышающей дискретизации, цветокоррекции). - Происхождение и метаданные: Сохраните подсказку, версию модели, временные метки и информацию SynthID в хранилище метаданных вашего актива — модель прикрепляет водяной знак SynthID, а выходные данные можно отслеживать для проверки соответствия и контента.
Безопасность, права и модерация
- Проверка авторских прав: Не загружайте и не создавайте контент, нарушающий авторские права. Используйте явные подтверждения пользователей для предоставленных ими изображений или подсказок, которые могут создать узнаваемые образы. Необходимо соблюдать Политику Google в отношении запрещённого использования и фильтры безопасности моделей.
- Фильтрация и автоматизированные проверки: пропускать созданные изображения через внутренний конвейер модерации контента (обнаружение контента с негативным контентом, символов ненависти, политического/обязывающего контента) перед последующим использованием или публичным показом.
Как выполнить редактирование изображений (интайм), композицию из нескольких изображений и рендеринг текста?
Nano Banana Pro поддерживает мультимодальные процессы редактирования: укажите одно или несколько входных изображений и текстовую инструкцию с описанием изменений (удаление объекта, изменение неба, добавление текста). API принимает изображения и текст в одном запросе; модель может генерировать чередующиеся текст и изображения в качестве ответов. Примеры шаблонов включают редактирование с масками и смешивание нескольких изображений (перенос стиля/композиция). См. документацию. contents массивы, объединяющие текстовые блоки и двоичные изображения.
Пример: Редактировать (псевдопоток Python)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Такое диалоговое редактирование позволяет вам последовательно корректировать результаты до тех пор, пока вы не достигнете готового к производству материала.
Пример Node.js — редактирование изображения с помощью маски и нескольких ссылок
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(API иногда принимают URI облачного хранилища или полезные данные изображений base64; точные форматы входных данных см. в документации API Gemini.)
Информацию о создании и редактировании изображений с использованием CometAPI см. Руководство по вызову gemini-3-pro-image .
Заключение
Nano Banana Pro (Gemini 3 Pro Image) — это прорыв в создании изображений промышленного уровня: инструмент для визуализации данных, создания локальных правок и оптимизации рабочих процессов разработчиков. Используйте приложение Gemini для быстрого создания прототипов, API для интеграции в производство и следуйте приведенным выше рекомендациям, чтобы контролировать расходы, обеспечивать безопасность и поддерживать качество бренда. Всегда тестируйте рабочие процессы реальных пользователей и сохраняйте метаданные о происхождении для обеспечения прозрачности и аудита.
Используйте Nano Banana Pro, когда вам нужно студийного качества активы, точный контроль над композицией, улучшенная визуализация текста внутри изображений и возможность объединения нескольких ссылок в один связный вывод.
Разработчики могут получить доступ API изображения Gemini 3 Pro (Nano Banana Pro) через CometAPI. Для начала изучите возможности моделиCometAPI в Детская Площадка Подробные инструкции см. в руководстве по API. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. сetAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.
Готовы к работе?→ Зарегистрируйтесь в CometAPI сегодня !
Если вы хотите узнать больше советов, руководств и новостей об искусственном интеллекте, подпишитесь на нас VK, X и Discord!



