Nano Banana Pro — официально Gemini 3 Pro Image — это новая студийного уровня модель генерации и редактирования изображений от Google/DeepMind, сочетающая продвинутое мультимодальное рассуждение, высокоточное воспроизведение текста, композицию из нескольких изображений и студийные креативные элементы управления.
Что такое Nano Banana Pro и почему это важно?
Nano Banana Pro — новейшая модель для генерации и редактирования изображений от Google — релиз “Gemini 3 Pro Image”, созданный для получения контекстно-осведомлённых изображений студийного качества до 4K с высокоточным текстом на изображении. Это преемник более ранних моделей Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”) с улучшенным рассуждением, привязкой к Search (реальные факты), более сильным воспроизведением текста и более мощными локальными инструментами редактирования. Модель доступна в приложении Gemini для интерактивных пользователей, а также через стандартный Gemini API; для программного доступа выберите конкретный идентификатор модели (gemini-3-pro-image-preview или его стабильный преемник).
Почему это важно: Nano Banana Pro создаётся не только для “красивых картинок”, но и для визуализации информации — инфографика, снимки на основе данных (погода, спорт), насыщенные текстом постеры, продуктовые мокапы и мультикомпозиции (до 14 входных изображений, с поддержанием согласованности персонажей для до 5 людей). Для дизайнеров, продуктовых команд и разработчиков такое сочетание точности, текста на изображении и программного доступа открывает производственные сценарии, которые раньше было сложно автоматизировать.
Какие функции доступны через API?
Типичные возможности API для разработчиков включают:
- Генерация изображений из текста (однопроходные или многошаговые композиционные “thinking”-флоу).
- Редактирование изображений (локальные маски, инпейтинг, стилизация).
- Сведение нескольких изображений (комбинация референсов).
- Расширенные параметры запроса: разрешение, соотношение сторон, постобработка и трассировки “composition thought” для отладки/инспекции в превью-режимах.
Ключевые инновации и функции Nano Banana Pro
Более умное смысловое рассуждение
Использует стек рассуждений Gemini 3 Pro для интерпретации сложных, многошаговых визуальных инструкций (например: «создай 5‑шаговую инфографику из этого датасета и добавь двуязычную подпись»). API предоставляет механизм “Thinking”, который может выдавать промежуточные композиционные пробы для уточнения финального результата.
Почему это важно: Вместо одного прохода “промпт → пиксели” модель выполняет внутренний процесс “thinking”, который уточняет композицию и может вызывать внешние инструменты (например, Google Search) для фактической опоры (например, точные подписи в схемах или корректные для локали вывески). В итоге изображения не только эстетичны, но и семантически точнее для задач вроде инфографики, диаграмм или продуктовых мокапов.
Как это делается: “Thinking” в Nano Banana Pro — контролируемый внутренний этап рассуждения/композиции, где модель генерирует промежуточные визуализации и трассировки рассуждений перед финальным изображением. API указывает, что модель может создать до двух промежуточных кадров, а финальное изображение — последний этап этой цепочки. В продакшене это помогает с композицией, размещением текста и решениями по макету.
Более точное воспроизведение текста
Заметно улучшена читаемость и локализация текста внутри изображений (меню, постеры, диаграммы). Nano Banana Pro выводит работу с текстом на новый уровень:
- Текст в изображениях чёткий, разборчивый и правильно написанный;
- Поддерживается многоязычная генерация (включая китайский, японский, корейский, арабский и др.);
- Можно вставлять длинные абзацы или многострочные описания прямо в изображение;
- Доступны автоперевод и локализация.
Почему это важно: Традиционно моделям сложно выводить читаемый, хорошо выровненный текст. Nano Banana Pro специально оптимизирована для надёжной генерации текста и локализации (например, перевод с сохранением макета), что открывает реальные творческие кейсы — постеры, упаковка, многоязычная реклама.
Как это делается: Улучшения текста обеспечены мультимодальной архитектурой и обучением на датасетах с акцентом на “текст-в-изображении”, а также целевыми наборами для оценки (человеческие и регрессионные тесты). Модель учится согласовывать формы глифов, шрифты и ограничения макета для производства читаемого, локализованного текста в изображениях — хотя очень мелкий текст и сверхплотные абзацы всё ещё подвержены ошибкам.
Лучшая визуальная консистентность и детализация
Студийные контролы (свет, фокус, ракурс, цветокоррекция) и композиция из нескольких изображений (до 14 референсов, с особыми режимами для нескольких людей) помогают сохранять согласованность персонажей (тот же человек/персонаж в разных правках) и идентичность бренда. Модель поддерживает нативные выходы 1K/2K/4K.
Почему это важно: Маркетинговые и развлекательные пайплайны требуют постоянства персонажей в кадрах и правках. Модель может поддерживать сходство до пяти людей и смешивать до 14 референс‑изображений в одной композиции, включая сценарий «Эскиз → 3D‑рендер». Полезно для рекламного креатива, упаковки или многокадрового сторителлинга.
Как это делается: Входы модели принимают несколько изображений с явным распределением ролей (например, «Изображение A: поза», «Изображение B: референс лица», «Изображение C: текстура фона»). Архитектура условно опирается на эти изображения, чтобы сохранить личность/позу/стиль при применении трансформаций (свет, камера).
Показатели производительности Nano Banana Pro
Nano Banana Pro (Gemini 3 Pro Image) “отличается на бенчмарках Text→Image” и демонстрирует улучшенные рассуждение и контекстную опору по сравнению с ранними моделями Nano Banana. Делается акцент на более высокую точность и улучшенное воспроизведение текста относительно предыдущих релизов.

Практические советы по производительности
Ожидайте более высокую задержку и стоимость для 2K/4K‑рендеров высокого качества по сравнению с 1K или моделями “Flash”, оптимизированными на скорость. Если критичны пропускная способность/латентность, используйте вариант flash (например, Gemini 2.5 Flash / Nano Banana) для больших объёмов; используйте Nano Banana Pro / gemini-3-pro-image для качества и сложных задач рассуждения.
Как разработчикам получить доступ к Nano Banana Pro?
Какие endpoints и модели выбрать
Идентификатор модели (preview / pro): gemini-3-pro-image-preview (preview) — используйте его, когда нужны возможности Nano Banana Pro. Для более быстрых и недорогих задач вариант gemini-2.5-flash-image (Nano Banana) остаётся доступным.
Где использовать
- Gemini API (endpoint generativelanguage): вы можете использовать ключ CometAPI для доступа к xx. CometAPI предлагает тот же API по более выгодной цене, чем официальный сайт. Прямые HTTP-/SDK‑вызовы к
generateContentдля генерации изображений (примеры ниже). - Google AI Studio: веб-интерфейс для быстрого эксперимента и ремиксов демо-приложений.
- Vertex AI (enterprise): гарантированная пропускная способность, варианты биллинга (pay‑as‑you‑go / корпоративные тарифы) и фильтры безопасности для крупносерийного продакшена. Используйте Vertex при интеграции в большие пайплайны или задания пакетного рендеринга.
Бесплатный тариф имеет ограничение на использование; при превышении лимита будет произведён откат к Nano Banana. Тарифы Plus/Pro/Ultra предлагают повышенные лимиты и вывод без водяных знаков, а Ultra может использоваться в инструментах Flow video и Antigravity IDE в режиме 4K.
Как сгенерировать изображение с Nano Banana Pro (пошагово)?
1) Быстрый интерактивный рецепт по использованию приложения Gemini
- Откройте Gemini → Tools → Create images.
- Выберите Thinking (Nano Banana Pro) как модель.
- Введите промпт: опишите сюжет, действие, настроение, свет, камеру, соотношение сторон и любой текст, который должен появиться на изображении. Пример:
«Создай 4K‑постер воркшопа по робототехнике: разная команда вокруг стола, наложение чертежей, жирный заголовок “Роботы в действии” гротескным шрифтом, тёплый вольфрамовый свет, малая ГРИП, кинематографичное 16:9.» - (Опционально) Загрузите до 14 изображений для сведения или в качестве референсов. Используйте инструмент выделения/маски для локальных правок.
- Сгенерируйте, затем итеративно улучшайте естественным языком (например: «сделай заголовок синим и выровняй по верхнему центру; увеличь контраст на чертеже»), затем экспортируйте.
2) Использование HTTP для отправки на endpoint генерации изображений Gemini
Вам нужно войти в CometAPI, чтобы получить ключ.
# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png
Этот пример записывает полезную нагрузку изображения в base64 в PNG‑файл. Параметр generationConfig.imageConfig.resolution запрашивает вывод 4K (доступно для модели 3 Pro Image).
3) Прямые вызовы SDK к generateContent для генерации изображений
Требуется установка Google SDK и получение аутентификации Google. Пример на Python (текст + референс‑изображения + grounding):
# pip install google-genai pillow
from google import genai
from PIL import Image
import base64
client = genai.Client() # reads credentials from env / config per SDK docs
# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")
prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=,
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools":
}
)
for part in response.candidates.content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")
Этот пример демонстрирует загрузку встроенного референс‑изображения и запрос 4K‑композиции с включением инструмента google_search. SDK на Python возьмёт на себя низкоуровневые детали REST.
Сведение нескольких изображений и согласованность персонажей
Чтобы создать композит с сохранением одного и того же человека в разных сценах, передавайте несколько частей inline_data (выбранных из вашего набора фото) и укажите в творческой инструкции, что модель должна «сохранять идентичность между результатами».
Короткий практический пример — реальный промпт и ожидаемый поток
Промпт:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."
Ожидаемый конвейер: приложение → шаблон промпта + CSV‑данные → подстановка плейсхолдеров в промпт → вызов API с image_size=2048x1152 → получение PNG в base64 → сохранение ассета + метаданные происхождения → при необходимости наложение точного шрифта через композитор.
Как спроектировать продакшен‑пайплайн и учесть безопасность/происхождение?
Рекомендуемая продакшен‑архитектура
- Промпт + черновой проход (быстрая модель): используйте
gemini-2.5-flash-image(Nano Banana) для дешёвого массового получения вариаций в низком разрешении. - Выбор и доработка: выберите лучшие кандидаты, уточните промпты, примените инпейтинг/маски для точности.
- Финальный высокодетальный рендер: вызов
gemini-3-pro-image-preview(Nano Banana Pro) для финальных 2K/4K‑рендеров и постобработки (апсемплинг, цветокоррекция). - Происхождение и метаданные: сохраняйте промпт, версию модели, временные метки и SynthID в вашей системе метаданных ассетов — модель добавляет водяной знак SynthID, а выводы можно отследить для соответствия требованиям и аудита контента.
Безопасность, права и модерация
- Авторские права и разрешения: не загружайте и не генерируйте контент, нарушающий права. Используйте явные подтверждения пользователей для предоставленных ими изображений или промптов, способных создать узнаваемое лицо. Соблюдайте Политику запрещённого использования Google и фильтры безопасности модели.
- Фильтрация и автоматические проверки: прогоняйте сгенерированные изображения через внутренний конвейер модерации контента (NSFW, символы ненависти, политический/обязательный контент) перед дальнейшим использованием или публичным показом.
Как выполнять редактирование (инпейтинг), многокадровую композицию и вывод текста?
Nano Banana Pro поддерживает мультимодальные сценарии редактирования: передайте одно или несколько входных изображений и текстовую инструкцию описания правок (удалить объект, заменить небо, добавить текст). API принимает изображение + текст в одном запросе; модель может возвращать ответы с чередованием текста и изображений. Типовые паттерны включают масочные правки и мультисведение (стилевой перенос/композиция). См. документацию по массивам contents, комбинирующим текстовые блоки и бинарные изображения.
Пример: правка (псевдопоток на Python)
from google import genai
from PIL import Image
client = genai.Client()
prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"
# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=, # order matters: image + instruction
)
# Save result as before
Такое диалоговое редактирование позволяет итеративно корректировать результат до продакшен‑качества.
Пример на Node.js — редактирование изображения с маской и несколькими референсами
// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');
const auth = new GoogleAuth({ scopes: });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";
// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};
const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();
(Интерфейсы API иногда принимают Cloud Storage URI или полезную нагрузку изображения в base64; см. документацию Gemini API для точных форматов ввода.)
Информацию о генерации и редактировании изображений с использованием CometAPI см. в руководстве по вызову gemini-3-pro-image.
Заключение
Nano Banana Pro (Gemini 3 Pro Image) — это продакшен‑уровневый скачок в генерации изображений: инструмент для визуализации данных, локализованных правок и поддержки разработческих рабочих процессов. Используйте приложение Gemini для быстрого прототипирования, API — для продакшен‑интеграции, и следуйте рекомендациям выше, чтобы контролировать стоимость, обеспечивать безопасность и сохранять качество бренда. Всегда тестируйте реальные пользовательские сценарии и сохраняйте метаданные происхождения для прозрачности и аудита.
Используйте Nano Banana Pro, когда вам нужны студийного качества ассеты, точный контроль композиции, улучшенный вывод текста внутри изображений и возможность сводить несколько референсов в единый связный результат.
Разработчики могут получить доступ к Gemini 3 Pro Image (Nano Banana Pro) API через CometAPI. Чтобы начать, изучите возможности моделей CometAPI в Playground и обратитесь к руководству по API за подробными инструкциями. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предлагает цену значительно ниже официальной, чтобы облегчить интеграцию.
Готовы начать? → Зарегистрируйтесь в CometAPI уже сегодня!
Если вы хотите получать больше советов, гайдов и новостей об ИИ, следите за нами в VK, X и Discord!
