Основные возможности

Текст → изображение: полнофункциональная генерация по промпту с высокой точностью следования промпту.
Изображение → изображение (редактирование): точечные и аккуратные правки с сохранением согласованности объекта/персонажа при нескольких последовательных изменениях.
Максимальное выходное разрешение: до 4K (примеры и точные поддерживаемые размеры в пикселях зависят от соотношения сторон; API предоставляет пресеты 1K/2K/4K)
Итеративное планирование и самокоррекция: внутренняя «многоэтапная» конвейерная обработка, которая обнаруживает и исправляет типичные визуальные ошибки (перспектива, текст, мелкая геометрия).
Продвинутый рендеринг текста внутри изображения: чёткий, разборчивый многоязычный текст (от коротких подписей до длинных абзацев), подходящий для постеров, мокапов и инфографики.
5 персонажей и сохранение точности для до 14 объектов/референсных изображений в одном рабочем процессе.
Водяные знаки / происхождение: все сгенерированные изображения включают водяной знак SynthID; в некоторых продуктовых интеграциях модель встраивает метаданные C2PA для подтверждения происхождения.

Версии и наименования Gemini 3 Pro Image

gemini-3-pro-image-preview
gemini-3-pro-image

Технические детали

Архитектура

Происхождение / базовая архитектура: Nano Banana Pro построен на развивающемся стеке image-моделей Gemini от Google — в частности, на новой архитектуре Gemini 3 Pro Image / GEMPIX 2 (более ёмкой мультимодальной системе для изображений и текста). Это развитие Gemini 2.5 Flash Image (оригинальной «nano-banana») в нативно мультимодальную image-модель с расширенными возможностями визуально-языкового рассуждения.
Поведение модели: нативная мультимодальность (изображение + текст + знания о мире), явные конвейеры для слияния нескольких изображений и внутренний поэтапный планировщик, который уточняет результат за несколько проходов, а не создаёт один статичный сэмпл. Ранние отчёты указывают на более сильное геометрическое/оптическое рассуждение (стекло, преломление) по сравнению с предыдущими версиями.
Мышление / внутренняя доработка: модель использует внутренний видимый процесс «мышления» для уточнения композиции (API документирует это поведение и отмечает, что эти внутренние шаги не тарифицируются как финальные токены изображения).
Grounding и инструменты: поддерживается Search grounding (может использовать веб-факты при генерации диаграмм/инфографики). Также поддерживаются системные инструкции для более детерминированного управления.

Ключевые параметры API:

thinking_level (low / high) для выбора между задержкой и глубиной рассуждения;
media_resolution (low/medium/high) для управления токенами OCR/считывания деталей изображения;
generationConfig.imageConfig для управления соотношением сторон/разрешением выходных изображений.

Ограничения по изображениям:

Поддерживаемые входные модальности: текст и изображения (модель не принимает аудио или видео в качестве входных данных для генерации изображений).
Максимум изображений в одном промпте: 14 (для Gemini 3 Pro Image preview).
Максимальный размер изображения (загрузка): 7 MB на одно входное изображение.
Поддерживаемые соотношения сторон: 1:1, 3:2, 16:9, 9:16, 21:9 и т. д.

Выходные изображения / токены: высокие лимиты, поддерживается 4K/4096px.

Производительность в бенчмарках

Краткое резюме: доступные на данный момент публичные/ранние бенчмарки в основном качественные и основаны на сообществе, но стабильно сообщают о существенных улучшениях в разрешении, снижении артефактов и физической достоверности по сравнению с оригинальной nano-banana (Gemini 2.5 Flash Image). Для некоторых конкретно названных «испытаний» были заметны явные визуальные улучшения, однако публичных стандартизированных числовых таблиц бенчмарков от Google с сравнением v1 → v2 по стандартным метрикам генерации изображений пока нет.

Качественные тесты сообщества: более чистые края, более чёткие микродетали, более правдивые цвета и более точное следование промпту (меньше галлюцинированных объектов, более согласованные персонажи). Популярные неформальные тесты включают так называемые “Wine Glass Test” и “Glass Burger Challenge”, где GEMPIX2 (Nano Banana Pro) заметно лучше справляется с прозрачностью и преломлением, чем более ранние сборки.
Работа с текстом: Nano Banana Pro демонстрирует заметно улучшенную типографику и размещение текста внутри изображений (традиционно слабое место для многих image-моделей). Сравнения сообщества показывают меньше искажённых отрисованных глифов.
Пропускная способность / UX: более высокая скорость итераций и UX, выполняющий многоэтапную доработку на серверной стороне, благодаря чему пользователи получают более надёжные результаты уже с первой попытки (что уменьшает необходимость ручных перегенераций).

Ограничения и риски

Фильтры контента и детекция: платформы, интегрирующие модель (например, Whisk/сторонние приложения), могут включать строгую детекцию знаменитостей или сходства внешности и блокировать определённые результаты, что влияет на творческие рабочие процессы, завязанные на реалистичное сходство со знаменитостями.
Галлюцинации / пограничные случаи рассуждения: несмотря на улучшения, модель всё ещё может создавать физически нереалистичные артефакты, особенно при плотном символическом тексте внутри изображений или в очень технических диаграммах — хотя NB2, по-видимому, снижает количество таких ошибок по сравнению с более ранними версиями.
Безопасность и злоупотребление: генеративные image-модели могут использоваться для создания проблемного или вредоносного контента. Google применяет ограничения, фильтры контента и водяной знак SynthID для подтверждения происхождения; тем не менее случаи злоупотребления уже происходили (в том числе громкий скандал, связанный с изображением, сгенерированным Nano Banana, в политически чувствительном контексте).

Как Nano Banana Pro выглядит на фоне других моделей

Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — сильная мобильная интеграция, слияние нескольких изображений, итеративная самокоррекция, нативный 2K/апскейл до 4K, плотная интеграция с приложениями Google (Search, Photos, Workspace/Gemini). Лучше всего подходит для сценариев, где нужны надёжные правки, непрерывность персонажей и интеграция с сервисами Google.
Midjourney — отлично подходит для стилизованных художественных результатов и промпт-инжиниринга, развиваемого сообществом; обычно не ориентирован на фотореалистичное слияние нескольких изображений или глубокие мультимодальные конвейеры редактирования.
Stable Diffusion / open weights — полностью открытая, высоко настраиваемая и пригодная для локального хостинга система; экосистема чекпойнтов и fine-tuning является решающим преимуществом для исследований и офлайн-использования. При этом у неё меньше «one-click» мобильной интеграции и менее стабильная согласованность при редактировании нескольких изображений «из коробки», чем у Nano Banana Pro.
Seedream 4.0 (ByteDance) — недавно явно позиционировалась как конкурент Nano Banana, с акцентом на сверхбыстрый рендеринг, выход 2K и поддержку большого числа референсных изображений (до шести). Позиционируется как профессиональная альтернатива для креаторов.

(Эти сравнения даны на высоком уровне; выбирайте победителя, исходя из своего сценария: открытость/настраиваемость → Stable Diffusion; стилизованное искусство → Midjourney; интегрированное, согласованное мобильное редактирование с агрессивной итерацией → Nano Banana Pro / семейство Gemini 3 Pro Image.)

Реальные сценарии использования

Мобильное редактирование фотографий и креативные фильтры (интеграции с Google Photos — изменение стиля, слияние фона, перекомпозиция портрета).
Маркетинговые и рекламные материалы — быстрая генерация концептов, согласованные бренд-персонажи в нескольких кадрах/ракурсах.
Концепт-арт и сторибординг — слияние нескольких изображений помогает сохранять непрерывность персонажей между панелями.
E-commerce / продуктовые мокапы — генерация согласованных снимков продукта в разных контекстах/условиях освещения.
Быстрое прототипирование AR/VR-ассетов — высококачественные результаты 2K/4K, которые можно масштабировать для иммерсивных сценариев.
Как получить доступ к API gemini-3-pro-image(Nano Banana Pro)

Необходимые шаги

Войдите на cometapi.com. Если вы ещё не являетесь нашим пользователем, сначала зарегистрируйтесь
Получите учётные данные доступа — API key интерфейса. Нажмите “Add Token” в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте его.
Получите URL этого сайта: https://api.cometapi.com/

Способ использования

Выберите endpoint “gemini-3-pro-image”, чтобы отправить API-запрос, и задайте тело запроса. Метод запроса и тело запроса можно получить из API-документации на нашем сайте. На нашем сайте также доступен тест Apifox для вашего удобства.
Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из вашей учётной записи.
Вставьте ваш вопрос или запрос в поле content — именно на него модель будет отвечать.
Обработайте API-ответ, чтобы получить сгенерированный результат.

CometAPI предоставляет полностью совместимый REST API — для бесшовной миграции. Ключевые детали:

Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
Названия моделей: gemini-3-pro-image
Аутентификация: заголовок Bearer YOUR_CometAPI_API_KEY
Content-Type: application/json .

variant / alias	Price
gemini-3-pro-image (1K/2K)	≈ $0.10720
gemini-3-pro-image (4K)	≈ $0.19200
gemini-3-pro-image-preview (1K/2K)	≈ $0.10720
gemini-3-pro-image-preview (4K)	≈ $0.19200
nano-banana-pro-all	$0.09600

ID модели	Описание	Доступность	Запрос
nano-banana-pro-all	Используемая технология неофициальная, генерация нестабильна и т. д., Чат формат	✅	Чат формат
gemini-3-pro-image	Рекомендуется, указывает на новейшую модель	✅	Генерация изображений Gemini
gemini-3-pro-image-preview	Официальная предварительная версия	✅	Генерация изображений Gemini

Nano Banana Pro

Основные возможности

Технические детали

Архитектура

Ключевые параметры API:

Ограничения по изображениям:

Производительность в бенчмарках

Ограничения и риски

Как Nano Banana Pro выглядит на фоне других моделей

Реальные сценарии использования

Необходимые шаги

Способ использования

ЧАВО

Может ли Gemini 3 Pro Image генерировать изображения в разрешении 4K?

Как Nano Banana Pro обрабатывает рендеринг текста внутри изображений?

Могу ли я редактировать изображения в диалоговом режиме с Gemini 3 Pro Image?

Чем Nano Banana Pro отличается от FLUX 2 Pro или Midjourney?

Использует ли Nano Banana Pro Google Search для генерации изображений с опорой на факты?

Сколько референсных изображений Nano Banana Pro может обработать в одном запросе?

Функции для Nano Banana Pro

Цены для Nano Banana Pro

nano-banana-pro（image）

Пример кода и API для Nano Banana Pro

Версии Nano Banana Pro

Больше моделей