Google Нано Банан Про (официальный идентификатор модели gemini-3-pro-image-preview) — это вариант Gemini 3 Pro для создания и редактирования изображений. Это модель профессионального уровня для предварительного просмотра, которая добавляет возможность вывода изображений в формате 2K/4K и высококачественную композицию из нескольких изображений (до 14 референсных изображений, согласованность характеров для до 5 людей), более качественная визуализация текста на изображении и обоснование поиска на основе фактов реального мира.
Основные характеристики
- Текст → Изображение: генерация, полностью основанная на подсказках, с строгим соблюдением подсказок.
- Изображение → Изображение (редактирование): точные, целенаправленные правки с сохранением единообразия темы/персонажа в нескольких редакциях.
- Максимальное выходное разрешение: вплоть до 4K (примеры и поддерживаемые точные размеры пикселей зависят от соотношения сторон; API предоставляет предустановки 1K/2K/4K)
- Итеративное планирование и самокоррекция: внутренний «многоступенчатый» конвейер, который обнаруживает и исправляет типичные визуальные ошибки (перспектива, текст, мелкая геометрия).
- Расширенная визуализация текста на изображении: понятный, разборчивый многоязычный текст (от коротких подписей до длинных абзацев), подходящий для плакатов, макетов и инфографики.
- 5 и верность до 14 объектов/референсных изображений в едином рабочем процессе.
- Водяные знаки / происхождение: все сгенерированные изображения включают водяной знак SynthID; модель встраивает метаданные C2PA для определения происхождения в некоторые интеграции продуктов.
Версии и наименования образов Gemini 3 Pro
gemini-3-pro-image-previewgemini-3-pro-image
Технические детали
Архитектура
- Родословная / костяк: Nano Banana Pro будет построен на основе развивающегося стека изображений Gemini от Google — в частности, нового Изображение Gemini 3 Pro / GEMPIX 2 Архитектура (мультимодальная структура изображений и текста с высокой пропускной способностью). Это эволюция от Флэш-изображение Gemini 2.5 (оригинальный «нано-банан») в изначально многомодальную модель изображения с расширенными возможностями рассуждения на языке зрительного восприятия.
- Модель поведения: встроенная мультимодальность (изображение + текст + знания о мире), явные конвейеры для слияния нескольких изображений и внутренний поэтапный планировщик, который обрабатывает выходные данные за несколько проходов, а не формирует один статический образец. Предварительные отчёты указывают на более выраженную геометрическую/оптическую логику (стекло, преломление) по сравнению с предыдущими версиями.
- Мышление/внутреннее совершенствование: Модель использует видимый процесс «мышления» внутри для уточнения композиции (API документирует это поведение и отмечает, что эти внутренние шаги не тарифицируются как токены окончательного изображения).
- Заземление и инструменты: Поддерживает Поиск заземления (может включать веб-факты в генерацию диаграмм/инфографики). Также поддерживает системные инструкции для более детерминированного управления.
Ключевые параметры API:
thinking_level(низкая / высокая) для торговли задержкой против глубины рассуждений;media_resolution(низкий/средний/высокий) для управления токенами OCR изображений/чтения деталей;generationConfig.imageConfigдля управления соотношением сторон и разрешением выходных изображений.
Ограничения изображения:
- Поддерживаемые методы ввода: Текст и изображения (модель не принимает аудио или видео в качестве входных данных для генерации изображений).
- Максимальное количество изображений на запрос: 14 (для предварительного просмотра изображения Gemini 3 Pro).
- Максимальный размер изображения (загружаемого): 7 МБ на одно входное изображение.
- Поддерживаемые соотношения сторон: 1:1, 3:2, 16:9, 9:16, 21:9 и т. д.
Выходные изображения/токены: высокие лимиты, с поддержкой 4K/4096px.
Контрольная производительность
Краткое содержание: Публичные/предварительные бенчмарки на данный момент в основном качественные/проведены сообществом, но неизменно демонстрируют существенное улучшение разрешения, снижения артефактов и физической точности по сравнению с исходным нано-бананом (изображение Gemini 2.5 Flash). Конкретные «испытания» показали явный визуальный прирост, но пока нет (публичных) стандартизированных числовых таблиц бенчмарков от Google, сравнивающих версии 1 и 2 по стандартным метрикам генерации изображений.
- Качественные общественные тесты: Более чёткие края, более чёткие микродетали, более реалистичные цвета и более точное соответствие требованиям (меньше иллюзорных реквизитов, более последовательные персонажи). Популярные неформальные тесты включают так называемые «Тест бокала для вина» и «Испытание стеклянного бургера», где GEMPIX2 (Nano Banana Pro) справляется с прозрачностью и преломлением заметно лучше, чем предыдущие версии.
- Обработка текста: Nano Banana Pro демонстрирует заметно улучшенную типографику и расположение текста внутри изображений (что является постоянным недостатком многих моделей изображений). Сравнение с другими пользователями показывает меньше искажённых глифов.
- Пропускная способность/UX: более высокая скорость итерации и пользовательский интерфейс, который выполняет многоэтапную доработку на внутреннем уровне, благодаря чему пользователи видят более надежные результаты первого прохода (что сокращает количество ручных повторных запусков).
Ограничения и риски
- Фильтры и обнаружение контента: Платформы, интегрирующие модель (например, Whisk/сторонние приложения), могут включать строгое определение знаменитостей или их сходства и блокировать определенные результаты, что влияет на творческие рабочие процессы, основанные на реалистичных сходствах со знаменитостями.
- Пограничные случаи галлюцинаций/рассуждений: несмотря на улучшения, модель все еще может создавать физически нереалистичные артефакты, особенно при наличии плотного символьного текста внутри изображений или технически сложных диаграмм — хотя NB2, по-видимому, уменьшает количество таких ошибок по сравнению с более ранними версиями.
- Безопасность и неправильное использование: Генеративные модели изображений могут использоваться для создания проблемного или вредоносного контента. Google применяет ограничения, фильтры контента и водяной знак SynthID для подтверждения происхождения; тем не менее, случаи злоупотребления имели место (громкий скандал, связанный с изображением, сгенерированным Nano Banana, в политически деликатной обстановке).
Чем Nano Banana Pro отличается от других моделей
- Nano Banana Pro (изображение GEMPIX 2 / Gemini 3 Pro) — эффективная интеграция с мобильными устройствами, слияние нескольких изображений, итеративное саморедактирование, масштабирование до 2K (в нативном формате) и 4K (в апскейле), тесная интеграция с приложениями Google (Поиск, Фото, Workspace/Gemini). Идеально подходит для рабочих процессов, требующих надёжного редактирования, непрерывности и интеграции с сервисами Google.
- Середина пути — отлично справляется со стилизованными художественными результатами и разработкой подсказок, разрабатываемых сообществом; обычно не ориентирован на фототочное слияние нескольких изображений или глубокие многомодальные конвейеры редактирования.
- Стабильная диффузия / открытые веса — полностью открытый, с широкими возможностями настройки и возможностью локального размещения; экосистема контрольных точек и тонкой настройки — решающее преимущество для исследований и использования в автономном режиме. Меньше интеграции с мобильными устройствами «в один клик» и менее согласованное редактирование нескольких изображений «из коробки», чем в Nano Banana Pro.
- Seedream 4.0 (ByteDance) — недавно позиционируется как конкурент Nano Banana, с упором на сверхбыстрый рендеринг, вывод в разрешении 2K и поддержку множества референсных изображений (до шести). Позиционируется как альтернатива для профессионалов и создателей контента.
(Эти сравнения носят общий характер; выберите победителя, сопоставив инструмент с вашим рабочим процессом: открытость/настраиваемость → Stable Diffusion; стилизованное изображение → Midjourney; интегрированное, последовательное редактирование на мобильных устройствах с агрессивной итерацией → семейство изображений Nano Banana Pro/Gemini 3 Pro.)
Примеры использования в реальном мире
- Редактирование фотографий на мобильных устройствах и креативные фильтры (Интеграция Google Photos — рестайлинг, объединение фона, рекомпозиция портрета).
- Маркетинговые и рекламные активы — быстрая генерация концепций, единообразные персонажи бренда в разных кадрах/ракурсах.
- Концепт-арт и раскадровка — слияние нескольких изображений помогает сохранить преемственность персонажей на разных панелях.
- Электронная коммерция / макеты продуктов — создавать последовательные снимки продукта в разных контекстах/условиях освещения.
- Быстрое прототипирование для AR/VR-активов — высококачественные выходные данные 2K/4K, которые можно масштабировать для создания эффекта погружения.
Как вызвать gemini-3-pro-image(Нано Банан Про) API
Цены на Nano Banana API в CometAPI: скидка 20% на официальную цену:
| Цена | $0.19200 |
Необходимые шаги
- Войти в cometapi.com. Если вы еще не являетесь нашим пользователем, пожалуйста, сначала зарегистрируйтесь.
- Получите ключ API-интерфейса для доступа к учетным данным. Нажмите «Добавить токен» в API-токене в персональном центре, получите ключ токена: sk-xxxxx и отправьте.
- Получите URL этого сайта: https://api.cometapi.com/
Используйте метод
- Выберите "
gemini-3-pro-image” конечная точка для отправки запроса API и установки тела запроса. Метод запроса и тело запроса получены из нашего веб-сайта API doc. Наш веб-сайт также предоставляет тест Apifox для вашего удобства. - Заменять с вашим реальным ключом CometAPI из вашей учетной записи.
- Введите свой вопрос или запрос в поле «Контент» — на него ответит модель.
- . Обработайте ответ API, чтобы получить сгенерированный ответ.
CometAPI предоставляет полностью совместимый REST API для беспроблемной миграции. Ключевые особенности:
- Базовый URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Название модели:
gemini-3-pro-image - Аутентификация:
Bearer YOUR_CometAPI_API_KEYзаголовок - Тип содержимого:
application/json.
Смотрите также API Flash-изображений Gemini 2.5 (Nano-Banana)



