Базовые возможности
- Текст → Изображение: полная генерация на основе промпта с высокой степенью соответствия промпту.
- Изображение → Изображение (редактирование): точные, целевые правки с сохранением консистентности объекта/персонажа в ходе нескольких редактирований.
- Максимальное разрешение вывода: до 4K (точные размеры в зависимости от соотношения сторон; в API доступны пресеты 1K/2K/4K).
- Итеративное планирование и самокоррекция: внутренняя «многоэтапная» цепочка, которая обнаруживает и исправляет распространённые визуальные ошибки (перспектива, текст, точная геометрия).
- Продвинутая отрисовка текста внутри изображений: чёткий, разборчивый мультиязычный текст (от коротких подписей до длинных абзацев), подходящий для постеров, макетов и инфографики.
- 5 персонажей и сохранение точности для до 14 объектов/референс-изображений в одном рабочем процессе.
- Водяные знаки / происхождение: все сгенерированные изображения включают водяной знак SynthID; модель встраивает метаданные C2PA для подтверждения происхождения в некоторых продуктовых интеграциях.
Версии и наименования Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Технические детали
Архитектура
- Линия/бэкбон: Nano Banana Pro построен на развивающемся стекe изображений Gemini от Google — в частности на новой архитектуре Gemini 3 Pro Image / GEMPIX 2 (более ёмкая мультимодальная текст+изображение платформа). Это эволюция от Gemini 2.5 Flash Image (оригинальный «nano-banana») к нативно мультимодальной модели с расширенными возможностями визуально-языкового рассуждения.
- Поведение модели: нативная мультимодальность (изображение + текст + мировые знания), явные конвейеры для слияния нескольких изображений и внутренний поэтапный планировщик, который улучшает результаты за несколько проходов вместо единичного статичного сэмпла. Ранние отчёты отмечают более сильное геометрическое/оптическое рассуждение (стекло, преломление) по сравнению с предыдущими версиями.
- «Мышление»/внутренняя доработка: модель использует видимый внутренний процесс «мышления» для уточнения композиции (в API задокументировано это поведение и указано, что эти внутренние шаги не тарифицируются как конечные токены изображения).
- Привязка к фактам и инструменты: поддерживает Search grounding (может учитывать факты из веба при генерации диаграмм/инфографики). Также поддерживает системные инструкции для более детерминированного управления.
Ключевые параметры API:
thinking_level(low / high) для выбора между задержкой и глубиной рассуждений;media_resolution(low/medium/high) для контроля токенов чтения текста/деталей изображения;generationConfig.imageConfigдля управления соотношением сторон/разрешением в выходных изображениях.
Ограничения изображений:
- Поддерживаемые входные модальности: текст и изображения (модель не принимает аудио или видео как вход для генерации изображений).
- Максимум изображений на промпт: 14 (для Gemini 3 Pro Image preview).
- Максимальный размер изображения (загрузка): 7 MB на входное изображение.
- Поддерживаемые соотношения сторон: 1:1, 3:2, 16:9, 9:16, 21:9 и т.д.
Выходные изображения / токены: высокие лимиты, поддерживается 4K/4096px.
Результаты бенчмарков
Краткое резюме: публичные/ранние бенчмарки пока преимущественно качественные и основаны на сообществах, но стабильно отмечают существенные улучшения в разрешении, снижении артефактов и физической достоверности по сравнению с оригинальным nano-banana (Gemini 2.5 Flash Image). Конкретные именованные «челленджи» показали явные визуальные улучшения, однако пока нет (публичных) стандартизованных числовых таблиц бенчмарков от Google, сравнивающих v1 → v2 по стандартным метрикам генерации изображений.
- Качественные тесты сообществ: более чистые края, более резкие микродетали, более точные цвета и более верная приверженность промптам (меньше «галлюцинированных» предметов, более последовательные персонажи). Популярные неформальные тесты включают так называемые «Wine Glass Test» и «Glass Burger Challenge», где GEMPIX2 (Nano Banana Pro) заметно лучше справляется с прозрачностью и преломлением, чем ранние сборки.
- Работа с текстом: Nano Banana Pro демонстрирует заметно улучшенную типографику и размещение текста внутри изображений (перманентная слабость многих моделей изображений). Сравнения сообществ показывают меньше искажённых отрисованных глифов.
- Пропускная способность / UX: более быстрая итерация и UX, выполняющий многоэтапную доработку на бэкенде, чтобы пользователи видели более надёжные результаты с первого прохода (снижая необходимость ручного перегенерирования).
Ограничения и риски
- Фильтры контента и детекция: платформы, интегрирующие модель (например, Whisk/сторонние приложения), могут включать строгую детекцию знаменитостей или сходства и блокировать определённые результаты, что влияет на творческие процессы, зависящие от реалистичных сходств с селебрити.
- Галлюцинации / крайние случаи рассуждения: несмотря на улучшения, модель всё ещё может создавать физически нереалистичные артефакты, особенно при плотном символическом тексте внутри изображений или при очень технических диаграммах — хотя NB2, судя по всему, снижает эти ошибки по сравнению с ранними версиями.
- Безопасность и злоупотребления: генеративные модели изображений могут использоваться для создания проблемного или вредоносного контента. Google применяет ограничения, фильтры контента и водяной знак SynthID для подтверждения происхождения; тем не менее случаи злоупотреблений имели место (громкий скандал, связанный с изображением, созданным Nano Banana, в политически чувствительном контексте).
Как Nano Banana Pro соотносится с другими моделями
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — сильная мобильная интеграция, слияние нескольких изображений, итеративная самокоррекция, нативный 2K/апскейл до 4K, тесная интеграция в приложения Google (Search, Photos, Workspace/Gemini). Лучший выбор для рабочих процессов, которым нужны надёжные правки, непрерывность и интеграция с сервисами Google.
- Midjourney — превосходит в стилизованных художественных результатах и ориентированном на сообщество инжиниринге промптов; обычно не нацелен на фото-точное слияние нескольких изображений или глубокие мультимодальные конвейеры редактирования.
- Stable Diffusion / открытые веса — полностью открытая, высоконастраиваемая и размещаемая локально; экосистема чекпоинтов и тонкой настройки является решающим преимуществом для исследований и офлайн-использования. Меньше «однокликовой» мобильной интеграции и меньше согласованности многократного редактирования изображений «из коробки», чем у Nano Banana Pro.
- Seedream 4.0 (ByteDance) — недавно позиционируется как конкурент Nano Banana, делая акцент на ультрабыстрой визуализации, выходе 2K и поддержке многих референс-изображений (до шести). Позиционируется как альтернатива для профессионалов/креаторов.
(Эти сравнения на высоком уровне; выбирайте инструмент под рабочий процесс: открытость/настраиваемость → Stable Diffusion; стилизованное искусство → Midjourney; интегрированное, последовательное мобильное редактирование с интенсивной итерацией → семейство Nano Banana Pro/Gemini 3 Pro Image.)
Практические кейсы
- Мобильное редактирование фото и творческие фильтры (интеграции Google Photos — рестайлинг, фоновое слияние, перекомпозиция портретов).
- Маркетинговые и рекламные материалы — быстрая генерация концептов, последовательные бренд-персонажи в нескольких кадрах/ракурсах.
- Концепт-арт и сторибординг — слияние нескольких изображений помогает сохранять непрерывность персонажей между панелями.
- E-commerce / продуктовые мокапы — генерация последовательных снимков продукта в разных контекстах/условиях освещения.
- Быстрое прототипирование для AR/VR-активов — высококачественные выходы 2K/4K, которые можно апскейлить для иммерсивных сценариев.
- Как получить доступ к API gemini-3-pro-image (Nano Banana Pro)
Обязательные шаги
- Войдите на cometapi.com. Если вы ещё не наш пользователь, сначала зарегистрируйтесь.
- Получите ключ доступа (API key) интерфейса. В личном кабинете в разделе API token нажмите «Add Token», получите ключ токена: sk-xxxxx и отправьте.
- Получите URL этого сайта: https://api.cometapi.com/
Метод использования
- Выберите endpoint “
gemini-3-pro-image” для отправки запросов к API и задайте тело запроса. Метод и тело запроса берите из документации API на нашем сайте. Наш сайт также предоставляет тест в Apifox для вашего удобства. - Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из аккаунта.
- Вставьте ваш вопрос или запрос в поле content — на это модель и ответит.
- . Обработайте ответ API, чтобы получить сгенерированный результат.
CometAPI предоставляет полностью совместимый REST API — для бесшовной миграции. Ключевые детали:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Model Names:
gemini-3-pro-image - Authentication:
Bearer YOUR_CometAPI_API_KEYheader - Content-Type:
application/json.