Основные возможности
- Текст → изображение: полнофункциональная генерация по промпту с высокой точностью следования промпту.
- Изображение → изображение (редактирование): точечные и аккуратные правки с сохранением согласованности объекта/персонажа при нескольких последовательных изменениях.
- Максимальное выходное разрешение: до 4K (примеры и точные поддерживаемые размеры в пикселях зависят от соотношения сторон; API предоставляет пресеты 1K/2K/4K)
- Итеративное планирование и самокоррекция: внутренняя «многоэтапная» конвейерная обработка, которая обнаруживает и исправляет типичные визуальные ошибки (перспектива, текст, мелкая геометрия).
- Продвинутый рендеринг текста внутри изображения: чёткий, разборчивый многоязычный текст (от коротких подписей до длинных абзацев), подходящий для постеров, мокапов и инфографики.
- 5 персонажей и сохранение точности для до 14 объектов/референсных изображений в одном рабочем процессе.
- Водяные знаки / происхождение: все сгенерированные изображения включают водяной знак SynthID; в некоторых продуктовых интеграциях модель встраивает метаданные C2PA для подтверждения происхождения.
Версии и наименования Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Технические детали
Архитектура
- Происхождение / базовая архитектура: Nano Banana Pro построен на развивающемся стеке image-моделей Gemini от Google — в частности, на новой архитектуре Gemini 3 Pro Image / GEMPIX 2 (более ёмкой мультимодальной системе для изображений и текста). Это развитие Gemini 2.5 Flash Image (оригинальной «nano-banana») в нативно мультимодальную image-модель с расширенными возможностями визуально-языкового рассуждения.
- Поведение модели: нативная мультимодальность (изображение + текст + знания о мире), явные конвейеры для слияния нескольких изображений и внутренний поэтапный планировщик, который уточняет результат за несколько проходов, а не создаёт один статичный сэмпл. Ранние отчёты указывают на более сильное геометрическое/оптическое рассуждение (стекло, преломление) по сравнению с предыдущими версиями.
- Мышление / внутренняя доработка: модель использует внутренний видимый процесс «мышления» для уточнения композиции (API документирует это поведение и отмечает, что эти внутренние шаги не тарифицируются как финальные токены изображения).
- Grounding и инструменты: поддерживается Search grounding (может использовать веб-факты при генерации диаграмм/инфографики). Также поддерживаются системные инструкции для более детерминированного управления.
Ключевые параметры API:
thinking_level(low / high) для выбора между задержкой и глубиной рассуждения;media_resolution(low/medium/high) для управления токенами OCR/считывания деталей изображения;generationConfig.imageConfigдля управления соотношением сторон/разрешением выходных изображений.
Ограничения по изображениям:
- Поддерживаемые входные модальности: текст и изображения (модель не принимает аудио или видео в качестве входных данных для генерации изображений).
- Максимум изображений в одном промпте: 14 (для Gemini 3 Pro Image preview).
- Максимальный размер изображения (загрузка): 7 MB на одно входное изображение.
- Поддерживаемые соотношения сторон: 1:1, 3:2, 16:9, 9:16, 21:9 и т. д.
Выходные изображения / токены: высокие лимиты, поддерживается 4K/4096px.
Производительность в бенчмарках
Краткое резюме: доступные на данный момент публичные/ранние бенчмарки в основном качественные и основаны на сообществе, но стабильно сообщают о существенных улучшениях в разрешении, снижении артефактов и физической достоверности по сравнению с оригинальной nano-banana (Gemini 2.5 Flash Image). Для некоторых конкретно названных «испытаний» были заметны явные визуальные улучшения, однако публичных стандартизированных числовых таблиц бенчмарков от Google с сравнением v1 → v2 по стандартным метрикам генерации изображений пока нет.
- Качественные тесты сообщества: более чистые края, более чёткие микродетали, более правдивые цвета и более точное следование промпту (меньше галлюцинированных объектов, более согласованные персонажи). Популярные неформальные тесты включают так называемые “Wine Glass Test” и “Glass Burger Challenge”, где GEMPIX2 (Nano Banana Pro) заметно лучше справляется с прозрачностью и преломлением, чем более ранние сборки.
- Работа с текстом: Nano Banana Pro демонстрирует заметно улучшенную типографику и размещение текста внутри изображений (традиционно слабое место для многих image-моделей). Сравнения сообщества показывают меньше искажённых отрисованных глифов.
- Пропускная способность / UX: более высокая скорость итераций и UX, выполняющий многоэтапную доработку на серверной стороне, благодаря чему пользователи получают более надёжные результаты уже с первой попытки (что уменьшает необходимость ручных перегенераций).
Ограничения и риски
- Фильтры контента и детекция: платформы, интегрирующие модель (например, Whisk/сторонние приложения), могут включать строгую детекцию знаменитостей или сходства внешности и блокировать определённые результаты, что влияет на творческие рабочие процессы, завязанные на реалистичное сходство со знаменитостями.
- Галлюцинации / пограничные случаи рассуждения: несмотря на улучшения, модель всё ещё может создавать физически нереалистичные артефакты, особенно при плотном символическом тексте внутри изображений или в очень технических диаграммах — хотя NB2, по-видимому, снижает количество таких ошибок по сравнению с более ранними версиями.
- Безопасность и злоупотребление: генеративные image-модели могут использоваться для создания проблемного или вредоносного контента. Google применяет ограничения, фильтры контента и водяной знак SynthID для подтверждения происхождения; тем не менее случаи злоупотребления уже происходили (в том числе громкий скандал, связанный с изображением, сгенерированным Nano Banana, в политически чувствительном контексте).
Как Nano Banana Pro выглядит на фоне других моделей
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — сильная мобильная интеграция, слияние нескольких изображений, итеративная самокоррекция, нативный 2K/апскейл до 4K, плотная интеграция с приложениями Google (Search, Photos, Workspace/Gemini). Лучше всего подходит для сценариев, где нужны надёжные правки, непрерывность персонажей и интеграция с сервисами Google.
- Midjourney — отлично подходит для стилизованных художественных результатов и промпт-инжиниринга, развиваемого сообществом; обычно не ориентирован на фотореалистичное слияние нескольких изображений или глубокие мультимодальные конвейеры редактирования.
- Stable Diffusion / open weights — полностью открытая, высоко настраиваемая и пригодная для локального хостинга система; экосистема чекпойнтов и fine-tuning является решающим преимуществом для исследований и офлайн-использования. При этом у неё меньше «one-click» мобильной интеграции и менее стабильная согласованность при редактировании нескольких изображений «из коробки», чем у Nano Banana Pro.
- Seedream 4.0 (ByteDance) — недавно явно позиционировалась как конкурент Nano Banana, с акцентом на сверхбыстрый рендеринг, выход 2K и поддержку большого числа референсных изображений (до шести). Позиционируется как профессиональная альтернатива для креаторов.
(Эти сравнения даны на высоком уровне; выбирайте победителя, исходя из своего сценария: открытость/настраиваемость → Stable Diffusion; стилизованное искусство → Midjourney; интегрированное, согласованное мобильное редактирование с агрессивной итерацией → Nano Banana Pro / семейство Gemini 3 Pro Image.)
Реальные сценарии использования
- Мобильное редактирование фотографий и креативные фильтры (интеграции с Google Photos — изменение стиля, слияние фона, перекомпозиция портрета).
- Маркетинговые и рекламные материалы — быстрая генерация концептов, согласованные бренд-персонажи в нескольких кадрах/ракурсах.
- Концепт-арт и сторибординг — слияние нескольких изображений помогает сохранять непрерывность персонажей между панелями.
- E-commerce / продуктовые мокапы — генерация согласованных снимков продукта в разных контекстах/условиях освещения.
- Быстрое прототипирование AR/VR-ассетов — высококачественные результаты 2K/4K, которые можно масштабировать для иммерсивных сценариев.
- Как получить доступ к API gemini-3-pro-image(Nano Banana Pro)
Необходимые шаги
- Войдите на cometapi.com. Если вы ещё не являетесь нашим пользователем, сначала зарегистрируйтесь
- Получите учётные данные доступа — API key интерфейса. Нажмите “Add Token” в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте его.
- Получите URL этого сайта: https://api.cometapi.com/
Способ использования
- Выберите endpoint “
gemini-3-pro-image”, чтобы отправить API-запрос, и задайте тело запроса. Метод запроса и тело запроса можно получить из API-документации на нашем сайте. На нашем сайте также доступен тест Apifox для вашего удобства. - Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из вашей учётной записи.
- Вставьте ваш вопрос или запрос в поле content — именно на него модель будет отвечать.
- Обработайте API-ответ, чтобы получить сгенерированный результат.
CometAPI предоставляет полностью совместимый REST API — для бесшовной миграции. Ключевые детали:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Названия моделей:
gemini-3-pro-image - Аутентификация: заголовок
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.