Базовые возможности
- Текст → Изображение: полноценная генерация по промпту с высокой точностью следования инструкциям.
- Изображение → Изображение (редакции): точечные, аккуратные правки с сохранением целостности персонажей/объектов при множественных правках.
- Максимальное разрешение вывода: до 4K (примеры и точные поддерживаемые размеры в пикселях зависят от соотношения сторон; в API доступны пресеты 1K/2K/4K)
- Итеративное планирование и самокоррекция: внутренний «многоэтапный» конвейер, выявляющий и исправляющий типичные визуальные ошибки (перспектива, текст, тонкая геометрия).
- Продвинутая отрисовка текста внутри изображения: четкий, разборчивый многоязычный текст (от коротких подписей до длинных абзацев), подходящий для постеров, мокапов и инфографики.
- 5 персонажей и достоверность для до 14 объектов/референсных изображений в одном процессе.
- Водяные знаки / происхождение: все сгенерированные изображения содержат водяной знак SynthID; в некоторых продуктовых интеграциях модель внедряет метаданные C2PA для подтверждения происхождения.
Версии и наименование Gemini 3 Pro Image
gemini-3-pro-image-previewgemini-3-pro-image
Технические детали
Архитектура
- Происхождение / бэкбон: Nano Banana Pro построен на развивающемся стекe изображений Gemini от Google — в частности на новой архитектуре Gemini 3 Pro Image / GEMPIX 2 (мульти-модальная текст+изображение система повышенной емкости). Это эволюция от Gemini 2.5 Flash Image (оригинальный «nano-banana») к нативно мультимодальной модели с расширенными визуально‑языковыми возможностями рассуждения.
- Поведение модели: нативная мультимодальность (изображение + текст + мировые знания), явные конвейеры для слияния нескольких изображений и внутренний поэтапный планировщик, который улучшает результаты за несколько проходов, а не выдает единичный статический сэмпл. Ранние отчеты отмечают более сильное геометрическое/оптическое рассуждение (стекло, преломление) по сравнению с предыдущими версиями.
- «Мышление» / внутренняя доработка: модель использует видимый внутренний процесс «размышления» для уточнения композиции (API документирует это поведение и отмечает, что эти внутренние шаги не тарифицируются как финальные токены изображения).
- Привязка и инструменты: поддерживает Search grounding (может включать факты из веба при создании диаграмм/инфографики). Также поддерживает системные инструкции для более детерминированного управления.
Ключевые параметры API:
thinking_level(низкий / высокий) — баланс между задержкой и глубиной рассуждений;media_resolution(низкое/среднее/высокое) — управление токенами чтения деталей/OCR изображения;generationConfig.imageConfig— управление соотношением сторон/разрешением на выходе.
Ограничения по изображениям:
- Поддерживаемые входные модальности: текст и изображения (модель не принимает аудио или видео как входы для генерации изображений).
- Макс. число изображений на промпт: 14 (для предварительной версии Gemini 3 Pro Image).
- Макс. размер изображения (загрузка): 7 MB на одно входное изображение.
- Поддерживаемые соотношения сторон: 1:1, 3:2, 16:9, 9:16, 21:9 и т. д.
Выходные изображения / токены: высокие лимиты, поддержка 4K/4096px.
Результаты в бенчмарках
Краткое резюме: публичные/ранние бенчмарки в основном качественные и основаны на мнении сообщества, но стабильно отмечают значительный рост разрешения, снижение артефактов и улучшение физической достоверности по сравнению с оригинальным nano-banana (Gemini 2.5 Flash Image). Конкретно названные «челленджи» демонстрируют явные визуальные улучшения, однако (пока) нет стандартизированных числовых таблиц от Google, сравнивающих v1 → v2 по стандартным метрикам генерации изображений.
- Качественные тесты сообщества: более чистые края, более четкие микродетали, более точные цвета и более строгое следование промптам (меньше «галлюцинированных» объектов, более стабильные персонажи). Популярные неформальные тесты включают так называемые «Wine Glass Test» и «Glass Burger Challenge», где GEMPIX2 (Nano Banana Pro) заметно лучше справляется с прозрачностью и преломлением, чем ранние сборки.
- Работа с текстом: Nano Banana Pro демонстрирует заметно улучшенную типографику и размещение текста внутри изображений (устойчивая слабость многих моделей). Сравнения в сообществе показывают меньше испорченных глифов.
- Производительность / UX: более быстрая итерация и бэкэнд с многоэтапной доработкой, поэтому пользователи чаще получают надежные результаты с первого прохода (меньше ручных перегенераций).
Ограничения и риски
- Фильтры и детектирование контента: платформы, интегрирующие модель (например, Whisk/сторонние приложения), могут включать строгие механизмы обнаружения знаменитостей или сходства и блокировать определенные результаты, что влияет на творческие процессы, зависящие от реалистичных подобий известных личностей.
- Галлюцинации / крайние случаи рассуждений: несмотря на улучшения, модель все еще может создавать физически нереалистичные артефакты, особенно при плотном символическом тексте внутри изображений или в высокотехнических диаграммах — хотя NB2, по‑видимому, снижает частоту таких ошибок по сравнению с более ранними версиями.
- Безопасность и злоупотребления: генеративные модели изображений могут использоваться для создания проблемного или вредоносного контента. Google применяет ограничения, контент‑фильтры и водяной знак SynthID для подтверждения происхождения; тем не менее злоупотребления случались (широкий резонанс, связанный с изображением Nano Banana в политически чувствительном контексте).
Как Nano Banana Pro сравнивается с другими моделями
- Nano Banana Pro (GEMPIX 2 / Gemini 3 Pro Image) — сильная мобильная интеграция, мульти‑слияние изображений, итеративная самокоррекция, нативные 2K/апскейл до 4K, тесная интеграция с приложениями Google (Search, Photos, Workspace/Gemini). Лучший выбор для процессов, где важны надежные правки, непрерывность и интеграция с сервисами Google.
- Midjourney — превосходит в стилизованных художественных выводах и комьюнити‑ориентированном инжиниринге промптов; обычно не ориентирован на фото‑точное мульти‑слияние изображений или глубокие мультимодальные пайплайны редактирования.
- Stable Diffusion / открытые веса — полностью открыт, высоко настраиваем и может размещаться локально; экосистема чекпоинтов и дообучения — решающее преимущество для исследований и офлайн‑использования. Меньше «one‑click» мобильной интеграции и меньшая согласованность мульти‑редактирования «из коробки», чем у Nano Banana Pro.
- Seedream 4.0 (ByteDance) — недавно позиционируется как конкурент Nano Banana, делает акцент на сверхбыстром рендеринге, 2K‑выводе и поддержке множества референсов (до шести). Позиционируется как альтернатива для профессионалов/креаторов.
(Эти сравнения на высоком уровне; выбирайте инструмент под свой процесс: открытость/кастомизация → Stable Diffusion; стилизованное искусство → Midjourney; интегрированное, согласованное мобильное редактирование с агрессивной итерацией → Nano Banana Pro/семейство Gemini 3 Pro Image.)
Практические сценарии использования
- Мобильное редактирование фото и креативные фильтры (интеграции Google Photos — рестайлинг, слияние фона, перекомпоновка портретов).
- Маркетинговые и рекламные материалы — быстрое создание концептов, консистентные бренд‑персонажи в нескольких кадрах/ракурсах.
- Концепт‑арт и сторибординг — мульти‑слияние изображений помогает сохранять непрерывность персонажей между панелями.
- E‑commerce / продуктовые мокапы — генерация согласованных товарных снимков в разных контекстах/условиях освещения.
- Быстрый прототипинг для AR/VR‑активов — качественные 2K/4K‑выводы, которые можно апскейлить для иммерсивных сценариев.
- Как получить доступ к API gemini-3-pro-image (Nano Banana Pro)
Необходимые шаги
- Войдите на cometapi.com. Если у вас еще нет аккаунта, сначала зарегистрируйтесь.
- Получите учетный ключ доступа к API. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и подтвердите.
- Получите URL этого сервиса:
https://api.cometapi.com/
Способ использования
- Выберите эндпоинт “
gemini-3-pro-image”, отправьте запрос к API и задайте тело запроса. Метод и тело запроса смотрите в документации API на нашем сайте. Для удобства доступно тестирование через Apifox. - Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из аккаунта.
- Вставьте ваш вопрос или запрос в поле content — на него модель и ответит.
- Обработайте ответ API, чтобы получить сгенерированный результат.
CometAPI предоставляет полностью совместимый REST API — для бесшовной миграции. Ключевые детали:
- Base URL: https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent
- Имена моделей:
gemini-3-pro-image - Аутентификация: заголовок
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.