API изображения Gemini 3 Pro (Nano Banana Pro)

CometAPI
AnnaDec 10, 2025
API изображения Gemini 3 Pro (Nano Banana Pro)

Google Нано Банан Про (официальный идентификатор модели gemini-3-pro-image-preview) — это вариант Gemini 3 Pro для создания и редактирования изображений. Это модель профессионального уровня для предварительного просмотра, которая добавляет возможность вывода изображений в формате 2K/4K и высококачественную композицию из нескольких изображений (до 14 референсных изображений, согласованность характеров для до 5 людей), более качественная визуализация текста на изображении и обоснование поиска на основе фактов реального мира.

Основные характеристики

  • Текст → Изображение: генерация, полностью основанная на подсказках, с строгим соблюдением подсказок.
  • Изображение → Изображение (редактирование): точные, целенаправленные правки с сохранением единообразия темы/персонажа в нескольких редакциях.
  • Максимальное выходное разрешение: вплоть до 4K (примеры и поддерживаемые точные размеры пикселей зависят от соотношения сторон; API предоставляет предустановки 1K/2K/4K)
  • Итеративное планирование и самокоррекция: внутренний «многоступенчатый» конвейер, который обнаруживает и исправляет типичные визуальные ошибки (перспектива, текст, мелкая геометрия).
  • Расширенная визуализация текста на изображении: понятный, разборчивый многоязычный текст (от коротких подписей до длинных абзацев), подходящий для плакатов, макетов и инфографики.
  • 5 и верность до 14 объектов/референсных изображений в едином рабочем процессе.
  • Водяные знаки / происхождение: все сгенерированные изображения включают водяной знак SynthID; модель встраивает метаданные C2PA для определения происхождения в некоторые интеграции продуктов.

Версии и наименования образов Gemini 3 Pro

  • gemini-3-pro-image-preview
  • gemini-3-pro-image

Технические детали

Архитектура

  • Родословная / костяк: Nano Banana Pro будет построен на основе развивающегося стека изображений Gemini от Google — в частности, нового Изображение Gemini 3 Pro / GEMPIX 2 Архитектура (мультимодальная структура изображений и текста с высокой пропускной способностью). Это эволюция от Флэш-изображение Gemini 2.5 (оригинальный «нано-банан») в изначально многомодальную модель изображения с расширенными возможностями рассуждения на языке зрительного восприятия.
  • Модель поведения: встроенная мультимодальность (изображение + текст + знания о мире), явные конвейеры для слияния нескольких изображений и внутренний поэтапный планировщик, который обрабатывает выходные данные за несколько проходов, а не формирует один статический образец. Предварительные отчёты указывают на более выраженную геометрическую/оптическую логику (стекло, преломление) по сравнению с предыдущими версиями.
  • Мышление/внутреннее совершенствование: Модель использует видимый процесс «мышления» внутри для уточнения композиции (API документирует это поведение и отмечает, что эти внутренние шаги не тарифицируются как токены окончательного изображения).
  • Заземление и инструменты: Поддерживает Поиск заземления (может включать веб-факты в генерацию диаграмм/инфографики). Также поддерживает системные инструкции для более детерминированного управления.

Ключевые параметры API:

  • thinking_level (низкая / высокая) для торговли задержкой против глубины рассуждений;
  • media_resolution (низкий/средний/высокий) для управления токенами OCR изображений/чтения деталей;
  • generationConfig.imageConfig для управления соотношением сторон и разрешением выходных изображений.

Ограничения изображения:

  • Поддерживаемые методы ввода: Текст и изображения (модель не принимает аудио или видео в качестве входных данных для генерации изображений).
  • Максимальное количество изображений на запрос: 14 (для предварительного просмотра изображения Gemini 3 Pro).
  • Максимальный размер изображения (загружаемого): 7 МБ на одно входное изображение.
  • Поддерживаемые соотношения сторон: 1:1, 3:2, 16:9, 9:16, 21:9 и т. д.

Выходные изображения/токены: высокие лимиты, с поддержкой 4K/4096px.

Контрольная производительность

Краткое содержание: Публичные/предварительные бенчмарки на данный момент в основном качественные/проведены сообществом, но неизменно демонстрируют существенное улучшение разрешения, снижения артефактов и физической точности по сравнению с исходным нано-бананом (изображение Gemini 2.5 Flash). Конкретные «испытания» показали явный визуальный прирост, но пока нет (публичных) стандартизированных числовых таблиц бенчмарков от Google, сравнивающих версии 1 и 2 по стандартным метрикам генерации изображений.

  • Качественные общественные тесты: Более чёткие края, более чёткие микродетали, более реалистичные цвета и более точное соответствие требованиям (меньше иллюзорных реквизитов, более последовательные персонажи). Популярные неформальные тесты включают так называемые «Тест бокала для вина» и «Испытание стеклянного бургера», где GEMPIX2 (Nano Banana Pro) справляется с прозрачностью и преломлением заметно лучше, чем предыдущие версии.
  • Обработка текста: Nano Banana Pro демонстрирует заметно улучшенную типографику и расположение текста внутри изображений (что является постоянным недостатком многих моделей изображений). Сравнение с другими пользователями показывает меньше искажённых глифов.
  • Пропускная способность/UX: более высокая скорость итерации и пользовательский интерфейс, который выполняет многоэтапную доработку на внутреннем уровне, благодаря чему пользователи видят более надежные результаты первого прохода (что сокращает количество ручных повторных запусков).

Ограничения и риски

  • Фильтры и обнаружение контента: Платформы, интегрирующие модель (например, Whisk/сторонние приложения), могут включать строгое определение знаменитостей или их сходства и блокировать определенные результаты, что влияет на творческие рабочие процессы, основанные на реалистичных сходствах со знаменитостями.
  • Пограничные случаи галлюцинаций/рассуждений: несмотря на улучшения, модель все еще может создавать физически нереалистичные артефакты, особенно при наличии плотного символьного текста внутри изображений или технически сложных диаграмм — хотя NB2, по-видимому, уменьшает количество таких ошибок по сравнению с более ранними версиями.
  • Безопасность и неправильное использование: Генеративные модели изображений могут использоваться для создания проблемного или вредоносного контента. Google применяет ограничения, фильтры контента и водяной знак SynthID для подтверждения происхождения; тем не менее, случаи злоупотребления имели место (громкий скандал, связанный с изображением, сгенерированным Nano Banana, в политически деликатной обстановке).

Чем Nano Banana Pro отличается от других моделей

  • Nano Banana Pro (изображение GEMPIX 2 / Gemini 3 Pro) — эффективная интеграция с мобильными устройствами, слияние нескольких изображений, итеративное саморедактирование, масштабирование до 2K (в нативном формате) и 4K (в апскейле), тесная интеграция с приложениями Google (Поиск, Фото, Workspace/Gemini). Идеально подходит для рабочих процессов, требующих надёжного редактирования, непрерывности и интеграции с сервисами Google.
  • Середина пути — отлично справляется со стилизованными художественными результатами и разработкой подсказок, разрабатываемых сообществом; обычно не ориентирован на фототочное слияние нескольких изображений или глубокие многомодальные конвейеры редактирования.
  • Стабильная диффузия / открытые веса — полностью открытый, с широкими возможностями настройки и возможностью локального размещения; экосистема контрольных точек и тонкой настройки — решающее преимущество для исследований и использования в автономном режиме. Меньше интеграции с мобильными устройствами «в один клик» и менее согласованное редактирование нескольких изображений «из коробки», чем в Nano Banana Pro.
  • Seedream 4.0 (ByteDance) — недавно позиционируется как конкурент Nano Banana, с упором на сверхбыстрый рендеринг, вывод в разрешении 2K и поддержку множества референсных изображений (до шести). Позиционируется как альтернатива для профессионалов и создателей контента.

(Эти сравнения носят общий характер; выберите победителя, сопоставив инструмент с вашим рабочим процессом: открытость/настраиваемость → Stable Diffusion; стилизованное изображение → Midjourney; интегрированное, последовательное редактирование на мобильных устройствах с агрессивной итерацией → семейство изображений Nano Banana Pro/Gemini 3 Pro.)


Примеры использования в реальном мире

  • Редактирование фотографий на мобильных устройствах и креативные фильтры (Интеграция Google Photos — рестайлинг, объединение фона, рекомпозиция портрета).
  • Маркетинговые и рекламные активы — быстрая генерация концепций, единообразные персонажи бренда в разных кадрах/ракурсах.
  • Концепт-арт и раскадровка — слияние нескольких изображений помогает сохранить преемственность персонажей на разных панелях.
  • Электронная коммерция / макеты продуктов — создавать последовательные снимки продукта в разных контекстах/условиях освещения.
  • Быстрое прототипирование для AR/VR-активов — высококачественные выходные данные 2K/4K, которые можно масштабировать для создания эффекта погружения.

Как вызвать gemini-3-pro-image(Нано Банан Про)  API

Цены на Nano Banana API в CometAPI: скидка 20% на официальную цену:

Цена$0.19200

Необходимые шаги

  • Войти в cometapi.com. Если вы еще не являетесь нашим пользователем, пожалуйста, сначала зарегистрируйтесь.
  • Получите ключ API-интерфейса для доступа к учетным данным. Нажмите «Добавить токен» в API-токене в персональном центре, получите ключ токена: sk-xxxxx и отправьте.
  • Получите URL этого сайта: https://api.cometapi.com/

Используйте метод

  1. Выберите "gemini-3-pro-image” конечная точка для отправки запроса API и установки тела запроса. Метод запроса и тело запроса получены из нашего веб-сайта API doc. Наш веб-сайт также предоставляет тест Apifox для вашего удобства.
  2. Заменять с вашим реальным ключом CometAPI из вашей учетной записи.
  3. Введите свой вопрос или запрос в поле «Контент» — на него ответит модель.
  4. . Обработайте ответ API, чтобы получить сгенерированный ответ.

CometAPI предоставляет полностью совместимый REST API для беспроблемной миграции. Ключевые особенности:

Смотрите также API Flash-изображений Gemini 2.5 (Nano-Banana)

SHARE THIS BLOG

Читать далее

500+ моделей в одном API

Скидка до 20%