Как использовать API Nano Banana Pro (изображение Gemini 3 Pro)?

CometAPI
AnnaDec 10, 2025
Как использовать API Nano Banana Pro (изображение Gemini 3 Pro)?

Nano Banana Pro — официально Изображение Gemini 3 Pro — это новая модель создания и редактирования изображений студийного уровня от Google/DeepMind, которая сочетает в себе передовые мультимодальные рассуждения, высококачественную визуализацию текста, композицию из нескольких изображений и творческие возможности студийного уровня.

Что такое Nano Banana Pro и почему вас это должно волновать?

Nano Banana Pro — это новейшая модель Google для создания и редактирования изображений, получившая название «Gemini 3 Pro Image», разработанная для создания высококачественных изображений с учётом контекста и текста на изображении студийного качества до 4K. Она является преемницей более ранних моделей Nano Banana (Gemini 2.5 Flash Image / «Nano Banana») с улучшенным алгоритмом обработки, поисковой обработкой (фактами из реального мира), более качественной визуализацией текста и более мощными элементами управления локальным редактированием. Модель доступна в приложении Gemini для интерактивных пользователей и доступа к Nano Banana Pro через стандартный API Gemini, но вы можете выбрать конкретный идентификатор модели (gemini-3-pro-image-preview или его стабильный преемник). для программного доступа.

Почему это важно: Nano Banana Pro создан не только для создания красивых изображений, но и для визуализировать информацию — инфографика, моментальные снимки на основе данных (погода, спорт), постеры с большим количеством текста, макеты продуктов и многокадровые слияния (до 14 исходных изображений и сохранение единообразия персонажей для до 5 человек). Для дизайнеров, команд по продуктам и разработчиков это сочетание точности, текста на изображении и программного доступа открывает производственные процессы, которые ранее было трудно автоматизировать.

Какие функции доступны через API?

Типичные возможности API, доступные разработчикам, включают:

  • Текст → Генерация изображения (одношаговые или многошаговые «мыслительные» потоки композиции).
  • Редактирование изображений (локальные маски, тонировка, корректировка стиля).
  • Слияние нескольких изображений (объединить референтные изображения).
  • Расширенные элементы управления запросами: разрешение, соотношение сторон, этапы постобработки и трассировки «композиционной мысли» для отладки/проверки в режимах предварительного просмотра.

Основные инновации и функции Nano Banana Pro

Более разумное обоснование содержания

Использует стек логики Gemini 3 Pro для интерпретации сложных многошаговых визуальных инструкций (например, «создать инфографику из 5 шагов на основе этого набора данных и добавить двуязычную подпись»). API предоставляет механизм «мышления», который может проводить промежуточные тесты на составление для уточнения окончательного результата.

Почему это важно: Вместо одного прохода, преобразующего подсказку в пиксель, модель выполняет внутренний «мыслительный» процесс, который улучшает композицию и может вызывать внешние инструменты (например, Google Поиск) для фактической подстановки (например, точных подписей к схемам или корректных в локали вывесок). Это позволяет создавать изображения, которые не только более привлекательны, но и более семантически корректны для таких задач, как инфографика, диаграммы или макеты продуктов.

Как этого добиться: «Thinking» в Nano Banana Pro — это контролируемый внутренний этап рассуждений/композиции, в котором модель генерирует промежуточные визуальные данные и трассировки рассуждений перед созданием финального изображения. API показывает, что модель может создавать до двух промежуточных кадров, а финальное изображение является последним этапом этой цепочки. В процессе производства это помогает в выборе композиции, размещении текста и макета.

Более точная визуализация текста

Значительно улучшена читаемость локализованного текста внутри изображений (меню, плакаты, диаграммы). Nano Banana Pro достигает новых высот в рендеринге текста изображений:

  • Текст на изображениях четкий, разборчивый и правильно написан;
  • Поддерживает многоязыковую генерацию (включая китайский, японский, корейский, арабский и т. д.);
  • Позволяет пользователям писать длинные абзацы или многострочные описательные тексты непосредственно на изображениях;
  • Доступны автоматический перевод и локализация.

Почему это важно: Традиционно модели изображений испытывают трудности с отображением читабельного, хорошо выровненного текста. Nano Banana Pro специально оптимизирован для надёжного отображения и локализации текста (например, перевода и сохранения макета), что открывает возможности для креативного использования, например, для создания плакатов, упаковки или многоязычной рекламы.

Как этого добиться: Улучшения в рендеринге текста достигаются благодаря базовой мультимодальной архитектуре и обучению на наборах данных, в которых особое внимание уделяется примерам текста на изображениях, в сочетании с целевыми наборами оценки (человеческими оценками и наборами регрессионного анализа). Модель обучается согласовывать формы глифов, шрифты и ограничения макета для создания разборчивого, локализованного текста внутри изображений, хотя мелкий текст и очень плотные абзацы по-прежнему могут быть подвержены ошибкам.

Более высокая визуальная согласованность и точность

Управление студией (освещение, фокусировка, ракурс, цветокоррекция) и многокадровая композиция (до 14 референсных изображений с учетом возможности использования нескольких людей в качестве главных героев) помогают сохранить единообразие персонажей (один и тот же человек/персонаж при редактировании) и идентичность бренда во всех создаваемых материалах. Модель поддерживает нативные форматы 1K/2K/4K.

Почему это важно: Маркетинговые и развлекательные рабочие процессы требуют единообразия персонажей на всех этапах съёмки и монтажа. Модель может сохранять сходство до 5 люди и смешаться с 14 Объединяйте изображения в единую композицию при создании эскиза → 3D-рендера. Это полезно для создания рекламных материалов, упаковки или многокадрового сторителлинга.

Как этого добиться: Входные данные модели принимают несколько изображений с явным назначением ролей (например, «Изображение A: поза», «Изображение B: эталон лица», «Изображение C: текстура фона»). Архитектура обуславливает генерацию на основе этих изображений для сохранения идентичности/позы/стиля при применении преобразований (освещение, камера).

Тесты производительности Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) «превосходно показывает себя в тестах ИИ «текст→изображение» и демонстрирует улучшенные функции рассуждения и контекстного обоснования по сравнению с более ранними моделями Nano Banana. В нём подчёркивается более высокая точность и улучшенная визуализация текста по сравнению с предыдущими версиями.

Как использовать API Nano Banana Pro (изображение Gemini 3 Pro)?

Практическое руководство по эффективности

Ожидать более высокая задержка и стоимость высококачественного рендеринга 2K/4K, чем для 1K или моделей Flash, оптимизированных для скорости. Если пропускная способность/задержка критичны, используйте вариант с Flash (например, Gemini 2.5 Flash/Nano Banana) для больших объёмов; для задач с высоким качеством и сложными логическими рассуждениями используйте Nano Banana Pro/gemini-3-pro-image.

Как разработчики могут получить доступ к Nano Banana Pro?

Какие конечные точки и модели выбрать

Идентификатор модели (превью/профессиональная версия): gemini-3-pro-image-preview (предварительная версия) — используйте этот вариант, когда вам нужны возможности Nano Banana Pro. Для более быстрой и экономичной работы gemini-2.5-flash-image (Nano Banana) остаётся в наличии.

Поверхности для использования

  • API Gemini (конечная точка генеративного языка): Вы можете использовать ключ CometAPI для доступа к xx. CometAPI предлагает тот же API по более выгодной цене, чем официальный сайт. Прямые HTTP/SDK-вызовы к generateContent для генерации изображений (примеры ниже).
  • Google AI-студия: Веб-поверхность для быстрого экспериментирования и создания ремиксов демонстрационных приложений.
  • Vertex AI (корпоративный): Выделенная пропускная способность, варианты оплаты (оплата по факту использования/корпоративные уровни) и фильтры безопасности для крупномасштабного производства. Используйте Vertex для интеграции в крупные конвейеры или пакетные задания рендеринга.

Бесплатный тариф имеет ограниченный лимит использования; при его превышении будет активирована подписка Nano Banana. Тарифы Plus/Pro/Ultra предлагают более высокие лимиты и вывод без водяных знаков, но Ultra можно использовать в видеоинструментах Flow и Antigravity IDE в режиме 4K.

Как создать изображение с помощью Nano Banana Pro (пошагово)?

1) Быстрый интерактивный рецепт с использованием приложения Gemini

  1. Открыть Gemini → Инструменты → Создание изображений.
  2. Выберите Мышление (Nano Banana Pro) как модель.
  3. Введите подсказку: опишите тему, действие, настроение, освещение, камеру, соотношение сторон и любой текст, который будет отображаться на изображении. Пример:
    «Создайте 4K-постер с изображением семинара по робототехнике: разнообразная команда за столом, наложение чертежей, жирный заголовок «Роботы в действии» шрифтом без засечек, теплый вольфрамовый свет, малая глубина резкости, кинематографическое соотношение сторон 16:9».
  4. (Необязательно) Загрузите до 14 изображений для объединения или использования в качестве референсов. Используйте инструмент выделения/маски для локального редактирования областей.
  5. Сгенерируйте, повторите с помощью естественного языка (например, «сделать заголовок синим и выровнять по центру сверху; увеличить контрастность на чертеже»), затем экспортируйте

2) Используйте HTTP для отправки изображения на конечную точку Gemini

Для получения ключа вам необходимо войти в CometAPI.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Этот пример записывает полезную нагрузку изображения в формате Base64 в файл PNG. generationConfig.imageConfig.resolution параметр запрашивает вывод 4K (доступно для модели 3 Pro Image)

3) Прямые вызовы SDK generateContent для генерации изображения

Требуется установка Google SDK и получение аутентификации Google. Пример на Python (текст + справочные изображения + обоснование):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

В этом примере показана загрузка встроенного справочного изображения и запрос композиции 4K с включением google_search в качестве инструмента. Python SDK будет обрабатывать низкоуровневые детали REST.

Слияние нескольких изображений и согласованность персонажей

Чтобы создать композицию, которая сохраняет одного и того же человека во всех сценах, передайте с разными inline_data детали (выбранные из вашего набора фотографий) и укажите творческую инструкцию о том, что модель должна «сохранять идентичность во всех выходных данных».

Короткий практический пример — реальный быстрый и ожидаемый поток

подскажите:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Ожидаемый трубопровод: приложение → шаблон приглашения + данные CSV → заменить заполнители в приглашении → вызов API с image_size=2048x1152 → получить base64 PNG → сохранить метаданные активов и происхождения → при необходимости можно наложить точный шрифт с помощью композитора.

Как следует проектировать производственный трубопровод и обеспечивать безопасность/происхождение?

Рекомендуемая производственная архитектура

  1. Быстрый + черновой проход (быстрая модель): Используйте gemini-2.5-flash-image (Nano Banana) для дешевого производства множества вариаций с малым разрешением.
  2. Отбор и уточнение: выберите лучших кандидатов, уточните подсказки, примените редактирование зарисовок/масок для большей точности.
  3. Высококачественный финальный рендер: призывают gemini-3-pro-image-preview (Nano Banana Pro) для финального рендеринга 2K/4K и постобработки (повышающей дискретизации, цветокоррекции).
  4. Происхождение и метаданные: Сохраните подсказку, версию модели, временные метки и информацию SynthID в хранилище метаданных вашего актива — модель прикрепляет водяной знак SynthID, а выходные данные можно отслеживать для проверки соответствия и контента.

Безопасность, права и модерация

  • Проверка авторских прав: Не загружайте и не создавайте контент, нарушающий авторские права. Используйте явные подтверждения пользователей для предоставленных ими изображений или подсказок, которые могут создать узнаваемые образы. Необходимо соблюдать Политику Google в отношении запрещённого использования и фильтры безопасности моделей.
  • Фильтрация и автоматизированные проверки: пропускать созданные изображения через внутренний конвейер модерации контента (обнаружение контента с негативным контентом, символов ненависти, политического/обязывающего контента) перед последующим использованием или публичным показом.

Как выполнить редактирование изображений (интайм), композицию из нескольких изображений и рендеринг текста?

Nano Banana Pro поддерживает мультимодальные процессы редактирования: укажите одно или несколько входных изображений и текстовую инструкцию с описанием изменений (удаление объекта, изменение неба, добавление текста). API принимает изображения и текст в одном запросе; модель может генерировать чередующиеся текст и изображения в качестве ответов. Примеры шаблонов включают редактирование с масками и смешивание нескольких изображений (перенос стиля/композиция). См. документацию. contents массивы, объединяющие текстовые блоки и двоичные изображения.

Пример: Редактировать (псевдопоток Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Такое диалоговое редактирование позволяет вам последовательно корректировать результаты до тех пор, пока вы не достигнете готового к производству материала.

Пример Node.js — редактирование изображения с помощью маски и нескольких ссылок

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(API иногда принимают URI облачного хранилища или полезные данные изображений base64; точные форматы входных данных см. в документации API Gemini.)

Информацию о создании и редактировании изображений с использованием CometAPI см. Руководство по вызову gemini-3-pro-image .

Заключение

Nano Banana Pro (Gemini 3 Pro Image) — это прорыв в создании изображений промышленного уровня: инструмент для визуализации данных, создания локальных правок и оптимизации рабочих процессов разработчиков. Используйте приложение Gemini для быстрого создания прототипов, API для интеграции в производство и следуйте приведенным выше рекомендациям, чтобы контролировать расходы, обеспечивать безопасность и поддерживать качество бренда. Всегда тестируйте рабочие процессы реальных пользователей и сохраняйте метаданные о происхождении для обеспечения прозрачности и аудита.

Используйте Nano Banana Pro, когда вам нужно студийного качества активы, точный контроль над композицией, улучшенная визуализация текста внутри изображений и возможность объединения нескольких ссылок в один связный вывод.

Разработчики могут получить доступ API изображения Gemini 3 Pro (Nano Banana Pro) через CometAPI. Для начала изучите возможности моделиCometAPI в Детская Площадка Подробные инструкции см. в руководстве по API. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. сetAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Готовы к работе?→ Зарегистрируйтесь в CometAPI сегодня !

Если вы хотите узнать больше советов, руководств и новостей об искусственном интеллекте, подпишитесь на нас VKX и Discord!

SHARE THIS BLOG

Читать далее

500+ моделей в одном API

Скидка до 20%