Как использовать API Nano Banana Pro (Gemini 3 Pro Image)?

CometAPI
AnnaNov 20, 2025
Как использовать API Nano Banana Pro (Gemini 3 Pro Image)?

Nano Banana Pro — официально Gemini 3 Pro Image — это новая студийного уровня модель генерации и редактирования изображений от Google/DeepMind, сочетающая продвинутое мультимодальное рассуждение, высокоточное воспроизведение текста, композицию из нескольких изображений и студийные креативные элементы управления.

Что такое Nano Banana Pro и почему это важно?

Nano Banana Pro — новейшая модель для генерации и редактирования изображений от Google — релиз “Gemini 3 Pro Image”, созданный для получения контекстно-осведомлённых изображений студийного качества до 4K с высокоточным текстом на изображении. Это преемник более ранних моделей Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”) с улучшенным рассуждением, привязкой к Search (реальные факты), более сильным воспроизведением текста и более мощными локальными инструментами редактирования. Модель доступна в приложении Gemini для интерактивных пользователей, а также через стандартный Gemini API; для программного доступа выберите конкретный идентификатор модели (gemini-3-pro-image-preview или его стабильный преемник).

Почему это важно: Nano Banana Pro создаётся не только для “красивых картинок”, но и для визуализации информации — инфографика, снимки на основе данных (погода, спорт), насыщенные текстом постеры, продуктовые мокапы и мультикомпозиции (до 14 входных изображений, с поддержанием согласованности персонажей для до 5 людей). Для дизайнеров, продуктовых команд и разработчиков такое сочетание точности, текста на изображении и программного доступа открывает производственные сценарии, которые раньше было сложно автоматизировать.

Какие функции доступны через API?

Типичные возможности API для разработчиков включают:

  • Генерация изображений из текста (однопроходные или многошаговые композиционные “thinking”-флоу).
  • Редактирование изображений (локальные маски, инпейтинг, стилизация).
  • Сведение нескольких изображений (комбинация референсов).
  • Расширенные параметры запроса: разрешение, соотношение сторон, постобработка и трассировки “composition thought” для отладки/инспекции в превью-режимах.

Ключевые инновации и функции Nano Banana Pro

Более умное смысловое рассуждение

Использует стек рассуждений Gemini 3 Pro для интерпретации сложных, многошаговых визуальных инструкций (например: «создай 5‑шаговую инфографику из этого датасета и добавь двуязычную подпись»). API предоставляет механизм “Thinking”, который может выдавать промежуточные композиционные пробы для уточнения финального результата.

Почему это важно: Вместо одного прохода “промпт → пиксели” модель выполняет внутренний процесс “thinking”, который уточняет композицию и может вызывать внешние инструменты (например, Google Search) для фактической опоры (например, точные подписи в схемах или корректные для локали вывески). В итоге изображения не только эстетичны, но и семантически точнее для задач вроде инфографики, диаграмм или продуктовых мокапов.

Как это делается: “Thinking” в Nano Banana Pro — контролируемый внутренний этап рассуждения/композиции, где модель генерирует промежуточные визуализации и трассировки рассуждений перед финальным изображением. API указывает, что модель может создать до двух промежуточных кадров, а финальное изображение — последний этап этой цепочки. В продакшене это помогает с композицией, размещением текста и решениями по макету.

Более точное воспроизведение текста

Заметно улучшена читаемость и локализация текста внутри изображений (меню, постеры, диаграммы). Nano Banana Pro выводит работу с текстом на новый уровень:

  • Текст в изображениях чёткий, разборчивый и правильно написанный;
  • Поддерживается многоязычная генерация (включая китайский, японский, корейский, арабский и др.);
  • Можно вставлять длинные абзацы или многострочные описания прямо в изображение;
  • Доступны автоперевод и локализация.

Почему это важно: Традиционно моделям сложно выводить читаемый, хорошо выровненный текст. Nano Banana Pro специально оптимизирована для надёжной генерации текста и локализации (например, перевод с сохранением макета), что открывает реальные творческие кейсы — постеры, упаковка, многоязычная реклама.

Как это делается: Улучшения текста обеспечены мультимодальной архитектурой и обучением на датасетах с акцентом на “текст-в-изображении”, а также целевыми наборами для оценки (человеческие и регрессионные тесты). Модель учится согласовывать формы глифов, шрифты и ограничения макета для производства читаемого, локализованного текста в изображениях — хотя очень мелкий текст и сверхплотные абзацы всё ещё подвержены ошибкам.

Лучшая визуальная консистентность и детализация

Студийные контролы (свет, фокус, ракурс, цветокоррекция) и композиция из нескольких изображений (до 14 референсов, с особыми режимами для нескольких людей) помогают сохранять согласованность персонажей (тот же человек/персонаж в разных правках) и идентичность бренда. Модель поддерживает нативные выходы 1K/2K/4K.

Почему это важно: Маркетинговые и развлекательные пайплайны требуют постоянства персонажей в кадрах и правках. Модель может поддерживать сходство до пяти людей и смешивать до 14 референс‑изображений в одной композиции, включая сценарий «Эскиз → 3D‑рендер». Полезно для рекламного креатива, упаковки или многокадрового сторителлинга.

Как это делается: Входы модели принимают несколько изображений с явным распределением ролей (например, «Изображение A: поза», «Изображение B: референс лица», «Изображение C: текстура фона»). Архитектура условно опирается на эти изображения, чтобы сохранить личность/позу/стиль при применении трансформаций (свет, камера).

Показатели производительности Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) “отличается на бенчмарках Text→Image” и демонстрирует улучшенные рассуждение и контекстную опору по сравнению с ранними моделями Nano Banana. Делается акцент на более высокую точность и улучшенное воспроизведение текста относительно предыдущих релизов.

Как использовать API Nano Banana Pro (Gemini 3 Pro Image)?

Практические советы по производительности

Ожидайте более высокую задержку и стоимость для 2K/4K‑рендеров высокого качества по сравнению с 1K или моделями “Flash”, оптимизированными на скорость. Если критичны пропускная способность/латентность, используйте вариант flash (например, Gemini 2.5 Flash / Nano Banana) для больших объёмов; используйте Nano Banana Pro / gemini-3-pro-image для качества и сложных задач рассуждения.

Как разработчикам получить доступ к Nano Banana Pro?

Какие endpoints и модели выбрать

Идентификатор модели (preview / pro): gemini-3-pro-image-preview (preview) — используйте его, когда нужны возможности Nano Banana Pro. Для более быстрых и недорогих задач вариант gemini-2.5-flash-image (Nano Banana) остаётся доступным.

Где использовать

  • Gemini API (endpoint generativelanguage): вы можете использовать ключ CometAPI для доступа к xx. CometAPI предлагает тот же API по более выгодной цене, чем официальный сайт. Прямые HTTP-/SDK‑вызовы к generateContent для генерации изображений (примеры ниже).
  • Google AI Studio: веб-интерфейс для быстрого эксперимента и ремиксов демо-приложений.
  • Vertex AI (enterprise): гарантированная пропускная способность, варианты биллинга (pay‑as‑you‑go / корпоративные тарифы) и фильтры безопасности для крупносерийного продакшена. Используйте Vertex при интеграции в большие пайплайны или задания пакетного рендеринга.

Бесплатный тариф имеет ограничение на использование; при превышении лимита будет произведён откат к Nano Banana. Тарифы Plus/Pro/Ultra предлагают повышенные лимиты и вывод без водяных знаков, а Ultra может использоваться в инструментах Flow video и Antigravity IDE в режиме 4K.

Как сгенерировать изображение с Nano Banana Pro (пошагово)?

1) Быстрый интерактивный рецепт по использованию приложения Gemini

  1. Откройте Gemini → Tools → Create images.
  2. Выберите Thinking (Nano Banana Pro) как модель.
  3. Введите промпт: опишите сюжет, действие, настроение, свет, камеру, соотношение сторон и любой текст, который должен появиться на изображении. Пример:
    «Создай 4K‑постер воркшопа по робототехнике: разная команда вокруг стола, наложение чертежей, жирный заголовок “Роботы в действии” гротескным шрифтом, тёплый вольфрамовый свет, малая ГРИП, кинематографичное 16:9.»
  4. (Опционально) Загрузите до 14 изображений для сведения или в качестве референсов. Используйте инструмент выделения/маски для локальных правок.
  5. Сгенерируйте, затем итеративно улучшайте естественным языком (например: «сделай заголовок синим и выровняй по верхнему центру; увеличь контраст на чертеже»), затем экспортируйте.

2) Использование HTTP для отправки на endpoint генерации изображений Gemini

Вам нужно войти в CometAPI, чтобы получить ключ.

# save your API key to $CometAPI_API_KEY securely before running

curl -s -X POST \
  "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
  -H "x-goog-api-key: $CometAPI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "role": "user",
      "parts": [{
        "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
      }]
    }],
    "generationConfig": {
      "imageConfig": {
        "resolution": "4096x4096",
        "aspectRatio": "1:1"
      }
    }
  }' \
  | jq -r '.candidates.content.parts[] | select(.inlineData) | .inlineData.data' \
  | base64 --decode > nano_banana_pro_4k.png

Этот пример записывает полезную нагрузку изображения в base64 в PNG‑файл. Параметр generationConfig.imageConfig.resolution запрашивает вывод 4K (доступно для модели 3 Pro Image).

3) Прямые вызовы SDK к generateContent для генерации изображений

Требуется установка Google SDK и получение аутентификации Google. Пример на Python (текст + референс‑изображения + grounding):

# pip install google-genai pillow

from google import genai
from PIL import Image
import base64

client = genai.Client()  # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data

with open("ref1.png", "rb") as f:
    ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
    {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
    {"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,
    generation_config={
        "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
        # tools can be provided to ground facts, e.g. "google_search"

        "tools": 
    }
)

for part in response.candidates.content.parts:
    if part.inline_data:
        image = part.as_image()
        image.save("product_ad.png")

Этот пример демонстрирует загрузку встроенного референс‑изображения и запрос 4K‑композиции с включением инструмента google_search. SDK на Python возьмёт на себя низкоуровневые детали REST.

Сведение нескольких изображений и согласованность персонажей

Чтобы создать композит с сохранением одного и того же человека в разных сценах, передавайте несколько частей inline_data (выбранных из вашего набора фото) и укажите в творческой инструкции, что модель должна «сохранять идентичность между результатами».

Короткий практический пример — реальный промпт и ожидаемый поток

Промпт:
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Ожидаемый конвейер: приложение → шаблон промпта + CSV‑данные → подстановка плейсхолдеров в промпт → вызов API с image_size=2048x1152 → получение PNG в base64 → сохранение ассета + метаданные происхождения → при необходимости наложение точного шрифта через композитор.

Как спроектировать продакшен‑пайплайн и учесть безопасность/происхождение?

Рекомендуемая продакшен‑архитектура

  1. Промпт + черновой проход (быстрая модель): используйте gemini-2.5-flash-image (Nano Banana) для дешёвого массового получения вариаций в низком разрешении.
  2. Выбор и доработка: выберите лучшие кандидаты, уточните промпты, примените инпейтинг/маски для точности.
  3. Финальный высокодетальный рендер: вызов gemini-3-pro-image-preview (Nano Banana Pro) для финальных 2K/4K‑рендеров и постобработки (апсемплинг, цветокоррекция).
  4. Происхождение и метаданные: сохраняйте промпт, версию модели, временные метки и SynthID в вашей системе метаданных ассетов — модель добавляет водяной знак SynthID, а выводы можно отследить для соответствия требованиям и аудита контента.

Безопасность, права и модерация

  • Авторские права и разрешения: не загружайте и не генерируйте контент, нарушающий права. Используйте явные подтверждения пользователей для предоставленных ими изображений или промптов, способных создать узнаваемое лицо. Соблюдайте Политику запрещённого использования Google и фильтры безопасности модели.
  • Фильтрация и автоматические проверки: прогоняйте сгенерированные изображения через внутренний конвейер модерации контента (NSFW, символы ненависти, политический/обязательный контент) перед дальнейшим использованием или публичным показом.

Как выполнять редактирование (инпейтинг), многокадровую композицию и вывод текста?

Nano Banana Pro поддерживает мультимодальные сценарии редактирования: передайте одно или несколько входных изображений и текстовую инструкцию описания правок (удалить объект, заменить небо, добавить текст). API принимает изображение + текст в одном запросе; модель может возвращать ответы с чередованием текста и изображений. Типовые паттерны включают масочные правки и мультисведение (стилевой перенос/композиция). См. документацию по массивам contents, комбинирующим текстовые блоки и бинарные изображения.

Пример: правка (псевдопоток на Python)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents=,  # order matters: image + instruction

)
# Save result as before

Такое диалоговое редактирование позволяет итеративно корректировать результат до продакшен‑качества.

Пример на Node.js — редактирование изображения с маской и несколькими референсами

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes:  });
async function runEdit() {
  const client = await auth.getClient();
  const token = await client.getAccessToken();
  const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
  const MODEL = "gemini-3-pro-image";

  // Attach binary image content or URLs depending on API.
  const payload = {
    model: MODEL,
    prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
    inputs: {
      referenceImages: [
        { uri: "gs://my-bucket/photo_subject.jpg" },
        { uri: "gs://my-bucket/target_studio.jpg" }
      ],
      mask: { uri: "gs://my-bucket/mask.png" },
      imageConfig: { resolution: "2048x2048", format: "png" }
    },
    options: { preserveIdentity: true }
  };

  const res = await fetch(API_URL, {
    method: 'POST',
    headers: {
      'Authorization': `Bearer ${token.token}`,
      'Content-Type': 'application/json'
    },
    body: JSON.stringify(payload)
  });
  const out = await res.json();
  console.log(JSON.stringify(out, null, 2));
}
runEdit();

(Интерфейсы API иногда принимают Cloud Storage URI или полезную нагрузку изображения в base64; см. документацию Gemini API для точных форматов ввода.)

Информацию о генерации и редактировании изображений с использованием CometAPI см. в руководстве по вызову gemini-3-pro-image.

Заключение

Nano Banana Pro (Gemini 3 Pro Image) — это продакшен‑уровневый скачок в генерации изображений: инструмент для визуализации данных, локализованных правок и поддержки разработческих рабочих процессов. Используйте приложение Gemini для быстрого прототипирования, API — для продакшен‑интеграции, и следуйте рекомендациям выше, чтобы контролировать стоимость, обеспечивать безопасность и сохранять качество бренда. Всегда тестируйте реальные пользовательские сценарии и сохраняйте метаданные происхождения для прозрачности и аудита.

Используйте Nano Banana Pro, когда вам нужны студийного качества ассеты, точный контроль композиции, улучшенный вывод текста внутри изображений и возможность сводить несколько референсов в единый связный результат.

Разработчики могут получить доступ к Gemini 3 Pro Image (Nano Banana Pro) API через CometAPI. Чтобы начать, изучите возможности моделей CometAPI в Playground и обратитесь к руководству по API за подробными инструкциями. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предлагает цену значительно ниже официальной, чтобы облегчить интеграцию.

Готовы начать? → Зарегистрируйтесь в CometAPI уже сегодня!

Если вы хотите получать больше советов, гайдов и новостей об ИИ, следите за нами в VK, X и Discord!

Доступ к топовым моделям по низкой цене

Читать далее