Как использовать Nano Banana через API? (Gemini-2-5-flash-image)

Nano Banana это прозвище сообщества (и внутреннее сокращение) для Google Флэш-изображение Gemini 2.5 — высококачественная модель генерации и редактирования многомодальных изображений с малой задержкой. Это подробное руководство (с кодом, шаблонами, этапами развертывания и примерами CometAPI) демонстрирует три практических метода вызова, которые можно использовать в рабочей среде: (1) совместимый с OpenAI интерфейс чата (текст → изображение), (2) официальный интерфейс Google generateContent Интерфейс текст→изображение и (3) официальный интерфейс Google generateContent Интерфейс «изображение→изображение» с использованием ввода/вывода Base64. В ходе обучения вы получите пошаговые рекомендации по распространению и развертыванию, настройке среды, использованию API-операций CometAPI, информацию о ценах и водяных знаках, а также лучшие советы для получения надежных и экономичных результатов.

Что такое Nano Banana (изображение Gemini 2.5 Flash)?

Nano Banana — неофициальное название Gemini 2.5 Flash Image, новейшей модели изображений от Google в семействе Gemini. Она предназначена как для создания фотореалистичных изображений, так и для точного редактирования (локальное редактирование, слияние нескольких изображений, сохранение символов при редактировании) и доступна через API Gemini от Google, Google AI Studio и Vertex AI. Модель поставляется с невидимым водяным знаком SynthID для подтверждения происхождения.

Почему это важно для разработчиков: Nano Banana предоставляет вам единую высококачественную многомодальную модель, которая может обрабатывать:

Текст → Изображение (создайте новые изображения по текстовым подсказкам)
Изображение → Изображение (редактировать/преобразовать предоставленную фотографию)
Смешивание нескольких изображений (объединить несколько изображений в одно целое)
Все это доступно либо через официальный сайт Google generateContent конечные точки (Vertex AI / Gemini API) или через конечные точки, совместимые с OpenAI, предлагаемые сторонними API-шлюзами, такими как CometAPI и OpenRouter. Это означает, что вы можете интегрировать образ Gemini 2.5 Flash в существующие кодовые базы, совместимые с OpenAI, или напрямую обращаться к официальным SDK Google.

В чем он преуспевает

Целенаправленные локальные правки (изменение цвета рубашки, удаление объектов, корректировка поз).
Сохранение единообразия тем и персонажей при повторном редактировании.
Смешивание/объединение нескольких изображений в единое целое.
Низкая задержка и экономичный вывод по сравнению с более сложными исследовательскими моделями (Google позиционирует модели «Flash» как высокопроизводительные варианты).

Как настроить среду разработки для вызова Nano Banana через API?

Ниже приведен пошаговый контрольный список, который можно использовать в качестве основы для любого из трех методов вызова, описанных далее.

Предпосылки (учетные записи, ключи, квота)

Аккаунт Google + Облачный проект — Если вы планируете обращаться к Gemini напрямую через Google (Gemini API/Vertex AI), создайте проект Google Cloud и включите API Vertex AI/Gemini. Вам потребуется настроить биллинг и соответствующие роли (например, Vertex AI Admin or Service Account с правами вывода).
Доступ к API Gemini — Некоторые модели изображений Gemini доступны только в режиме предварительного просмотра/ограниченно; вам может потребоваться запросить доступ или использовать модель через Google AI Studio или Vertex AI в зависимости от вашей учетной записи.
CometAPI (дополнительный шлюз) — Если вы предпочитаете единый API, не зависящий от поставщика и способный проксировать различные модели (включая Gemini), зарегистрируйтесь в CometAPI, чтобы получить ключ API и ознакомиться со списком моделей (они предлагают варианты Gemini 2.5 Flash и конечную точку, совместимую с OpenAI). CometAPI упрощает разработку и позволяет менять поставщиков без изменения кода приложения.

Локальный инструментарий

Среды выполнения языка: рекомендуется Node.js 18+, Python 3.10+.
HTTP-клиент: fetch/axios для JS; requests/httpx для Python (или официальных SDK).
Помощники по работе с изображениями: Pillow (Python) или sharp (Узел) для изменения размера, преобразования формата и кодирования/декодирования Base64.
Безопасность.: храните ключи в переменных среды или в хранилище секретов (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Никогда не фиксируйте ключи API.

Установите Google/совместимый SDK (необязательно)

Google предоставляет SDK и openai Прокладки совместимости библиотек — вы можете использовать клиентские библиотеки OpenAI для Gemini, изменив несколько строк (базовый URL + ключ API), но для полноценной реализации мультимодальных функций рекомендуется использовать нативный клиент Gemini/Google. При использовании CometAPI или шлюза, совместимого с OpenAI, использование клиента OpenAI может ускорить разработку. Примеры:

Официальный маршрут Google (Python):

python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai           # official Google GenAI SDK

pip install Pillow requests jq     # for local image handling in examples

Клиент, совместимый с CometAPI / OpenAI (Python):

pip install openai requests

Как выбрать один из трех методов вызова Nano Banana?

Выбор метода вызова зависит от вашей архитектуры, требований к задержке/стоимости, а также от того, хотите ли вы использовать официальную конечную точку Google или сторонний шлюз, совместимый с OpenAI. Существует три распространённых шаблона:

1) Интерфейс чата, совместимый с OpenAI (текст в изображение)

Используйте этот вариант, если у вас уже есть код или SDK в стиле OpenAI и вы хотите переключить модели с минимальными изменениями. Многие шлюзы (CometAPI, OpenRouter) предоставляют модели Gemini в REST-среде, совместимой с OpenAI, поэтому ваши существующие chat or completions звонки работают просто с другим base_url и название модели. Зачастую это самый быстрый путь к производству, если вы не хотите управлять авторизацией Google Cloud.

2) Близнецы-официальные `generateContent` — текст в изображение

Используйте официальный Google generateContent через genai Клиент (Google) или Vertex AI, если вам нужен официальный SDK с полной поддержкой и доступом к новейшим функциям (настраиваемые параметры генерации, потоковая передача, файловый API для больших ресурсов), а также к биллингу и мониторингу Google Cloud. Рекомендуется использовать этот вариант, если вам требуется поддержка производства и средства управления корпоративного уровня.

3) Близнецы-официальные `generateContent` — изображение в изображение (ввод/вывод Base64)

Используйте этот метод, когда вам необходимо отправлять двоичные изображения в формате встроенного кода (Base64) или вы хотите редактировать изображения или преобразовывать их в изображения. Google generateContent Поддерживает встроенные изображения (base64) и файловый API для больших или повторно используемых ресурсов. Ответы для сгенерированных/отредактированных изображений обычно возвращаются в виде строк Base64, которые вы декодируете и сохраняете. Это обеспечивает наиболее точный мультимодальный контроль.

Как вызвать Nano Banana через совместимый с OpenAI интерфейс чата (текст в изображение)?

Конечная точка чата, совместимая с OpenAI, принимает последовательность {role, content} сообщения; вы описываете, какое изображение хотите получить в сообщении пользователю, а шлюз (CometAPI или оболочка совместимости с OpenAI) преобразует это в вызов базовой модели Gemini. Это удобно, если ваше приложение уже использует потоки чата или вы хотите объединить генерацию текста и генерацию изображений в одном сообщении.

Шаги

1.Зарегистрируйтесь в CometAPI и получите ключ API: Зарегистрируйтесь в CometAPI, создайте проект, скопируйте свой ключ API. CometAPI предоставляет доступ ко множеству моделей, стоящих за одним base_url. ()

Установить клиент, совместимый с OpenAI: Питон: pip install openai или используйте более новую openai/OpenAI Оболочка SDK, используемая многими шлюзами.
Укажите SDK на CometAPI и вызовите конечную точку завершения чата.:

curl https://api.cometapi.com/v1/chat/completions \
  -H "Authorization: Bearer $COMET_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemini-2-5-flash-image-preview",
     "stream": true,   
     "messages": [{"role": "user", 
                   "content": "Generate a cute kitten sitting on a cloud, in a                cartoon style"}]
      }'

Примечание:

stream должен быть истинным; ответ будет возвращен как stream;
Структура ответа обернута в CometAPI для совместимости с OpenAI.
Ответ включает изображение Base64; при необходимости декодируйте и сохраните его на клиенте：

Как я могу вызвать Nano Banana с помощью официального приложения Gemini? `generateContent` интерфейс преобразования текста в изображение?

Google предоставляет API разработчика Gemini (API Gemini), а также предоставляет модели Gemini через Вершинный ИИДля программного доступа к образу Gemini 2.5 Flash (Nano Banana) поддерживаемым способом, официальный generateContent Метод является канонической точкой входа для генерации только текста или мультимодальных данных. Используйте Google GenAI SDK (Питон: google-genai) или вызвать конечную точку REST напрямую. Это обеспечивает прямой доступ к параметрам и модальностям модели и является рекомендуемым способом использования расширенных функций (точного редактирования, слияния нескольких изображений) при вызове конечных точек Google.

1.Используйте Google GenAI SDK (Питон: google-genai)

Этапы распространения/звонка (обзор):

Получите ключ API из Google AI Studio или создайте учетную запись службы Vertex AI (в зависимости от платформы).
Установить SDK (pip install --upgrade google-genai) и выполнить аутентификацию (ключ API или учетные данные приложения Google по умолчанию).
Выберите модель: gemini-2.5-flash-image или предварительный заголовок, показанный в документах (точный заголовок зависит от состояния GA/предварительного просмотра).
Позвонить client.models.generate_content(...) с простой текстовой подсказкой (текст в изображение).
раскодировать возвращенные изображения (если возвращено Base64) и сохранить/сохранить.

Пример Python (официальный клиент) — текст→изображение:

from google import genai
from base64 import b64decode, b64encode

client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
  "content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
  "mime_type": "text/plain"
}
# request generateContent for image output

result = client.generate_content(
  model="gemini-2-5-flash-image-preview",
  prompt=prompt,
  response_modalities=,
  image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)

(Примечание: проверьте официальный клиентский API на предмет точных названий параметров — приведенные выше примеры соответствуют шаблонам в документах Google.)

2. Вызов Нано Банан через конечную точку REST

Конечная точка EST (пример преобразования текста в изображение): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.

Варианты аутентификации: заголовок поставки x-goog-api-key: $CometAPI_API_KEY. (Создайте ключ в CometAPI.)

Это отправит текстовое приглашение и сохранит возвращенное изображение base64:

curl -s -X POST \
  "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [
        { "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
      ]
    }]
  }' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png

Примечания: Двоичный файл изображения возвращается в формате base64. candidates.content.parts.inline_data.dataВ примере выше используется jq для извлечения встроенных данных и их декодирования. В официальной документации показан тот же процесс.

Как я могу вызвать Nano Banana с помощью официального приложения Gemini? `generateContent` Интерфейс «изображение-изображение» (вход/выход Base64)?

Когда следует использовать преобразование образа в образ (вход/выход base64)?

Используйте функцию «изображение в изображение», когда вам необходимо:

Редактирование существующей фотографии (закрашивание, перенос стиля, замена объектов).
Объедините несколько исходных изображений в единую композицию.
Сохранение идентичности объекта при каждом редактировании (одно из преимуществ Nano Banana).

Близнецы generateContent Поддерживает встроенные данные изображений через Base64 (или как URI файлов) и возвращает сгенерированные или отредактированные изображения в виде строк Base64. В документации приведены подробные примеры предоставления inline_data mime_type и data.

Этапы распространения/звонка (от изображения к изображению)

Подготовить входные изображения: чтение байтов файла, кодирование Base64 или передача необработанных байтов через помощник SDK.
Строить a contents массив, где одна часть — это встроенное изображение (с mimeType и data) и последующие части включают инструкции по редактированию текста.
POST в generateContent (официальный SDK или REST).
Получаете Ответ: API возвращает сгенерированные/отредактированные изображения, закодированные в виде строк Base64. Декодируйте и сохраните их локально.

Пример — Python (преобразование изображения в изображение с использованием встроенных байтов через GenAI SDK)

# pip install google-genai

from google import genai
from google.genai import types
import base64

client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")

# Read local image

with open("input_photo.jpg", "rb") as f:
    img_bytes = f.read()

# Using SDK helper to attach bytes as a part

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[
        types.Part.from_bytes(
            data=img_bytes,
            mime_type="image/jpeg"
        ),
        "Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
    ],
)

# The returned image will typically be in response.candidates[].content.parts with base64-encoded data

# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data  # example path

with open("edited.jpg","wb") as out:
    out.write(base64.b64decode(b64_out))

Пример Python: изображение→изображение с использованием Base64 через точку покоя

import base64, json, requests

API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"

# read and base64-encode image

with open("input.jpg","rb") as f:
    b64 = base64.b64encode(f.read()).decode("utf-8")

payload = {
  "model": "gemini-2-5-flash-image-preview",
  "input": [
    {"mime_type": "image/jpeg", "bytes_base64": b64},
    {"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
  ],
  "response_modalities": 
}

resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save

out_b64 = data
with open("edited.png","wb") as out:
    out.write(base64.b64decode(out_b64))

Если вы хотите получить к нему доступ через REST-порт CometAPI：

curl 
--location 
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^ 
--header "Authorization: sk-" ^ 
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^ 
--header "Content-Type: application/json" ^ 
--header "Accept: */*" ^ 
--header "Host: api.CometAPI.com" ^ 
--header "Connection: keep-alive" ^ 
--data-raw "{ \"contents\":  } ], \"generationConfig\": { \"responseModalities\":  }}"

Для встроенного: прочитайте изображение и закодируйте его в формате base64. Для повторного использования или объёма более 20 МБ загрузите через File API и укажите дескриптор файла в generateContent.Лучший вариант для точного редактирования и рабочих процессов, требующих ввода изображений и текстовых инструкций по редактированию.

Каковы лучшие советы по работе с Nano Banana?

Оперативное проектирование и контроль

Будьте явными: укажите желаемое соотношение сторон, стилистические характеристики (имена художников можно указывать только по возможности), объектив камеры, освещение и композицию. Например, «Фотореалистично, 3:2, малая глубина резкости, золотой час, объектив Nikon 50 мм».
Используйте последовательное редактирование: предпочитайте небольшие локальные правки в несколько проходов крупным одиночным подсказкам — это сохраняет единообразие сюжета. Преимущество Nano Banana — итеративное редактирование.

Гигиена изображения

Предварительная обработка входных данных: нормализация цветового пространства, удаление встроенного EXIF, если требуется конфиденциальность, масштабирование до разумных разрешений для экономии токенов.
Результаты постобработки: запуск распознавания лиц, очистка незначительных артефактов с помощью легких фильтров (Pillow / sharp) перед возвратом пользователям.

Политики безопасности, соответствия и контента

Реализуйте автоматизированную проверку безопасности контента (модели модерации Vision или проверки по черному списку) перед сохранением/обработкой изображений.
При загрузке изображений людей соблюдайте применимые законы о конфиденциальности (GDPR/CCPA) и получайте необходимые согласия.
Соблюдайте политику использования моделей и правила авторского права при запросе защищенных авторским правом персонажей или существующих произведений искусства.

Закрытие заметки

Nano Banana (Gemini 2.5 Flash Image) представляет собой практичный, высококачественный шаг для создания и редактирования мультимодальных изображений: он разработан для обеспечения согласованности при редактировании и более глубокого мультимодального обоснования. Nano Banana (Gemini 2.5 Flash Image) является важным шагом в создании/редактировании изображений, предлагая высокую согласованность для многоэтапного редактирования и множественных поверхностей интеграции (совместимые с OpenAI шлюзы, такие как CometAPI и Google generateContent Для ускорения внедрения такие шлюзы, как CometAPI, позволяют повторно использовать код в стиле OpenAI. Всегда проверяйте ответы на корректность, учитывайте политику в отношении контента и особенности происхождения (SynthID), а также отслеживайте затраты во время итерации.

Первые шаги

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ Флэш-изображение Gemini 2.5(список API Nano Banana Comet gemini-2.5-flash-image-preview/gemini-2.5-flash-image (Записи стилей в их каталоге.) через CometAPI, последние версии моделей указаны на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Что такое Nano Banana (изображение Gemini 2.5 Flash)?

В чем он преуспевает

Как настроить среду разработки для вызова Nano Banana через API?

Предпосылки (учетные записи, ключи, квота)

Локальный инструментарий

Установите Google/совместимый SDK (необязательно)

Как выбрать один из трех методов вызова Nano Banana?

1) Интерфейс чата, совместимый с OpenAI (текст в изображение)

2) Близнецы-официальные `generateContent` — текст в изображение

3) Близнецы-официальные `generateContent` — изображение в изображение (ввод/вывод Base64)

Как вызвать Nano Banana через совместимый с OpenAI интерфейс чата (текст в изображение)?

Шаги

Как я могу вызвать Nano Banana с помощью официального приложения Gemini? `generateContent` интерфейс преобразования текста в изображение?

2. Вызов Нано Банан через конечную точку REST

Как я могу вызвать Nano Banana с помощью официального приложения Gemini? `generateContent` Интерфейс «изображение-изображение» (вход/выход Base64)?

Когда следует использовать преобразование образа в образ (вход/выход base64)?

Этапы распространения/звонка (от изображения к изображению)

Пример — Python (преобразование изображения в изображение с использованием встроенных байтов через GenAI SDK)

Пример Python: изображение→изображение с использованием Base64 через точку покоя

Каковы лучшие советы по работе с Nano Banana?

Оперативное проектирование и контроль

Гигиена изображения

Политики безопасности, соответствия и контента

Закрытие заметки

Первые шаги

Читать далее

500+ моделей в одном API

Как использовать Nano Banana через API? (Gemini-2-5-flash-image)

Что такое Nano Banana (изображение Gemini 2.5 Flash)?

В чем он преуспевает

Как настроить среду разработки для вызова Nano Banana через API?

Предпосылки (учетные записи, ключи, квота)

Локальный инструментарий

Установите Google/совместимый SDK (необязательно)

Как выбрать один из трех методов вызова Nano Banana?

1) Интерфейс чата, совместимый с OpenAI (текст в изображение)

2) Близнецы-официальные generateContent — текст в изображение

3) Близнецы-официальные generateContent — изображение в изображение (ввод/вывод Base64)

Как вызвать Nano Banana через совместимый с OpenAI интерфейс чата (текст в изображение)?

Шаги

Как я могу вызвать Nano Banana с помощью официального приложения Gemini? generateContent интерфейс преобразования текста в изображение?

2. Вызов Нано Банан через конечную точку REST

Как я могу вызвать Nano Banana с помощью официального приложения Gemini? generateContent Интерфейс «изображение-изображение» (вход/выход Base64)?

Когда следует использовать преобразование образа в образ (вход/выход base64)?

Этапы распространения/звонка (от изображения к изображению)

Пример — Python (преобразование изображения в изображение с использованием встроенных байтов через GenAI SDK)

Пример Python: изображение→изображение с использованием Base64 через точку покоя

Каковы лучшие советы по работе с Nano Banana?

Оперативное проектирование и контроль

Гигиена изображения

Политики безопасности, соответствия и контента

Закрытие заметки

Первые шаги

Читать далее

500+ моделей в одном API

2) Близнецы-официальные `generateContent` — текст в изображение

3) Близнецы-официальные `generateContent` — изображение в изображение (ввод/вывод Base64)

Как я могу вызвать Nano Banana с помощью официального приложения Gemini? `generateContent` интерфейс преобразования текста в изображение?

Как я могу вызвать Nano Banana с помощью официального приложения Gemini? `generateContent` Интерфейс «изображение-изображение» (вход/выход Base64)?