Nano Banana это прозвище сообщества (и внутреннее сокращение) для Google Флэш-изображение Gemini 2.5 — высококачественная модель генерации и редактирования многомодальных изображений с малой задержкой. Это подробное руководство (с кодом, шаблонами, этапами развертывания и примерами CometAPI) демонстрирует три практических метода вызова, которые можно использовать в рабочей среде: (1) совместимый с OpenAI интерфейс чата (текст → изображение), (2) официальный интерфейс Google generateContent Интерфейс текст→изображение и (3) официальный интерфейс Google generateContent Интерфейс «изображение→изображение» с использованием ввода/вывода Base64. В ходе обучения вы получите пошаговые рекомендации по распространению и развертыванию, настройке среды, использованию API-операций CometAPI, информацию о ценах и водяных знаках, а также лучшие советы для получения надежных и экономичных результатов.
Что такое Nano Banana (изображение Gemini 2.5 Flash)?
Nano Banana — неофициальное название Gemini 2.5 Flash Image, новейшей модели изображений от Google в семействе Gemini. Она предназначена как для создания фотореалистичных изображений, так и для точного редактирования (локальное редактирование, слияние нескольких изображений, сохранение символов при редактировании) и доступна через API Gemini от Google, Google AI Studio и Vertex AI. Модель поставляется с невидимым водяным знаком SynthID для подтверждения происхождения.
Почему это важно для разработчиков: Nano Banana предоставляет вам единую высококачественную многомодальную модель, которая может обрабатывать:
- Текст → Изображение (создайте новые изображения по текстовым подсказкам)
- Изображение → Изображение (редактировать/преобразовать предоставленную фотографию)
- Смешивание нескольких изображений (объединить несколько изображений в одно целое)
Все это доступно либо через официальный сайт GooglegenerateContentконечные точки (Vertex AI / Gemini API) или через конечные точки, совместимые с OpenAI, предлагаемые сторонними API-шлюзами, такими как CometAPI и OpenRouter. Это означает, что вы можете интегрировать образ Gemini 2.5 Flash в существующие кодовые базы, совместимые с OpenAI, или напрямую обращаться к официальным SDK Google.
В чем он преуспевает
- Целенаправленные локальные правки (изменение цвета рубашки, удаление объектов, корректировка поз).
- Сохранение единообразия тем и персонажей при повторном редактировании.
- Смешивание/объединение нескольких изображений в единое целое.
- Низкая задержка и экономичный вывод по сравнению с более сложными исследовательскими моделями (Google позиционирует модели «Flash» как высокопроизводительные варианты).
Как настроить среду разработки для вызова Nano Banana через API?
Ниже приведен пошаговый контрольный список, который можно использовать в качестве основы для любого из трех методов вызова, описанных далее.
Предпосылки (учетные записи, ключи, квота)
- Аккаунт Google + Облачный проект — Если вы планируете обращаться к Gemini напрямую через Google (Gemini API/Vertex AI), создайте проект Google Cloud и включите API Vertex AI/Gemini. Вам потребуется настроить биллинг и соответствующие роли (например,
Vertex AI AdminorService Accountс правами вывода). - Доступ к API Gemini — Некоторые модели изображений Gemini доступны только в режиме предварительного просмотра/ограниченно; вам может потребоваться запросить доступ или использовать модель через Google AI Studio или Vertex AI в зависимости от вашей учетной записи.
- CometAPI (дополнительный шлюз) — Если вы предпочитаете единый API, не зависящий от поставщика и способный проксировать различные модели (включая Gemini), зарегистрируйтесь в CometAPI, чтобы получить ключ API и ознакомиться со списком моделей (они предлагают варианты Gemini 2.5 Flash и конечную точку, совместимую с OpenAI). CometAPI упрощает разработку и позволяет менять поставщиков без изменения кода приложения.
Локальный инструментарий
- Среды выполнения языка: рекомендуется Node.js 18+, Python 3.10+.
- HTTP-клиент:
fetch/axiosдля JS;requests/httpxдля Python (или официальных SDK). - Помощники по работе с изображениями:
Pillow(Python) илиsharp(Узел) для изменения размера, преобразования формата и кодирования/декодирования Base64. - Безопасность.: храните ключи в переменных среды или в хранилище секретов (HashiCorp Vault, AWS Secrets Manager, Google Secret Manager). Никогда не фиксируйте ключи API.
Установите Google/совместимый SDK (необязательно)
Google предоставляет SDK и openai Прокладки совместимости библиотек — вы можете использовать клиентские библиотеки OpenAI для Gemini, изменив несколько строк (базовый URL + ключ API), но для полноценной реализации мультимодальных функций рекомендуется использовать нативный клиент Gemini/Google. При использовании CometAPI или шлюза, совместимого с OpenAI, использование клиента OpenAI может ускорить разработку. Примеры:
Официальный маршрут Google (Python):
python -m venv venv && source venv/bin/activate
pip install --upgrade pip
pip install google-genai # official Google GenAI SDK
pip install Pillow requests jq # for local image handling in examples
Клиент, совместимый с CometAPI / OpenAI (Python):
pip install openai requests
Как выбрать один из трех методов вызова Nano Banana?
Выбор метода вызова зависит от вашей архитектуры, требований к задержке/стоимости, а также от того, хотите ли вы использовать официальную конечную точку Google или сторонний шлюз, совместимый с OpenAI. Существует три распространённых шаблона:
1) Интерфейс чата, совместимый с OpenAI (текст в изображение)
Используйте этот вариант, если у вас уже есть код или SDK в стиле OpenAI и вы хотите переключить модели с минимальными изменениями. Многие шлюзы (CometAPI, OpenRouter) предоставляют модели Gemini в REST-среде, совместимой с OpenAI, поэтому ваши существующие chat or completions звонки работают просто с другим base_url и название модели. Зачастую это самый быстрый путь к производству, если вы не хотите управлять авторизацией Google Cloud.
2) Близнецы-официальные generateContent — текст в изображение
Используйте официальный Google generateContent через genai Клиент (Google) или Vertex AI, если вам нужен официальный SDK с полной поддержкой и доступом к новейшим функциям (настраиваемые параметры генерации, потоковая передача, файловый API для больших ресурсов), а также к биллингу и мониторингу Google Cloud. Рекомендуется использовать этот вариант, если вам требуется поддержка производства и средства управления корпоративного уровня.
3) Близнецы-официальные generateContent — изображение в изображение (ввод/вывод Base64)
Используйте этот метод, когда вам необходимо отправлять двоичные изображения в формате встроенного кода (Base64) или вы хотите редактировать изображения или преобразовывать их в изображения. Google generateContent Поддерживает встроенные изображения (base64) и файловый API для больших или повторно используемых ресурсов. Ответы для сгенерированных/отредактированных изображений обычно возвращаются в виде строк Base64, которые вы декодируете и сохраняете. Это обеспечивает наиболее точный мультимодальный контроль.
Как вызвать Nano Banana через совместимый с OpenAI интерфейс чата (текст в изображение)?
Конечная точка чата, совместимая с OpenAI, принимает последовательность {role, content} сообщения; вы описываете, какое изображение хотите получить в сообщении пользователю, а шлюз (CometAPI или оболочка совместимости с OpenAI) преобразует это в вызов базовой модели Gemini. Это удобно, если ваше приложение уже использует потоки чата или вы хотите объединить генерацию текста и генерацию изображений в одном сообщении.
Шаги
1.Зарегистрируйтесь в CometAPI и получите ключ API: Зарегистрируйтесь в CometAPI, создайте проект, скопируйте свой ключ API. CometAPI предоставляет доступ ко множеству моделей, стоящих за одним base_url. ()
-
Установить клиент, совместимый с OpenAI: Питон:
pip install openaiили используйте более новуюopenai/OpenAIОболочка SDK, используемая многими шлюзами. -
Укажите SDK на CometAPI и вызовите конечную точку завершения чата.:
curl https://api.cometapi.com/v1/chat/completions \
-H "Authorization: Bearer $COMET_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gemini-2-5-flash-image-preview",
"stream": true,
"messages": [{"role": "user",
"content": "Generate a cute kitten sitting on a cloud, in a cartoon style"}]
}'
Примечание:
-
stream должен быть истинным; ответ будет возвращен как stream;
-
Структура ответа обернута в CometAPI для совместимости с OpenAI.
-
Ответ включает изображение Base64; при необходимости декодируйте и сохраните его на клиенте:
Как я могу вызвать Nano Banana с помощью официального приложения Gemini? generateContent интерфейс преобразования текста в изображение?
Google предоставляет API разработчика Gemini (API Gemini), а также предоставляет модели Gemini через Вершинный ИИДля программного доступа к образу Gemini 2.5 Flash (Nano Banana) поддерживаемым способом, официальный generateContent Метод является канонической точкой входа для генерации только текста или мультимодальных данных. Используйте Google GenAI SDK (Питон: google-genai) или вызвать конечную точку REST напрямую. Это обеспечивает прямой доступ к параметрам и модальностям модели и является рекомендуемым способом использования расширенных функций (точного редактирования, слияния нескольких изображений) при вызове конечных точек Google.
1.Используйте Google GenAI SDK (Питон: google-genai)
Этапы распространения/звонка (обзор):
- Получите ключ API из Google AI Studio или создайте учетную запись службы Vertex AI (в зависимости от платформы).
- Установить SDK (
pip install --upgrade google-genai) и выполнить аутентификацию (ключ API или учетные данные приложения Google по умолчанию). - Выберите модель:
gemini-2.5-flash-imageили предварительный заголовок, показанный в документах (точный заголовок зависит от состояния GA/предварительного просмотра). - Позвонить
client.models.generate_content(...)с простой текстовой подсказкой (текст в изображение). - раскодировать возвращенные изображения (если возвращено Base64) и сохранить/сохранить.
Пример Python (официальный клиент) — текст→изображение:
from google import genai
from base64 import b64decode, b64encode
client = genai.Client(api_key="YOUR_GEMINI_KEY")
prompt = {
"content": "A hyperrealistic photo of a vintage motorcycle parked under neon lights at midnight",
"mime_type": "text/plain"
}
# request generateContent for image output
result = client.generate_content(
model="gemini-2-5-flash-image-preview",
prompt=prompt,
response_modalities=,
image_format="PNG",
)
# handle binary or base64 in response (depends on API mode)
(Примечание: проверьте официальный клиентский API на предмет точных названий параметров — приведенные выше примеры соответствуют шаблонам в документах Google.)
2. Вызов Нано Банан через конечную точку REST
Конечная точка EST (пример преобразования текста в изображение): https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent.
Варианты аутентификации: заголовок поставки x-goog-api-key: $CometAPI_API_KEY. (Создайте ключ в CometAPI.)
Это отправит текстовое приглашение и сохранит возвращенное изображение base64:
curl -s -X POST \
"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [
{ "text": "A photorealistic nano banana dish plated in a stylish restaurant, cinematic lighting, 3:2 aspect ratio" }
]
}]
}' \
| jq -r '.candidates.content.parts[] | select(.inline_data) | .inline_data.data' \
| base64 --decode > gemini-image.png
Примечания: Двоичный файл изображения возвращается в формате base64.
candidates.content.parts.inline_data.dataВ примере выше используетсяjqдля извлечения встроенных данных и их декодирования. В официальной документации показан тот же процесс.
Как я могу вызвать Nano Banana с помощью официального приложения Gemini? generateContent Интерфейс «изображение-изображение» (вход/выход Base64)?
Когда следует использовать преобразование образа в образ (вход/выход base64)?
Используйте функцию «изображение в изображение», когда вам необходимо:
- Редактирование существующей фотографии (закрашивание, перенос стиля, замена объектов).
- Объедините несколько исходных изображений в единую композицию.
- Сохранение идентичности объекта при каждом редактировании (одно из преимуществ Nano Banana).
Близнецы generateContent Поддерживает встроенные данные изображений через Base64 (или как URI файлов) и возвращает сгенерированные или отредактированные изображения в виде строк Base64. В документации приведены подробные примеры предоставления inline_data mime_type и data.
Этапы распространения/звонка (от изображения к изображению)
- Подготовить входные изображения: чтение байтов файла, кодирование Base64 или передача необработанных байтов через помощник SDK.
- Строить a
contentsмассив, где одна часть — это встроенное изображение (сmimeTypeиdata) и последующие части включают инструкции по редактированию текста. - POST в
generateContent(официальный SDK или REST). - Получаете Ответ: API возвращает сгенерированные/отредактированные изображения, закодированные в виде строк Base64. Декодируйте и сохраните их локально.
Пример — Python (преобразование изображения в изображение с использованием встроенных байтов через GenAI SDK)
# pip install google-genai
from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="YOUR_GOOGLE_API_KEY")
# Read local image
with open("input_photo.jpg", "rb") as f:
img_bytes = f.read()
# Using SDK helper to attach bytes as a part
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[
types.Part.from_bytes(
data=img_bytes,
mime_type="image/jpeg"
),
"Make a high-quality edit: change the subject's jacket color to teal, keep natural lighting and preserve the person's facial features."
],
)
# The returned image will typically be in response.candidates[].content.parts with base64-encoded data
# Decode and save (pseudo-access shown; check SDK response structure)
b64_out = response.candidates.content.parts.data # example path
with open("edited.jpg","wb") as out:
out.write(base64.b64decode(b64_out))
Пример Python: изображение→изображение с использованием Base64 через точку покоя
import base64, json, requests
API_URL = "https://api.gemini.googleapis.com/v1/generateContent"
API_KEY = "YOUR_GEMINI_KEY"
# read and base64-encode image
with open("input.jpg","rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
payload = {
"model": "gemini-2-5-flash-image-preview",
"input": [
{"mime_type": "image/jpeg", "bytes_base64": b64},
{"mime_type": "text/plain", "text": "Remove the lamppost and make the sky golden at sunset."}
],
"response_modalities":
}
resp = requests.post(API_URL, headers={"Authorization":f"Bearer {API_KEY}", "Content-Type":"application/json"}, json=payload)
resp.raise_for_status()
data = resp.json()
# data.candidates... may contain image base64 — decode and save
out_b64 = data
with open("edited.png","wb") as out:
out.write(base64.b64decode(out_b64))
Если вы хотите получить к нему доступ через REST-порт CometAPI:
curl
--location
--request POST "https://api.CometAPI.com/v1beta/models/gemini-2.5-flash-image-preview:generateContent" ^
--header "Authorization: sk-" ^
--header "User-Agent: Apifox/1.0.0 (https://apifox.com)" ^
--header "Content-Type: application/json" ^
--header "Accept: */*" ^
--header "Host: api.CometAPI.com" ^
--header "Connection: keep-alive" ^
--data-raw "{ \"contents\": } ], \"generationConfig\": { \"responseModalities\": }}"
Для встроенного: прочитайте изображение и закодируйте его в формате base64. Для повторного использования или объёма более 20 МБ загрузите через File API и укажите дескриптор файла в
generateContent.Лучший вариант для точного редактирования и рабочих процессов, требующих ввода изображений и текстовых инструкций по редактированию.
Каковы лучшие советы по работе с Nano Banana?
Оперативное проектирование и контроль
- Будьте явными: укажите желаемое соотношение сторон, стилистические характеристики (имена художников можно указывать только по возможности), объектив камеры, освещение и композицию. Например, «Фотореалистично, 3:2, малая глубина резкости, золотой час, объектив Nikon 50 мм».
- Используйте последовательное редактирование: предпочитайте небольшие локальные правки в несколько проходов крупным одиночным подсказкам — это сохраняет единообразие сюжета. Преимущество Nano Banana — итеративное редактирование.
Гигиена изображения
- Предварительная обработка входных данных: нормализация цветового пространства, удаление встроенного EXIF, если требуется конфиденциальность, масштабирование до разумных разрешений для экономии токенов.
- Результаты постобработки: запуск распознавания лиц, очистка незначительных артефактов с помощью легких фильтров (Pillow / sharp) перед возвратом пользователям.
Политики безопасности, соответствия и контента
- Реализуйте автоматизированную проверку безопасности контента (модели модерации Vision или проверки по черному списку) перед сохранением/обработкой изображений.
- При загрузке изображений людей соблюдайте применимые законы о конфиденциальности (GDPR/CCPA) и получайте необходимые согласия.
- Соблюдайте политику использования моделей и правила авторского права при запросе защищенных авторским правом персонажей или существующих произведений искусства.
Закрытие заметки
Nano Banana (Gemini 2.5 Flash Image) представляет собой практичный, высококачественный шаг для создания и редактирования мультимодальных изображений: он разработан для обеспечения согласованности при редактировании и более глубокого мультимодального обоснования. Nano Banana (Gemini 2.5 Flash Image) является важным шагом в создании/редактировании изображений, предлагая высокую согласованность для многоэтапного редактирования и множественных поверхностей интеграции (совместимые с OpenAI шлюзы, такие как CometAPI и Google generateContent Для ускорения внедрения такие шлюзы, как CometAPI, позволяют повторно использовать код в стиле OpenAI. Всегда проверяйте ответы на корректность, учитывайте политику в отношении контента и особенности происхождения (SynthID), а также отслеживайте затраты во время итерации.
Первые шаги
CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.
Разработчики могут получить доступ Флэш-изображение Gemini 2.5(список API Nano Banana Comet gemini-2.5-flash-image-preview/gemini-2.5-flash-image (Записи стилей в их каталоге.) через CometAPI, последние версии моделей указаны на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.



