Что такое API GPT-Image-1.5?
GPT-Image-1.5 — новейший представитель семейства OpenAI GPT Image и модель, лежащая в основе обновлённого режима Images в ChatGPT. Она создана для того, чтобы перевести генерацию изображений из разряда экспериментальных новинок в полноценный продакшн-инструмент для творчества: более высокий фотореализм, более точный контроль при итеративном редактировании и более быстрый инференс для интерактивных и корпоративных сценариев.
API gpt-image-1.5 — это конечная точка мультимодальной модели изображений, которая принимает одно или несколько входных изображений (идентификаторы файлов или байты) вместе с текстовым запросом и возвращает сгенерированные или отредактированные изображения. Поддерживаются:
- Генерация изображения по тексту (создание по промпту),
- Редактирование изображений / in-painting / композитинг (применение инструкций к существующим изображениям, допускается несколько входных изображений), и
- Итеративные многошаговые сценарии редактирования через Responses API (позволяет реализовать интерфейсы «подправить и повторить»).
API работает с графическими промптами иначе, чем прежние ограничения DALL·E: модели GPT Image поддерживают значительно более длинные текстовые запросы (рекомендованный предел — 32 тыс. символов), что делает возможными сложные инструкции с большим числом ограничений.
Основные возможности (практически)
- Улучшенная редактируемость / согласованность в многошаговых сценариях: сохраняет внешний вид персонажа, освещение и ключевые визуальные атрибуты при последовательных правках. Это делает сценарии «одна и та же модель, повторные правки» более надёжными для таких задач, как каталоги товаров или брендовые материалы.
- Более высокая пропускная способность — ускорение в 4 раза по сравнению с GPT Image 1, что направлено на снижение задержки в итеративных креативных процессах.
- Оптимизация стоимости — расходы на вход/выход изображений снижены примерно на 20% по сравнению с GPT Image 1, что уменьшает стоимость итераций на изображение для пользователей с большими объёмами.
- Композитинг из нескольких изображений и референсы стиля — можно передавать несколько эталонных изображений для компоновки сцен или переноса стиля/освещения.
- Параметры качества/точности — параметры API, позволяющие выбирать компромисс между скоростью и качеством (более низкое качество для массовой генерации; более высокое — для продакшн-активов).
- Многошаговое редактирование / интеграция с Responses API — позволяет строить пошаговые сценарии (попросить изменения, затем «внести правки» с сохранением состояния).
Технические возможности
- Ограничение текстового промпта (для моделей изображений): до 32 000 символов (OpenAI указывает это как допустимую длину текста для моделей GPT Image). Используйте это для длинных промптов с большим числом ограничений.
- Входные изображения: принимает File ID (предпочтительно для многошаговых сценариев) или сырые байты; для композитинга и референсов можно передавать несколько изображений.
- Выходные данные: PNG/JPEG или артефакты изображений по умолчанию платформы, возвращаемые API (или как вложения в ChatGPT). Результаты могут включать несколько вариантов изображений и поддерживают итеративные запросы для доработки результата.
- Режимы генерации: text-to-image, редактирование изображений (inpaint/extend по инструкциям) и варианты. Многошаговое редактирование поддерживает инструкции в стиле «добавить/убрать/объединить».
- Редактирование с учётом инструкций: модели оптимизированы для точного следования инструкциям (с сохранением заданных инвариантов, таких как «не изменять логотип», «сохранить позу и освещение»). Шаблоны prompt engineering (явное повторение инвариантов на каждой итерации) уменьшают семантический дрейф.
Результаты в бенчмарках
- Позиция в лидерборде: в одном сводном отчёте GPT Image 1.5 заняла первое место в рейтинге text-to-image с ~1264 баллами на лидерборде Artificial Analysis, опередив следующую модель с заметным отрывом.
- Метрики на уровне задач (редактирование и сохранение): в сводке Microsoft Foundry по метрикам оценки указано, что GPT-Image-1.5 достигла почти идеального результата по бинарной успешности модификации (100% в одношаговом BinaryEval) и высоких показателей сохранения лица (около 90% по метрикам AuraFace) в их сравнительной таблице с конкурентами и предыдущими моделями OpenAI. Эти сравнительные метрики показывают, что GPT-Image-1.5 опережает некоторых конкурентов по сохранению и точности редактирования.

Как GPT-Image-1.5 сравнивается с аналогами
- По сравнению с GPT Image 1 (предыдущим поколением OpenAI): быстрее (до 4×), дешевле (~20% ниже стоимость image IO) и лучше по точности редактирования — ориентирована на переход от «прототипа/демо» к «дружелюбным к продакшну» рабочим процессам с изображениями.
- По сравнению с Nano Banana Pro / Gemini image models от Google: GPT-Image-1.5 и Nano Banana Pro / семейство Gemini 3 от Google считаются близкими конкурентами — у каждой модели есть сильные стороны в разных классах промптов. OpenAI делает акцент на точности редактирования и скорости итераций; решения Google в некоторых примерах хвалят за студийный уровень реализма.
- По сравнению с Qwen Image и другими открытыми/закрытыми моделями: GPT-Image-1.5 превосходит Qwen Image по нескольким метрикам редактирования и сохранения в одношаговых оценках, но разница сокращается в многошаговых или других предметно-специфичных тестах.
В чём GPT-Image-1.5 особенно сильна
- Изображения товаров для e-commerce: массовое создание вариантов, замена фона, согласованные товарные каталоги по одной фотографии (с сохранением бренда/логотипа).
- Создание креативов и маркетинговых материалов: быстрые итерации концептов, фотореалистичные мокапы, контролируемый перенос стиля.
- Ретушь фото и редакционные процессы: реалистичная примерка одежды/причёсок, выборочная ретушь с сохранением идентичности и освещения.
- Интеграция в дизайн-инструменты: подключение к дизайн-платформам или CMS для генерации вариантов изображений по запросу (параметры качества помогают контролировать затраты).
- Многоэтапные пайплайны композитинга: несколько входных изображений позволяют выполнять композитинг и генерацию по референсам для сложных сцен.
Как получить доступ к API GPT Image 1.5
Шаг 1: Зарегистрируйтесь и получите API-ключ
Войдите на cometapi.com. Если вы ещё не являетесь нашим пользователем, сначала зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите учётные данные доступа — API-ключ интерфейса. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте его.
Шаг 2: Отправьте запросы к API GPT Image 1.5
Выберите endpoint gpt-image-1.5 для отправки API-запроса и задайте тело запроса. Метод запроса и тело запроса можно получить в API-документации на нашем сайте. На нашем сайте также доступен тест Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш реальный ключ CometAPI из вашей учётной записи. base url — Images (https://api.cometapi.com/v1/images/generations) и [Image Editing]
Вставьте ваш вопрос или запрос в поле content — именно на него модель будет отвечать. Обработайте ответ API, чтобы получить сгенерированный результат.
Шаг 3: Получите и проверьте результаты
Обработайте ответ API, чтобы получить сгенерированный результат. После обработки API возвращает статус задачи и выходные данные.
См. также Gemini 3 Pro Preview API