O

GPT Image 1.5

Ввод:$6.4/M
Вывод:$25.6/M
GPT-Image-1.5 — это модель OpenAI для изображений в семействе GPT Image . Это нативно мультимодальная модель GPT, предназначенная для генерации изображений по текстовым подсказкам и выполнения высокоточного редактирования входных изображений при точном следовании инструкциям пользователя.
Новый
Коммерческое использование

Что такое API GPT-Image-1.5?

GPT-Image-1.5 — новейший представитель семейства GPT Image от OpenAI и модель, лежащая в основе обновленного опыта Images в ChatGPT. Она создана, чтобы вывести генерацию изображений из разряда экспериментальной новизны в производственные креативные инструменты: более высокая фотореалистичность, тонкий контроль для итеративных правок и более быстрое инференс-время для интерактивных и корпоративных сценариев.

gpt-image-1.5 API — это мультимодальная конечная точка для моделей изображений, которая принимает одно или несколько изображений (идентификаторы файлов или байты) плюс текстовый промпт и возвращает сгенерированные или отредактированные изображения. Поддерживает:

  • Генерацию по тексту (создание по промпту),
  • Редактирование изображений / инпейтинг / композитинг (применение инструкций к существующим изображениям, допускается несколько входных изображений), и
  • Итеративные, многошаговые рабочие процессы редактирования через Responses API (возможны интерфейсы «подправить и повторить»).

API по‑другому обрабатывает подсказки с изображениями по сравнению с прежними ограничениями DALL·E: модели GPT для изображений принимают значительно более длинные текстовые промпты (рекомендация — до 32 тыс. символов), что делает возможными сложные инструкции с множеством ограничений.

Основные возможности (практические)

  • Улучшенная редактируемость / согласованность в нескольких итерациях: сохраняет внешний вид персонажей, освещение и ключевые визуальные атрибуты между итеративными правками. Это делает «одна и та же модель, повторяющиеся правки» более надежным подходом для сценариев вроде товарных каталогов или бренд‑активов.
  • Более высокая пропускная способностьприрост скорости до 4× по сравнению с GPT Image 1, нацеленный на снижение задержки в итеративных креативных рабочих процессах.
  • Оптимизация стоимости — стоимость ввода/вывода изображений снижена примерно на 20% по сравнению с GPT Image 1, уменьшая цену итерации на изображение для пользователей с большим объемом.
  • Мультикомпозитинг и референс‑стили — прием нескольких референс‑изображений для композитинга сцен или переноса стиля/освещения.
  • Регуляторы качества/детализации — параметры API, позволяющие балансировать скорость и качество (нижнее качество — для пакетной генерации; более высокое — для продакшн‑активов).
  • Многошаговое редактирование / интеграция с Responses API — поддерживает поэтапные сценарии (сначала запросить изменения, затем «внести правки» с сохранением состояния).

Технические возможности

  • Лимит текста в промпте (модели изображений): до 32 000 символов (примечание: в документации OpenAI это указано как допустимая длина текста для моделей изображений GPT). Используйте для длинных промптов с множеством ограничений.
  • Входы изображений: принимает ID файлов (предпочтительно для многошаговых сценариев) или сырые байты; возможно предоставить несколько изображений для композитинга и референсов.
  • Выходы: PNG/JPEG или артефакты изображений по умолчанию платформы, возвращаемые API (или как вложения в ChatGPT). Возможна выдача нескольких кандидатных изображений и итеративные запросы для уточнения результата.
  • Режимы генерации: текст→изображение, редактирование изображений (инпейтинг/расширение с инструкциями) и варианты. Многошаговое редактирование поддерживает инструкции типа «добавить/удалить/объединить».
  • Редактирование с учетом инструкций: модели оптимизированы на соблюдение инструкций (с сохранением оговоренных инвариантов, например «не менять логотип», «сохранить позу и освещение»). Паттерны промт‑инжиниринга (явное повторение инвариантов на каждой итерации) снижают семантический дрейф.

Производительность в бенчмарках

  • Позиция в рейтингах: один сводный отчет отмечает, что GPT Image 1.5 возглавляет рейтинг text‑to‑image с ~1264 points на таблице Artificial Analysis, опережая следующий результат на заметную величину.
  • Метрики на уровне задач (редактирование и сохранение): сводка оценок Microsoft Foundry показывает, что GPT-Image-1.5 достигает почти идеального успеха бинарных модификаций (100% в одношаговом BinaryEval) и высоких показателей сохранения лиц (около 90% по метрикам AuraFace) в сравнительной таблице с конкурентами и предыдущими моделями OpenAI. Эти сравнительные метрики показывают преимущество GPT-Image-1.5 над некоторыми альтернативами в сохранении и точности редактирования.

GPT Image 1.5

Сравнение GPT-Image-1.5 с аналогами

  • По сравнению с GPT Image 1 (предыдущее поколение OpenAI): быстрее (до 4×), дешевле (~20% ниже стоимость ввода/вывода изображений) и с более высокой точностью редактирования — нацелено на переход от «прототипа/демо» к «пригодным для продакшна» конвейерам работы с изображениями.
  • По сравнению с Google’s Nano Banana Pro / моделями изображений Gemini: GPT-Image-1.5 и семейство Google Nano Banana Pro / Gemini 3 — близкие конкуренты, каждый силен на разных классах промптов. Сообщения OpenAI подчеркивают точность редактирования и скорость итераций; предложение Google хвалят за студийный уровень реализма в некоторых примерах.
  • По сравнению с Qwen Image и другими открытыми/закрытыми моделями: GPT-Image-1.5 опережает Qwen Image по ряду метрик редактирования и сохранения в одношаговых оценках, но разрыв сокращается в многошаговых или доменно‑специфичных тестах.

Где GPT-Image-1.5 силен

  • Изображения для электронной коммерции: массовые варианты, замена фона, согласованные каталоги товаров из одного фото (с сохранением бренда/логотипа).
  • Создание креативов и маркетинговых активов: быстрые итерации концептов, фотореалистичные мокапы, контролируемый перенос стиля.
  • Ретушь фото и редакционные процессы: реалистичные примерки одежды/прически, выборочная ретушь с сохранением идентичности и освещения.
  • Интеграция в инструменты дизайна: подключение к платформам дизайна или CMS для он‑деманд вариантов изображений (регуляторы качества помогают контролировать стоимость).
  • Многошаговые конвейеры композитинга: несколько входных изображений позволяют композитинг и генерацию на основе референсов для сложных сцен.

Как получить доступ к GPT Image 1.5 API

Шаг 1: Зарегистрируйтесь, чтобы получить ключ API

Войдите на cometapi.com. Если вы еще не наш пользователь, сначала зарегистрируйтесь. Авторизуйтесь в консоли CometAPI. Получите учетные данные — ключ API интерфейса. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.

Шаг 2: Отправьте запросы в GPT Image 1.5 API

Выберите конечную точку «gpt-image-1.5» для отправки запроса к API и задайте тело запроса. Метод и тело запроса доступны в документации API на нашем сайте. Наш сайт также предоставляет тест в Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из аккаунта. base url is Images (https://api.cometapi.com/v1/images/generations) and [Image Editing]

Вставьте ваш вопрос или запрос в поле content — именно на него модель ответит. Обработайте ответ API, чтобы получить сгенерированный результат.

Шаг 3: Получите и проверьте результаты

Обработайте ответ API, чтобы получить сгенерированный результат. После обработки API вернет статус задачи и выходные данные.

См. также Gemini 3 Pro Preview API

ЧАВО

Больше моделей