GPT-5-Codex — это новый, ориентированный на инженерные решения вариант GPT-5 от OpenAI, специально адаптированный для агентной разработки программного обеспечения в рамках семейства продуктов Codex. Он предназначен для решения крупных реальных инженерных задач: создания полноценных проектов с нуля, добавления функций и тестов, отладки, рефакторинга и проведения проверок кода с одновременным взаимодействием с внешними инструментами и наборами тестов. Этот выпуск представляет собой целенаправленное усовершенствование продукта, а не совершенно новую базовую модель: OpenAI интегрировала GPT-5-Codex в Codex CLI, расширение Codex IDE, Codex Cloud, рабочие процессы GitHub и мобильные интерфейсы ChatGPT; API планируется к выпуску, но не сразу.
Что такое GPT-5-Codex и почему он существует?
GPT-5-Codex — это GPT-5, «специализированный для программирования». Вместо того, чтобы быть обычным помощником для разговорной речи, он настроен и обучен с помощью обучения с подкреплением и наборов данных, специфичных для инженерии, для лучшей поддержки итеративных задач программирования с использованием инструментов (например, запуск тестов, итерация ошибок, рефакторинг модулей и соблюдение соглашений о PR). OpenAI позиционирует его как преемника более ранних разработок Codex, но построенного на основе GPT-5 для повышения глубины анализа больших кодовых баз и более надёжного выполнения многоэтапных инженерных задач.
Мотивация практическая: рабочие процессы разработчиков всё больше зависят от агентов, способных на большее, чем просто предложения отдельных фрагментов кода. Адаптируя модель к циклу «создать → запустить тесты → исправить → повторить» и PR-нормам организации, OpenAI стремится создать ИИ, который будет восприниматься как член команды, а не как источник разовых дополнений. Этот переход от «создать функцию» к «поставить функцию» и составляет уникальную ценность модели.
Как устроена и обучена GPT-5-Codex?
Высокоуровневая архитектура
GPT-5-Codex — это вариант архитектуры GPT-5 (более широкая линейка GPT-5), а не полностью новая архитектура. Это означает, что она наследует базовую архитектуру GPT-5, основанную на трансформаторах, её возможности масштабирования и улучшенные функции логического вывода, но добавляет специфичное для Codex обучение и тонкую настройку на основе обучения с подкреплением, ориентированную на задачи программной инженерии. В дополнении OpenAI GPT-5-Codex описывается как обученная на сложных инженерных задачах реального мира, и особое внимание уделяется обучению с подкреплением в средах, где код выполняется и проверяется.
Как проводилось обучение и оптимизация кода?
В программе обучения GPT-5-Codex особое внимание уделяется реальные инженерные задачи. Он использует тонкую настройку в стиле обучения с подкреплением на наборах данных и средах, созданных на основе реальных рабочих процессов разработки программного обеспечения: многофайлового рефакторинга, PR-диффов, запуска наборов тестов, сеансов отладки и сигналов проверки человеком. Цель обучения — максимизировать корректность при редактировании кода, прохождении тестов и создании высокоточных и релевантных комментариев. Именно эта направленность отличает Codex от обычной тонкой настройки, ориентированной на чат: функции потерь, инструменты оценки и сигналы вознаграждения согласованы с результатами разработки (прохождение тестов, корректные диффы, меньше ложных комментариев).
Как выглядит «агентское» обучение
- Тонкая настройка на основе исполнения: Модель обучается в условиях, когда сгенерированный код выполняется, тестируется и оценивается. Обратная связь формируется на основе результатов тестирования и сигналов о предпочтениях пользователя, что позволяет модели итерироваться до тех пор, пока набор тестов не будет пройден.
- Обучение с подкреплением на основе обратной связи с человеком (RLHF): По духу похоже на предыдущую работу RLHF, но применяется к многоэтапным задачам кодирования (создание PR, запуск тестов, исправление сбоев), поэтому модель обучается назначению временного кредита в течение последовательности действий.
- Контекст масштаба репозитория: Обучение и оценка включают в себя большие репозитории и рефакторинги, помогающие модели изучать межфайловые рассуждения, соглашения об именовании и воздействия на уровне кодовой базы. ()
Каким образом GPT-5-Codex обрабатывает использование инструментов и взаимодействие с окружающей средой?
Ключевой архитектурной особенностью модели является улучшенная способность вызывать и координировать инструменты. Codex исторически объединял выходные данные модели с небольшой системой среды выполнения/агента, которая может запускать тесты, открывать файлы и вызывать поиск. GPT-5-Codex расширяет эту возможность, обучаясь, когда вызывать инструменты, и лучше интегрируя обратную связь по тестам в последующую генерацию кода, фактически замыкая цикл между синтезом и верификацией. Это достигается путём обучения на траекториях, где модель как выполняет действия (например, «запустить тест X»), так и обуславливает последующие генерации на основе выходных данных теста и различий.
Что же на самом деле может GPT-5-Codex и каковы его возможности?
Одной из определяющих инноваций продукта является длительность адаптивного мышленияGPT-5-Codex корректирует объём выполняемых скрытых рассуждений: тривиальные запросы выполняются быстро и экономично, в то время как сложные рефакторинги или длительные задачи позволяют модели «думать» гораздо дольше. В то же время, для небольших интерактивных этапов модель потребляет гораздо меньше токенов, чем универсальный экземпляр GPT-5, экономя 93.7% токенов (включая вывод и выходные данные) по сравнению с GPT-5. Эта стратегия переменного рассуждения предназначена для получения быстрых ответов при необходимости и глубокого, тщательного выполнения при необходимости.
Основные возможности
- Генерация и начальная загрузка проекта: Создавайте целые скелеты проектов с CI, тестами и базовой документацией из высокоуровневых подсказок.
- Агентное тестирование и итерация: Генерируйте код, запускайте тесты, анализируйте сбои, исправляйте код и перезапускайте его до тех пор, пока тесты не пройдут успешно, эффективно автоматизируя части цикла редактирования → тестирования → исправления, выполняемого разработчиком.
- Масштабный рефакторинг: Выполнять систематический рефакторинг множества файлов, сохраняя при этом поведение и тесты. Это заявленная область оптимизации GPT-5-Codex по сравнению с общим GPT-5.
- Проверка кода и генерация PR: Создавайте описания PR, предлагаемые изменения с различиями и комментарии к обзору, которые соответствуют соглашениям проекта и ожиданиям рецензентов.
- Рассуждения о коде в большом контексте: Лучше ориентироваться и рассуждать о многофайловых кодовых базах, графах зависимостей и границах API по сравнению с общими моделями чата.
- Визуальные входы и выходы: При работе в облаке GPT-5-Codex может принимать изображения/скриншоты, визуально контролировать ход выполнения и прикреплять визуальные артефакты (скриншоты созданного пользовательского интерфейса) к задачам — практическое преимущество для отладки front-end и визуального контроля качества.
Интеграция редактора и рабочего процесса
Codex глубоко интегрирован в рабочие процессы разработчиков:
- Кодекс CLI — взаимодействие с терминалом, поддержка снимков экрана, отслеживания задач и утверждения агентами. Интерфейс командной строки (CLI) имеет открытый исходный код и оптимизирован для рабочих процессов кодирования агентов.
- Расширение Codex IDE — встраивает агент в VS Code (и его ответвления), чтобы вы могли просматривать локальные различия, создавать облачные задачи и перемещать работу между облачным и локальным контекстами с сохраненным состоянием.
- Codex Cloud / GitHub — облачные задачи можно настроить на автоматическую проверку PR, создание временных контейнеров для тестирования и прикрепление журналов задач и снимков экрана к потокам PR.
Известные ограничения и компромиссы
- Узкая оптимизация: Некоторые некодирующие производственные оценки немного ниже для GPT-5-Codex, чем для общего варианта GPT-5 — напоминание о том, что специализация может идти в ущерб общности.
- Тестовая надежность: Поведение агентов зависит от доступных автоматизированных тестов. Кодовые базы с недостаточным тестовым покрытием будут иметь ограничения при автоматической проверке и могут потребовать человеческого контроля.
С какими задачами GPT-5-Codex справляется особенно хорошо или плохо?
Хорошо справляется с: сложные рефакторинги, создание каркаса для крупных проектов, написание и исправление тестов, следование ожиданиям PR и диагностика проблем во время выполнения нескольких файлов.
Менее хорош в: Задачи, требующие актуальных или внутренних знаний, не предоставляемых в рабочей среде, или задачи, требующие высокой степени уверенности в корректности без участия человека (системы, критически важные для безопасности, по-прежнему нуждаются в экспертах). Независимые обзоры также отмечают неоднозначную картину качества исходного кода по сравнению с другими специализированными моделями кодирования — преимущества агентных рабочих процессов не всегда приводят к лучшей в своем классе корректности во всех бенчмарках.
Что показывают тесты производительности GPT-5-Codex?
SWE-bench / SWE-bench VerifiedOpenAI заявляет, что GPT-5-Codex превосходит GPT-5 в тестах агентного кодирования, таких как SWE-bench Verified, и демонстрирует прирост производительности при рефакторинге кода, взятого из крупных репозиториев. В наборе данных SWE-bench Verified, содержащем 500 реальных задач по программной инженерии, GPT-5-Codex достиг показателя успешности 74.5%. Это превышает показатель GPT-5 в 72.8% в том же тесте, что подтверждает улучшенные возможности агента. 500 задач программирования из реальных проектов с открытым исходным кодом. Ранее можно было протестировать только 477 задач, но теперь можно протестировать все 500 задач → более полные результаты.

От более ранних настроек GPT-5 к GPT-5-Codex, оценки рефакторинга кода существенно выросли — такие цифры, как сдвиг с ~34% до ~51% по конкретной метрике рефакторинга с высокой детализацией, были отмечены в ранних анализах). Эти достижения имеют значение, поскольку они отражают улучшение большие, реалистичные рефакторинги а не игрушечные примеры — но остаются оговорки относительно воспроизводимости и точного набора тестовых данных.
Как разработчики и команды могут получить доступ к GPT-5-Codex?
OpenAI внедрила GPT-5-Codex в интерфейсы продуктов Codex: он доступен везде, где Codex работает сегодня (например, в интерфейсе командной строки Codex и интегрированных интерфейсах Codex). Для разработчиков, использующих Codex через интерфейс командной строки и вход через ChatGPT, обновлённый интерфейс Codex предоставит доступ к модели GPT-5-Codex. OpenAI заявила, что модель скоро станет доступна в более широком API для тех, кто использует ключи API, но на момент первоначального внедрения основным путём доступа являются инструменты Codex, а не общедоступная конечная точка API.
Кодекс CLI
Включите Codex для проверки черновиков PR в изолированном репозитории, чтобы вы могли оценить качество комментариев без риска. Используйте режимы одобрения осторожно.
- Переработан с учетом рабочего процесса агентного кодирования.
- Поддержка прикрепления изображений (таких как каркасы, проекты и снимки экрана ошибок пользовательского интерфейса) обеспечивает контекст для моделей.
- Добавлена функция списка задач для отслеживания хода выполнения сложных задач.
- Предоставлена поддержка внешних инструментов (веб-поиск, подключение к MCP).
- Новый интерфейс терминала улучшает вызов инструментов и форматирование различий, а режим разрешений был упрощен до трех уровней (только чтение, автоматический и полный доступ).

Расширение IDE
Интеграция в рабочие процессы IDE: Добавьте расширение Codex IDE для разработчиков, которым нужны встроенные предварительные просмотры и ускоренная итерация. Перенос задач между облаком и локальной средой с сохранением контекста может снизить сложность при работе со сложными функциями.
- Поддерживает VS Code, Cursor и многое другое.
- Вызовите Codex непосредственно из редактора, чтобы использовать контекст текущего открытого файла и кода для получения более точных результатов.
- Легко переключайте задачи между локальной и облачной средами, сохраняя контекстную непрерывность.
- Просматривайте и работайте с результатами облачных задач прямо в редакторе, не переключая платформы.

Интеграция с GitHub и облачные функции
- Автоматизированный обзор PR: автоматически запускает процесс перехода от стадии черновика к стадии готовности.
- Позволяет разработчикам запрашивать целевые обзоры непосредственно в разделе @codex PR.
- Значительно более быстрая облачная инфраструктура: сокращение времени ответа на задачи на 90% за счет кэширования контейнеров.
- Автоматизированная настройка среды: выполняет сценарии установки и устанавливает зависимости (например, pip install).
- Автоматически запускает браузер, проверяет реализацию front-end и прикрепляет снимки экрана к задачам или PR.

Каковы соображения безопасности, надежности и ограничений?
OpenAI подчеркивает важность многоуровневой защиты агентов Codex:
- Обучение на уровне модели: целевое обучение технике безопасности, направленное на то, чтобы противостоять поспешным инъекциям и ограничить вредное или высокорискованное поведение.
- Контроль на уровне продукта: Изолированное поведение по умолчанию, настраиваемый сетевой доступ, режимы одобрения для запуска команд, журналы терминала и ссылки для отслеживания, а также возможность требовать одобрения человеком для выполнения конфиденциальных действий. OpenAI также опубликовала «дополнение к системной карте», описывающее эти меры и их оценку рисков, особенно для возможностей биологической и химической областей.
Эти элементы управления отражают тот факт, что агент, способный выполнять команды и устанавливать зависимости, имеет реальную поверхность атаки и риск — подход OpenAI заключается в объединении обучения модели с ограничениями продукта для предотвращения нецелевого использования.
Каковы известные ограничения?
- Не заменяет рецензентов-людей: OpenAI настоятельно рекомендует Codex в качестве дополнительный Рецензент, а не замена. Человеческий контроль остаётся критически важным, особенно при принятии решений в области безопасности, лицензирования и архитектуры.
- Контрольные показатели и заявления требуют внимательного прочтения: Рецензенты отметили различия в подмножествах оценки, настройках детализации и компромиссах затрат при сравнении моделей. Результаты раннего независимого тестирования неоднозначны: Codex демонстрирует значительное улучшение агентного поведения и рефакторинга, но относительная точность по сравнению с другими поставщиками варьируется в зависимости от бенчмарка и конфигурации.
- Галлюцинации и неадекватное поведение: Как и все программы магистратуры по управлению правами (LLM), Codex может давать сбои (придумывать URL-адреса, искажать графики зависимостей), и его многочасовые запуски агентов могут по-прежнему давать сбои в крайних случаях. Ожидайте подтверждения результатов с помощью тестов и проверки человеком.
Каковы более широкие последствия для разработки программного обеспечения?
GPT-5-Codex демонстрирует зрелый сдвиг в дизайне LLM: вместо того, чтобы просто улучшать возможности чистого языка, поставщики оптимизируют поведение для длительных агентских задач (многочасовое выполнение, разработка через тестирование, интегрированные конвейеры проверки). Это меняет единицу производительности с одного сгенерированного фрагмента на завершение задачи — способность модели принимать тикет, выполнять набор тестов и итеративно создавать проверенную реализацию. Если эти агенты станут надёжными и хорошо управляемыми, они изменят рабочие процессы (уменьшатся объёмы ручной рефакторинга, сократятся циклы PR, время разработчиков будет сосредоточено на дизайне и стратегии). Однако такой переход требует тщательного проектирования процессов, человеческого контроля и управления безопасностью.
Заключение — Что следует вынести?
GPT-5-Codex — это целенаправленный шаг к инженерного класса LLM: вариант GPT-5, обученный, настроенный и улучшенный для работы в качестве эффективного агента кодирования в экосистеме Codex. Он обеспечивает ощутимые новые возможности — адаптивное время рассуждений, длительные автономные прогоны, интегрированное выполнение в изолированной среде и целенаправленные улучшения в процессе проверки кода — сохраняя при этом привычные ограничения языковых моделей (необходимость человеческого контроля, нюансы оценки и периодические галлюцинации). Для команд разумный путь — это взвешенные эксперименты: пилотирование на безопасных репозиториях, мониторинг метрик результатов и постепенное включение агента в рабочие процессы рецензентов. По мере расширения доступа к API OpenAI и появления сторонних бенчмарков следует ожидать более четких сравнений и более конкретных рекомендаций по стоимости, точности и передовым практикам управления.
Первые шаги
CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Google Gemini, Claude, Midjourney, Suno от Anthropic и другие, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или аналитические конвейеры на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.
Разработчики могут получить доступ API GPT-5-Codex Последние модели CometAPI, перечисленные в CometAPI, актуальны на дату публикации статьи. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API.
