Что такое GPT-5.1-Codex-Max?
GPT-5.1-Codex-Max — это модель семейства Codex, настроенная и специально созданная для агентных рабочих процессов программирования — то есть для автономных многошаговых инженерных задач, таких как рефакторинг на уровне репозитория, длительные сеансы отладки, многочасовые циклы работы агента, ревью кода и программное использование инструментов. Она предназначена для рабочих процессов разработчиков, где модель должна:
- Сохранять состояние на протяжении множества правок и взаимодействий;
- Работать с инструментами и терминалом (запускать тесты, компилировать, устанавливать зависимости, выполнять команды git) как часть автоматизированной цепочки;
- Создавать патчи, запускать тесты и предоставлять отслеживаемые журналы и ссылки-цитаты для результатов
Основные возможности
- Сжатие и многоконтекстные окна: Изначально обучена сжимать историю и согласованно работать через несколько контекстных окон, обеспечивая непрерывность на уровне проекта.
- Агентное использование инструментов (терминал + инструменты): Улучшенные возможности для выполнения последовательностей команд в терминале, установки/сборки/тестирования и реакции на вывод программ.
- Более высокая эффективность по токенам: Спроектирована так, чтобы распределять токены более эффективно для небольших задач и использовать более длинные циклы рассуждения для сложных задач.
- Рефакторинг и крупные правки: Лучше справляется с кросс-файловым рефакторингом, миграциями и патчами на уровне всего репозитория (внутренние оценки OpenAI).
- Режимы интенсивности рассуждения: Новые уровни усилия рассуждения для более длительного вычислительно затратного анализа (например, Extra High /
xhighдля задач, нечувствительных к задержке).
Технические возможности (в чем она особенно хороша)
- Долгосрочный рефакторинг и итеративные циклы: может поддерживать многочасовые (по данным OpenAI, >24 ч во внутренних демонстрациях) сеансы рефакторинга и отладки на уровне проекта, итерируясь, запуская тесты, суммируя сбои и обновляя код.
- Исправление ошибок в реальных условиях: высокая результативность на бенчмарках по внесению патчей в реальные репозитории (SWE-Bench Verified: OpenAI сообщает 77.9% для Codex-Max в настройках xhigh/extra-effort).
- Уверенная работа с терминалом/инструментами: читает логи, вызывает компиляторы/тесты, редактирует файлы, создает PR — то есть функционирует как агент, изначально ориентированный на терминал, с явными и проверяемыми вызовами инструментов.
- Принимаемые входные данные: стандартные текстовые промпты плюс фрагменты кода, снимки репозиториев (через интеграции с инструментами/IDE), скриншоты/окна в интерфейсах Codex там, где доступно зрение, и запросы на вызов инструментов (например, запустить
npm test, открыть файл, создать PR). - Формируемые выходные данные: патчи кода (diff’ы или PR), отчеты о тестах, пошаговые журналы выполнения, объяснения на естественном языке и аннотированные комментарии к ревью кода. При использовании в качестве агента может выдавать структурированные вызовы инструментов и последующие действия.
Производительность в бенчмарках (выбранные результаты и контекст)
- SWE-bench Verified (n=500) — GPT-5.1-Codex (high): 73.7%; GPT-5.1-Codex-Max (xhigh): 77.9%. Эта метрика оценивает реальные инженерные задачи, взятые из GitHub / open-source issue.
- SWE-Lancer IC SWE: GPT-5.1-Codex: 66.3% → GPT-5.1-Codex-Max: 79.9% (OpenAI сообщала об улучшениях в некоторых лидербордах).
- Terminal-Bench 2.0: GPT-5.1-Codex: 52.8% → GPT-5.1-Codex-Max: 58.1% (улучшения в оценках интерактивной работы с терминалом/инструментами).
Ограничения и типичные сбои
- Риск двойного назначения / кибербезопасность: Повышенные возможности по работе с терминалом и запуску инструментов вызывают опасения, связанные с двойным назначением (модель может помогать как в защитной, так и в наступательной работе по безопасности); OpenAI подчеркивает поэтапный контроль доступа и мониторинг.
- Не идеально детерминирована и не всегда корректна: Даже при более сильных инженерных показателях модель может предлагать неверные патчи или упускать тонкие семантические особенности кода (ложноположительные/ложноотрицательные результаты при обнаружении ошибок), поэтому человеческая проверка и CI-тестирование по-прежнему необходимы.
- Компромиссы по стоимости и задержке: Режимы с высоким усилием (xhigh) потребляют больше вычислительных ресурсов/времени; длительные многочасовые циклы агента расходуют кредиты или бюджет. Планируйте затраты и лимиты запросов. ([OpenAI开发者][2])
- Гарантии контекста против фактической непрерывности: Сжатие помогает сохранять непрерывность проекта, но точные гарантии того, какие токены сохраняются и как сжатие влияет на редкие пограничные случаи, не заменяют версионируемые снимки репозитория и воспроизводимые пайплайны. Используйте сжатие как помощника, а не как единственный источник истины.
Сравнение с Claude Opus 4.5 и Gemini 3 Pro(high level)
- Anthropic — Claude Opus 4.5: По данным сообщества и бенчмарков в прессе, Opus 4.5 обычно немного опережает Codex-Max по чистой точности исправления ошибок (SWE-Bench), с сильными сторонами в научной оркестрации и очень лаконичными, экономными по токенам ответами. Opus часто стоит дороже за токен, но на практике может быть более токеноэффективным. Преимущество Codex-Max — долгосрочное сжатие контекста, интеграция с терминальными инструментами и экономичность при длительных агентных запусках.
- Семейство Google Gemini (3 Pro и др.): Варианты Gemini остаются сильными в мультимодальных и общих reasoning-бенчмарках; в области программирования результаты зависят от тестового окружения. Codex-Max специально создан для агентного программирования и интегрируется с рабочими процессами DevTool так, как модели общего назначения по умолчанию не интегрируются.
Как получить доступ и использовать GPT-5.1 Codex Max API
Шаг 1: Зарегистрируйтесь и получите API-ключ
Войдите на cometapi.com. Если вы еще не являетесь нашим пользователем, сначала зарегистрируйтесь. Войдите в свою консоль CometAPI. Получите учетные данные доступа — API-ключ интерфейса. Нажмите “Add Token” в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте его.
Шаг 2: Отправьте запросы в GPT-5.1-Codex-Max API
Выберите endpoint “ gpt-5.1-codex-max”, чтобы отправить API-запрос, и задайте тело запроса. Метод запроса и тело запроса можно получить из API-документации на нашем сайте. Наш сайт также предоставляет тестирование через Apifox для вашего удобства. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из вашей учетной записи. Разработчики вызывают это через endpoint’ы Responses API / Chat.
Вставьте свой вопрос или запрос в поле content — именно на него модель будет отвечать. Обработайте ответ API, чтобы получить сгенерированный ответ.
Шаг 3: Получите и проверьте результаты
Обработайте ответ API, чтобы получить сгенерированный ответ. После обработки API возвращает статус задачи и выходные данные.