ChatGPT-4.5 лучше OpenAI o3?

В начале 2025 года OpenAI представила две значимые модели: GPT-4.5 и серию O3. В то время как GPT-4.5 под кодовым названием «Orion» представляет собой прогресс в области разговорного ИИ, модели O3 предназначены для сложных задач рассуждения и решения проблем. В этой статье рассматриваются возможности, производительность и приложения обеих моделей, чтобы определить, какая из них выделяется в текущем ландшафте ИИ.

Что такое ГПТ-4.5

GPT-4.5 был выпущен 27 февраля 2025 года, изначально он был доступен пользователям и разработчикам ChatGPT Pro через API OpenAI. Вскоре после этого планировалось расширить доступ для пользователей ChatGPT Plus и Team.

Ключевые улучшения

GPT-4.5 является развитием своего предшественника GPT-4 и имеет несколько заметных улучшений:

Расширенное контекстное окно: Поддерживает до 128,000 XNUMX токенов, что позволяет вести более обширные и последовательные беседы.
Мультимодальные возможности: реализована поддержка обработки изображений, позволяющая пользователям загружать и анализировать изображения вместе с текстом.
Улучшенный эмоциональный интеллект: Предлагает более человеческое взаимодействие за счет лучшего понимания и реагирования на эмоциональные сигналы.
Снижение частоты галлюцинаций: Демонстрирует снижение генерации неверной или сфабрикованной информации на 37.1% по сравнению с предыдущими моделями.

ограничения

Несмотря на эти достижения, GPT-4.5 имеет свои недостатки:

Стоимость: При цене в 75 долларов за миллион входных токенов и в 150 долларов за миллион выходных токенов он значительно дороже таких моделей, как GPT-3.5 Turbo.
Проблемы с рассуждением: Некоторые пользователи сообщают, что GPT-4.5 испытывает трудности с выполнением сложных логических задач и может не всегда следовать подробным инструкциям.

Что такое О3

Серия моделей O3 от OpenAI представляет собой переход к системам ИИ, способным к продвинутым рассуждениям. Используя обучение с подкреплением, модели O3 обучаются «думать» перед тем, как генерировать ответы, используя «частную цепочку мыслей» для планирования и рассуждения задач.

Основные характеристики OpenAI o3

1. Улучшенные способности к рассуждению

В основе дизайна o3 лежит его способность выполнять пошаговые логические рассуждения. Это достигается с помощью механизма «частной цепочки мыслей», позволяющего модели внутренне обдумывать, прежде чем генерировать ответы. Такая функция позволяет o3 решать сложные задачи в области математики, кодирования и научного анализа с повышенной точностью.

2. Превосходная производительность эталонных тестов

o3 продемонстрировал выдающиеся результаты в нескольких тестах:

GPQA-Бриллиант: Набрал 87.7% баллов по научным вопросам экспертного уровня.
SWE-стенд проверен: Набрал 71.7% баллов при решении реальных задач по разработке программного обеспечения, превзойдя результат o1 в 48.9%.
Codeforces: Достиг рейтинга Эло 2727, что свидетельствует о высоком уровне подготовки к соревнованиям по программированию.
ARC-AGI бенчмарк: Продемонстрировал точность, в три раза превышающую точность o1 в задачах на абстрактное мышление.

3. Мультимодальные возможности

Помимо текста, o3 демонстрирует сильные навыки визуального восприятия. Он может анализировать изображения, диаграммы и графики, что делает его искусным в задачах, требующих интерпретации визуальных данных.

4. Использование автономного инструмента

o3 оснащена возможностью автономного использования таких инструментов, как просмотр веб-страниц, выполнение Python, генерация изображений и анализ файлов. Это позволяет модели выполнять многогранные задачи без явных подсказок пользователя, что повышает ее универсальность.

5. Сознательное выравнивание в целях безопасности

Для обеспечения надежных и безопасных выходов o3 включает в себя подход совещательного выравнивания. Этот метод повышает способность модели придерживаться правил безопасности посредством структурированного процесса рассуждения.

6. Варианты для различных нужд

OpenAI выпустила o3 в нескольких версиях для удовлетворения различных требований:

о3-мини: Меньшая по размеру и экономичная модель, оптимизированная для скорости и точности в технических областях.
o3-мини-высокий: Вариант o3-mini, который выделяет больше вычислительных ресурсов для улучшенных рассуждений, доступен для платных подписчиков.

Соображения и ограничения

Хотя o3 демонстрирует значительные достижения, не обошлось и без проблем:

Увеличение потребности в вычислительных ресурсах: Совещательные процессы модели требуют большей вычислительной мощности, что приводит к более высоким эксплуатационным расходам и потенциальной задержке ответов.
Непредсказуемость результатов: Несмотря на улучшения, o3 может демонстрировать несоответствия, такие как галлюцинации или ошибки при выполнении определенных задач, что отражает более общие проблемы в разработке ИИ.

Сравнительный анализ: GPT-4.5 против O3

Обработка естественного языка и креативность

ChatGPT-4.5 отлично подходит для создания креативных и контекстно-богатых ответов, что делает его идеальным для приложений в сторителлинге, обслуживании клиентов и стратегическом планировании. Его улучшенный эмоциональный интеллект позволяет осуществлять более тонкие взаимодействия.

Напротив, OpenAI o3 отдает приоритет логическому мышлению над творческим выражением. Хотя он может не соответствовать ChatGPT-4.5 в разговорном стиле, его структурированный подход обеспечивает точность в задачах, требующих детального анализа.

Рассуждение и решение проблем

OpenAI o3 превосходит ChatGPT-4.5 в технических областях. Его способность к внутреннему обдумыванию приводит к более высокой точности в кодировании, математике и решении научных задач. Например, o3 набрал 71.7% на бенчмарке SWE-bench Verified, оценивающем возможности разработки программного обеспечения.

ChatGPT-4.5, хотя и компетентен, может не сравниться с точностью o3 в этих областях. Его сильные стороны больше в общих знаниях и творческих задачах, чем в решении специализированных технических проблем.

Стоимость и доступность

ChatGPT-4.5 позиционируется как премиум-предложение со стоимостью $75 за миллион входных токенов и $150 за миллион выходных токенов. Цена отражает его расширенные возможности, но может быть непомерной для некоторых пользователей. Доступ в настоящее время ограничен подписчиками ChatGPT Pro и корпоративными клиентами, с более широкой доступностью, запланированной.

O3 позиционируется как премиум-предложение со стоимостью $10 за миллион входных токенов и $40 за миллион выходных токенов, $2.5 за миллион кэшированных входных данных, его фокус на вычислительной эффективности предполагает более экономичное решение для задач, требующих логического мышления. Его дизайн направлен на баланс производительности с использованием ресурсов, потенциально предлагая более доступный вариант для технических приложений.

Заключение: выбор правильной модели

Выбор между GPT-4.5 и O3 зависит от конкретных потребностей пользователя:

Для естественных бесед: GPT-4.5 предпочтительнее для приложений, требующих человеческого взаимодействия и эмоционального интеллекта.
Для сложных задач на рассуждение: O3 лучше подходит для задач, связанных с решением сложных проблем, кодированием и научными исследованиями.

Поскольку искусственный интеллект продолжает развиваться, интеграция беглости разговора и глубокого мышления в будущие модели может сократить разрыв между GPT-4.5 и O3, предлагая комплексные решения в различных областях.

Первые шаги

Разработчики могут получить доступ API GPT-4.5 и API O3 через CometAPI. Для начала изучите возможности модели на игровой площадке и обратитесь к API-руководство для получения подробных инструкций. Обратите внимание, что некоторым разработчикам может потребоваться проверить свою организацию перед использованием модели.

GPT-4.5 API and O3 API Цены в CometAPI, скидка 20% от официальной цены:


Версия модели	GPT-4.5	O3
Цена в CometAPI	Входные токены: 60 долл. США / млн токенов	`o3-mini-all :` Входные токены: $0.88 / млн токенов Выходные токены: $3.52 / M токенов `o3-mini-high:`Цена: $0.06 `o3-mini-high-all:` Цена: $0.06
Выходные токены: $120 / млн токенов	`o3-2025-04-16 :` Входные токены: $8 / млн токенов Выходные токены: $32 / M токенов
название модели	`gpt-4.5-preview-2025-02-27` `gpt-4.5-preview` `gpt-4.5`	`o3 o3-2025-04-16`