O3 против O1 от OpenAI: действительно ли новая модель лучше?

В апреле 2025 года OpenAI представила свою последнюю модель рассуждений o3, позиционируя ее как значительное улучшение по сравнению с ее предшественницей o1. Модель o3 может похвастаться улучшенными возможностями в рассуждениях, кодировании, математике и визуальном понимании. В этой статье рассматриваются различия между o3 и o1, изучаются показатели производительности, функции безопасности и практические приложения, чтобы оценить, действительно ли o3 представляет собой существенное улучшение.

Понимание основ: модели o1 и o3

Что такое о1?

Выпущенная в сентябре 2024 года модель o1 представляла собой смену парадигмы в подходе ИИ к решению сложных проблем. Разработанная для имитации человеческого мышления, o1 была обучена больше «думать» перед ответом, что позволило ей решать сложные задачи в области науки, кодирования и математики с повышенной точностью. Примечательно, что o1 достигла впечатляющей точности в 83% на отборочном экзамене Международной математической олимпиады (IMO), что является значительным скачком по сравнению с 13%, набранными ее предшественником GPT-4o.

Модель o1 также представила новый подход к обучению безопасности, что позволило ей рассуждать о правилах безопасности в контексте и применять их более эффективно. Это улучшение было очевидно в ее результатах на сложных тестах по взлому, где o1 набрал 84 из 100, по сравнению с 4 баллами GPT-22o.

Что такое о3?

Основываясь на фундаменте, заложенном o1, OpenAI представила модель o3 в апреле 2025 года. Рекламируемая как самая передовая модель рассуждений OpenAI на сегодняшний день, o3 принесла значительные улучшения в кодировании, математике и визуальном анализе. Одной из ее выдающихся особенностей была способность «думать» с помощью изображений, интегрируя визуальные входы, такие как эскизы или доски, в свои процессы рассуждений. citeturn0news12

Модель o3 продемонстрировала превосходную производительность в различных тестах. Она достигла точности 96.7% на Американском экзамене по математике (AIME), превзойдя 1% o83.3. В задачах по программной инженерии o3 набрала 71.7% на бенчмарке SWE-bench Verified, что является заметным улучшением по сравнению с 1% o48.9.

O3 против O1 от OpenAI: действительно ли новая модель лучше?

Сравнительный анализ: o3 против o1

Показатели производительности и сравнительный анализ

При оценке возможностей o3 и o1 несколько ключевых показателей производительности подчеркивают достижения o3:

Математика: o3 достиг точности 96.7% на AIME по сравнению с 1% у o83.3.
Программная инженерия: o3 набрал 71.7% на SWE-bench Verified, в то время как o1 набрал 48.9%.
Наука: В тесте GPQA Diamond o3 достиг точности 87.7%, продемонстрировав свое мастерство в обработке научных вопросов уровня доктора наук.
Тесты общего искусственного интеллекта (AGI): o3 достиг точности 87.5% на тесте ARC-AGI, превзойдя человеческий уровень производительности и значительно превзойдя o1 с его 32%.

Эти показатели подчеркивают превосходные возможности рассуждения o3 и его потенциал для решения более сложных и тонких задач, чем o1.

Мультимодальные возможности и визуальное мышление

Определяющей особенностью o3 являются его расширенные мультимодальные возможности. В отличие от o1, который в первую очередь фокусировался на текстовых входах, o3 может обрабатывать и рассуждать с визуальными данными. Это включает анализ изображений, выполнение таких действий, как обрезка, поворот и масштабирование для эффективной интерпретации визуальной информации.

Это улучшение имеет практические приложения, такие как определение местоположений по фотографиям, сродни онлайн-игре GeoGuessr. Однако эта возможность также вызвала опасения относительно конфиденциальности, поскольку она потенциально может быть использована для доксинга — публичного раскрытия личной информации человека. OpenAI признала эти опасения и подчеркнула свои усилия по обучению моделей избегать распространения личной информации.

Механизмы безопасности и этические соображения

OpenAI уделяет первостепенное внимание безопасности при разработке как o1, так и o3. Модель o1 представила новый подход к обучению безопасности, который позволил ей рассуждать о правилах безопасности в контексте, что привело к улучшению соблюдения правил безопасности.

Основываясь на этом, o3 реализовал «совещательное выравнивание», технику безопасности, которая использует возможности модели для оценки последствий безопасности пользовательских запросов. Этот подход позволяет o3 выявлять скрытые намерения или попытки обмануть систему, повышая ее способность точно отклонять небезопасный контент.

Ключевые инновации в o3

Возможности визуального мышления

Выдающейся особенностью o3 является его способность обрабатывать и рассуждать с помощью изображений. Эта мультимодальная способность позволяет o3 интерпретировать визуальные входные данные, такие как эскизы или фотографии, и интегрировать их в свои процессы рассуждения. Это усовершенствование позволяет применять его в таких областях, как дизайн, образование и задачи геолокации.

Улучшенные методы решения проблем

o3 использует механизм «частной цепочки мыслей», позволяющий ему планировать и выполнять ряд шагов рассуждения, прежде чем прийти к выводу. Этот подход повышает его способность решать сложные проблемы, имитируя более человеческий мыслительный процесс.

Энергоэффективность и кастомизация

Несмотря на свои расширенные возможности, o3 оптимизирован для энергоэффективных операций, снижая вычислительные затраты без ущерба для производительности. Кроме того, он предлагает более широкие возможности настройки, позволяя организациям настраивать модель для конкретных приложений.

Ограничения и соображения

Вычислительные требования

Хотя o3 предлагает расширенные возможности, он также требует больше вычислительных ресурсов, чем o1. Этот повышенный спрос может повлиять на время отклика и эксплуатационные расходы, особенно для приложений с ограниченными ресурсами.

Конфиденциальность

Расширенные возможности визуального мышления o3 вызвали опасения по поводу конфиденциальности. Например, его способность определять местоположение фотографии на основе визуальных подсказок вызвала дискуссии о потенциальном злоупотреблении и необходимости мер безопасности для предотвращения доксинга или несанкционированного распространения данных.

Практическое применение и доступность

1.Интеграция в ChatGPT

Модель o3 интегрирована в различные уровни платформы OpenAI ChatGPT:

ChatGPT Plus и пользователи Team: Немедленный доступ к o3 и его вариантам.
Пользователи ChatGPT Pro: Доступ к поддержке o3-pro ожидается в ближайшие недели.

2. Доступ разработчика

Разработчики могут получить доступ к o3 через API OpenAI, при этом цена установлена на уровне 10 долларов за миллион входных токенов и 40 долларов за миллион выходных токенов для модели o3.

3. Доступ к CometAPI

Для разработчиков и организаций o3 доступен через CometAPI API-интерфейс o3.

CometAPI предоставляет доступ к более чем 500 моделям ИИ, включая модели с открытым исходным кодом и специализированные мультимодальные модели для чата, изображений, кода и многого другого. С его помощью доступ к ведущим инструментам ИИ, таким как Claude, OpenAI, Deepseek и Gemini, предоставляется через единую унифицированную подписку. Вы можете использовать API в CometAPI для создания музыки и произведений искусства, генерации видео и создания собственных рабочих процессов.

o3 API (название модели:o3/ o3-2025-04-16) Цены в CometAPI, скидка 20% от официальной цены:

Входные токены: $8 / млн токенов
Выходные токены: $32/ млн токенов

Технические подробности и руководство по интеграции см. API-интерфейс o3 и API документ.

Заключение: является ли o3 достойным преемником o1?

Учитывая существенные улучшения в показателях производительности, возможностях рассуждений и механизмах безопасности, o3 представляет собой значительный прогресс по сравнению с o1. Интеграция визуального рассуждения и улучшенной адаптивности позиционирует его как более универсальную и надежную модель ИИ. Для пользователей и разработчиков, ищущих расширенные возможности рассуждений, o3 предлагает убедительное обновление по сравнению с o1.