Что такое рассуждение Phi‑4 и как оно работает?

Microsoft Research представила Phi‑4 Reasoning 30 апреля 2025 года вместе с двумя родственными моделями — Phi‑4‑Mini‑Reasoning (≈3.8 B параметров) и Phi‑4‑Reasoning‑Plus (14 B параметров с настройкой обучения с подкреплением). В отличие от универсальных LLM, эти модели специализированы для рассуждений: они выделяют дополнительные вычисления вывода для проверки и уточнения каждого шага решения. Обучение использовало высококачественные веб-данные, синтетические наборы задач и курируемые демонстрации «цепочки мыслей» из o3‑mini от OpenAI, в результате чего получилась модель, которая преуспевает в математике, науке, кодировании и не только.

Что такое рассуждение Фи-4?

Как проходило обучение рассуждению Phi‑4?

Phi‑4 Reasoning возникла из контролируемой тонкой настройки базовой модели Phi‑4 на тщательно подобранном наборе данных «обучаемых» подсказок и подробных трасс рассуждений. Исследователи создали многие из этих трасс, побуждая o3‑mini решать сложные задачи, а затем отфильтровали для разнообразия и педагогической ясности. Этот процесс гарантировал, что модель выучила не только ответы, но и структурированные подходы к решению проблем. Последующий вариант, Phi‑4‑Reasoning‑Plus, прошел фазу обучения с подкреплением на основе результатов, которая поощряла более длинные, более тщательные цепочки рассуждений для дальнейшего повышения точности.

Какие возможности определяют рассуждение Phi‑4?

Гибкость: Обучение охватывает задачи математических олимпиад, вопросы по естественным наукам на уровне доктора наук, задачи по кодированию, алгоритмические головоломки (3SAT, TSP, BA-Calendar) и пространственное мышление, демонстрируя надежное обобщение в различных областях.

Генерация подробной цепочки мыслей: Выделяя дополнительные шаги вывода для проверки каждого промежуточного заключения, Phi-4 Reasoning создает прозрачные, пошаговые решения, а не непрозрачные одноразовые ответы.

Производительность, превосходящая эталонные показатели: Несмотря на свой скромный размер, он превосходит гораздо более крупные модели с открытым весом, такие как DeepSeek‑R1‑Distill‑Llama‑70B, и приближается к производительности полной DeepSeek‑R1 (671 B параметров) в задачах алгоритмического рассуждения и планирования.

Чем Phi‑4 Reasoning отличается от более ранних моделей?

В чем его преимущества перед универсальным Phi-4?

Универсальный Phi-4 был разработан для широких задач LLM — завершения, резюмирования, перевода — тогда как контролируемая тонкая настройка Phi-4 Reasoning на данных цепочки мыслей специально оттачивает его пошаговый вывод. Эта специализация обеспечивает превосходную точность в многошаговых задачах, сохраняя при этом многие возможности исходной модели. Кроме того, улучшенный RL вариант «Plus» жертвует скоростью вывода ради еще более глубоких рассуждений, когда требуется максимальная точность.

Как это соотносится с моделями рассуждений конкурентов?

Модели DeepSeek R1: При решении задач, взятых из модели DeepSeek 671 B-параметра R1, Phi-4 Reasoning-Plus приближается к эквивалентной производительности, демонстрируя, что тщательный отбор данных и обучение могут сократить разрыв между небольшими и крупными LLM.

OpenAI o3‑mini: Phi‑4 Reasoning соответствует или превосходит o3‑mini по таким показателям, как OmniMath (структурированный математический тест), несмотря на большее количество параметров o3‑mini, предназначенных для рассуждений.

Каковы последние варианты и расширения?

Phi‑4‑Reasoning‑Plus: улучшенное рассуждение с подкреплением обучения

Phi‑4‑Reasoning‑Plus основывается на базовой архитектуре Phi‑4‑Reasoning, вводя фазу обучения с подкреплением (RL) на основе результата, которая дополнительно оптимизирует качество цепочки рассуждений. В этом варианте разработчики включают короткий раунд обучения RL, используя проверяемый сигнал вознаграждения, полученный из метрик успеха, специфичных для задачи, таких как правильность доказательства или полнота решения, чтобы стимулировать генерацию более подробных и точных промежуточных шагов.

В результате Phi‑4‑Reasoning‑Plus демонстрирует прирост производительности на 2–4% в стандартных тестах рассуждений по сравнению с его аналогом только с учителем, особенно в задачах, требующих многошагового вывода и длинноцепочечного вывода. Более того, это уточнение, управляемое RL, позволяет модели самостоятельно корректировать неоднозначные пути рассуждений, снижая частоту галлюцинаций до 15% в контролируемых тестах. Благодаря поддержке по умолчанию контекстных окон до 64,000 4 токенов Phi‑XNUMX‑Reasoning‑Plus может легко интегрировать расширенные описания проблем, не жертвуя согласованностью. Его расширенные возможности делают его хорошо подходящим для областей с высокими ставками, таких как диагностика в здравоохранении и моделирование юридических аргументов.

Phi‑4‑Mini‑Reasoning: компактный рассуждающий модуль для встраиваемых приложений

Дополняя полномасштабные модели, Phi‑4‑Mini‑Reasoning предлагает оптимизированное решение для рассуждений с приблизительно 3.8 миллиардами параметров. Этот облегченный вариант, разработанный для образовательных и ИИ-приложений на устройствах, был обучен на специализированном корпусе синтетических математических задач — в общей сложности около миллиона отдельных примеров, сгенерированных системой рассуждений R1 DeepSeek — и дополнительно усовершенствован посредством контролируемой тонкой настройки на компактных, высококачественных цепочках следов мыслей.

Несмотря на сокращенное количество параметров, Phi‑4‑Mini‑Reasoning достигает конкурентоспособной точности в математических тестах, превосходя другие небольшие модели, такие как DeepSeek‑R1‑Distill‑Qwen‑7B, более чем на 3 балла в Math‑500. Его способность работать со скоростью 10 токенов в секунду на стандартном потребительском оборудовании и поддерживать длину контекста в 128,000 XNUMX токенов делает его идеальным для встроенных систем обучения и помощников по кодированию в средах с ограниченными ресурсами.

Где можно применить рассуждение Phi‑4?

Как это может улучшить образовательные инструменты?

Phi‑4‑Mini‑Reasoning, обученный примерно на 1 миллионе синтетических математических задач из модели DeepSeek R1, оптимизирован для «встроенного обучения» на легких устройствах. Он может направлять студентов через пошаговые решения, предлагать подсказки и проверять каждый шаг в реальном времени, преобразуя образовательные приложения и интеллектуальные инструменты для классов (, ).

Какие отраслевые варианты использования выделяются?

Медицина: На медицинских устройствах с поддержкой периферийных технологий Phi-4 Reasoning может анализировать диагностические данные, объяснять сложные клинические рекомендации и предлагать планы лечения с прозрачными трассировками рассуждений.
Научное исследование: Исследователи могут использовать результаты цепочки мыслей модели для документирования рабочих процессов проверки гипотез в химии, физике и биологии.
Разработка программного обеспечения: В помощниках по кодированию Phi‑4 Reasoning может разбивать алгоритмические задачи, предлагать фрагменты кода с пояснительными комментариями и проверять правильность с помощью логического вывода (, ).

Где разработчики могут получить к нему доступ и развернуть его?

Модели Phi‑4 Reasoning доступны по лицензии MIT с открытым весом на Azure AI Foundry, Hugging Face и GitHub Marketplace. Документация и руководства, такие как «Phi‑4 Reasoning How‑To» на UnsLoTH AI, подробно описывают локальное развертывание, рабочие процессы квантования и рецепты тонкой настройки для задач, специфичных для домена.

Какие проблемы и открытые вопросы остаются?

Оценка надежности рассуждений

В то время как производительность бенчмарка демонстрирует сильные стороны Phi-4-Reasoning, оценка его надежности в условиях состязательности или вне распределения имеет решающее значение. Предварительные исследования с использованием протоколов стресс-тестирования с перепутанными предпосылками, противоречивыми аксиомами или неоднозначным наименованием переменных показывают скачки частоты ошибок, превышающие 20%, когда модель сталкивается с обманчивой или неполной информацией. Эти результаты подчеркивают необходимость в более детализированных фреймворках оценки, которые фиксируют такие режимы отказов, как циклическое рассуждение или дрейф концепций, а также в диагностических инструментах, которые выявляют оценки уверенности и цепочки происхождения. Установление стандартизированных, доменно-независимых эталонных показателей надежности будет иметь решающее значение для сертификации готовности модели к критически важным для безопасности приложениям в таких областях, как юридический консалтинг и поддержка принятия решений в здравоохранении.

Решение проблем выравнивания и безопасности

Согласование и безопасность остаются первостепенными, поскольку продвинутые модели рассуждений становятся встроенными в процессы принятия решений в чувствительных областях. Несмотря на строгую контролируемую тонкую настройку и формирование вознаграждения RL, способность Phi-4-Reasoning генерировать правдоподобные, но неверные результаты — так называемые «галлюцинации» — представляет риски в контекстах с высокими ставками. Случаи социально предвзятых рассуждений или рекомендаций, которые противоречат этическим принципам, подчеркивают необходимость многоуровневых мер безопасности. Лучшие отраслевые практики рекомендуют интегрировать фильтры контента «на лету», упражнения red-teaming и контроль со стороны человека в контуре для пресечения непреднамеренного поведения. Разработка количественных метрик согласования, таких как показатели правдивости, откалиброванные по золотым стандартам наборов данных, и удобных для пользователя интерфейсов коррекции будет иметь решающее значение для обеспечения соответствия моделей Phi-4-Reasoning общественным нормам и сохранения прозрачности при их внедрении в критически важные рабочие процессы.

Заключение

Phi-4 Reasoning представляет собой водораздел в ИИ: переход от чистого масштаба к интеллектуальной специализации. Предоставляя почти современный подход к рассуждениям в небольшом, открытом пакете, он прокладывает путь для прозрачного, эффективного и широкодоступного подхода к рассуждениям ИИ, преобразуя то, как мы обучаем, исследуем и решаем самые сложные проблемы, будь то в облаке или на периферии.

На данный момент, те, кто заинтересован в использовании Phi‑4 Reasoning, должны следить за обновлениями. Мы будем продолжать обновлять CometAPI и Журнал изменений API CometAPI.