Microsoft Research zaprezentował Phi‑4 Reasoning 30 kwietnia 2025 r. wraz z dwoma siostrzanymi modelami — Phi‑4‑Mini‑Reasoning (≈3.8 B parametrów) i Phi‑4‑Reasoning‑Plus (14 B parametrów z dostrajaniem uczenia się przez wzmacnianie). W przeciwieństwie do ogólnych modeli LLM, te modele są wyspecjalizowane w rozumowaniu: przydzielają dodatkowe obliczenia wnioskowania w celu weryfikacji i udoskonalenia każdego kroku rozwiązania. Szkolenie wykorzystywało wysokiej jakości dane internetowe, syntetyczne zestawy problemów i starannie wyselekcjonowane demonstracje „łańcucha myśli” z o3‑mini firmy OpenAI, co zaowocowało modelem, który doskonale sprawdza się w matematyce, nauce, kodowaniu i nie tylko.
Czym jest rozumowanie Phi‑4?
W jaki sposób trenowano rozumowanie Phi‑4?
Phi‑4 Reasoning powstało w wyniku nadzorowanego dostrajania podstawowego modelu Phi‑4 na starannie wyselekcjonowanym zestawie danych „nauczalnych” podpowiedzi i szczegółowych śladów rozumowania. Naukowcy wygenerowali wiele z tych śladów, zachęcając o3‑mini do rozwiązywania złożonych problemów, a następnie filtrując je pod kątem różnorodności i przejrzystości pedagogicznej. Ten proces zapewnił, że model nauczył się nie tylko odpowiedzi, ale także ustrukturyzowanych podejść do rozwiązywania problemów. Kolejna wersja, Phi‑4‑Reasoning‑Plus, przeszła fazę uczenia się przez wzmacnianie opartego na wynikach, co zachęcało do dłuższych, bardziej szczegółowych łańcuchów rozumowania w celu dalszego zwiększenia dokładności.
Jakie możliwości charakteryzuje Phi‑4 Reasoning?
Wszechstronność:Szkolenie obejmuje problemy matematycznej olimpiady, pytania z nauk ścisłych na poziomie doktoranckim, wyzwania związane z kodowaniem, łamigłówki algorytmiczne (3SAT, TSP, BA‑Calendar) i rozumowanie przestrzenne, wykazując się solidną generalizacją w różnych dziedzinach.
Szczegółowa generacja łańcucha myśli:Dzięki poświęceniu dodatkowych kroków wnioskowania na weryfikację każdego wniosku pośredniego, rozumowanie Phi‑4 konstruuje przejrzyste, krok po kroku rozwiązania, a nie niejasne odpowiedzi na pojedyncze pytania.
Wydajność przewyższająca standardy:Pomimo skromnych rozmiarów przewyższa znacznie większe modele o otwartej konstrukcji, takie jak DeepSeek‑R1‑Distill‑Llama‑70B, a jego wydajność zbliża się do wydajności pełnego DeepSeek‑R1 (671 mld parametrów) w przypadku zadań związanych z wnioskowaniem algorytmicznym i planowaniem.
Czym Phi‑4 Reasoning różni się od wcześniejszych modeli?
Pod jakimi względami stanowi udoskonalenie w stosunku do uniwersalnego Phi‑4?
Uniwersalne zastosowanie Phi‑4 zostało zaprojektowane do szerokich zadań LLM — uzupełniania, podsumowywania, tłumaczenia — podczas gdy nadzorowane dostrajanie Phi‑4 Reasoning na danych łańcucha myśli specjalnie doskonali jego krokowe wnioskowanie. Ta specjalizacja zapewnia wyższą dokładność w zadaniach wieloetapowych, przy jednoczesnym zachowaniu wielu możliwości oryginalnego modelu. Ponadto ulepszona wersja „Plus” RL zamienia prędkość wnioskowania na jeszcze głębsze rozumowanie, gdy wymagana jest najwyższa precyzja.
Jak wypada w porównaniu z konkurencyjnymi modelami rozumowania?
Modele DeepSeek R1:W przypadku zadań wyodrębnionych z modelu R671 z 1 parametrami B narzędzia DeepSeek, Phi‑4 Reasoning‑Plus zbliża się do równoważnej wydajności, co pokazuje, że staranna selekcja i szkolenie danych może zmniejszyć lukę między małymi i dużymi modelami LLM.
OtwartaAI o3‑mini:Phi‑4 Reasoning dorównuje o3‑mini lub go przewyższa w testach porównawczych, takich jak OmniMath (ustrukturyzowany test matematyczny), pomimo większej liczby parametrów o3‑mini przeznaczonych na rozumowanie.
Jakie są najnowsze warianty i rozszerzenia?
Phi‑4‑Reasoning‑Plus: Ulepszone rozumowanie z wykorzystaniem uczenia się przez wzmacnianie
Phi‑4‑Reasoning‑Plus opiera się na podstawowej architekturze Phi‑4‑Reasoning, wprowadzając fazę uczenia się przez wzmacnianie (RL) opartą na wynikach, która dodatkowo optymalizuje jakość łańcucha rozumowania. W tej odmianie programiści włączają krótką rundę treningową RL, używając weryfikowalnego sygnału nagrody pochodzącego z metryk sukcesu specyficznych dla zadania — takich jak poprawność dowodu lub kompletność rozwiązania — aby zachęcić do generowania bardziej szczegółowych i dokładnych kroków pośrednich.
W rezultacie Phi‑4‑Reasoning‑Plus wykazuje wzrost wydajności o 2–4% w standardowych testach wnioskowania w porównaniu do swojego odpowiednika nadzorowanego wyłącznie, szczególnie w zadaniach wymagających wnioskowania wieloskokowego i dedukcji długiego łańcucha. Co więcej, to udoskonalenie oparte na RL pozwala modelowi na samodzielną korektę niejednoznacznych ścieżek wnioskowania, zmniejszając wskaźniki halucynacji nawet o 15% w testach kontrolowanych. Dzięki domyślnej obsłudze okien kontekstowych do 64,000 4 tokenów, Phi‑XNUMX‑Reasoning‑Plus może płynnie integrować rozszerzone opisy problemów bez poświęcania spójności. Jego ulepszone możliwości sprawiają, że doskonale nadaje się do dziedzin o wysokiej stawce, takich jak diagnostyka opieki zdrowotnej i modelowanie argumentów prawnych.
Phi‑4‑Mini‑Reasoning: kompaktowy wnioskownik dla aplikacji wbudowanych
Uzupełniając modele w pełnej skali, Phi‑4‑Mini‑Reasoning oferuje uproszczone rozwiązanie rozumowania z około 3.8 miliarda parametrów. Dostosowana do zastosowań edukacyjnych i AI na urządzeniach, ta lekka odmiana została wytrenowana na specjalistycznym korpusie syntetycznych problemów matematycznych — łącznie około miliona odrębnych wystąpień wygenerowanych przez system rozumowania R1 firmy DeepSeek — i dodatkowo udoskonalona poprzez nadzorowane dostrajanie na kompaktowych, wysokiej jakości śladach łańcucha myśli.
Pomimo zmniejszonej liczby parametrów, Phi‑4‑Mini‑Reasoning osiąga konkurencyjną dokładność w testach porównawczych matematycznych, przewyższając inne małe modele, takie jak DeepSeek‑R1‑Distill‑Qwen‑7B o ponad 3 punkty w Math‑500. Jego zdolność do działania z szybkością 10 tokenów na sekundę na standardowym sprzęcie konsumenckim i obsługi długości kontekstu 128,000 XNUMX tokenów sprawia, że idealnie nadaje się do wbudowanych systemów nauczania i asystentów kodowania w środowiskach o ograniczonych zasobach.
Gdzie można zastosować rozumowanie Phi‑4?
W jaki sposób może udoskonalić narzędzia edukacyjne?
Phi‑4‑Mini‑Reasoning, trenowany na około 1 milionie syntetycznych problemów matematycznych z modelu R1 firmy DeepSeek, jest zoptymalizowany pod kątem „wbudowanego nauczania” na lekkich urządzeniach. Może prowadzić uczniów przez rozwiązania krok po kroku, oferować wskazówki i weryfikować każdy krok w czasie rzeczywistym, przekształcając aplikacje edukacyjne i inteligentne narzędzia klasowe (, ).
Jakie przypadki użycia w branży wyróżniają się?
- Medycyna:W urządzeniach medycznych obsługujących technologię brzegową Phi‑4 Reasoning może analizować dane diagnostyczne, wyjaśniać złożone wytyczne kliniczne i proponować plany leczenia za pomocą przejrzystych śladów rozumowania.
- Badania naukowe:Naukowcy mogą wykorzystać wyniki łańcucha myślowego modelu do dokumentowania przepływów pracy związanych z testowaniem hipotez w chemii, fizyce i biologii.
- Dedykowane rozwiązania IT dla biznesu:W asystentach kodowania Phi‑4 Reasoning może rozbijać wyzwania algorytmiczne, sugerować fragmenty kodu z objaśniającymi komentarzami i weryfikować poprawność poprzez wnioskowanie logiczne (, ).
Gdzie deweloperzy mogą uzyskać do niego dostęp i wdrożyć go?
Modele Phi‑4 Reasoning są dostępne na licencji open-weight MIT w Azure AI Foundry, Hugging Face i GitHub Marketplace. Dokumentacja i przewodniki — takie jak „Phi‑4 Reasoning How‑To” w UnsLoTH AI — szczegółowo opisują lokalne wdrażanie, przepływy pracy kwantyzacji i przepisy dostrajania dla zadań specyficznych dla domeny.
Jakie wyzwania i pytania pozostają otwarte?
Ocena solidności rozumowania
Podczas gdy wydajność testów porównawczych pokazuje mocne strony Phi‑4‑Reasoning, ocena jego odporności w warunkach przeciwstawnych lub poza dystrybucją jest niezbędna. Wstępne badania z wykorzystaniem protokołów testów obciążeniowych z pomieszanymi przesłankami, sprzecznymi aksjomatami lub niejednoznacznym nazewnictwem zmiennych ujawniają skoki wskaźnika błędów przekraczające 20%, gdy model napotyka mylące lub niekompletne informacje. Odkrycia te podkreślają potrzebę bardziej szczegółowych ram oceny, które wychwytują tryby awarii, takie jak rozumowanie kołowe lub dryf koncepcji, oraz narzędzi diagnostycznych, które ujawniają wyniki zaufania i łańcuchy pochodzenia. Ustanowienie standaryzowanych, niezależnych od domeny testów porównawczych odporności będzie miało kluczowe znaczenie dla certyfikacji gotowości modelu do zastosowań krytycznych dla bezpieczeństwa w takich dziedzinach, jak doradztwo prawne i wsparcie decyzji w opiece zdrowotnej.
Rozwiązywanie problemów związanych z wyrównaniem i bezpieczeństwem
Wyrównanie i bezpieczeństwo pozostają najważniejsze, ponieważ zaawansowane modele rozumowania są osadzane w procesach podejmowania decyzji w różnych wrażliwych domenach. Pomimo rygorystycznego nadzorowanego dostrajania i kształtowania nagród RL, zdolność Phi‑4‑Reasoning do generowania prawdopodobnych, ale niepoprawnych wyników — tak zwanych „halucynacji” — stwarza ryzyko w kontekstach o wysokiej stawce. Przypadki społecznie stronniczego rozumowania lub rekomendacji, które są sprzeczne z wytycznymi etycznymi, podkreślają konieczność wielowarstwowych zabezpieczeń. Najlepsze praktyki branżowe zalecają integrację filtrów treści w locie, ćwiczeń red-teaming i nadzoru człowieka w pętli w celu przechwytywania niezamierzonych zachowań. Opracowanie ilościowych metryk zgodności — takich jak wyniki prawdziwości skalibrowane względem zestawów danych będących złotym standardem — oraz przyjaznych dla użytkownika interfejsów korekcyjnych będzie miało kluczowe znaczenie dla zapewnienia, że modele Phi‑4‑Reasoning są zgodne z normami społecznymi i zachowują przejrzystość podczas przenikania do kluczowych przepływów pracy.
Podsumowanie
Phi‑4 Reasoning stanowi przełom w dziedzinie AI: przejście od czystej skali do inteligentnej specjalizacji. Dostarczając rozumowanie zbliżone do najnowocześniejszych w małym, otwartym pakiecie, otwiera drogę do przejrzystego, wydajnego i szeroko dostępnego rozumowania AI — zmieniając sposób, w jaki uczymy, badamy i rozwiązujemy najtrudniejsze problemy, czy to w chmurze, czy na krawędzi.
Na razie, osoby zainteresowane korzystaniem z Phi‑4 Reasoning, będziemy musieli być czujni na aktualizacje. Będziemy aktualizować Interfejs API Comet oraz Dziennik zmian interfejsu API CometAPI.
