Microsoft Research avduket Phi-4 Reasoning 30. april 2025, sammen med to søstermodeller – Phi-4-Mini-Reasoning (≈3.8 B-parametere) og Phi-4-Reasoning-Plus (14 B-parametere med finjustering av forsterkning av læring). I motsetning til generelle LLM-er er disse modellene spesialiserte for resonnering: de tildeler ekstra inferensdata for å verifisere og forbedre hvert løsningstrinn. Treningen benyttet seg av nettdata av høy kvalitet, syntetiske problemsett og kuraterte «tankekjede»-demonstrasjoner fra OpenAIs o3-mini, noe som resulterte i en modell som utmerker seg i matematikk, naturfag, koding og mer.
Hva er Phi-4-resonnement?
Hvordan ble Phi-4-resonnering trent?
Phi-4-resonnering oppsto fra veiledet finjustering av den grunnleggende Phi-4-modellen på et nøye kuratert datasett av "lærbare" prompter og detaljerte resonneringsspor. Forskere genererte mange av disse sporene ved å oppfordre o3-mini til å løse komplekse problemer, og deretter filtrerte for mangfold og pedagogisk klarhet. Denne prosessen sørget for at modellen ikke bare lærte svar, men strukturerte problemløsningsmetoder. En påfølgende variant, Phi-4-Reasoning-Plus, gjennomgikk en fase med resultatbasert forsterkningslæring, som oppmuntret til lengre, mer grundige resonneringskjeder for ytterligere å øke nøyaktigheten.
Hvilke evner definerer Phi-4 resonnering?
AllsidighetOpplæringen spenner over matte-OL-problemer, realfagsspørsmål på doktorgradsnivå, kodeutfordringer, algoritmiske oppgaver (3SAT, TSP, BA-kalender) og romlig resonnering, og demonstrerer robust generalisering på tvers av ulike domener.
Detaljert tankekjedegenereringVed å dedikere ekstra slutningstrinn for å verifisere hver mellomliggende konklusjon, konstruerer Phi-4 Reasoning transparente, trinnvise løsninger i stedet for ugjennomsiktige enkeltstående svar.
Ytelse som slår referanseindeksenTil tross for sin beskjedne størrelse, overgår den mye større modeller med åpen vekt som DeepSeek-R1-Distill-Llama-70B, og den nærmer seg ytelsen til full DeepSeek-R1 (671 B parametere) på algoritmisk resonnering og planleggingsoppgaver.
Hvordan skiller Phi-4 Reasoning seg fra tidligere modeller?
På hvilke måter forbedrer den den generelle Phi-4?
Phi-4 for generell bruk ble utviklet for brede LLM-oppgaver – fullføring, oppsummering, oversettelse – mens Phi-4 Reasonings overvåkede finjustering av tankekjededata spesifikt finpusser den trinnvise inferensen. Denne spesialiseringen gir overlegen nøyaktighet på flertrinnsoppgaver, samtidig som den beholder mange av funksjonene til den opprinnelige modellen. I tillegg bytter den RL-forbedrede «Plus»-varianten inferenshastighet mot enda dypere resonnering når det kreves største presisjon.
Hvordan er det sammenlignet med konkurrenters resonneringsmodeller?
DeepSeek R1-modellerPå oppgaver destillert fra DeepSeeks 671 B-parameter R1-modell, nærmer Phi-4 Reasoning-Plus seg tilsvarende ytelse, noe som viser at nøye datakurering og trening kan redusere gapet mellom små og massive LLM-er.
OpenAI o3-miniPhi-4 Reasoning matcher eller overgår o3-mini på benchmarks som OmniMath (en strukturert mattetest), til tross for o3-minis større parameterantall dedikert til resonnering.
Hva er de nyeste variantene og utvidelsene?
Phi-4-Reasoning-Plus: Forbedret resonnering med forsterkningslæring
Phi-4-Reasoning-Plus bygger på den grunnleggende Phi-4-Reasoning-arkitekturen ved å introdusere en resultatbasert forsterkningslæringsfase (RL) som ytterligere optimaliserer kvaliteten på resonneringskjeden. I denne varianten inkluderer utviklere en kort RL-treningsrunde ved hjelp av et verifiserbart belønningssignal utledet fra oppgavespesifikke suksessmålinger – for eksempel beviskorrekthet eller løsningsfullstendighet – for å oppmuntre til generering av mer detaljerte og nøyaktige mellomtrinn.
Som et resultat viser Phi-4-Reasoning-Plus ytelsesforbedringer på 2–4 % på tvers av standard resonnementstester sammenlignet med sin kun-overvåkede motpart, spesielt på oppgaver som krever flerhopps-inferens og langkjedet deduksjon. Dessuten lar denne RL-drevne forbedringen modellen selvkorrigere tvetydige resonnementsbaner, noe som reduserer hallusinasjonsrater med opptil 15 % i kontrollerte tester. Med standardstøtte for kontekstvinduer på opptil 64,000 4 tokens, kan Phi-XNUMX-Reasoning-Plus sømløst integrere utvidede problembeskrivelser uten å ofre koherens. De forbedrede funksjonene gjør den godt egnet for områder med høy innsats som helsediagnostikk og modellering av juridiske argumenter.
Phi-4-Mini-Reasoning: Kompakt resoneringsverktøy for innebygde applikasjoner
Phi-4-Mini-Reasoning utfyller fullskalamodellene og tilbyr en strømlinjeformet resonneringsløsning med omtrent 3.8 milliarder parametere. Denne lette varianten er skreddersydd for pedagogiske og enhetlige AI-applikasjoner, og ble trent på et spesialisert korpus av syntetiske matteproblemer – totalt rundt én million forskjellige forekomster generert av DeepSeeks R1-resonneringssystem – og videreforedlet gjennom overvåket finjustering på kompakte, høykvalitets tankekjedespor.
Til tross for det reduserte antallet parametere, oppnår Phi-4-Mini-Reasoning konkurransedyktig nøyaktighet på matematiske referansetester, og overgår andre små modeller som DeepSeek-R1-Distill-Qwen-7B med over 3 poeng på Math-500. Evnen til å operere med 10 tokens per sekund på standard forbrukermaskinvare og støtte kontekstlengder på 128,000 XNUMX tokens gjør den ideell for innebygde veiledningssystemer og kodeassistenter i ressursbegrensede miljøer.
Hvor kan Phi-4-resonnement anvendes?
Hvordan kan det forbedre pedagogiske verktøy?
Phi-4-Mini-Reasoning, trent på omtrent 1 million syntetiske matteproblemer fra DeepSeeks R1-modell, er optimalisert for «innebygd veiledning» på lette enheter. Den kan veilede elever gjennom trinnvise løsninger, tilby hint og verifisere hvert trinn i sanntid, og dermed transformere pedagogiske apper og smarte klasseromsverktøy (, ).
Hvilke brukstilfeller i bransjen skiller seg ut?
- MedisinPå medisinske enheter med kantfunksjonalitet kan Phi-4 Reasoning analysere diagnostiske data, forklare komplekse kliniske retningslinjer og foreslå behandlingsplaner med transparente resonneringsspor.
- Vitenskapelig forskningForskere kan utnytte modellens tankekjedeutfall til å dokumentere arbeidsflyter for hypotesetesting innen kjemi, fysikk og biologi.
- Programvare utviklingI kodeassistenter kan Phi-4 Reasoning bryte ned algoritmiske utfordringer, foreslå kodestykker med forklarende kommentarer og bekrefte korrekthet gjennom logisk inferens (, ).
Hvor kan utviklere få tilgang til og distribuere det?
Phi-4 Reasoning-modeller er tilgjengelige under en åpen MIT-lisens på Azure AI Foundry, Hugging Face og GitHub Marketplace. Dokumentasjon og veiledninger – som for eksempel «Phi-4 Reasoning How-To» på UnsLoTH AI – beskriver lokal distribusjon, kvantiseringsarbeidsflyter og finjustering av oppskrifter for domenespesifikke oppgaver.
Hvilke utfordringer og åpne spørsmål gjenstår?
Evaluering av resonnementets robusthet
Selv om ytelsen til referansemålinger viser frem styrken til Phi-4-Reasoning, er det viktig å vurdere robustheten under motstridende eller ufordelingsmessige forhold. Foreløpige studier som bruker stresstestprotokoller med forvrengte premisser, motstridende aksiomer eller tvetydig variabelnavngivning, avslører feilrateøkninger på over 20 % når modellen står overfor villedende eller ufullstendig informasjon. Disse funnene fremhever behovet for mer detaljerte evalueringsrammeverk som fanger opp feilmoduser som sirkulær resonnering eller konseptavvik, og for diagnostiske verktøy som avdekker konfidenspoeng og provenienskjeder. Å etablere standardiserte, domeneagnostiske robusthetsreferanser vil være avgjørende for å bekrefte modellens beredskap for sikkerhetskritiske applikasjoner innen felt som juridisk rådgivning og beslutningsstøtte innen helsevesenet.
Håndtering av bekymringer knyttet til justering og sikkerhet
Samordning og sikkerhet er fortsatt avgjørende ettersom avanserte resonneringsmodeller blir integrert i beslutningsprosesser på tvers av sensitive domener. Til tross for streng overvåket finjustering og RL-belønningsutforming, utgjør Phi-4-Reasonings evne til å generere troverdige, men uriktige resultater – såkalte «hallusinasjoner» – risikoer i kontekster med høy innsats. Tilfeller av sosialt partisk resonnement eller anbefalinger som motsier etiske retningslinjer, understreker behovet for flerlags sikkerhetstiltak. Beste praksis i bransjen anbefaler å integrere innholdsfiltre underveis, «red teaming»-øvelser og «human-in-the-loop»-tilsyn for å fange opp utilsiktet atferd. Utvikling av kvantitative samordningsmålinger – som sannferdighetspoeng kalibrert mot gullstandarddatasett – og brukervennlige korreksjonsgrensesnitt vil være avgjørende for å sikre at Phi-4-Reasoning-modeller samsvarer med samfunnsnormer og opprettholder åpenhet når de gjennomsyrer kritiske arbeidsflyter.
Konklusjon
Phi-4 Reasoning representerer et vannskille innen AI: et skifte fra ren skala til intelligent spesialisering. Ved å levere nærmest toppmoderne resonnement i en liten, åpen pakke, baner det vei for transparent, effektiv og allment tilgjengelig AI-resonnement – og forvandler hvordan vi underviser, forsker og løser de vanskeligste problemene, enten i skyen eller på kanten av plattformen.
Foreløpig må de som er interessert i å bruke Phi-4 Reasoning følge med på oppdateringer. Vi vil fortsette å oppdatere. CometAPI og CometAPI API-endringslogg.
