Hvad er Phi-4-ræsonnement, og hvordan fungerer det?

CometAPI
AnnaMay 5, 2025
Hvad er Phi-4-ræsonnement, og hvordan fungerer det?

Microsoft Research afslørede Phi-4 Reasoning den 30. april 2025 sammen med to søstermodeller - Phi-4-Mini-Reasoning (≈3.8 B-parametre) og Phi-4-Reasoning-Plus (14 B-parametre med forstærkningslæringsjustering). I modsætning til generelle LLM'er er disse modeller specialiserede til ræsonnement: de allokerer yderligere inferensdataberegning for at verificere og forfine hvert løsningstrin. Træningen udnyttede webdata af høj kvalitet, syntetiske problemsæt og kuraterede "tankekæde"-demonstrationer fra OpenAI's o3-mini, hvilket resulterede i en model, der udmærker sig i matematik, naturvidenskab, kodning og mere til.

Hvad er Phi-4-ræsonnement?

Hvordan blev Phi-4-ræsonnement trænet?

Phi-4-ræsonnement opstod ved overvåget finjustering af den grundlæggende Phi-4-model på et omhyggeligt kurateret datasæt af "lærbare" prompts og detaljerede ræsonnementsspor. Forskere genererede mange af disse spor ved at prompte o3-mini til at løse komplekse problemer og derefter filtrere dem for diversitet og pædagogisk klarhed. Denne proces sikrede, at modellen ikke blot lærte svar, men også strukturerede problemløsningsmetoder. En efterfølgende variant, Phi-4-Reasoning-Plus, gennemgik en fase med resultatbaseret forstærkningslæring, som opfordrede til længere, mere grundige ræsonnementskæder for yderligere at øge nøjagtigheden.

Hvilke evner definerer Phi-4-ræsonnement?

AlsidighedDens træning spænder over matematik-OL-problemer, naturvidenskabelige spørgsmål på ph.d.-niveau, kodningsudfordringer, algoritmiske gåder (3SAT, TSP, BA-Calendar) og rumlig ræsonnement, hvilket demonstrerer robust generalisering på tværs af forskellige domæner.

Detaljeret tankekædegenereringVed at dedikere ekstra inferenstrin til at verificere hver mellemliggende konklusion, konstruerer Phi-4 Reasoning transparente, trinvise løsninger i stedet for uigennemsigtige enkeltstående svar.

Benchmark-slående ydeevneTrods sin beskedne størrelse overgår den meget større modeller med åben vægt som DeepSeek-R1-Distill-Llama-70B og nærmer sig ydeevnen af ​​den fulde DeepSeek-R1 (671 B parametre) på algoritmisk ræsonnement og planlægningsopgaver.

Hvordan adskiller Phi-4 Reasoning sig fra tidligere modeller?

På hvilke måder forbedrer det den generelle Phi-4?

Phi-4 til generel brug blev designet til brede LLM-opgaver - færdiggørelse, opsummering, oversættelse - hvorimod Phi-4 Reasonings overvågede finjustering af tankekædedata specifikt finpudser dens trinvise inferens. Denne specialisering giver overlegen nøjagtighed på flertrinsopgaver, samtidig med at mange af den oprindelige models funktioner bevares. Derudover bytter den RL-forbedrede "Plus"-variant inferenshastighed ud med endnu dybere ræsonnement, når der kræves den største præcision.

Hvordan er det sammenlignet med konkurrenternes ræsonnementsmodeller?

DeepSeek R1-modellerPå opgaver destilleret fra DeepSeeks 671 B-parameter R1-model, nærmer Phi-4 Reasoning-Plus sig tilsvarende ydeevne, hvilket viser, at omhyggelig datakuratering og træning kan mindske kløften mellem små og massive LLM'er.

OpenAI o3-miniPhi-4 Reasoning matcher eller overgår o3-mini på benchmarks som OmniMath (en struktureret matematiktest), på trods af o3-minis større antal parametre dedikeret til ræsonnement.

Hvad er de nyeste varianter og udvidelser?

Phi‑4‑Ræsonnement‑Plus: Forbedret ræsonnement med forstærkende læring

Phi-4-Reasoning-Plus bygger videre på den grundlæggende Phi-4-Reasoning-arkitektur ved at introducere en resultatbaseret forstærkningslæringsfase (RL), der yderligere optimerer kvaliteten af ​​ræsonnementskæden. I denne variant inkorporerer udviklere en kort RL-træningsrunde ved hjælp af et verificerbart belønningssignal udledt af opgavespecifikke succesmålinger - såsom beviskorrekthed eller løsningsfuldstændighed - for at fremme genereringen af ​​mere detaljerede og præcise mellemtrin.

Som et resultat udviser Phi-4-Reasoning-Plus en ydeevneforbedring på 2-4 % på tværs af standard ræsonnement-benchmarks sammenlignet med dens overvågede modstykke, især på opgaver, der kræver multi-hop-inferens og langkædet deduktion. Desuden giver denne RL-drevne forbedring modellen mulighed for at selvkorrigere tvetydige ræsonnementsstier, hvilket reducerer hallucinationsrater med op til 15 % i kontrollerede tests. Med standardunderstøttelse af kontekstvinduer på op til 64,000 tokens kan Phi-4-Reasoning-Plus problemfrit integrere udvidede problembeskrivelser uden at ofre sammenhæng. Dens forbedrede funktioner gør den velegnet til områder med høj indsats som sundhedsdiagnostik og modellering af juridiske argumenter.

Phi-4-Mini-Reasoning: Kompakt Reasoning til indlejrede applikationer

Som supplement til fuldskalamodellerne tilbyder Phi-4-Mini-Reasoning en strømlinet ræsonnementløsning med cirka 3.8 milliarder parametre. Denne letvægtsvariant, der er skræddersyet til uddannelsesmæssige og enhedsbaserede AI-applikationer, blev trænet på et specialiseret korpus af syntetiske matematiske problemer - i alt omkring en million forskellige instanser genereret af DeepSeeks R1-ræsonnementssystem - og yderligere forfinet gennem overvåget finjustering på kompakte tankekædespor af høj kvalitet.

Trods det reducerede antal parametre opnår Phi-4-Mini-Reasoning konkurrencedygtig nøjagtighed på matematiske benchmarks og overgår andre mindre modeller som DeepSeek-R1-Distill-Qwen-7B med over 3 point på Math-500. Dens evne til at operere med 10 tokens i sekundet på standard forbrugerhardware og understøtte kontekstlængder på 128,000 tokens gør den ideel til indlejrede tutoringsystemer og kodningsassistenter i ressourcebegrænsede miljøer.

Hvor kan Phi-4-ræsonnement anvendes?

Hvordan kan det forbedre pædagogiske værktøjer?

Phi-4-Mini-Reasoning, der er trænet på cirka 1 million syntetiske matematikproblemer fra DeepSeeks R1-model, er optimeret til "indlejret vejledning" på lette enheder. Den kan guide eleverne gennem trinvise løsninger, tilbyde hints og verificere hvert trin i realtid, hvilket transformerer uddannelsesapps og smarte klasseværelsesværktøjer (, ).

Hvilke anvendelsesscenarier i branchen skiller sig ud?

  • MedicinPå edge-aktiverede medicinske enheder kan Phi-4 Reasoning analysere diagnostiske data, forklare komplekse kliniske retningslinjer og foreslå behandlingsplaner med transparente ræsonnementsspor.
  • Videnskabelig undersøgelseForskere kan udnytte modellens output fra tankekæden til at dokumentere arbejdsgange for hypotesetestning inden for kemi, fysik og biologi.
  • SoftwareudviklingI kodningsassistenter kan Phi-4 Reasoning nedbryde algoritmiske udfordringer, foreslå kodestykker med forklarende kommentarer og verificere korrekthed gennem logisk inferens (, ).

Hvor kan udviklere tilgå og implementere det?

Phi-4 Reasoning-modeller er tilgængelige under en åben MIT-licens på Azure AI Foundry, Hugging Face og GitHub Marketplace. Dokumentation og vejledninger – såsom "Phi-4 Reasoning How-To" på UnsLoTH AI – beskriver lokal implementering, kvantiseringsarbejdsgange og finjustering af opskrifter til domænespecifikke opgaver.

Hvilke udfordringer og åbne spørgsmål er der stadig?

Evaluering af robusthed i ræsonnement

Selvom benchmark-præstationer viser Phi-4-Reasonings styrker, er det afgørende at vurdere dens robusthed under modstridende eller uforudsete forhold. Indledende undersøgelser, der bruger stresstestprotokoller med forvrængede præmisser, modstridende aksiomer eller tvetydig variabelnavngivning, afslører fejlprocenter på over 20 %, når modellen står over for vildledende eller ufuldstændig information. Disse resultater fremhæver behovet for mere detaljerede evalueringsrammer, der indfanger fejltilstande såsom cirkulær ræsonnement eller konceptdrift, og for diagnostiske værktøjer, der afdækker konfidensscorer og provenienskæder. Etablering af standardiserede, domæneagnostiske robusthedsbenchmarks vil være afgørende for at certificere modellens parathed til sikkerhedskritiske anvendelser inden for områder som juridisk rådgivning og beslutningsstøtte inden for sundhedsvæsenet.

Håndtering af justerings- og sikkerhedsproblemer

Tilpasning og sikkerhed er fortsat altafgørende, efterhånden som avancerede ræsonnementsmodeller bliver integreret i beslutningsprocesser på tværs af følsomme domæner. Trods streng overvåget finjustering og RL-belønningsformning udgør Phi-4-Reasonings evne til at generere plausible, men ukorrekte output - såkaldte "hallucinationer" - risici i kontekster med høj indsats. Tilfælde af socialt forudindtaget ræsonnement eller anbefalinger, der modsiger etiske retningslinjer, understreger behovet for flerlagede sikkerhedsforanstaltninger. Branchens bedste praksis anbefaler at integrere on-the-fly indholdsfiltre, red-teaming-øvelser og human-in-the-loop-overvågning for at opfange utilsigtet adfærd. Udvikling af kvantitative tilpasningsmålinger - såsom sandfærdighedsscorer kalibreret mod guldstandarddatasæt - og brugervenlige korrektionsgrænseflader vil være afgørende for at sikre, at Phi-4-Reasoning-modeller er i overensstemmelse med samfundsmæssige normer og opretholder gennemsigtighed, når de gennemsyrer kritiske arbejdsgange.

Konklusion

Phi-4 Reasoning repræsenterer et vendepunkt inden for AI: et skift fra ren skala til intelligent specialisering. Ved at levere næsten topmoderne ræsonnement i en lille, åben pakke baner det vejen for transparent, effektiv og bredt tilgængelig AI-ræsonnement – ​​og transformerer den måde, vi underviser, forsker og løser de sværeste problemer på, uanset om det er i skyen eller i edge-miljøet.

Indtil videre skal de, der er interesserede i at bruge Phi-4 Reasoning, holde sig opdateret. Vi vil løbende opdatere. CometAPI og CometAPI API-ændringslog.

Læs mere

500+ modeller i én API

Op til 20% rabat