Microsoft Research, 4 Nisan 30'te Phi‑2025 Reasoning'i, Phi‑4‑Mini‑Reasoning (≈3.8 B parametre) ve Phi‑4‑Reasoning‑Plus (takviyeli öğrenme ayarlamasıyla 14 B parametre) adlı iki kardeş modelle birlikte tanıttı. Genel amaçlı LLM'lerin aksine, bu modeller muhakeme için uzmanlaşmıştır: her çözüm adımını doğrulamak ve iyileştirmek için ek çıkarım hesaplaması tahsis ederler. Eğitim, yüksek kaliteli web verilerinden, sentetik problem kümelerinden ve OpenAI'nin o3‑mini'sinden küratörlü "düşünce zinciri" gösterilerinden yararlandı ve bunun sonucunda matematik, fen, kodlama ve ötesinde mükemmellik gösteren bir model ortaya çıktı.
Phi‑4 Akıl Yürütme Nedir?
Phi‑4 Akıl Yürütme nasıl eğitildi?
Phi-4 Muhakeme, "öğretilebilir" istemler ve ayrıntılı muhakeme izlerinden oluşan dikkatlice düzenlenmiş bir veri kümesi üzerinde temel Phi-4 modelinin denetlenen ince ayarından ortaya çıktı. Araştırmacılar bu izlerin çoğunu o3-mini'yi karmaşık problemleri çözmesi için uyararak oluşturdular, ardından çeşitlilik ve pedagojik netlik için filtrelediler. Bu süreç, modelin yalnızca cevapları değil, yapılandırılmış problem çözme yaklaşımlarını da öğrenmesini sağladı. Sonraki bir varyant olan Phi-4-Muhakeme-Artı, doğruluğu daha da artırmak için daha uzun, daha kapsamlı muhakeme zincirlerini teşvik eden sonuç tabanlı takviyeli öğrenme aşamasından geçti.
Phi‑4 Akıl Yürütmeyi hangi yetenekler tanımlar?
Çok yönlülük: Eğitimleri matematik olimpiyat problemleri, doktora düzeyindeki bilim soruları, kodlama zorlukları, algoritmik bulmacalar (3SAT, TSP, BA‑Calendar) ve mekansal akıl yürütmeyi kapsayarak çeşitli alanlarda sağlam genellemeler sunmaktadır.
Ayrıntılı düşünce zinciri oluşturma: Her bir ara sonucu doğrulamak için ekstra çıkarım adımları ayırarak Phi-4 Muhakeme, tek seferlik opak yanıtlar yerine şeffaf, adım adım çözümler oluşturur.
Standartları aşan performans: Mütevazı boyutuna rağmen, DeepSeek‑R1‑Distill‑Llama‑70B gibi çok daha büyük açık ağırlık modellerini geride bırakıyor ve algoritmik muhakeme ve planlama görevlerinde tam DeepSeek‑R1'in (671 B parametre) performansına yaklaşıyor.
Phi‑4 Akıl Yürütme önceki modellerden nasıl farklıdır?
Genel amaçlı Phi-4'ü hangi açılardan geliştiriyor?
Genel amaçlı Phi-4, tamamlama, özetleme, çeviri gibi geniş LLM görevleri için tasarlanmıştır; Phi-4 Reasoning'in düşünce zinciri verilerinde denetlenen ince ayarı, özellikle adım adım çıkarımını keskinleştirir. Bu uzmanlaşma, orijinal modelin birçok yeteneğini korurken çok adımlı görevlerde üstün doğruluk sağlar. Ek olarak, RL ile geliştirilmiş "Plus" varyantı, en üst düzeyde hassasiyet gerektiğinde çıkarım hızını daha da derin bir akıl yürütmeyle değiştirir.
Rakip akıl yürütme modelleriyle karşılaştırıldığında nasıl görünüyor?
DeepSeek R1 modelleriDeepSeek'in 671 B-parametreli R1 modelinden damıtılan görevlerde, Phi-4 Reasoning-Plus eşdeğer performansa yaklaşarak, dikkatli veri düzenleme ve eğitimin küçük ve büyük LLM'ler arasındaki farkı daraltabileceğini göstermektedir.
OpenAI o3‑mini: Phi‑4 Mantık, o3‑mini'nin muhakemeye ayrılmış daha büyük parametre sayısına rağmen OmniMath (yapılandırılmış bir matematik testi) gibi ölçütlerde o3‑mini ile aynı seviyede veya daha üstündür.
En son versiyonlar ve eklentiler nelerdir?
Phi‑4‑Reasoning‑Plus: Güçlendirme Öğrenimiyle Gelişmiş Muhakeme
Phi‑4‑Reasoning‑Plus, akıl yürütme zinciri kalitesini daha da optimize eden bir sonuç tabanlı takviyeli öğrenme (RL) aşaması sunarak temel Phi‑4‑Reasoning mimarisine dayanır. Bu varyantta, geliştiriciler daha ayrıntılı ve doğru ara adımların oluşturulmasını teşvik etmek için kanıt doğruluğu veya çözüm bütünlüğü gibi göreve özgü başarı ölçütlerinden türetilen doğrulanabilir bir ödül sinyali kullanan kısa bir RL eğitim turu ekler.
Sonuç olarak, Phi‑4‑Reasoning‑Plus, özellikle çoklu atlamalı çıkarım ve uzun zincirli çıkarım gerektiren görevlerde, yalnızca denetlenen muadiline kıyasla standart akıl yürütme kıyaslamalarında %2-4'lük performans kazanımları sergiler. Dahası, bu RL odaklı iyileştirme, modelin belirsiz akıl yürütme yollarını kendi kendine düzeltmesine olanak tanır ve kontrollü testlerde halüsinasyon oranlarını %15'e kadar azaltır. 64,000'e kadar jetonluk bağlam pencereleri için varsayılan destekle, Phi‑4‑Reasoning‑Plus, tutarlılıktan ödün vermeden genişletilmiş sorun açıklamalarını sorunsuz bir şekilde entegre edebilir. Gelişmiş yetenekleri, onu sağlık teşhisleri ve hukuki argüman modellemesi gibi yüksek riskli alanlar için oldukça uygun hale getirir.
Phi‑4‑Mini‑Reasoning: Gömülü Uygulamalar için Kompakt Reasoner
Tam ölçekli modelleri tamamlayan Phi‑4‑Mini‑Reasoning, yaklaşık 3.8 milyar parametreye sahip akıcı bir akıl yürütme çözümü sunar. Eğitim ve cihaz içi AI uygulamaları için tasarlanmış bu hafif varyant, DeepSeek'in R1 akıl yürütme sistemi tarafından üretilen yaklaşık bir milyon farklı örnekten oluşan özel bir sentetik matematik problemleri gövdesi üzerinde eğitildi ve kompakt, yüksek kaliteli düşünce zinciri izlerinde denetlenen ince ayar yoluyla daha da rafine edildi.
Azaltılmış parametre sayısına rağmen Phi‑4‑Mini‑Reasoning, Math‑1'de DeepSeek‑R7‑Distill‑Qwen‑3B gibi diğer küçük modelleri 500 puandan fazla geride bırakarak matematik kıyaslamalarında rekabetçi bir doğruluk elde eder. Standart tüketici donanımında saniyede 10 belirteçle çalışabilme ve 128,000 belirteç bağlam uzunluğunu destekleyebilme özelliği, onu kaynak sınırlı ortamlarda gömülü öğretim sistemleri ve kodlama yardımcıları için ideal hale getirir.
Phi‑4 Muhakemesinin uygulanabileceği yerler nelerdir?
Eğitim araçlarını nasıl geliştirebilir?
DeepSeek'in R4 modelinden yaklaşık 1 milyon sentetik matematik problemi üzerinde eğitilen Phi‑1‑Mini‑Reasoning, hafif cihazlarda "gömülü eğitim" için optimize edilmiştir. Öğrencileri adım adım çözümlerde yönlendirebilir, ipuçları sunabilir ve her adımı gerçek zamanlı olarak doğrulayabilir, eğitim uygulamalarını ve akıllı sınıf araçlarını dönüştürebilir (, ).
Hangi endüstri kullanım örnekleri öne çıkıyor?
- Tıp: Kenar etkinleştirilmiş tıbbi cihazlarda Phi‑4 Reasoning, tanı verilerini analiz edebilir, karmaşık klinik yönergeleri açıklayabilir ve şeffaf akıl yürütme izleriyle tedavi planları önerebilir.
- Bilimsel araştırma: Araştırmacılar, kimya, fizik ve biyolojideki hipotez test etme iş akışlarını belgelemek için modelin düşünce zinciri çıktılarından yararlanabilirler.
- Yazılım geliştirme: Kodlama yardımcılarında Phi‑4 Reasoning, algoritmik zorlukları parçalara ayırabilir, açıklayıcı yorumlarla kod parçacıkları önerebilir ve mantıksal çıkarım yoluyla doğruluğu doğrulayabilir (, ).
Geliştiriciler buna nereden erişebilir ve dağıtabilir?
Phi‑4 Reasoning modelleri, Azure AI Foundry, Hugging Face ve GitHub Marketplace'te açık ağırlıkta bir MIT lisansı altında mevcuttur. UnsLoTH AI'daki "Phi‑4 Reasoning How‑To" gibi belgeler ve kılavuzlar, yerel dağıtım, niceleme iş akışları ve alan özelindeki görevler için ince ayar tariflerini ayrıntılı olarak açıklar.
Hangi zorluklar ve açık sorular var?
Muhakeme Sağlamlığının Değerlendirilmesi
Karşılaştırma performansı Phi-4-Muhakemenin güçlü yönlerini sergilerken, onun düşmanca veya dağıtım dışı koşullar altında sağlamlığını değerlendirmek esastır. Karıştırılmış öncüller, çelişkili aksiyomlar veya belirsiz değişken adlandırmaları içeren stres testi protokollerini kullanan ön çalışmalar, model yanıltıcı veya eksik bilgilerle karşılaştığında %20'yi aşan hata oranı artışları ortaya koymaktadır. Bu bulgular, dairesel muhakeme veya kavram kayması gibi hata modlarını yakalayan daha ayrıntılı değerlendirme çerçevelerine ve güven puanlarını ve köken zincirlerini ortaya çıkaran tanı araçlarına olan ihtiyacı vurgulamaktadır. Standartlaştırılmış, alandan bağımsız sağlamlık karşılaştırmaları oluşturmak, modelin hukuk danışmanlığı ve sağlık karar desteği gibi alanlardaki güvenlik açısından kritik uygulamalar için hazır olduğunu onaylamak için çok önemli olacaktır.
Uyum ve Güvenlik Endişelerinin Ele Alınması
İleri düzey akıl yürütme modelleri hassas alanlardaki karar alma süreçlerine yerleştikçe, uyum ve güvenlik en önemli unsur olmaya devam ediyor. Sıkı denetlenen ince ayar ve RL ödül şekillendirmesine rağmen, Phi-4-Muhakemenin makul ancak yanlış çıktılar üretme kapasitesi -sözde "halüsinasyonlar"- yüksek riskli bağlamlarda riskler oluşturuyor. Etik yönergelerle çelişen toplumsal önyargılı akıl yürütme veya öneriler örnekleri, çok katmanlı güvenlik önlemlerinin gerekliliğini vurgular. Sektörün en iyi uygulamaları, istenmeyen davranışları engellemek için anında içerik filtreleri, kırmızı takım egzersizleri ve döngüdeki insan denetimini entegre etmeyi savunuyor. Altın standart veri kümelerine göre kalibre edilmiş doğruluk puanları gibi niceliksel uyum ölçümleri ve kullanıcı dostu düzeltme arayüzleri geliştirmek, Phi-4-Muhakeme modellerinin toplumsal normlarla uyumlu olmasını ve kritik iş akışlarına nüfuz ederken şeffaflığı korumasını sağlamak için hayati önem taşıyacaktır.
Sonuç
Phi‑4 Reasoning, yapay zekada bir dönüm noktasını temsil ediyor: salt ölçekten akıllı uzmanlaşmaya doğru bir geçiş. Küçük, açık ağırlıkta bir pakette neredeyse son teknoloji akıl yürütmeyi sunarak, şeffaf, verimli ve yaygın olarak erişilebilir yapay zeka akıl yürütmesinin yolunu açıyor; ister bulutta ister uçta olsun, en zor sorunları nasıl öğrettiğimizi, araştırdığımızı ve çözdüğümüzü dönüştürüyor.
Şimdilik, Phi‑4 Reasoning'i kullanmakla ilgilenenler, güncellemeler için bizi izlemeye devam etmelidir. Güncellemeye devam edeceğiz Kuyrukluyıldız API'si ve CometAPI API değişiklik günlüğü.
