Apa itu Penalaran Phi‑4 & Bagaimana Cara Kerjanya?

Microsoft Research meluncurkan Phi‑4 Reasoning pada tanggal 30 April 2025, bersama dengan dua model saudaranya—Phi‑4‑Mini‑Reasoning (≈3.8 parameter B) dan Phi‑4‑Reasoning‑Plus (14 parameter B dengan penyetelan pembelajaran penguatan). Tidak seperti LLM tujuan umum, model ini dikhususkan untuk penalaran: model ini mengalokasikan komputasi inferensi tambahan untuk memverifikasi dan menyempurnakan setiap langkah solusi. Pelatihan memanfaatkan data web berkualitas tinggi, rangkaian masalah sintetis, dan demonstrasi "rantai pemikiran" yang dikurasi dari o3‑mini OpenAI, yang menghasilkan model yang unggul dalam matematika, sains, pengodean, dan lainnya.

Apa itu Penalaran Phi‑4?

Bagaimana Penalaran Phi‑4 dilatih?

Penalaran Phi‑4 muncul dari penyempurnaan yang diawasi dari model dasar Phi‑4 pada kumpulan data yang dikurasi dengan cermat dari petunjuk yang “dapat diajarkan” dan jejak penalaran terperinci. Para peneliti menghasilkan banyak jejak ini dengan meminta o3‑mini untuk memecahkan masalah yang rumit, kemudian menyaringnya untuk mendapatkan keberagaman dan kejelasan pedagogis. Proses ini memastikan model tersebut mempelajari bukan hanya jawaban, tetapi juga pendekatan pemecahan masalah yang terstruktur. Varian berikutnya, Phi‑4‑Reasoning‑Plus, menjalani fase pembelajaran penguatan berbasis hasil, yang mendorong rantai penalaran yang lebih panjang dan lebih menyeluruh untuk lebih meningkatkan akurasi.

Kemampuan apa yang mendefinisikan Penalaran Phi‑4?

Multifungsi: Pelatihannya mencakup soal Olimpiade matematika, soal sains tingkat PhD, tantangan pengkodean, teka-teki algoritmik (3SAT, TSP, BA‑Calendar), dan penalaran spasial, yang menunjukkan generalisasi yang kuat di berbagai domain.

Pembuatan rantai pemikiran yang terperinci: Dengan mendedikasikan langkah-langkah inferensi tambahan untuk memverifikasi setiap kesimpulan antara, Penalaran Phi‑4 membangun solusi bertahap yang transparan, bukannya jawaban tunggal yang tidak jelas.

Performa yang melampaui tolok ukur: Meskipun ukurannya sederhana, ia mengungguli model bobot terbuka yang jauh lebih besar seperti DeepSeek‑R1‑Distill‑Llama‑70B dan mendekati kinerja DeepSeek‑R1 penuh (671 parameter B) pada tugas penalaran algoritmik dan perencanaan.

Apa yang membedakan Phi‑4 Reasoning dengan model sebelumnya?

Dengan cara apa ia meningkatkan Phi‑4 untuk keperluan umum?

Phi‑4 untuk keperluan umum dirancang untuk tugas-tugas LLM yang luas—penyelesaian, peringkasan, penerjemahan—sementara penyempurnaan yang diawasi pada data rantai pemikiran Phi‑4 Reasoning secara khusus mengasah inferensi bertahapnya. Spesialisasi ini menghasilkan akurasi yang unggul pada tugas-tugas multi-langkah, sambil tetap mempertahankan banyak kemampuan dari model asli. Selain itu, varian “Plus” yang disempurnakan dengan RL menukar kecepatan inferensi dengan penalaran yang lebih mendalam ketika presisi tertinggi dibutuhkan.

Bagaimana perbandingannya dengan model penalaran pesaing?

Model DeepSeek R1: Pada tugas yang disuling dari model B-parameter R671 1 DeepSeek, Phi-4 Reasoning-Plus mendekati kinerja yang setara, menunjukkan bahwa kurasi dan pelatihan data yang cermat dapat mempersempit kesenjangan antara LLM kecil dan besar.

OpenAI o3‑mini: Phi‑4 Reasoning menyamai atau melampaui o3‑mini pada tolok ukur seperti OmniMath (tes matematika terstruktur), meskipun jumlah parameter o3‑mini lebih besar yang didedikasikan untuk penalaran.

Apa varian dan ekstensi terbaru?

Phi‑4‑Reasoning‑Plus: Peningkatan Penalaran dengan Pembelajaran Penguatan

Phi‑4‑Reasoning‑Plus dibangun di atas arsitektur dasar Phi‑4‑Reasoning dengan memperkenalkan fase pembelajaran penguatan (RL) berbasis hasil yang lebih mengoptimalkan kualitas rantai penalaran. Dalam varian ini, pengembang menggabungkan putaran pelatihan RL singkat menggunakan sinyal penghargaan yang dapat diverifikasi yang berasal dari metrik keberhasilan khusus tugas—seperti kebenaran bukti atau kelengkapan solusi—untuk mendorong pembuatan langkah-langkah perantara yang lebih terperinci dan akurat.

Hasilnya, Phi‑4‑Reasoning‑Plus menunjukkan peningkatan kinerja sebesar 2–4% di seluruh tolok ukur penalaran standar dibandingkan dengan mitranya yang hanya diawasi, khususnya pada tugas yang memerlukan inferensi multi-hop dan deduksi rantai panjang. Selain itu, penyempurnaan yang digerakkan oleh RL ini memungkinkan model untuk mengoreksi sendiri jalur penalaran yang ambigu, mengurangi tingkat halusinasi hingga 15% dalam pengujian yang terkontrol. Dengan dukungan default untuk jendela konteks hingga 64,000 token, Phi‑4‑Reasoning‑Plus dapat mengintegrasikan deskripsi masalah yang diperluas dengan lancar tanpa mengorbankan koherensi. Kemampuannya yang ditingkatkan membuatnya sangat cocok untuk domain berisiko tinggi seperti diagnostik perawatan kesehatan dan pemodelan argumen hukum.

Phi‑4‑Mini‑Reasoning: Reasoner Kompak untuk Aplikasi Tertanam

Melengkapi model skala penuh, Phi‑4‑Mini‑Reasoning menawarkan solusi penalaran yang efisien dengan sekitar 3.8 miliar parameter. Dirancang khusus untuk aplikasi AI pendidikan dan pada perangkat, varian ringan ini dilatih pada korpus khusus masalah matematika sintetis—totalnya sekitar satu juta contoh berbeda yang dihasilkan oleh sistem penalaran R1 DeepSeek—dan disempurnakan lebih lanjut melalui penyempurnaan terawasi pada jejak rantai pemikiran yang ringkas dan berkualitas tinggi.

Meskipun jumlah parameternya berkurang, Phi‑4‑Mini‑Reasoning mencapai akurasi yang kompetitif pada tolok ukur matematika, mengungguli model kecil lainnya seperti DeepSeek‑R1‑Distill‑Qwen‑7B dengan lebih dari 3 poin pada Math‑500. Kemampuannya untuk beroperasi pada 10 token per detik pada perangkat keras konsumen standar dan untuk mendukung panjang konteks 128,000 token membuatnya ideal untuk sistem bimbingan belajar tertanam dan asisten pengodean di lingkungan dengan sumber daya terbatas.

Di mana Penalaran Phi‑4 dapat diterapkan?

Bagaimana cara meningkatkan alat pendidikan?

Phi‑4‑Mini‑Reasoning, yang dilatih pada sekitar 1 juta soal matematika sintetis dari model R1 DeepSeek, dioptimalkan untuk "bimbingan belajar tertanam" pada perangkat ringan. Ia dapat memandu siswa melalui solusi langkah demi langkah, menawarkan petunjuk, dan memverifikasi setiap langkah secara real time, mengubah aplikasi pendidikan dan alat kelas pintar (, ).

Kasus penggunaan industri apa yang menonjol?

Obat: Pada perangkat medis yang mendukung edge, Phi‑4 Reasoning dapat menganalisis data diagnostik, menjelaskan pedoman klinis yang rumit, dan mengusulkan rencana perawatan dengan jejak penalaran yang transparan.
Penelitian ilmiah: Para peneliti dapat memanfaatkan keluaran rangkaian pemikiran model untuk mendokumentasikan alur kerja pengujian hipotesis dalam kimia, fisika, dan biologi.
Pengembangan perangkat lunak: Dalam asisten pengkodean, Phi‑4 Reasoning dapat memecah tantangan algoritmik, menyarankan potongan kode dengan komentar penjelasan, dan memverifikasi kebenaran melalui inferensi logis (, ).

Di mana pengembang dapat mengakses dan menyebarkannya?

Model Phi‑4 Reasoning tersedia di bawah lisensi MIT open‑weight di Azure AI Foundry, Hugging Face, dan GitHub Marketplace. Dokumentasi dan panduan—seperti “Phi‑4 Reasoning How‑To” di UnsLoTH AI—merinci penerapan lokal, alur kerja kuantisasi, dan resep penyempurnaan untuk tugas khusus domain.

Tantangan dan pertanyaan terbuka apa yang masih tersisa?

Mengevaluasi Kekokohan Penalaran

Sementara kinerja tolok ukur menunjukkan kekuatan Phi‑4‑Reasoning, menilai ketahanannya dalam kondisi yang berlawanan atau di luar distribusi sangatlah penting. Studi pendahuluan menggunakan protokol uji stres dengan premis yang diacak, aksioma yang kontradiktif, atau penamaan variabel yang ambigu mengungkapkan lonjakan tingkat kesalahan yang melebihi 20% ketika model menghadapi informasi yang menipu atau tidak lengkap. Temuan ini menyoroti perlunya kerangka evaluasi yang lebih terperinci yang menangkap mode kegagalan seperti penalaran melingkar atau penyimpangan konsep, dan untuk alat diagnostik yang memunculkan skor kepercayaan dan rantai asal. Menetapkan tolok ukur ketahanan yang terstandarisasi dan tidak bergantung pada domain akan sangat penting untuk mensertifikasi kesiapan model untuk aplikasi kritis keselamatan di bidang seperti konsultasi hukum dan dukungan keputusan perawatan kesehatan.

Mengatasi Masalah Penyelarasan dan Keamanan

Penyelarasan dan keamanan tetap menjadi hal yang terpenting karena model penalaran tingkat lanjut mulai tertanam dalam proses pengambilan keputusan di seluruh domain yang sensitif. Meskipun dilakukan penyempurnaan yang diawasi secara ketat dan pembentukan penghargaan RL, kapasitas Penalaran Phi-4 untuk menghasilkan keluaran yang masuk akal tetapi salah—yang disebut "halusinasi"—menimbulkan risiko dalam konteks berisiko tinggi. Contoh penalaran yang bias secara sosial atau rekomendasi yang bertentangan dengan pedoman etika menggarisbawahi perlunya perlindungan berlapis-lapis. Praktik terbaik industri menganjurkan pengintegrasian filter konten yang cepat, latihan kerja sama tim, dan pengawasan manusia untuk mencegah perilaku yang tidak diinginkan. Mengembangkan metrik penyelarasan kuantitatif—seperti skor kejujuran yang dikalibrasi terhadap kumpulan data standar emas—dan antarmuka koreksi yang mudah digunakan akan sangat penting untuk memastikan bahwa model Penalaran Phi-4 selaras dengan norma-norma sosial dan menjaga transparansi saat model tersebut meresap ke dalam alur kerja yang penting.

Kesimpulan

Penalaran Phi‑4 merupakan titik balik dalam AI: pergeseran dari skala besar menuju spesialisasi cerdas. Dengan menghadirkan penalaran yang mendekati mutakhir dalam paket kecil dan berbobot terbuka, penalaran ini membuka jalan bagi penalaran AI yang transparan, efisien, dan dapat diakses secara luas—mengubah cara kita mengajar, meneliti, dan memecahkan masalah tersulit, baik di cloud maupun di edge.

Untuk saat ini, bagi mereka yang tertarik menggunakan Phi‑4 Reasoning, kami akan terus memantau pembaruan. Kami akan terus memperbarui API Komet dan Catatan perubahan API CometAPI.