Apa yang dipikirkan Kimi K2 dan bagaimana cara mengaksesnya?

CometAPI
AnnaNov 8, 2025
Apa yang dipikirkan Kimi K2 dan bagaimana cara mengaksesnya?

Kimi K2 Thinking adalah varian “berpikir” baru dari keluarga Kimi K2 dari Moonshot AI: model Campuran-Pakar (MoE) dengan triliunan parameter yang secara eksplisit direkayasa untuk berpikir sambil bertindak —yaitu, untuk menggabungkan penalaran rantai pemikiran yang mendalam dengan pemanggilan alat yang andal, perencanaan jangka panjang, dan pemeriksaan mandiri otomatis. Ini menggabungkan tulang punggung yang besar dan jarang (total parameter ≈1T, ~32B diaktifkan per token), alur kuantisasi INT4 asli, dan desain yang berskala waktu inferensi penalaran (lebih banyak “token pemikiran” dan lebih banyak putaran pemanggilan alat) daripada sekadar menambah jumlah parameter statis.

Secara sederhana: K2 Thinking memperlakukan model sebagai solusi pemecahan masalah agen alih-alih generator bahasa sekali pakai. Pergeseran tersebut — dari "model bahasa" menjadi "model berpikir" — inilah yang membuat rilis ini penting dan mengapa banyak praktisi menganggapnya sebagai tonggak penting dalam AI agen sumber terbuka.

Apa sebenarnya yang dimaksud dengan “Kimi K2 Thinking”?

Arsitektur dan spesifikasi utama

K2 Thinking dibangun sebagai model MoE yang jarang (384 ahli, 8 ahli dipilih per token) dengan sekitar 1 triliun total parameter dan ~32B parameter yang diaktifkan per inferensi. Model ini menggunakan pilihan arsitektur hibrida (perhatian MLA, aktivasi SwiGLU) dan dilatih dengan pengoptimal Muon/MuonClip Moonshot pada anggaran token besar yang dijelaskan dalam laporan teknis mereka. Varian pemikiran memperluas model dasar dengan kuantisasi pasca-pelatihan (dukungan INT4 asli), jendela konteks 256k, dan rekayasa untuk mengekspos dan menstabilkan jejak penalaran internal model selama penggunaan nyata.

Apa arti “berpikir” dalam praktik

"Berpikir" di sini merupakan tujuan rekayasa: memungkinkan model untuk (1) menghasilkan rantai penalaran internal yang panjang dan terstruktur (token rantai pemikiran), (2) memanggil perangkat eksternal (pencarian, kotak pasir Python, peramban, basis data) sebagai bagian dari penalaran tersebut, (3) mengevaluasi dan memverifikasi sendiri klaim perantara, dan (4) beriterasi melalui banyak siklus tersebut tanpa meruntuhkan koherensi. Dokumentasi dan kartu model Moonshot menunjukkan K2 Thinking secara eksplisit dilatih dan disetel untuk menyisipkan penalaran dan pemanggilan fungsi, serta mempertahankan perilaku agen yang stabil di ratusan langkah.

Apa tujuan inti

Keterbatasan model skala besar tradisional adalah:

  • Proses pembangkitannya tidak berpandangan jauh ke depan, tidak memiliki logika lintas langkah;
  • Penggunaan alat terbatas (biasanya hanya alat eksternal yang dapat dipanggil sekali atau dua kali);
  • Mereka tidak dapat mengoreksi diri sendiri dalam masalah yang rumit.

Tujuan inti desain K2 Thinking adalah untuk memecahkan ketiga masalah ini. Dalam praktiknya, K2 Thinking dapat, tanpa campur tangan manusia, melakukan: 200–300 panggilan alat secara berurutan; mempertahankan ratusan langkah penalaran yang koheren secara logis; memecahkan masalah kompleks melalui pemeriksaan mandiri kontekstual.

Reposisi: model bahasa → model berpikir

Proyek K2 Thinking menggambarkan pergeseran strategis yang lebih luas di bidang ini: bergerak melampaui pembuatan teks bersyarat menuju pemecah masalah agenikTujuan utamanya bukanlah untuk meningkatkan kebingungan atau prediksi token berikutnya, melainkan untuk membuat model yang dapat:

  • Rencanakan strategi multi-langkah mereka sendiri;
  • Koordinat alat dan efektor eksternal (pencarian, eksekusi kode, basis pengetahuan);
  • Memeriksa hasil antara dan kesalahan yang diperbaiki;
  • Menopang koherensi lintas konteks yang panjang dan rantai alat yang panjang.

Pembingkaian ulang ini mengubah evaluasi (tolok ukur menekankan proses dan hasil, bukan hanya kualitas teks) dan rekayasa (struktur untuk perutean alat, penghitungan langkah, kritik diri, dll.).

Metode kerja: bagaimana model berpikir beroperasi

Dalam praktiknya, K2 Thinking menunjukkan beberapa metode kerja yang menjadi ciri pendekatan “model berpikir”:

  1. Jejak internal yang persisten: Model ini menghasilkan langkah-langkah perantara yang terstruktur (jejak penalaran) yang disimpan dalam konteks dan dapat digunakan kembali atau diaudit nanti.
  2. Perutean alat dinamis: Berdasarkan setiap langkah internal, K2 memutuskan alat mana yang akan dipanggil (pencarian, penafsir kode, peramban web) dan kapan memanggilnya.
  3. Skala waktu pengujian: Selama inferensi, sistem dapat memperluas “kedalaman berpikir” (lebih banyak token penalaran internal) dan meningkatkan jumlah panggilan alat untuk mengeksplorasi solusi dengan lebih baik.
  4. Verifikasi diri dan pemulihan: Model tersebut secara eksplisit memeriksa hasil, menjalankan uji kewarasan, dan merencanakan ulang saat pemeriksaan gagal.

Metode ini menggabungkan arsitektur model (MoE + konteks panjang) dengan rekayasa sistem (orkestrasi alat, pemeriksaan keamanan).

Inovasi teknologi apa yang memungkinkan Kimi K2 Thinking?

Mekanisme Penalaran Kimi K2 Thinking Mendukung pemikiran yang saling terkait dan penggunaan alat. Lingkaran penalaran K2 Thinking:

  • Memahami masalah (parsing & abstrak)
  • Membuat rencana penalaran multi-langkah (rantai rencana)
  • Memanfaatkan alat eksternal (kode, browser, mesin matematika)
  • Memverifikasi dan merevisi hasil (verify & revise)
  • Menyimpulkan penalaran (conclude reasoning)

Di bawah ini, saya akan memperkenalkan tiga teknik utama yang memungkinkan terjadinya putaran penalaran dalam xx.

1) Skala Waktu Pengujian

Apa itu: "Hukum Penskalaan" tradisional berfokus pada peningkatan jumlah parameter atau data selama pelatihan. Inovasi K2 Thinking terletak pada: Memperluas jumlah token secara dinamis (yaitu, kedalaman pemikiran) selama "fase penalaran"; Memperluas jumlah pemanggilan alat secara bersamaan (yaitu, keluasan tindakan). Metode ini disebut penskalaan waktu pengujian, dan asumsi intinya adalah: "Rantai penalaran yang lebih panjang + alat yang lebih interaktif = lompatan kualitatif dalam kecerdasan yang sesungguhnya."

Mengapa hal ini penting: K2 Thinking secara eksplisit mengoptimalkan hal ini: Moonshot menunjukkan bahwa perluasan "token pemikiran" dan jumlah/kedalaman pemanggilan alat menghasilkan peningkatan yang terukur dalam tolok ukur agensi, yang memungkinkan model mengungguli model lain dengan ukuran serupa atau lebih besar dalam skenario yang sesuai dengan FLOP.

2) Penalaran yang Ditingkatkan dengan Alat

Apa itu: K2 Thinking dirancang untuk mengurai skema alat secara native, memutuskan secara otomatis kapan harus memanggil alat, dan menggabungkan kembali hasil alat ke dalam alur penalarannya yang sedang berlangsung. Moonshot melatih dan menyetel model untuk menyisipkan rangkaian pemikiran dengan pemanggilan fungsi, lalu menstabilkan perilaku ini melalui ratusan langkah alat yang berurutan.

Mengapa hal ini penting: Kombinasi tersebut — penguraian yang andal + status internal yang stabil + perkakas API — adalah yang memungkinkan model untuk melakukan penelusuran web, menjalankan kode, dan mengatur alur kerja multi-tahap sebagai bagian dari satu sesi.

Dalam arsitektur internalnya, model tersebut membentuk lintasan eksekusi “proses berpikir yang divisualisasikan”: prompt → token penalaran → pemanggilan alat → observasi → penalaran berikutnya → jawaban akhir

3) Koherensi Horizon Panjang & Verifikasi Diri

Apa itu: Koherensi horizon panjang adalah kemampuan model untuk mempertahankan rencana dan status internal yang koheren di berbagai langkah dan konteks yang sangat panjang. Verifikasi mandiri berarti model secara proaktif memeriksa keluaran antara dan menjalankan ulang atau merevisi langkah-langkah ketika verifikasi gagal. Tugas yang panjang seringkali menyebabkan model melayang atau berhalusinasi. K2 Thinking mengatasi hal ini dengan berbagai teknik: jendela konteks yang sangat panjang (256k), strategi pelatihan yang mempertahankan status di seluruh rangkaian CoT yang panjang, dan model kesetiaan/penilaian tingkat kalimat yang eksplisit untuk mendeteksi klaim yang tidak didukung.

Mengapa hal ini penting: Mekanisme "Memori Penalaran Berulang" mempertahankan persistensi keadaan penalaran, memberinya "stabilitas berpikir" dan karakteristik "pengawasan diri kontekstual" layaknya manusia. Karena tugas-tugas tersebut mencakup banyak langkah (misalnya, proyek riset, tugas pengodean multi-file, proses editorial yang panjang), mempertahankan satu alur yang koheren menjadi penting. Verifikasi diri mengurangi kegagalan diam-diam; alih-alih memberikan jawaban yang masuk akal tetapi salah, model tersebut dapat mendeteksi inkonsistensi dan berkonsultasi kembali dengan alat atau merencanakan ulang.

Kemampuan:

  • Konsistensi Kontekstual: Mempertahankan kesinambungan semantik pada 10 ribu+ token;
  • Deteksi & Pembalikan Kesalahan: Mengidentifikasi dan mengoreksi penyimpangan logis dalam proses berpikir awal;
  • Loop Verifikasi Mandiri: Secara otomatis memverifikasi kewajaran jawaban setelah penalaran selesai;
  • Penggabungan penalaran multi-jalur: Memilih jalur optimal dari beberapa rantai logis.

Apa saja empat kemampuan inti K2 Thinking?

Penalaran Mendalam & Terstruktur

K2 Thinking dirancang untuk menghasilkan jejak penalaran eksplisit dan multi-tahap serta menggunakannya untuk mencapai kesimpulan yang kuat. Model ini menunjukkan skor yang kuat pada uji coba matematika dan penalaran ketat (uji coba GSM8K, AIME, dan IMO) serta menunjukkan kemampuan untuk menjaga penalaran tetap utuh dalam rangkaian panjang — persyaratan dasar untuk pemecahan masalah tingkat riset. Performanya yang luar biasa pada Ujian Akhir Kemanusiaan (44.9%) menunjukkan kemampuan analitis tingkat ahli. Model ini dapat mengekstrak kerangka kerja logis dari deskripsi semantik fuzzy dan menghasilkan grafik penalaran.

Apa yang dipikirkan Kimi K2 dan bagaimana cara mengaksesnya?

Fitur Utama:

  • Mendukung Penalaran Simbolik: Memahami dan mengoperasikan struktur matematika, logika, dan pemrograman.
  • Memiliki Kemampuan Pengujian Hipotesis: Dapat secara spontan mengusulkan dan memverifikasi hipotesis.
  • Dapat Melakukan Dekomposisi Masalah Multi-Tahap: Memecah tujuan yang kompleks menjadi beberapa sub-tugas.

Pencarian Agen

Alih-alih langkah pengambilan tunggal, pencarian agen memungkinkan model merencanakan strategi pencarian (apa yang dicari), menjalankannya melalui panggilan web/alat berulang, mensintesis hasil yang masuk, dan menyempurnakan kueri. Skor BrowseComp dan Seal-0 yang diaktifkan alat dari K2 Thinking menunjukkan kinerja yang kuat pada kemampuan ini; model ini secara eksplisit dirancang untuk mendukung pencarian web multi-putaran dengan perencanaan stateful.

Apa yang dipikirkan Kimi K2 dan bagaimana cara mengaksesnya?

Esensi teknis:

  • Modul pencarian dan model bahasa membentuk lingkaran tertutup: pembuatan kueri → pengambilan halaman web → penyaringan semantik → penggabungan penalaran.
  • Model dapat menyesuaikan strategi pencariannya secara adaptif, misalnya, mencari definisi terlebih dahulu, lalu data, dan akhirnya memverifikasi hipotesis.
  • Pada hakikatnya, kecerdasan ini merupakan gabungan dari “mencari informasi + memahami + berargumentasi”.

Pengkodean Agen

Ini adalah kemampuan untuk menulis, mengeksekusi, menguji, dan mengulangi pada kode sebagai bagian dari loop penalaran. K2 Thinking mencatat hasil kompetitif pada benchmark live coding dan verifikasi kode, mendukung toolchain Python dalam pemanggilan alatnya, dan dapat menjalankan loop debugging multi-langkah dengan memanggil sandbox, membaca kesalahan, dan memperbaiki kode melalui proses berulang. Skor EvalPlus/LiveCodeBench-nya mencerminkan keunggulan ini. Meraih skor 71.3% dalam uji SWE-Bench Verified berarti K2 Thinking dapat menyelesaikan lebih dari 70% tugas perbaikan perangkat lunak di dunia nyata dengan benar.

Ia juga menunjukkan kinerja yang stabil dalam lingkungan kompetisi LiveCodeBench V6, yang memamerkan implementasi algoritma dan kemampuan pengoptimalannya.

Apa yang dipikirkan Kimi K2 dan bagaimana cara mengaksesnya?

Esensi teknis:

  • Ia mengadopsi proses “penguraian semantik + pemfaktoran ulang tingkat AST + verifikasi otomatis”;
  • Eksekusi dan pengujian kode dicapai melalui panggilan alat di lapisan eksekusi;
  • Ia mewujudkan pengembangan otomatis loop tertutup dari pemahaman kode → mendiagnosis kesalahan → membuat patch → memverifikasi keberhasilan.

Penulisan Agen

Lebih dari sekadar prosa kreatif, penulisan agen adalah produksi dokumen terstruktur dan terarah yang mungkin memerlukan riset eksternal, sitasi, pembuatan tabel, dan penyempurnaan berulang (misalnya, membuat draf → periksa fakta → revisi). Konteks panjang dan orkestrasi alat K2 Thinking membuatnya sangat cocok untuk alur kerja penulisan multi-tahap (ringkasan penelitian, ringkasan regulasi, konten multi-bab). Tingkat keberhasilan model yang terbuka pada tes bergaya Arena dan metrik penulisan bentuk panjang mendukung klaim tersebut.

Esensi teknis:

  • Secara otomatis menghasilkan segmen teks menggunakan perencanaan pemikiran agen;
  • Secara internal mengendalikan logika teks melalui token penalaran;
  • Dapat secara bersamaan memanggil alat-alat seperti pencarian, perhitungan, dan pembuatan grafik untuk mencapai “penulisan multimoda”.

Bagaimana Anda dapat menggunakan K2 Thinking hari ini?

Mode akses

K2 Thinking tersedia sebagai rilis sumber terbuka (bobot model dan titik pemeriksaan) dan melalui titik akhir platform dan pusat komunitas (Hugging Face, platform Moonshot). Anda dapat melakukan hosting mandiri jika memiliki komputasi yang memadai, atau menggunakan API KometAPI/UI yang dihosting untuk onboarding yang lebih cepat. Ini juga mendokumentasikan reasoning_content bidang yang memunculkan token pemikiran internal kepada pemanggil saat diaktifkan.

Tips praktis penggunaan

  • Mulailah dengan blok bangunan agensi: Pertama-tama, paparkan beberapa perangkat deterministik (pencarian, sandbox Python, dan basis data fakta tepercaya). Sediakan skema perangkat yang jelas agar model dapat mengurai/memvalidasi panggilan.
  • Sesuaikan komputasi waktu pengujianUntuk pemecahan masalah yang sulit, alokasikan anggaran pemikiran yang lebih panjang dan lebih banyak putaran pemanggilan alat; ukur bagaimana kualitas meningkat dibandingkan dengan latensi/biaya. Moonshot mendukung penskalaan waktu pengujian sebagai pendorong utama.
  • Gunakan mode INT4 untuk efisiensi biaya: K2 Thinking mendukung kuantisasi INT4, yang menawarkan percepatan yang berarti; tetapi memvalidasi perilaku kasus tepi pada tugas Anda.
  • Permukaan penalaran konten dengan hati-hati: Mengekspos rantai internal dapat membantu debugging, tetapi juga meningkatkan paparan terhadap kesalahan model mentah. Perlakukan penalaran internal sebagai diagnostik tidak berwibawa; padukan dengan verifikasi otomatis.

Kesimpulan

Kimi K2 Thinking adalah jawaban yang sengaja direkayasa untuk era AI berikutnya: bukan hanya model yang lebih besar, tetapi agen yang berpikir, bertindak, dan memverifikasiIni menggabungkan penskalaan MoE, strategi komputasi waktu uji, inferensi presisi rendah asli, dan orkestrasi alat eksplisit untuk memungkinkan pemecahan masalah multi-langkah yang berkelanjutan. Bagi tim yang membutuhkan pemecahan masalah multi-langkah dan memiliki disiplin teknik untuk mengintegrasikan, melakukan sandbox, dan memantau sistem agensi, K2 Thinking merupakan langkah maju yang besar dan bermanfaat — dan merupakan uji stres yang penting tentang bagaimana industri dan masyarakat akan mengatur AI yang semakin mumpuni dan berorientasi pada tindakan.

Pengembang dapat mengakses API Pemikiran Kimi K2 melalui CometAPI, versi model terbaru selalu diperbarui dengan situs web resmi. Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Siap untuk berangkat?→ Daftar ke CometAPI hari ini !

Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VKX dan Discord!

Baca Selengkapnya

500+ Model dalam Satu API

Diskon hingga 20%