Cara Menggunakan Kimi K2 Thinking API—panduan praktis

Kimi K2 Thinking adalah varian penalaran agen terbaru dalam keluarga Kimi K2: model campuran pakar (MoE) besar yang disetel untuk melakukan penalaran langkah demi langkah yang berkelanjutan dan untuk memanggil alat eksternal secara andal di seluruh alur kerja multi-langkah yang panjang. Dalam panduan ini saya menyatukan informasi publik terbaru, menjelaskan apa itu Kimi K2 Thinking, bagaimana membandingkannya dengan model unggulan kontemporer (GPT-5 dan Claude Sonnet 4.5), cara kerja API, pengaturan langkah demi langkah dan contoh tugas penalaran yang dapat dijalankan, pertimbangan harga, dan praktik terbaik produksi yang direkomendasikan — dengan contoh kode sehingga Anda dapat segera memulai.

Apa yang dipikirkan Kimi K2 dan mengapa berita itu menjadi berita utama?

kimi K2 Berpikir adalah rilis “agen berpikir” terbaru dari Moonshot AI — anggota keluarga campuran pakar (MoE) dengan parameter triliun yang telah dilatih dan dikemas secara eksplisit untuk melakukan penalaran multi-langkah dengan cakrawala panjang sambil secara otonom memanggil alat eksternal (pencarian, eksekusi Python, web-scraping, dll.). Rilis (diumumkan pada awal November 2025) telah menarik perhatian karena tiga alasan: (1) itu adalah bobot terbuka / berlisensi terbuka (lisensi gaya “MIT yang Dimodifikasi”), (2) mendukung konteks yang sangat panjang (jendela konteks token 256k), dan (3) itu menunjukkan peningkatan yang nyata agen kinerja pada tolok ukur yang didukung alat versus beberapa model perintis sumber tertutup terkemuka.

API Pemikiran Kimi K2 dan ekosistem mendukung semantik penyelesaian obrolan bergaya OpenAI plus keluaran terstruktur eksplisit dan pola pemanggilan alat. Anda mengirimkan riwayat obrolan + skema alat; model akan membalas dengan representasi rangkaian pemikiran (jika diminta) dan dapat mengeluarkan JSON terstruktur yang memicu perkakas eksternal. Penyedia layanan menyediakan kemampuan untuk mengalirkan token dan mengembalikan teks yang dapat dibaca manusia serta blok pemanggilan alat yang dapat diurai mesin. Hal ini memungkinkan penerapan loop agen: model → alat → observasi → model.

Secara sederhana: K2 Thinking dirancang bukan hanya untuk menghasilkan jawaban satu kali terhadap sebuah pertanyaan, tetapi untuk berpikir keras, rencanakan, panggil alat saat dibutuhkan, periksa hasilnya, dan ulangi — melalui ratusan langkah jika diperlukan — tanpa menurunkan kinerja. Kemampuan itulah yang disebut Moonshot sebagai "agensi jangka panjang yang stabil".

Apa saja fitur inti Kimi K2 Thinking?

Karakteristik model utama

Arsitektur Campuran Pakar (MoE) dengan ~1 triliun parameter (32B diaktifkan per lintasan maju dalam pengaturan umum).
Jendela konteks token 256k untuk menangani dokumen yang sangat panjang, penelitian multi-sumber, dan rangkaian penalaran yang panjang.
Pelatihan kuantisasi INT4 asli / pelatihan yang sadar kuantisasi, memungkinkan pengurangan besar dalam memori inferensi dan peningkatan kecepatan yang signifikan dibandingkan dengan bobot berukuran naif.
Panggilan alat bawaan dan API yang menerima daftar fungsi/alat; model akan secara otomatis memutuskan kapan memanggilnya dan mengulangi hasilnya.

Apa yang dimungkinkan dalam praktiknya

Penalaran yang mendalam dan bertahap (output gaya rantai pemikiran yang dapat ditampilkan kepada pemanggil sebagai “konten penalaran” yang terpisah).
Alur kerja agen multi-langkah yang stabil:Model ini dapat mempertahankan koherensi tujuan di seluruh 200–300 panggilan alat berurutan, lompatan yang mencolok dari model lama yang cenderung melayang setelah beberapa lusin langkah.
Bobot terbuka + API terkelola: Anda dapat menjalankannya secara lokal jika Anda memiliki perangkat kerasnya, atau memanggilnya melalui Moonshot/API Komet menggunakan antarmuka API yang kompatibel dengan OpenAI.

Kimi K2 Thinking mengungkap perilaku agen melalui dua mekanisme inti: (1) melewati alat daftar agar model dapat memanggil fungsi, dan (2) model memancarkan token penalaran internal yang ditampilkan platform sebagai teks (atau rangkaian pemikiran terstruktur saat diaktifkan). Saya akan menjelaskan secara detail dengan contoh selanjutnya.

Bagaimana cara menggunakan API Kimi K2 Thinking?

Prasyarat

Akses API / akun: Buat akun di platform Moonshot (platform.moonshot.ai) atau di agregator API yang didukung (API Komet menawarkan harga lebih rendah dari harga resmi). Setelah mendaftar, Anda dapat membuat kunci API di dasbor.
Kunci API: simpan dengan aman dalam variabel lingkungan atau penyimpanan rahasia Anda.
Pustaka klienAnda dapat menggunakan HTTP standar (curl) atau SDK yang kompatibel dengan OpenAI. Dokumen platform Moonshot memberikan contoh langsung. Siapkan lingkungan Python Anda. Anda memerlukan OpenAI Python SDK, yang kompatibel dengan API Komet API karena keduanya mempertahankan kompatibilitas OpenAI.

Jika Anda membutuhkan hosting lokal/pribadi: perangkat keras (GPU/kluster) yang mendukung MoE & INT4—Moonshot merekomendasikan vLLM, SGLang, dan mesin inferensi lainnya untuk penerapan produksi. Bobot model tersedia di Hugging Face untuk hosting mandiri—banyak tim lebih memilih API yang dihosting karena ukuran modelnya.

Aliran panggilan minimal (tingkat tinggi)

Buat permintaan obrolan (pesan sistem + pengguna).
Secara opsional disertakan tools (susunan JSON yang menjelaskan fungsi) untuk memungkinkan model memanggilnya secara mandiri.
Kirim permintaan ke titik akhir obrolan/penyelesaian dengan model yang ditetapkan ke varian K2 Thinking.
Streaming dan/atau kumpulkan potongan respons dan rakit keduanya reasoning_content dan konten akhir.
Saat model meminta pemanggilan alat, jalankan alat di sisi Anda, kembalikan hasilnya sebagai pesan tindak lanjut (atau melalui protokol pengembalian fungsi penyedia) dan biarkan model melanjutkan.

Apakah “reasoning_content” terekspos di API?

Ya. Kimi K2 Thinking secara eksplisit mengembalikan bidang keluaran tambahan (umumnya bernama reasoning_content) yang berisi jejak penalaran menengah model. Dokumen penyedia dan komunitas menunjukkan pola streaming yang memancarkan reasoning_content delta terpisah dari content delta — yang memungkinkan penyajian aliran "berpikir" yang dapat dibaca manusia saat jawaban akhir sedang disusun. Catatan: streaming direkomendasikan untuk jejak penalaran yang besar karena ukuran responsnya bertambah.

cURL — pertama, penyelesaian obrolan minimal, ：

curl -X POST "https://api.cometapi.com/v1/chat/completions" \
  -H "Authorization: Bearer $cometapi_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kimi-k2-thinking",
    "messages": [
      {"role":"system","content":"You are a careful reasoning assistant. Show step-by-step reasoning."},
      {"role":"user","content":"Outline a 5-step experiment to validate a micro-SaaS idea with $200 budget."}
    ],
    "temperature": 0.2,
    "max_tokens": 2048,
    "stream": false
  }'

Ini kembali content dan (untuk model Berpikir) reasoning_content bidang yang dapat Anda simpan atau alirkan

Parameter yang disarankan untuk mode Berpikir

Berikut adalah parameter awal yang direkomendasikan untuk tugas penalaran multi-langkah. Sesuaikan dengan tugas Anda:

model: pilih varian K2 Thinking (moonshotai/Kimi-K2-Thinking or kimi-k2-thinking-turbo) — keluarga “Berpikir” mengungkap reasoning_content.
Kartu model Kimi-K2-Thinking menyarankan temperature = 1.0 Sebagai dasar yang direkomendasikan untuk eksplorasi yang lebih kaya selama berpikir. Gunakan suhu yang lebih tinggi untuk penalaran eksploratif, dan suhu yang lebih rendah untuk tugas-tugas yang presisi.
Token/konteks maks: Model pemikiran dapat menghasilkan jejak internal yang besar — ditetapkan max_tokens cukup tinggi dan lebih suka streaming.
Streaming: aktifkan streaming (stream=True) untuk menyajikan alasan dan konten akhir secara progresif.
Skema alat: termasuk a tools/functions array yang menjelaskan fungsi yang tersedia; K2 akan memutuskan secara otomatis kapan akan memanggilnya. Berikan penjelasan yang jelas description dan skema JSON yang ketat untuk argumen guna menghindari panggilan yang ambigu.

Bagaimana cara mengaktifkan dan menggunakan pemanggilan alat dengan K2 Thinking?

Termasuk a tools array di badan permintaan. Setiap alat dijelaskan oleh:

name: string, pengenal alat yang unik.
description: penjelasan singkat untuk modelnya.
parameters: Skema JSON yang merinci argumen yang diharapkan.

Ketika model memutuskan untuk memanggil suatu alat, ia akan memancarkan objek pemanggilan alat (seringkali sebagai token terstruktur). Runtime Anda harus mengeksekusi alat tersebut (sisi server), menangkap output, dan mengirimkannya kembali sebagai pesan respons alat agar model dapat melanjutkan penalaran.

Panduan langkah demi langkah

K2 Thinking mendukung skema fungsi/alat yang mirip dengan pemanggilan fungsi OpenAI, tetapi dengan dukungan eksplisit untuk perulangan hingga model selesai (model mungkin memerlukan beberapa pemanggilan alat). Polanya adalah:

Tentukan skema alat (nama, deskripsi, skema JSON parameter).
Lulus tools ke panggilan penyelesaian obrolan.
Pada setiap respon yang berisi tool_calls, jalankan alat yang diminta dan tambahkan keluaran alat kembali ke dalam pesan sebagai role: "tool".
Ulangi hingga model mengembalikan penyelesaian normal.

Aktifkan pemanggilan alat (contoh pola)

Ketika Anda ingin model memanggil alat, berikan skema alat dalam permintaan, misalnya, web_search, code_executor, sertakan dalam permintaan, dan instruksikan model cara menggunakannya.

{
  "model": "kimi-k2-thinking",
  "messages": [{"role":"system","content":"You can call available tools when needed. Return a JSON tool call when you want to invoke external code."},
               {"role":"user","content":"Find the latest CPU microarchitecture benchmarks for RISC-V and summarize differences."}],
  "tools": [
    {
      "name": "web_search",
      "description": "Performs a web query and returns top results as JSON",
      "input_schema": {"type":"object","properties":{"q":{"type":"string"}}}
    }
  ],
  "temperature": 0.1
}

Model tersebut mungkin membalas dengan tool_call objek yang harus dideteksi dan diarahkan oleh runtime agen Anda ke alat yang terdaftar.

Pola ini mendukung urutan pemanggilan alat → jalankan alat → lanjutkan model yang sewenang-wenang, itulah sebabnya Kimi K2 Thinking menekankan stabilitas pada banyak panggilan berurutan dalam desainnya.

Berapa biaya Kimi K2 Thinking API?

Daftar platform resmi Moonshot (Kimi) dua titik akhir harga utama untuk Kimi K2 Thinking:

kimi-k2-thinking (standar) - token masukan: Rp 0.60 / 1 juta (tingkat cache-miss) dan Rp 0.15 / 1 juta (tingkatan hit cache); token keluaran: Rp 2.50 / 1 juta.
kimi-k2-thinking-turbo (kecepatan tinggi) — tingkat latensi/throughput yang lebih tinggi: memasukkan: Rp 1.15 / 1 juta; keluaran: Rp 8.00 / 1 juta (halaman platform/mitra mengulangi ini).

API Komet memiliki keunggulan dalam hal harga seperti: tingkat input yang sangat rendah dan tingkat token per-output yang lebih rendah daripada model kelas atas yang sebanding — ditambah token uji coba gratis untuk onboarding：

Pilih Model	Token Masukan	Token Keluaran
kimi-k2-berpikir-turbo	$2.20	$15.95
kimi-k2-berpikir	$1.10	$4.40

Pertimbangan biaya

Konteks yang panjang (128K–256K token) dan rantai pemanggilan alat yang ekstensif melipatgandakan konsumsi token, jadi rancang perintah dan interaksi alat untuk meminimalkan perantara yang bertele-tele saat biaya menjadi hal yang penting.
Menjalankan alur agensi yang menghasilkan banyak hasil alat dapat meningkatkan tagihan token output lebih besar daripada obrolan satu putaran biasa. Pantau dan anggarkan sesuai kebutuhan.

Perbandingan Benchmark: Kimi K2 Thinking vs GPT-5 vs Claude Sonnet 4.5

Tolok ukur yang menyertainya menunjukkan gambaran yang bernuansa: K2 Thinking mengungguli GPT-5 dan Claude Sonnet 4.5 Anthropic pada banyak alat yang diaktifkan dan tolok ukur agen (misalnya, BrowseComp dan varian HLE yang mendukung alat), sementara GPT-5 tetap lebih kuat pada beberapa tolok ukur teks saja atau medis (misalnya, HealthBench dalam laporan pengujian Moonshot).

Cara Menggunakan Kimi K2 Thinking API—panduan praktis

Takeaway: Kimi K2 Thinking adalah sebuah kompetisi agen model — unggul dalam tugas penalaran yang diuntungkan dari interleaving alat dan konteks yang panjang. Model ini tidak selalu mengungguli GPT-5 dan Claude Soneta 4.5 pada setiap benchmark (terutama beberapa tugas khusus atau yang membutuhkan banyak pengetahuan) tetapi pada banyak pengujian agen / penelusuran / cakrawala panjang, ia melaporkan hasil terdepan. Namun, biaya panggilan rendah dan sifat sumber terbuka Kimi k2 thinking menjadikannya raja sejati dalam hal efektivitas biaya.

Kapan memilih Kimi K2 Thinking dibandingkan model lainnya

Pilih Kimi K2 Thinking ketika tugas Anda memerlukan rangkaian penalaran yang panjang, banyak panggilan alat, atau analisis mendalam terhadap konteks yang sangat besar (basis kode, dokumen panjang).
Pilih GPT-5 saat Anda memerlukan integrasi multimoda yang paling ketat, dukungan ekosistem pihak ketiga yang luas, atau alat OpenAI dan kerangka kerja agen tertentu.
Pilih Claude Soneta 4.5 untuk beban kerja yang menekankan ketepatan penyuntingan kode, alur kerja penyuntingan deterministik, dan rantai alat keselamatan Anthropic.


metrik	Kimi K2 Berpikir	GPT-5 (Tinggi)	Claude Soneta 4.5	Pencarian Dalam-V3.2
HLE (dengan alat)	44.9	41.7	32	20.3
Mode Berat HLE	51	42	-	-
AIME25 (dengan python)	99.1%	99.6%	100%	58.1%
GPQA	84.5	85.7	83.4	79.9
TelusuriComp	60.2	54.9	24.1	40.1
frame	87	86	85	80.2
Bangku SWE Terverifikasi	71.3%	74.9%	77.2%	67.8%
LiveCodeBench	83.1%	87.0%	64.0%	74.1%
Jendela konteks	256 ribu token	400 ribu token	200 ribu token	128 ribu token
Harga input	$0.60 / 1 juta	$1.25 / 1 juta	$3.00 / 1 juta	$0.55 / 1 juta
Harga keluaran	$2.50 / 1 juta	$10.00 / 1 juta	$15.00 / 1 juta	$2.19 / 1 juta

Praktik terbaik

Penalaran aliran: untuk aplikasi yang menghadap pengguna menunjukkan UI “berpikir” menggunakan streaming reasoning_contentStreaming mengurangi latensi dan menghindari muatan besar. ()
Alat skema-pertama: : mendefinisikan Skema JSON yang ketat untuk alat guna mengurangi panggilan ambigu dan kesalahan penguraian.
Penggunaan konteks titik pemeriksaan: simpan jejak penalaran masa lalu dalam penyimpanan memori jangka panjang yang terpisah daripada menanamkan jejak sejarah yang sangat besar ke dalam perintah yang aktif; gunakan pengambilan untuk memperkenalkan kembali hanya segmen yang relevan.
Pemantauan & pagar pembatas: log keduanya reasoning_content dan final content untuk mendiagnosis penyimpangan, halusinasi, dan penyalahgunaan. Pertimbangkan penyuntingan atau persetujuan pengguna tergantung pada sensitivitas.

Kesimpulan

Kimi K2 Thinking merupakan evolusi besar dari lini K2 menuju agensi yang tangguh dan berjangka panjang. API ini sengaja kompatibel dengan pola klien OpenAI/Anthropic dan menyediakan jalur praktis untuk mengintegrasikan penalaran agensi ke dalam aplikasi sekaligus memberi pengembang kendali atas permukaan pemanggilan alat.

Jika Anda ingin bereksperimen dengan cepat, gunakan API Pemikiran Kimi K2 dan mulai gunakan! Untuk memulai, jelajahi kemampuan model di tempat bermain dan konsultasikan Panduan API untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. API Komet menawarkan harga yang jauh lebih rendah dari harga resmi untuk membantu Anda berintegrasi.

Siap untuk berangkat?→ Daftar ke CometAPI hari ini !

Jika Anda ingin mengetahui lebih banyak tips, panduan, dan berita tentang AI, ikuti kami di VK, X dan Discord!