Bagaimana cara menggunakan Thinking Mode di Claude 4.5?

CometAPI
AnnaJan 9, 2026
Bagaimana cara menggunakan Thinking Mode di Claude 4.5?

“Thinking mode” (juga disebut extended thinking, thinking, atau thinking blocks) di Claude 4.5 adalah mode operasi yang eksplisit dan dapat dikonfigurasi yang menginstruksikan model untuk menghabiskan sejumlah token yang dianggarkan secara terpisah untuk menghasilkan penalaran internal langkah demi langkah (“chain-of-thought”) sebelum mengeluarkan jawaban akhir. Mode ini dirancang untuk meningkatkan performa pada penalaran multi-langkah, pengodean kompleks dan alur kerja agentik, serta tugas riset dengan menukar latensi dan biaya token demi pertimbangan internal yang lebih mendalam. Claude 4.5 mengekspos kemampuan ini pada tingkat Messages API dengan parameter eksplisit (misalnya, thinking / budget_tokens atau header effort/“interleaved-thinking”), mempertahankan dan opsional mengenkripsi blok pemikiran untuk verifikasi atau penggunaan alat di kemudian hari, serta memperkenalkan perilaku cache dan perhitungan token yang harus Anda kelola saat membangun beban kerja produksi.

Apa itu Claude 4.5? (Dan model mana yang perlu saya perhatikan?)

Claude 4.5 adalah rangkaian model Claude terbaru dari Anthropic yang dirilis sebagai pembaruan “4.5” inkremental (misalnya, Sonnet 4.5 dan Opus 4.5). Sonnet 4.5 diposisikan sebagai keseimbangan terbaik antara kecerdasan, pemrograman, dan performa agentik untuk sebagian besar developer; Opus 4.5 berfokus pada penalaran dengan upaya sangat tinggi dan mempertahankan blok pemikiran untuk meningkatkan kontinuitas multi-giliran. Kedua model mendukung kemampuan extended thinking, meskipun beberapa perilaku (misalnya, pemikiran yang diringkas vs penuh) berbeda antar model.

Peningkatan performa di Claude 4.5, khususnya pada Sonnet 4.5, paling terlihat pada tolok ukur SWE-bench Verified, yang mengukur kemampuan AI menyelesaikan isu GitHub dunia nyata.

ModelSWE-bench Verified ScoreOSWorld (Penggunaan Komputer)
Claude 3.5 Sonnet49.0%42.2%
Claude 4.1 Opus67.6%55.0%
Claude 4.5 Sonnet (Thinking On)77.2%61.4%
GPT-5 (Medium Reasoning)65.0%52.0%

Angka-angka ini menunjukkan bahwa Claude 4.5 tidak hanya lebih baik dalam menulis cuplikan kode; model ini jauh lebih mampu menavigasi seluruh sistem berkas dan mengeksekusi tugas otonom tanpa intervensi manusia.

Mengapa ini penting

  • Coding & agen: Sonnet 4.5 menunjukkan peningkatan besar pada tugas perangkat lunak dunia nyata dan pekerjaan pemrograman jangka panjang—menjadikannya pilihan alami untuk pembuatan kode, pengeditan kode, dan alur agen otonom.
  • Extended thinking & konteks: Keluarga model Claude 4.5 dibangun untuk bernalar dengan scratchpad internal yang sangat besar (puluhan ribu token atau lebih), memungkinkan penalaran multi-langkah yang lebih dalam. Hal ini mengubah cara Anda merancang prompt, anggaran token, dan interaksi alat.

Apa itu Thinking Mode di Claude 4.5?

Thinking Mode (secara resmi disebut "Extended Thinking") adalah kemampuan yang memungkinkan model “menunjukkan pekerjaannya” kepada dirinya sendiri sebelum memberikan keluaran akhir. Tidak seperti model standar yang segera mengunci jawaban, Claude 4.5 menggunakan ruang penalaran khusus untuk mengeksplorasi beberapa hipotesis, mengidentifikasi potensi kesalahan dalam logikanya, dan memurnikan strateginya.

Anatomi sebuah respons

Dalam interaksi standar, model menerima prompt dan mulai menghasilkan jawaban. Dalam Thinking Mode, respons dibagi menjadi dua blok yang berbeda:

Jenis BlokVisibilitasTujuan
Blok PemikiranTersembunyi (via API) atau Dilipat (UI)Monolog internal model, perencanaan, dan kritik diri.
Blok TeksTerlihatJawaban akhir yang telah disempurnakan untuk pengguna.

Properti utama Thinking Mode

  • Diaktifkan berdasarkan permintaan: Anda mengirim objek thinking dalam panggilan API seperti {"type":"enabled","budget_tokens":10000} untuk menyalakannya dan memberikan anggaran token internal bagi model untuk bernalar.
  • Penganggaran: budget_tokens membatasi token penalaran internal model. Anggaran lebih besar => potensi penalaran lebih dalam namun biaya dan latensi lebih tinggi. Pada model Claude 4, token pemikiran ditagihkan meskipun Anda hanya menerima tampilan yang diringkas.
  • Perangkuman & redaksi: Untuk banyak model Claude 4, pengguna melihat versi diringkas dari konten pemikiran; sebagian penalaran internal dapat disunting (dienkripsi) oleh sistem keamanan dan dikembalikan sebagai redacted_thinking.
  • Tanda tangan & verifikasi: Blok pemikiran menyertakan signature opak yang digunakan untuk verifikasi saat mengembalikan blok pemikiran ke API (terutama saat menggunakan alat). Perlakukan signature sebagai opak — jangan mencoba menguraikannya.
  • Pemikiran terjalin dengan alat: Claude 4 mendukung penyelipan blok pemikiran dengan eksekusi alat (beta dan berbasis flag dalam beberapa kasus). Ini kuat untuk pekerjaan agentik (jalankan alat, berpikir, jalankan alat lain, dll.).

Untuk contoh langsung dan parameter terbaru, dokumentasi Messages/Extended Thinking Anthropic adalah referensi kanonis.

Bagaimana Messages API mengembalikan konten pemikiran

Pemikiran yang diringkas vs penuh; enkripsi & tanda tangan

Versi model Claude yang berbeda menangani pemikiran dengan cara berbeda: model Claude 4 yang lebih baru (seperti Sonnet/Opus 4.5) sering mengembalikan tampilan publik yang diringkas dari penalaran internal sementara scratchpad penuh mungkin dienkripsi dan hanya tersedia melalui field signature (atau blok yang disunting). Saat alat digunakan (atau Anda perlu mempertahankan status internal di antara panggilan alat), Anda harus meneruskan kembali blok pemikiran ke API atau menggunakan mekanisme signature yang dijelaskan dokumen. Mekanisme ini membantu melindungi penalaran internal yang sensitif sekaligus memungkinkan kelanjutan proses berpikir secara aman saat diperlukan.

Pola penanganan praktis

Tool use / kelanjutan: jika permintaan berikutnya harus melanjutkan status internal yang sama (misalnya, alat dijalankan berdasarkan pemikiran), sertakan blok pemikiran yang dikembalikan atau signature saat Anda memanggil API lagi sehingga model dapat mendekripsi dan melanjutkan dari titik terakhir.

Request: kirim thinking: {type: "enabled", budget_tokens: N}.

Response: Anda mungkin menerima (a) keluaran publik yang diringkas, (b) signature terenkripsi atau blok redacted_thinking, atau (c) keduanya.

CometAPI menawarkan API Claude 4.5 dengan harga 20% dari harga resmi, dan juga dapat dipanggil menggunakan Anthropic Messages. Anda harus memperoleh kunci API sebelum memulai.

Contoh 1 — curl sederhana (non-streaming) mengaktifkan thinking

curl https://api.cometapi.com/v1/messages \
  -H "x-api-key: $CometAPI_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {
      "type": "enabled",
      "budget_tokens": 10000
    },
    "messages": [
      {"role": "user", "content": "Design a robust data validation strategy for CSV imports, show tests + code."}
    ]
  }'

Respons akan berisi blok content. Periksa setiap blok dan prioritaskan blok text untuk keluaran final; blok thinking berisi ringkasan analisis internal model.

Contoh 2 — Python: request, parsing blok thinking dan text

import os, requests

API_KEY = os.environ["CometAPI_API_KEY"]
URL = "https://api.cometapi.com/v1/messages"
HEADERS = {
    "x-api-key": API_KEY,
    "anthropic-version": "2023-06-01",
    "content-type": "application/json"
}

payload = {
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "thinking": {"type": "enabled", "budget_tokens": 8000},
    "messages": [{"role": "user", "content": "Explain how to do property-based testing in Python; include example code."}]
}

r = requests.post(URL, headers=HEADERS, json=payload)
r.raise_for_status()
resp = r.json()

# Parse blocks
for block in resp.get("content", []):
    if block.get("type") == "thinking":
        thinking_summary = block.get("thinking")
        print("=== THINKING (summary) ===")
        print(thinking_summary[:1000])  # truncate for logs
        print("signature:", block.get("signature")[:64], "...")
    elif block.get("type") == "text":
        print("=== FINAL TEXT ===")
        print(block.get("text"))

Kode ini mengekstrak dan mencetak pemikiran yang diringkas dan jawaban akhir. Jika Anda perlu mempertahankan kontinuitas dalam alur agen multi-giliran, sertakan blok pemikiran yang tidak diubah dalam permintaan berikutnya pada array messages (lihat contoh berikutnya).

Contoh 3 — menggunakan kembali blok thinking dalam alur multi-giliran (pseudo Python)

# After initial response (resp above):
# Add the assistant message including the thinking block back into the conversation
assistant_message = {
  "role": "assistant",
  "content": resp["content"]  # include raw content array (contains thinking + text blocks)
}

# Next user turn: ask follow-up and include previous assistant message
payload2 = {
  "model": "claude-opus-4-5",  # Opus preserves thinking blocks better across turns
  "max_tokens": 20000,
  "thinking": {"type": "enabled", "budget_tokens": 12000},
  "messages": [
    {"role": "user", "content": "Now adapt the validation logic for an avro pipeline."},
    assistant_message
  ]
}
r2 = requests.post(URL, headers=HEADERS, json=payload2)

Mempertahankan blok pemikiran yang persis sama tanpa modifikasi sangat penting saat melakukan alur kerja yang terintegrasi dengan alat atau agen jangka panjang. Opus 4.5 memiliki default yang lebih baik untuk pelestarian blok pemikiran dan cache.

Bagaimana cara melakukan streaming keluaran thinking dan menampilkan progres di UI?

Praktik terbaik streaming

  • Gunakan endpoint streaming SDK (SDK Python/TypeScript memiliki helper stream). Untuk pekerjaan penalaran yang berjalan lama atau beranggaran tinggi, streaming mencegah timeout HTTP dan memberi Anda teks parsial saat model menghitung. Kode tipikal menggunakan iterator atas text_stream (Python) atau parsing event (JS).
  • Harapkan stream dua fase dalam beberapa kasus: model mungkin terlebih dahulu menghasilkan potongan penalaran yang terlihat, lalu menyelesaikannya dengan jawaban. Bangun UI Anda untuk menangani konten yang terpotong-potong dan menampilkan status “sedang berpikir…” vs jawaban akhir.
  • Jika API mengembalikan signature_delta atau content_block_delta saat streaming, tangkap dan lampirkan pada panggilan berikutnya sebagaimana disyaratkan spesifikasi.

Jika Anda perlu menampilkan progres penalaran menengah di UI, lakukan streaming respons. Server akan memancarkan event thinking_delta diikuti oleh text_delta.

curl https://api.cometapi.com/v1/messages \
  --header "x-api-key: $CometAPI_API_KEY" \
  --header "anthropic-version: 2023-06-01" \
  --header "content-type: application/json" \
  --data '{
    "model": "claude-sonnet-4-5",
    "max_tokens": 16000,
    "stream": true,
    "thinking": { "type": "enabled", "budget_tokens": 8000 },
    "messages": [ { "role": "user", "content": "Walk me through debugging this failing unit test and propose fixes." } ]
  }'

Saat streaming, tangani event content_block_start, content_block_delta (yang mencakup thinking_delta dan text_delta), dan content_block_stop secara berurutan. Inilah cara Anda dapat menampilkan penalaran langkah demi langkah model saat berlangsung.

Bagaimana Claude Code berinteraksi dengan thinking mode? (terminal + VS Code)

Claude Code adalah terminal pengodean interaktif dan agentik yang mengintegrasikan Messages API dan tool runner. Pengalaman CLI/IDE mengekspos pemikiran dengan dua cara:

  • Pengaturan global / per-sesi: Claude Code menampilkan panel pengaturan /config untuk menyesuaikan perilaku (cara agen meminta izin, apakah mempertahankan blok pemikiran, dll.). Gunakan UI tersebut alih-alih mengetik ulang JSON mentah jika Anda menginginkan perubahan perilaku yang persisten.
  • Pemilihan model & perintah CLI: Anda dapat memilih claude-sonnet-4-5 atau claude-opus-4-5 sebagai model aktif di REPL; alat dan perilaku thinking kemudian mengikuti semantik Messages API. CHANGELOG dan catatan rilis menunjukkan thinking sekarang diaktifkan secara default untuk beberapa deployment Opus 4.5 dan konfigurasi thinking ditampilkan melalui /config.

Alur praktis di Claude Code:

  1. Mulai proyek di REPL.
  2. Gunakan /config untuk memeriksa flag terkait thinking (pelestarian, verbositas, dll.).
  3. Minta agen menjalankan tugas panjang — agen akan menghasilkan konten pemikiran dan, jika perlu, meminta izin untuk menjalankan langkah bash tertentu. Pertahankan blok pemikiran ketika Anda perlu memverifikasi atau menjalankan ulang keputusan nanti.

Instalasi dan Penyiapan

Claude Code memerlukan Node.js dan dapat diinstal secara global.

# Install Claude Code CLI
npm install -g @anthropic/claude-code

# Authenticate
claude-code --init

Mengaktifkan Thinking di Terminal

Claude Code mendukung berbagai flag dan pemicu bahasa natural untuk mengontrol kedalaman penalarannya.

Perintah/PemicuDeskripsi
claude-code --thinkMemulai sesi dengan extended thinking diaktifkan secara default.
claude-code --model sonnet-4.5Menentukan model frontier terbaru.
/think <task>Perintah slash di dalam CLI untuk memanggil tugas yang membutuhkan penalaran mendalam.
"ultrathink"Kata kunci bahasa natural yang menginstruksikan Claude menggunakan anggaran penalaran maksimum.

Tips:

  • Gunakan think/think harder saat Anda ingin agen mengeksplorasi implementasi alternatif.
  • Ketika Claude Code melakukan panggilan alat (menjalankan tes, operasi git), pertahankan blok thinking jika dikembalikan oleh CLI/agen; jika tidak, agen dapat kehilangan konteks antar langkah.

Manfaat Interleaved Thinking dan Pelestarian Blok

Untuk alur kerja agentik tingkat lanjut, Claude 4.5 memperkenalkan dua fitur beta yang secara signifikan meningkatkan interaksi multi-giliran dan penggunaan alat: Interleaved Thinking dan Thinking Block Preservation.

Interleaved Thinking (Beta)

Penalaran standar terjadi sekali sebelum keluaran. Interleaved Thinking (diaktifkan melalui header interleaved-thinking-2025-05-14) memungkinkan Claude “berpikir” di antara panggilan alat.

Bayangkan Claude sedang melakukan debug server:

  1. Think: "Saya harus memeriksa log terlebih dahulu."
  2. Tool Call: read_file(logs.txt)
  3. Think: "Log menunjukkan timeout database. Sekarang saya perlu memeriksa pengaturan connection pool."
  4. Tool Call: read_file(db_config.yml)

“Refleksi berkelanjutan” ini memastikan model menyesuaikan strateginya berdasarkan data yang diterimanya dari alat, alih-alih mengikuti rencana yang kaku dan telah ditentukan.

Thinking Block Preservation

Dalam percakapan multi-giliran, terutama yang melibatkan penggunaan alat, sangat penting untuk meneruskan kembali blok thinking sebelumnya ke API.

  • Kontinuitas penalaran: Dengan menerima pemikiran sebelumnya, Claude mempertahankan konteks logis perjalanannya.
  • Optimalisasi Opus 4.5: Pada Claude Opus 4.5, perilaku ini diotomatisasi. Model mempertahankan semua blok pemikiran sebelumnya dalam konteksnya secara default, memastikan bahwa bahkan dalam sesi yang berlangsung 30+ jam, model tidak “lupa” mengapa ia membuat keputusan arsitektur tertentu sepuluh giliran yang lalu.

Praktik terbaik menggunakan THINKING mode dengan Claude 4.5

Pilih model dan anggaran yang tepat untuk tugasnya:

Gunakan Sonnet 4.5 untuk pengodean dan alur kerja agentik di mana Anda membutuhkan keseimbangan terbaik antara kecepatan, biaya, dan kemampuan pengodean yang kuat; gunakan Opus 4.5 untuk penalaran terdalam dan jendela konteks terbesar atau ketika Anda berencana menjalankan sesi otonom yang panjang. Keduanya mendukung extended thinking. Pilih budget_tokens secara proporsional dengan kompleksitas tugas (mulailah kecil untuk eksperimen; naikkan anggaran hanya jika Anda melihat peningkatan kualitas yang material).

Pantau dan kendalikan biaya & latensi

Anda dikenai biaya untuk seluruh token pemikiran yang dihasilkan Claude, bukan ringkasan keluaran yang Anda terima. Itu berarti pertimbangan internal yang panjang meningkatkan biaya meskipun Anda hanya melihat ringkasan pendek. Lacak penggunaan token dan pertimbangkan penalaan bertahap (misalnya: 2k → 8k → 32k) saat beralih dari eksplorasi ke produksi.

Pertahankan blok pemikiran hanya saat diperlukan

Blok pemikiran dapat ditandatangani secara kriptografis dan dipertahankan untuk verifikasi nanti serta untuk penggunaan alat yang terjalin. Hindari menggemakan blok pemikiran di setiap permintaan berikutnya kecuali alur kerja Anda mengharuskan model mempertahankan pertimbangan internal sebelumnya (misalnya, ketika agen akan menjalankan ulang langkah dan membutuhkan rasional yang dipertahankan). Mempertahankan pemikiran sepanjang waktu meningkatkan volume konteks dan dapat mempersulit perhitungan token.

Kapan men-stream pemikiran kepada pengguna

Pemikiran yang di-stream sangat baik untuk tooling developer dan UI edukatif (menampilkan “pekerjaan sedang berlangsung” saat model mempertimbangkan). Jangan men-stream pemikiran mentah ke pengguna akhir aplikasi konsumen produksi tanpa mempertimbangkan keamanan dan redaksi: pemikiran yang diringkas ada untuk alasan ini. Jika Anda men-stream, sediakan mekanisme UI yang memberi label penalaran internal (misalnya, “Penalaran asisten — internal”), dan kontrol apakah pengguna akhir melihat ringkasan atau penalaran penuh.

Penggunaan alat dan interleaving

Saat menggabungkan pemikiran dengan alat (eksekusi kode, pengambilan web, proses lokal), gunakan desain interleaved thinking ketika Anda membutuhkan model untuk memilih alat, menjalankannya, dan bernalar atas hasilnya dalam giliran yang sama. Interleaving meningkatkan kompleksitas (dan mungkin memerlukan flag fitur) tetapi sangat kuat untuk otomasi agentik. Jelaskan apa yang Anda pertahankan dari pemikiran, dan uji bagaimana model memilih alat saat thinking diaktifkan.

Catatan praktis pemecahan masalah dan operasional

Kesalahan umum dan artinya

  • Thinking tidak valid + pemaksaan pilihan alat: Jika Anda meminta thinking tetapi juga memaksa mode penggunaan alat tertentu yang tidak kompatibel dengan thinking, API akan mengembalikan error — jangan gabungkan pemaksaan tool_choice: {"type":"tool","name":"..."} dengan thinking.
  • Budget > max_tokens: Untuk skenario thinking terjalin, aturan token efektif berbeda — dokumentasi platform menjelaskan kapan budget_tokens boleh melebihi max_tokens. Baca bagian “interleaved thinking” dengan saksama sebelum menguji anggaran besar.
  • Validasi signature: Jika Anda mempertahankan blok pemikiran untuk panggilan selanjutnya, sertakan signature yang dikembalikan agar API dapat memverifikasi bahwa blok tersebut berasal dari Claude; ini mencegah pengubahan dan menjaga rantai tetap dapat diverifikasi.

Observabilitas & instrumentasi

Log: (1) pemilihan model, (2) thinking.budget_tokens, (3) konsumsi token pemikiran aktual (Anda ditagih untuk itu), (4) latensi streaming (waktu hingga thinking_delta pertama), dan (5) token teks akhir. Gunakan metrik ini untuk membangun anggaran dan SLO untuk alur yang menghadap pengguna.

Peluncuran progresif & manusia dalam loop

Luncurkan model yang diaktifkan thinking di balik feature flag. Mulai dengan persentase traffic developer atau internal, kumpulkan kegagalan atau redaksi, dan iterasi prompt serta anggaran. Untuk domain sensitif, minta tinjauan manusia pada keluaran yang mencakup penalaran internal substansial sebelum rilis.

Tips debugging

  • Mulai kecil: aktifkan budget_tokens rendah dan tingkatkan untuk memahami peningkatan bertahap.
  • Aktifkan streaming dan log event content_block_delta / signature untuk memahami kapan model menghasilkan blok pemikiran.
  • Jika menggunakan Claude Code: periksa /config dan pengaturan tingkat proyek; lihat changelog Claude Code jika perilaku tidak sesuai dengan default yang diharapkan.

Kesimpulan:

Claude 4.5, dipadukan dengan kekuatan Extended Thinking dan CLI Claude Code, mewakili lompatan paling signifikan dalam produktivitas developer sejak penemuan IDE. Dengan memungkinkan model “menunjukkan pekerjaannya” dan mempertimbangkan masalah kompleks, Anthropic telah bergerak melampaui era “chatbot” menuju era “agentik”.

Baik Anda mengintegrasikan Messages API ke dalam alat pengembang kustom atau menggunakan Claude Code untuk mengelola PR harian, menguasai Thinking Mode adalah hal penting. Ini memberikan transparansi yang dibutuhkan untuk kepercayaan dan kedalaman penalaran yang dibutuhkan untuk keunggulan.

Developer dapat mengakses model Claude 4.5 (Claude Sonnet 4.5, Claude Haiku 4.5, Claude Opus 4.5) melalui CometAPI. Untuk memulai, jelajahi kapabilitas model CometAPI di Playground dan lihat panduan API untuk instruksi detail. Sebelum mengakses, pastikan Anda telah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda berintegrasi.

Siap mulai?→ Uji coba gratis Claude 4.5!

Siap memangkas biaya pengembangan AI hingga 20%?

Mulai gratis dalam beberapa menit. Kredit uji coba gratis disertakan. Tidak perlu kartu kredit.

Baca Selengkapnya