“Thinking mode” (juga disebut extended thinking, thinking, atau thinking blocks) dalam Claude 4.5 adalah mode operasi eksplisit dan dapat dikonfigurasi yang menginstruksikan model untuk menghabiskan jumlah token yang dianggarkan secara terpisah guna menghasilkan penalaran internal langkah demi langkah (sebuah “chain-of-thought”) sebelum memberikan jawaban akhir. Mode ini dirancang untuk meningkatkan performa pada penalaran multi-langkah, pengodean kompleks dan alur kerja agen, serta tugas riset dengan menukar latensi dan biaya token demi perenungan internal yang lebih mendalam. Claude 4.5 mengekspos kapabilitas ini pada level Messages API dengan parameter eksplisit (mis., thinking / budget_tokens atau header effort/“interleaved-thinking”), mempertahankan dan secara opsional mengenkripsi thinking blocks untuk verifikasi nanti atau penggunaan alat, serta memperkenalkan perilaku cache dan penghitungan token yang harus Anda kelola saat membangun beban kerja produksi.
Apa itu Claude 4.5? (Dan model mana yang perlu saya perhatikan?)
Claude 4.5 adalah rangkaian model Claude terbaru dari Anthropic yang dirilis sebagai pembaruan inkremental “4.5” (misalnya, Sonnet 4.5 dan Opus 4.5). Sonnet 4.5 diposisikan sebagai keseimbangan terbaik antara kecerdasan, kemampuan pengodean, dan performa agen untuk sebagian besar pengembang; Opus 4.5 berfokus pada penalaran dengan upaya sangat tinggi dan mempertahankan thinking blocks untuk meningkatkan kontinuitas multi-putaran. Kedua model mendukung kapabilitas extended thinking, meskipun beberapa perilaku (mis., thinking yang diringkas vs penuh) berbeda menurut model.
Peningkatan performa di Claude 4.5, khususnya pada Sonnet 4.5, paling terlihat pada tolok ukur SWE-bench Verified, yang mengukur kemampuan AI untuk menyelesaikan isu GitHub dunia nyata.
| Model | Skor SWE-bench Verified | OSWorld (Penggunaan Komputer) |
|---|---|---|
| Claude 3.5 Sonnet | 49.0% | 42.2% |
| Claude 4.1 Opus | 67.6% | 55.0% |
| Claude 4.5 Sonnet (Thinking On) | 77.2% | 61.4% |
| GPT-5 (Medium Reasoning) | 65.0% | 52.0% |
Angka-angka ini menunjukkan bahwa Claude 4.5 tidak hanya lebih baik dalam menulis potongan kode; model ini secara signifikan lebih mampu menavigasi seluruh sistem berkas dan mengeksekusi tugas otonom tanpa intervensi manusia.
Mengapa ini penting
- Coding & agents: Sonnet 4.5 menunjukkan peningkatan kuat pada tugas perangkat lunak dunia nyata dan pekerjaan pengodean dengan cakupan panjang—menjadikannya pilihan alami untuk pembuatan kode, pengeditan kode, dan alur agen otonom.
- Extended thinking & konteks: Keluarga model Claude 4.5 dibangun untuk bernalar dengan scratchpad internal yang sangat besar (puluhan ribu token atau lebih), memungkinkan penalaran multi-langkah yang lebih mendalam. Ini mengubah cara Anda merancang prompt, anggaran token, dan interaksi alat.
Apa itu Thinking Mode dalam Claude 4.5?
Thinking Mode (secara resmi disebut "Extended Thinking") adalah kapabilitas yang memungkinkan model untuk "menunjukkan prosesnya" kepada diri sendiri sebelum memberikan output akhir. Berbeda dengan model standar yang langsung berkomitmen pada sebuah jawaban, Claude 4.5 menggunakan ruang penalaran khusus untuk mengeksplorasi beberapa hipotesis, mengidentifikasi potensi kesalahan dalam logikanya, dan menyempurnakan strateginya.
Anatomi sebuah respons
Dalam interaksi standar, model menerima prompt dan mulai menghasilkan jawaban. Pada Thinking Mode, respons dibagi menjadi dua blok yang berbeda:
| Jenis Blok | Visibilitas | Tujuan |
|---|---|---|
| Blok Berpikir | Tersembunyi (via API) atau diciutkan (UI) | Monolog internal model, perencanaan, dan kritik diri. |
| Blok Teks | Terlihat | Jawaban akhir yang disempurnakan dan diberikan kepada pengguna. |
Properti utama thinking mode
- Aktifkan atas permintaan: Anda meneruskan objek
thinkingdalam panggilan API seperti{"type":"enabled","budget_tokens":10000}untuk menyalakannya dan memberi model anggaran token internal untuk penalaran. - Penganggaran:
budget_tokensmembatasi token penalaran internal model. Lebih banyak anggaran => potensi penalaran lebih dalam tetapi biaya dan latensi lebih tinggi. Pada model Claude 4, token thinking ditagihkan meskipun Anda hanya menerima tampilan yang diringkas. - Ringkasan & redaksi: Untuk banyak model Claude 4, pengguna melihat versi ringkas dari konten thinking; beberapa penalaran internal mungkin disensor (dienkripsi) oleh sistem keselamatan dan dikembalikan sebagai
redacted_thinking. - Tanda tangan & verifikasi: Thinking blocks menyertakan
signatureburam yang digunakan untuk verifikasi saat mengembalikan thinking blocks ke API (terutama diperlukan saat menggunakan alat). Perlakukansignaturesebagai buram — jangan mencoba memparsenya. - Thinking terinterleaving dengan alat: Claude 4 mendukung penginterleavan thinking blocks dengan eksekusi alat (beta dan berbasis flag dalam beberapa kasus). Ini sangat kuat untuk pekerjaan agen (menjalankan alat, berpikir, menjalankan alat lain, dll.).
Untuk contoh langsung dan parameter yang paling mutakhir, dokumentasi Messages/Extended Thinking dari Anthropic adalah referensi kanonis.
Bagaimana Messages API mengembalikan konten thinking
Thinking diringkas vs penuh; enkripsi & tanda tangan
Berbagai versi model Claude menangani thinking secara berbeda: model Claude 4 terkini (seperti Sonnet/Opus 4.5) sering mengembalikan tampilan publik yang diringkas dari penalaran internal sementara scratchpad penuh mungkin dienkripsi dan hanya tersedia melalui field signature (atau blok yang disunting). Saat alat digunakan (atau Anda perlu mempertahankan status internal lintas panggilan alat), Anda harus meneruskan thinking blocks kembali ke API atau menggunakan mekanisme signature seperti yang dijelaskan dokumen. Mekanisme ini membantu melindungi penalaran internal yang sensitif sambil memungkinkan kelanjutan proses berpikir saat dibutuhkan.
Pola penanganan praktis
Penggunaan alat / kelanjutan: jika permintaan berikutnya harus melanjutkan status internal yang sama (mis., alat dijalankan berdasarkan thinking), sertakan thinking block yang dikembalikan atau signature saat Anda memanggil API lagi agar model dapat mendekripsi dan melanjutkan dari titik terakhir.
Request: kirim thinking: {type: "enabled", budget_tokens: N}.
Response: Anda mungkin menerima (a) output publik yang diringkas, (b) signature terenkripsi atau redacted_thinking, atau (c) keduanya.
CometAPI menawarkan API Claude 4.5 dengan harga 20% dari harga resmi, dan juga dapat dipanggil menggunakan Anthropic Messages. Anda perlu memperoleh kunci API sebelum memulai.
Contoh 1 — curl sederhana (non-streaming) dengan thinking diaktifkan
curl https://api.cometapi.com/v1/messages \
-H "x-api-key: $CometAPI_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-sonnet-4-5",
"max_tokens": 16000,
"thinking": {
"type": "enabled",
"budget_tokens": 10000
},
"messages": [
{"role": "user", "content": "Design a robust data validation strategy for CSV imports, show tests + code."}
]
}'
Respons akan berisi blok content. Inspeksi setiap blok dan prioritaskan blok text untuk output akhir; blok thinking berisi ringkasan analisis internal model.
Contoh 2 — Python: request, parse thinking dan text blocks
import os, requests
API_KEY = os.environ["CometAPI_API_KEY"]
URL = "https://api.cometapi.com/v1/messages"
HEADERS = {
"x-api-key": API_KEY,
"anthropic-version": "2023-06-01",
"content-type": "application/json"
}
payload = {
"model": "claude-sonnet-4-5",
"max_tokens": 16000,
"thinking": {"type": "enabled", "budget_tokens": 8000},
"messages": [{"role": "user", "content": "Explain how to do property-based testing in Python; include example code."}]
}
r = requests.post(URL, headers=HEADERS, json=payload)
r.raise_for_status()
resp = r.json()
# Parse blocks
for block in resp.get("content", []):
if block.get("type") == "thinking":
thinking_summary = block.get("thinking")
print("=== THINKING (summary) ===")
print(thinking_summary[:1000]) # truncate for logs
print("signature:", block.get("signature")[:64], "...")
elif block.get("type") == "text":
print("=== FINAL TEXT ===")
print(block.get("text"))
Kode ini mengekstrak dan mencetak ringkasan thinking serta jawaban akhir. Jika Anda perlu mempertahankan kontinuitas dalam alur agen multi-putaran, sertakan thinking blocks yang tidak dimodifikasi dalam array messages permintaan berikutnya (lihat contoh berikut).
Contoh 3 — menggunakan kembali thinking blocks dalam alur multi-putaran (pseudo Python)
# After initial response (resp above):
# Add the assistant message including the thinking block back into the conversation
assistant_message = {
"role": "assistant",
"content": resp["content"] # include raw content array (contains thinking + text blocks)
}
# Next user turn: ask follow-up and include previous assistant message
payload2 = {
"model": "claude-opus-4-5", # Opus preserves thinking blocks better across turns
"max_tokens": 20000,
"thinking": {"type": "enabled", "budget_tokens": 12000},
"messages": [
{"role": "user", "content": "Now adapt the validation logic for an avro pipeline."},
assistant_message
]
}
r2 = requests.post(URL, headers=HEADERS, json=payload2)
Mempertahankan thinking blocks yang benar-benar tidak diubah sangat penting saat melakukan alur kerja terintegrasi alat atau agen panjang. Opus 4.5 memiliki default yang ditingkatkan untuk pelestarian dan cache thinking block.
Bagaimana cara streaming output thinking dan menampilkan progres di UI?
Praktik terbaik streaming
- Gunakan endpoint streaming SDK (SDK Python/TypeScript memiliki helper stream). Untuk pekerjaan penalaran dengan durasi panjang atau anggaran tinggi, streaming mencegah timeout HTTP dan memberikan sebagian teks saat model menghitung. Kode tipikal menggunakan iterator atas
text_stream(Python) atau parsing event (JS). - Harapkan aliran dua fase kadang-kadang: model dapat pertama kali menghasilkan potongan penalaran yang terlihat, lalu menyelesaikannya dengan jawaban. Bangun UI untuk menangani konten yang dipotong dan menampilkan status “berpikir…” vs jawaban akhir.
- Jika API mengembalikan
signature_deltaataucontent_block_deltasaat streaming, tangkap dan lampirkan pada panggilan berikutnya sesuai spesifikasi.
Jika Anda perlu menampilkan progres penalaran menengah dalam UI, lakukan streaming respons. Server akan memancarkan event thinking_delta diikuti oleh text_delta.
curl https://api.cometapi.com/v1/messages \
--header "x-api-key: $CometAPI_API_KEY" \
--header "anthropic-version: 2023-06-01" \
--header "content-type: application/json" \
--data '{
"model": "claude-sonnet-4-5",
"max_tokens": 16000,
"stream": true,
"thinking": { "type": "enabled", "budget_tokens": 8000 },
"messages": [ { "role": "user", "content": "Walk me through debugging this failing unit test and propose fixes." } ]
}'
Saat streaming, tangani event content_block_start, content_block_delta (yang mencakup thinking_delta dan text_delta), serta content_block_stop secara berurutan. Inilah cara Anda dapat menampilkan penalaran langkah demi langkah model saat berlangsung.
Bagaimana Claude Code berinteraksi dengan thinking mode? (terminal + VS Code)
Claude Code adalah terminal pengodean interaktif dan agen yang mengintegrasikan Messages API dan tool runner. Pengalaman CLI/IDE mengekspos thinking dengan dua cara:
- Pengaturan global / per sesi: Claude Code mengekspos panel pengaturan
/configuntuk menyesuaikan perilaku (bagaimana agen meminta izin, apakah thinking blocks dipertahankan, dll.). Gunakan UI tersebut alih-alih mengetik ulang JSON mentah jika Anda menginginkan perubahan perilaku yang persisten. - Pemilihan model & perintah CLI: Anda dapat memilih
claude-sonnet-4-5atauclaude-opus-4-5sebagai model aktif di REPL; alat dan perilaku thinking kemudian mengikuti semantik Messages API. CHANGELOG dan catatan rilis menunjukkan thinking kini diaktifkan secara default untuk beberapa deployment Opus 4.5 dan bahwa konfigurasi thinking ditampilkan melalui/config.
Alur praktis di Claude Code:
- Mulai sebuah proyek di REPL.
- Gunakan
/configuntuk memeriksa flag terkait thinking (pelestarian, verbositas, dll.). - Minta agen menjalankan tugas panjang — agen akan menghasilkan konten thinking dan, bila perlu, meminta izin untuk menjalankan langkah bash tertentu. Pertahankan thinking blocks saat Anda perlu memverifikasi atau menjalankan ulang keputusan nanti.
Instalasi dan Penyiapan
Claude Code memerlukan Node.js dan dapat diinstal secara global.
# Install Claude Code CLI
npm install -g @anthropic/claude-code
# Authenticate
claude-code --init
Mengaktifkan Thinking di Terminal
Claude Code mendukung berbagai flag dan pemicu bahasa alami untuk mengontrol kedalaman penalarannya.
| Perintah/Pemicu | Deskripsi |
|---|---|
| claude-code --think | Memulai sesi dengan extended thinking diaktifkan secara default. |
| claude-code --model sonnet-4.5 | Menentukan model frontier terbaru. |
| /think <task> | Perintah slash dalam CLI untuk memanggil tugas yang membutuhkan penalaran mendalam. |
| "ultrathink" | Kata kunci bahasa alami yang menginstruksikan Claude menggunakan anggaran penalaran maksimum. |
Tips:
- Gunakan
think/think harderketika Anda ingin agen mengeksplorasi implementasi alternatif. - Ketika Claude Code melakukan panggilan alat (menjalankan tes, operasi git), pertahankan
thinkingblocks jika CLI/agen mengembalikannya; jika tidak, agen dapat kehilangan konteks antar langkah.
Manfaat Thinking Terinterleaving dan Pelestarian Blok
Untuk alur kerja agen tingkat lanjut, Claude 4.5 memperkenalkan dua fitur beta yang secara signifikan meningkatkan interaksi multi-putaran dan penggunaan alat: Interleaved Thinking dan Thinking Block Preservation.
Interleaved Thinking (Beta)
Penalaran standar terjadi sekali sebelum output. Interleaved Thinking (diaktifkan melalui header interleaved-thinking-2025-05-14) memungkinkan Claude untuk "berpikir" di antara panggilan alat.
Bayangkan Claude sedang men-debug sebuah server:
- Berpikir: "Saya harus memeriksa log terlebih dahulu."
- Panggilan Alat:
read_file(logs.txt) - Berpikir: "Log menunjukkan timeout database. Sekarang saya perlu memeriksa pengaturan connection pool."
- Panggilan Alat:
read_file(db_config.yml)
“Refleksi berkelanjutan” ini memastikan model menyesuaikan strateginya berdasarkan data yang diterimanya dari alat, alih-alih mengikuti rencana yang kaku dan telah ditentukan.
Thinking Block Preservation
Dalam percakapan multi-putaran, terutama yang melibatkan penggunaan alat, sangat penting untuk meneruskan thinking blocks sebelumnya kembali ke API.
- Kontinuitas penalaran: Dengan menerima pemikiran sebelumnya, Claude mempertahankan konteks logis dari perjalanannya.
- Optimasi Opus 4.5: Dalam Claude Opus 4.5, perilaku ini diotomatisasi. Model mempertahankan semua thinking blocks sebelumnya dalam konteksnya secara default, memastikan bahwa bahkan dalam sesi yang berlangsung 30+ jam, model tidak “melupakan” mengapa ia membuat keputusan arsitektur tertentu sepuluh putaran lalu.
Praktik terbaik menggunakan THINKING mode dengan Claude 4.5
Pilih model dan anggaran yang tepat untuk tugas:
Gunakan Sonnet 4.5 untuk pengodean dan alur kerja agen saat Anda memerlukan kompromi terbaik antara kecepatan, biaya, dan kemampuan pengodean yang kuat; gunakan Opus 4.5 untuk penalaran terdalam dan jendela konteks terbesar atau ketika Anda berencana menjalankan sesi otonom panjang. Keduanya mendukung extended thinking. Pilih budget_tokens secara proporsional dengan kompleksitas tugas (mulai kecil untuk eksperimen; naikkan anggaran hanya jika Anda melihat peningkatan kualitas yang material).
Pantau dan kendalikan biaya & latensi
Anda akan dikenai biaya untuk seluruh token thinking yang dihasilkan Claude, bukan output ringkas yang Anda terima. Artinya, perenungan internal yang panjang meningkatkan biaya bahkan jika Anda hanya melihat ringkasan pendek. Lacak penggunaan token dan pertimbangkan penyesuaian bertahap (misalnya: 2k → 8k → 32k) saat beralih dari eksplorasi ke produksi.
Pertahankan thinking blocks hanya ketika diperlukan
Thinking blocks dapat ditandatangani secara kriptografis dan dipertahankan untuk verifikasi nanti dan penggunaan alat yang terinterleaving. Hindari menggemakan thinking blocks di setiap permintaan berikutnya kecuali alur kerja Anda memerlukan model mempertahankan perenungan internal sebelumnya (misalnya, ketika agen akan menjalankan ulang langkah dan memerlukan rasional yang dipertahankan). Melestarikan thinking setiap saat meningkatkan volume konteks dan dapat mempersulit penghitungan token.
Kapan men-stream thinking ke pengguna
Thinking yang di-stream sangat baik untuk alat pengembang dan UI edukatif (menampilkan “sedang berlangsung” sementara model merenung). Jangan men-stream thinking mentah ke pengguna akhir aplikasi konsumen produksi tanpa mempertimbangkan keamanan dan redaksi: thinking yang diringkas ada untuk alasan ini. Jika Anda men-stream, sediakan affordance UI yang memberi label penalaran internal (mis., “Penalaran asisten — internal”), dan kontrol apakah pengguna akhir melihat ringkasan atau penalaran penuh.
Penggunaan alat dan penginterleavan
Saat menggabungkan thinking dengan alat (eksekusi kode, pengambilan web, proses lokal), gunakan desain interleaved thinking saat Anda memerlukan model untuk memilih alat, menjalankannya, dan bernalar atas hasil dalam putaran yang sama. Penginterleavan meningkatkan kompleksitas (dan mungkin memerlukan flag fitur) namun kuat untuk automasi agen. Jelaskan secara eksplisit thinking apa yang Anda lestarikan, dan uji bagaimana model memilih alat dalam run yang thinking-enabled.
Catatan pemecahan masalah dan operasional praktis
Kesalahan umum dan maknanya
- Thinking tidak valid + pemaksaan pilihan alat: Jika Anda meminta thinking tetapi juga memaksa mode penggunaan alat tertentu yang tidak kompatibel dengan thinking, API akan mengembalikan error — jangan mencampur pemaksaan
tool_choice: {"type":"tool","name":"..."}dengan thinking. - Budget > max_tokens: Untuk skenario thinking terinterleaving, aturan token efektif berbeda — dokumen platform menjelaskan kapan
budget_tokensdapat melebihimax_tokens. Bacalah bagian “interleaved thinking” dengan cermat sebelum menguji anggaran besar. - Validasi signature: Jika Anda melestarikan thinking blocks untuk panggilan nanti, sertakan
signatureyang dikembalikan agar API dapat memverifikasi bahwa blok tersebut berasal dari Claude; ini mencegah manipulasi dan menjaga rantai tetap dapat diverifikasi.
Observabilitas & instrumentasi
Log: (1) pemilihan model, (2) thinking.budget_tokens, (3) konsumsi token thinking aktual (Anda dikenai biaya untuk itu), (4) latensi streaming (waktu ke thinking_delta pertama), dan (5) token teks akhir. Gunakan metrik-metrik ini untuk membangun anggaran dan SLO untuk alur yang menghadap pengguna.
Peluncuran progresif & manusia-dalam-lingkaran
Luncurkan model dengan thinking-enabled di balik flag fitur. Mulai dengan persentase trafik pengembang atau internal, kumpulkan kegagalan atau redaksi, dan iterasikan prompt serta anggaran. Untuk domain sensitif, wajibkan tinjauan manusia pada output yang mencakup penalaran internal substantif sebelum rilis.
Tips debugging
- Mulai kecil: aktifkan
budget_tokensrendah dan skala naik untuk memahami peningkatan bertahap. - Nyalakan streaming dan log event
content_block_delta/ signature untuk memahami kapan model menghasilkan thinking blocks. - Jika menggunakan Claude Code: periksa
/configdan pengaturan level proyek; lihat changelog Claude Code jika perilaku tidak cocok dengan default yang diharapkan.
Kesimpulan:
Claude 4.5, dipadukan dengan kekuatan Extended Thinking dan CLI Claude Code, mewakili lompatan paling signifikan dalam produktivitas pengembang sejak penemuan IDE. Dengan memungkinkan model untuk "menunjukkan prosesnya" dan mempertimbangkan masalah kompleks, Anthropic telah bergerak melampaui era "chatbot" menuju era "agen".
Baik Anda mengintegrasikan Messages API ke dalam alat pengembang khusus atau menggunakan Claude Code untuk mengelola PR harian Anda, menguasai Thinking Mode adalah hal yang penting. Ini memberikan transparansi yang diperlukan untuk kepercayaan dan kedalaman penalaran yang diperlukan untuk keunggulan.
Developer dapat mengakses model Claude 4.5 (Claude Sonnet 4.5 , Claude Haiku 4.5, Claude Opus 4.5) melalui CometAPI. Untuk memulai, jelajahi kapabilitas model CometAPI di Playground dan lihat API guide untuk petunjuk terperinci. Sebelum mengakses, pastikan Anda sudah masuk ke CometAPI dan memperoleh kunci API. CometAPI menawarkan harga yang jauh lebih rendah daripada harga resmi untuk membantu Anda melakukan integrasi.
Siap mulai?→ Uji coba gratis Claude 4.5!
