Anthropic 的 Claude 4.5 系列(尤其是 Sonnet 4.5 與 Opus 4.5)為 Claude 4 系列帶來延展「思考」/ 草稿本風格的內部推理。Messages API 透過 thinking 物件(啟用/停用 + budget_tokens 配額)、串流選項,以及對「thinking」內容區塊的特殊處理(包含簽章與遮蔽)向外暴露此能力。Sonnet 4.5 鎖定程式開發與代理式任務,從延展思考獲益良多;Opus 4.5 則新增保留思考區塊與其他最佳化。
什麼是 Claude 4.5?
Claude 4.5(在 Anthropic 的 Claude 模型家族中以 Sonnet 4.5 與 Opus 4.5 兩種變體發布)是該公司最新一代大型語言模型,針對更深層的推理、長期脈絡,以及生產級程式/代理式工作流程進行調校。在 Anthropic 的公告與產品頁面中,Sonnet 4.5 被描述為在程式撰寫、代理建構與「使用電腦」(即工具輔助的工作流程與多步自動化)方面的大幅躍進,並在推理、數學與長脈絡任務上具可量測的提升。
4.5 家族型號陣容
- Claude Sonnet 4.5 (發布於 2025 年 9 月 29 日): 此家族的「主力」。目前被評為全球最強的程式模型,能在自動化任務上保持超過 30 小時的專注。兼顧速度、成本與高階推理,是大多數企業應用的預設之選。
- Claude Haiku 4.5 (發布於 2025 年 10 月 15 日): 速度最佳化的模型。令人意外的是,它現已支援 Extended Thinking,成為首個提供過往僅限前沿模型才有的深度推理能力的「小型」模型。非常適合高頻任務,既重視延遲又不能犧牲準確性。
- Claude Opus 4.5 (發布於 2025 年 11 月 24 日): 前沿智慧模型。Opus 4.5 旨在處理最複雜、最具模糊性的任務——如科學研究、新型架構設計與高風險金融分析。它擁有最高的「思考預算」容量,並在自我校正方面表現卓越。
一眼看盡的關鍵能力
- 更大的可用脈絡視窗,以及在長時間任務(代理工作流程、逐步偵錯、程式碼庫編輯)中的改進行為。
- 在程式評測、重構與多步工具使用任務(Sonnet 與 Opus 系列)上擁有更佳表現。
- 先進的「思考」功能(Anthropic 稱為「延展思考」/「思考模式」),可選擇性地向開發者曝露模型的部分逐步推理,或允許模型在產出最終答案前花費可配置的「預算」代幣進行推理。
哪裡可以執行 Claude 4.5
Claude 4.5(Sonnet/Opus)可透過 Anthropic 自家 API 使用,並已整合至 CometAPI(API 定價目前特價中,約為 Anthropic 價格的 20%。),因此你可以在 Anthropic 的平台上或由託管該模型的第三方雲端供應商處執行。
Claude Code 與 Claude 4.5 的全新 THINKING 模式是什麼?
Anthropic 的「延展思考」(亦稱「思考模式」、「思考區塊」或「思考代幣」)是一項功能,允許模型在產出最終答案之前,執行額外的內部取樣步驟以更徹底地推理。你可以在 Messages API 請求中加入 thinking 設定來啟用(例如:{ "thinking": { "type": "enabled", "budget_tokens": 4096 } }),或透過 Anthropic SDK 輔助工具啟用。啟用後,API 會(依模型而定)回傳經過摘要的內部推理,或回傳完整推理(在安全性考量下可能會遮蔽)。
要理解為何「思考模式」具有革命性,必須先了解大型語言模型(LLMs)過去如何運作。標準模型是「機率式文字生成器」——在收到提示後就立刻預測下一個代幣。它們不會「停下來思考」;而是立即開始輸出(生成)。
轉向「延展思考」
「思考模式」改變了這個典範。一旦啟用,Claude 4.5 會在向使用者輸出第一個可見字元之前,先產生一串隱藏的「思考代幣」。
「可見推理(選用)」:在某些介面如 Claude.ai,你可以看到一個「Thinking」下拉選單,顯示模型的內部獨白。
「隱藏推理(API)」:在 API 中,這些是獨立的 thinking 區塊。模型在這個空間中會:
- 「拆解提示」:分解複雜約束。
- 「規劃策略」:概述逐步邏輯。
- 「草擬與自評」:在腦中嘗試解法、發現問題,並在呈現答案「之前」先修正。
交錯式思考
Sonnet 4.5 的一項重大創新是「交錯式思考」。在代理式工作流程中(AI 會使用計算機、程式碼直譯器或瀏覽器等工具),標準模型通常是呼叫一個工具、拿到結果,接著立即呼叫下一個工具。
有了交錯式思考,Claude 4.5 可以:
- 先「思考」使用者的請求。
- 呼叫工具 A(例如:搜尋網頁)。
- 再「思考」搜尋結果(「這個結果過時了,我應該換個查詢。」)。
- 呼叫工具 B(例如:再次搜尋)。
- 「思考」如何整合資料。
- 最終回應。
這種「思考—行動—思考—行動」的循環,在長且多步的程式任務中能大幅降低幻覺與錯誤傳遞。
Claude Code 如何在開發者工具中呈現思考
在 Claude Code(CLI / 編輯器體驗)中,Anthropic 增加了 UI 控制來切換互動階段的思考模式(常見的 UX 是按下 Tab 以切換思考開/關),並顯示目前思考預算的指示器。一些較舊的觸發關鍵字(例如 think、think hard)曾被用來控制思考深度;現代版本則依賴明確的切換與預算參數,在某些情境下仍保留 ultrathink。該設定可在 ~/.claude/settings.json 全域套用,或於每次請求覆寫。
如何實作 Claude 4.5 的思考模式?
對開發者而言,過渡到 Claude 4.5 意味著 API 請求的結構需要改變。你不再只是送出一段提示,而是管理一個「思考預算」。
設定思考預算
thinking 參數現在是 Anthropic API 的一等公民。你必須明確啟用並定義一個 budget_tokens 值。此值代表模型可用於內部推理的最大代幣數。
Python 實作範例
以下程式碼示範如何初始化啟用延展思考的 Claude 4.5 工作階段。
import anthropic
# 初始化從 Gemini Enterprise 觀點出發的 Claude 4.5 整合
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# 我們將 max_tokens 設為較大,以容納思考與最終答案
# budget_tokens 必須小於 max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # 為「思考」分配 12k 代幣
},
messages=[
{"role": "user", "content": user_query}
]
)
# 萃取回應中的兩個不同部分
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# 複雜範例查詢
query = "使用 Circom 設計一個去中心化投票應用的零知識證明系統。"
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE 的內部推理 ---")
print(thoughts)
print("\n--- 最終技術架構 ---")
print(answer)
主要技術考量
- 「總代幣使用量」:你的總用量等於
thinking_tokens+output_tokens。若你設定 10,000 的預算,模型用 8,000 做思考、2,000 產出答案,則你會就 10,000 個輸出代幣被計費。 - 「強制思考」:若任務過於簡單,模型仍可能使用最少量的思考代幣來驗證請求的簡單性。
思考模式如何改善程式碼生成?
Claude 4.5 在 Claude Code CLI 的表現有明顯升級。當 Claude 4.5「思考」程式碼時,它會執行若干標準模型忽略的隱藏動作。
1. 相依關係對映
在寫下任何一行修正之前,Claude 4.5 會遍歷你的儲存庫,以理解 utils/auth.ts 的變更如何可能破壞 views/Profile.tsx 中的元件。
2. 心智執行
模型會在其思考區塊中「執行」程式碼。它模擬邏輯流程,並辨識潛在的競態條件或差一錯誤。
3. 約束驗證
如果你要求「效能良好且不使用外部函式庫」的解法,思考模式會充當守門員。若模型的第一直覺是建議一個 NPM 套件,思考過程會抓到這個違規並迫使模型改以原生 JavaScript 重想一個實作。
思考模式相較於傳統提示有何不同?
許多使用者熟悉「鏈式思維(CoT)」提示,你會告訴模型:「逐步思考。」雖然有效,但它與 Claude 4.5 的原生思考模式並不相同。
| 功能 | 鏈式思維(手動) | 延展思考(原生) |
|---|---|---|
| 機制 | 使用者以提示指示。 | 內建於模型架構。 |
| 代幣空間 | 佔用可見輸出空間。 | 佔用專用的內部區塊。 |
| 自我校正 | 有限;模型常會在早期錯誤上「加碼」。 | 高;模型可捨棄整條推理路徑並重新開始。 |
| 可靠性 | 依提示品質而變動。 | 在複雜領域中一致性高。 |
| API 處理 | 需要手動解析文字。 | 對「thinking」與「text」提供結構化的 JSON 區塊。 |
思考模式在 Claude 4.5 中如何運作?
內部工作流程(概念)
- 使用者請求:你的應用送出 Messages API 請求,指定模型、提示、
max_tokens,並可選擇thinking: { type: "enabled", budget_tokens: N }。 - 內部推理:Claude 會在預算範圍內執行內部「思考」。它將推理輸出記錄為
thinking區塊(可能會為使用者做摘要)。 - 輸出組合:API 回傳一組內容區塊。典型順序為
thinking區塊後接text區塊(最終答案)。若為串流,你會先收到thinking_delta事件,接著是text_delta事件。 - 脈絡保留:在使用工具或多輪互動時,你可以重新送出先前的思考區塊(不修改)以便 Claude 延續思路。Opus 4.5 引入預設保留思考區塊的行為以利快取/效率。
技術上,思考模式仰賴特定的 API 參數設定,為推理配置一個「預算」。
代幣預算概念
當你向 Claude 4.5 發出請求時,必須指定 budget_tokens 參數。這是模型可用於內部獨白的最大代幣數。
- 低預算(<2,000 代幣):適合快速健全性檢查或簡單邏輯謎題。
- 高預算(10,000+ 代幣):用於複雜的軟體架構、數學證明,或撰寫完整的法律意見書。
模型受過訓練以「管理」此預算。若它感知預算將用罄,便會嘗試收斂推理並給出最佳可能答案。
「思考流程」生命週期
當使用者要求:「撰寫一個 Python 腳本來爬取這個網站,但必須遵守 robots.txt 並處理動態載入。」
- 攝取:Claude 讀取提示。
- 思考階段(隱藏):
- 自我校正:「我需要使用 Selenium 或 Playwright 來處理動態載入。
requests不適用。」 - 安全檢查:「我必須確認使用者有爬取的許可。我要加上免責聲明。」
- 架構設計:「我會用類別式架構來模組化。」
- 自我校正:「我需要使用 Selenium 或 Playwright 來處理動態載入。
- 輸出階段(可見):Claude 生成 Python 程式碼。
在先前的模型中,AI 可能會立即開始寫 requests 的程式碼,寫到一半才發現不適用於動態內容,接著不是出現幻覺就是給出壞掉的程式碼。思考模式可避免這種「把自己逼進死角」的情況。
什麼時候該啟用思考模式——使用情境與判斷準則?
最受益的使用情境
- 複雜程式開發(架構變更、多檔重構、長時間偵錯工作)。啟用思考時,Sonnet 4.5 被明確定位為程式與代理領域的領先者。
- 代理式工作流程,需要反覆使用工具並在多步之間保留內部脈絡。交錯式思考 + 工具使用是核心場景。
- 深度研究或分析(統計分析、金融結構設計、法律推理),且希望檢視或驗證中間推理步驟。
不建議啟用的情境
- 只需簡短回覆或高吞吐、極低延遲的 API(例如要求毫秒級回應的聊天介面)。
- 必須將每次請求代幣成本降到最低,且任務簡單或規格明確的情況。
實務準則
從「最低思考預算(約 1,024 代幣)」開始,對需要更深入的任務逐步提高;同時衡量端到端任務的準確度、延遲與代幣消耗。在多步代理任務中,嘗試交錯式思考與快取的提示斷點,以尋找最佳平衡點。
結語
Claude 4.5 的思考模式不僅是一個功能;它是與人工智慧互動的新方式。透過將「思考過程」與「思考產出」分離,Anthropic 提供了一個更可靠、更透明、且更能處理現代企業工作複雜性的工具。
無論你是在使用 Claude Code CLI 管理大型遷移,或使用 API 構建下一代自動化代理,掌握「思考預算」都是成功的關鍵。
開發者可以透過 CometAPI 存取 Claude 4.5 模型。首先,請在 CometAPI 的 Playground 探索模型能力,並參考 API 指南以獲得詳細說明。使用前,請確保你已登入 CometAPI 並取得 API 金鑰。CometAPI 提供遠低於官方價格的方案,協助你快速整合。
準備好了嗎?→ 免費試用 Claude 4.5!
