AnthropicのClaude 4.5ファミリー(特に Sonnet 4.5 と Opus 4.5)は、Claude 4ラインに拡張「thinking」/スクラッチパッド型の内部推論をもたらします。Messages API では、その機能を thinking オブジェクト(有効化/無効化 + budget_tokens の割り当て)、ストリーミングオプション、および「thinking」コンテンツブロックの特別な取り扱い(署名やリダクションを含む)を通じて公開しています。Sonnet 4.5 はコーディングおよびエージェント型タスクを対象としており、拡張 thinking の恩恵を大きく受けます。Opus 4.5 は保持された thinking ブロックやその他の最適化を追加しています。
Claude 4.5 とは何ですか?
Claude 4.5(Anthropic の Claude モデルファミリーにおける Sonnet 4.5 および Opus 4.5 バリアントとして公開)は、より深い推論、長期的なコンテキスト、そして本番品質のコーディング/エージェント型ワークフロー向けに調整された、同社の最新世代の大規模言語モデルです。Anthropic の発表および製品ページでは、Sonnet 4.5 はコーディング、エージェント構築、「コンピュータの利用」(すなわち、ツール支援ワークフローや複数ステップの自動化)における大きな前進として説明されており、推論、数学、長文脈タスクで測定可能な向上があるとされています。
4.5 ファミリーのラインアップ
- Claude Sonnet 4.5 (2025年9月29日リリース): ファミリーの「主力」モデルです。現在、世界最高のコーディングモデルとして評価されており、自律タスクに30時間以上集中し続けることができます。速度、コスト、高度な推論のバランスが取れており、ほとんどのエンタープライズアプリケーションでデフォルトの選択肢となります。
- Claude Haiku 4.5 (2025年10月15日リリース): 速度最適化モデルです。驚くべきことに、現在は Extended Thinking をサポートしており、これまで最先端モデルに限定されていた深い推論能力を提供する最初の「小型」モデルとなりました。レイテンシが重要でありながら精度を犠牲にできない高頻度タスクに最適です。
- Claude Opus 4.5 (2025年11月24日リリース): フロンティア知能モデルです。Opus 4.5 は、科学研究、新規アーキテクチャ設計、高度な金融分析のような、最も複雑で曖昧なタスク向けに設計されています。最も大きな「thinking budget」容量を持ち、自己修正に優れています。
主な機能の概要
- より大きく実用的なコンテキストウィンドウと、長時間実行タスク(エージェントワークフロー、ステップごとのデバッグ、コードベース編集)における改善された挙動。
- コーディングベンチマーク、リファクタリング、および複数ステップのツール利用タスクにおける優れた性能(Sonnet および Opus ファミリー)。
- 高度な「thinking」機能(Anthropic が extended thinking/thinking mode と呼ぶもの)。これにより、モデル内部の段階的な推論の一部を開発者に任意で公開したり、最終回答を生成する前に設定可能な「budget」のトークン数を使って推論させたりできます。
Claude 4.5 を実行できる場所
Claude 4.5(Sonnet/Opus)は Anthropic 自身の API を通じて利用でき、CometAPI にも統合されています(API 価格は現在セール中で、おおよそ Anthropic の価格の20%です)。そのため、Anthropic のプラットフォーム経由でも、このモデルをホストするサードパーティのクラウドベンダー経由でも利用できます。
Claude Code と Claude 4.5 の新しい THINKING モードとは何ですか?
Anthropic の extended thinking(別名「thinking mode」「thinking blocks」「thinking tokens」)は、最終回答を生成する前に、より十分に推論するための追加の内部サンプリングステップをモデルに実行させる機能です。これを有効にするには、Messages API リクエストに thinking 設定(例: { "thinking": { "type": "enabled", "budget_tokens": 4096 } })を追加するか、Anthropic SDK のヘルパーを使用します。有効化すると、API は(モデルに応じて)内部推論の要約版、または完全な推論を返します(安全のためにリダクションが行われる場合があります)。
なぜ「Thinking Mode」が革新的なのかを理解するには、大規模言語モデル(LLM)が従来どのように動作してきたかを見る必要があります。標準的なモデルは「確率的テキスト生成器」であり、プロンプトを受け取ると即座に次のトークンを予測します。つまり、「立ち止まって考える」のではなく、すぐに話し始める(生成を開始する)のです。
「Extended Thinking」への転換
Thinking Mode は、このパラダイムを変えます。有効化すると、Claude 4.5 はユーザーに1文字でも可視の文字を出力する前に、隠れた「thinking tokens」のストリームを生成します。
可視の推論(任意): Claude.ai のような一部のインターフェースでは、「Thinking」ドロップダウンが表示され、モデルの内部モノローグを見ることができます。
非表示の推論(API): API では、これらは個別の thinking ブロックとして扱われます。モデルはこの空間を使って次のことを行います。
- プロンプトを分解する: 複雑な制約を分解します。
- 戦略を立てる: ステップごとのロジックを概説します。
- 下書きと批評: 頭の中で解決策を試し、欠陥を見つけて、回答を提示する 前に 修正します。
Interleaved Thinking
Sonnet 4.5 の大きな革新の1つが Interleaved Thinking です。エージェント型ワークフロー(AI が電卓、コードインタープリタ、Web ブラウザのようなツールを使う場面)では、標準的なモデルは単にツールを呼び出し、結果を取得し、すぐ次のツールを呼び出します。
Interleaved Thinking を使うと、Claude 4.5 は次のようにできます。
- ユーザーのリクエストについて 考える。
- Tool A を呼び出す(例: Web を検索する)。
- 検索結果について 考える(「この結果は古い。別のクエリを試すべきだ」)。
- Tool B を呼び出す(例: もう一度検索する)。
- データをどう統合するかについて 考える。
- 最終回答。
この「Think-Act-Think-Act」ループは、長く複数ステップにわたるコーディングタスクにおける幻覚やエラー伝播を大幅に減らします。
Claude Code が開発者ツールで thinking をどう表示するか
Claude Code(CLI/エディタ体験)では、Anthropic は対話セッション向けに thinking mode を切り替える UI 機能を追加しています(一般的な UX では Tab を押して thinking のオン/オフを切り替えます)。また、現在の thinking budget を示すインジケーターも表示されます。古いトリガーキーワード(例: think、think hard)は歴史的には thinking の深さを制御するために使われていましたが、現在のバージョンでは明示的なトグルと budget パラメータに依存しており、ultrathink は一部のコンテキストで引き続き利用可能です。設定は ~/.claude/settings.json でグローバルに行うことも、リクエストごとに上書きすることもできます。
Claude 4.5 Thinking Mode はどのように実装しますか?
開発者にとって、Claude 4.5 への移行には API リクエストの構造を変更する必要があります。単にプロンプトを送るだけではなく、「Thinking Budget」を管理することになるのです。
Thinking Budget の設定
thinking パラメータは、Anthropic API で第一級の要素となりました。これを明示的に有効化し、budget_tokens の値を定義する必要があります。この値は、モデルが内部推論に費やすことができる計算量の最大値を表します。
Python 実装例
次のコードは、Extended Thinking を有効にした Claude 4.5 セッションを初期化する方法を示しています。
import anthropic
# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")
def get_reasoned_response(user_query):
# We set a high max_tokens to accommodate both thinking and the final answer
# The budget_tokens must be less than max_tokens
response = client.messages.create(
model="claude-4-5-sonnet-202512",
max_tokens=20000,
thinking={
"type": "enabled",
"budget_tokens": 12000 # Allocating 12k tokens for 'thinking'
},
messages=[
{"role": "user", "content": user_query}
]
)
# Extracting the two distinct parts of the response
thinking_content = ""
final_output = ""
for block in response.content:
if block.type == "thinking":
thinking_content = block.thinking
elif block.type == "text":
final_output = block.text
return thinking_content, final_output
# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)
print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)
主な技術的考慮事項
- 総トークン使用量: 総使用量は
thinking_tokens+output_tokensです。10,000 トークンの budget を設定し、モデルが 8,000 を thinking に、2,000 を回答に使った場合、10,000 出力トークン分が課金されます。 - 強制 Thinking: タスクが単純すぎる場合でも、モデルはリクエストの単純さを確認するために最小限の thinking tokens を使うことがあります。
Thinking Mode はコード生成をどのように改善しますか?
Claude 4.5 における最も重要なアップグレードの1つは、Claude Code CLI での性能です。Claude 4.5 がコードについて「考える」とき、標準モデルが見落としがちな複数の隠れた処理を実行します。
1. 依存関係マッピング
Claude 4.5 は、修正の1行を書き始める前にリポジトリを走査し、utils/auth.ts の変更が views/Profile.tsx のコンポーネントにどのような破壊的影響を与える可能性があるかを理解します。
2. メンタル実行
モデルは推論ブロックの中でコードを「実行」します。ロジックフローをシミュレートし、潜在的な race condition や off-by-one エラーを特定します。
3. 制約の検証
「高性能で外部ライブラリを使わないソリューション」を求めた場合、thinking mode はゲートキーパーとして機能します。モデルの最初の直感が NPM パッケージを提案することだったとしても、thinking プロセスがその違反を検知し、プレーンな JavaScript 実装を再考させます。
Thinking Mode は従来のプロンプティングとどう比較されますか?
多くのユーザーは、「ステップごとに考えて」とモデルに指示する "Chain of Thought"(CoT)プロンプティングに慣れています。これは効果的ですが、Claude 4.5 のネイティブな Thinking Mode と同じではありません。
| Feature | Chain of Thought (Manual) | Extended Thinking (Native) |
|---|---|---|
| Mechanism | User-prompted instructions. | Built-in model architecture. |
| Token Space | Occupies visible output space. | Occupies a dedicated internal block. |
| Self-Correction | Limited; the model often "doubles down" on early mistakes. | High; the model can discard an entire reasoning path and start over. |
| Reliability | Variable based on prompt quality. | Consistently high across complex domains. |
| API Handling | Requires manual parsing of text. | Structured JSON blocks for "thinking" and "text". |
thinking mode は Claude 4.5 でどのように動作しますか?
内部ワークフロー(概念)
- ユーザーリクエスト: アプリケーションは、モデル、プロンプト、
max_tokens、および任意でthinking: { type: "enabled", budget_tokens: N }を指定した Messages API リクエストを送信します。 - 内部推論: Claude は budget の範囲内で内部的な「thinking」を行います。推論出力は
thinkingブロックとして記録されます(ユーザー向けには要約される場合があります)。 - 出力の構成: API はコンテンツブロックの配列を返します。通常、順序は
thinkingブロック、その後にtextブロック(最終回答)です。ストリーミングの場合は、thinking_deltaイベント、続いてtext_deltaイベントを受け取ります。 - コンテキストの保持: ツールやマルチターンフローを使用する場合、以前の thinking ブロックを(変更せずに)再送信して、Claude が chain-of-thought を継続できるようにすることがあります。Opus 4.5 では、キャッシュ/効率のために thinking ブロックをデフォルトで保持する動作が導入されました。
技術的には、Thinking Mode は、推論用の「Budget」トークンを割り当てる特定の API パラメータ設定に依存しています。
トークン Budget の概念
Claude 4.5 にリクエストを行う際には、budget_tokens パラメータを指定する必要があります。これは、モデルが内部モノローグに使用できるトークン数の上限です。
- 低 Budget(<2,000 tokens): 簡単な妥当性チェックやシンプルな論理パズルに適しています。
- 高 Budget(10,000+ tokens): 複雑なソフトウェアアーキテクチャ、数学的証明、包括的な法律文書の作成に必要です。
モデルはこの budget を「管理」するよう訓練されています。budget が不足しつつあると判断すると、推論をまとめに入り、可能な限り最善の回答を提供しようとします。
「Thinking Process」のライフサイクル
ユーザーが次のように尋ねたとします: 「この Web サイトをスクレイピングする Python スクリプトを書いて。ただし robots.txt を尊重し、動的読み込みにも対応すること。」
- 取り込み: Claude がプロンプトを読み取ります。
- Thinking フェーズ(非表示):
- 自己修正: 「動的読み込みには Selenium または Playwright を使う必要がある。
requestsでは動かない。」 - セキュリティチェック: 「ユーザーにスクレイピング権限があるか確認しなければならない。免責事項を追加しよう。」
- アーキテクチャ: 「モジュール性のため、クラスベースのアプローチでコードを構成しよう。」
- 自己修正: 「動的読み込みには Selenium または Playwright を使う必要がある。
- 出力フェーズ(可視): Claude が Python コードを生成します。
以前のモデルでは、AI はすぐに requests のコードを書き始め、途中で動的コンテンツには使えないことに気づき、その結果、幻覚的な解決策を出したり壊れたコードを返したりする可能性がありました。thinking mode は、このような「袋小路に入り込む」状況を防ぎます。
thinking mode はいつ有効にすべきか — ユースケースとヒューリスティクス
最も恩恵を受けるユースケース
- 複雑なコーディング(アーキテクチャ変更、複数ファイルにわたるリファクタリング、長時間のデバッグセッション)。Sonnet 4.5 は、thinking を使用した場合のコーディングおよびエージェント分野のリーダーとして明確に位置付けられています。
- エージェント型ワークフロー。繰り返しツールを使用し、多数のステップにわたって内部コンテキストを保持する必要があるケース。Interleaved Thinking + ツール利用は主要なシナリオです。
- 深い調査や分析(統計分析、金融ストラクチャリング、法的推論)で、中間的な推論ステップを検査または検証したい場合。
有効にしないほうがよい場合
- 短い回答生成や、低レイテンシが決定的に重要な高スループット API(例: ミリ秒単位の応答が必要なチャット UI)。
- リクエストあたりのトークンコストを最小限に抑える必要があり、タスクが単純または十分に明確な場合。
実践的なヒューリスティクス
最小の thinking budget(約 1,024 tokens) から開始し、より深さが必要なタスクに対して段階的に増やしてください。エンドツーエンドのタスク精度、レイテンシ、トークン消費を比較評価するのがよいでしょう。複数ステップのエージェントタスクでは、interleaved thinking とキャッシュされたプロンプトのブレークポイントを試し、最適なバランスを見つけてください。
結論
Claude 4.5 の Thinking Mode は単なる機能以上のものであり、人工知能との新しい関わり方です。思考のプロセス と 思考の成果 を分離することで、Anthropic は、より信頼性が高く、より透明性があり、現代のエンタープライズ業務の複雑さに対処する能力がより高いツールを提供しました。
大規模な移行を管理するために Claude Code CLI を使用する場合でも、次世代の自律エージェントを構築するために API を活用する場合でも、「Thinking Budget」を習得することが成功の鍵です。
開発者は CometAPI を通じて Claude 4.5 モデルにアクセスできます。まずは CometAPI の Playground でモデル機能を試し、詳細な手順について API ガイドを参照してください。アクセスする前に、CometAPI にログインし、API キーを取得していることを確認してください。CometAPI は、統合を支援するために公式価格より大幅に低い価格を提供しています。
準備はできましたか?→ Claude 4.5 の無料トライアル!
