Claude 4のきめ細かなツールストリーミング：その概要と使い方

Claude 4の最新機能は、大規模言語モデルが外部ツールやAPIと連携する方法に大きな進化をもたらしました。その中には、 きめ細かなツールストリーミング 開発者がJSONの完全な検証を待たずに、ツールの入力パラメータをほぼリアルタイムで受け取ることができる最先端機能として際立っています。2025年XNUMX月にベータ版として導入されたこの機能は、大規模なパラメータを持つツール呼び出しに伴うレイテンシの課題に対処し、より応答性の高いインタラクティブなアプリケーションを実現します。

Claude 4 の Fine‑Grained Tool Streaming とは何ですか?

Claude 4のFGTS（Fine-Grained Tool Streaming）は、モデルが自然言語生成と外部または組み込みの「ツール」（コード実行、検索、計算機など）の呼び出しを、個々のトークンまたは小さなテキストチャンクの粒度でインターリーブするメカニズムです。Claude 4は、完全なツールリクエストをバッチ処理して完全なレスポンスをブロックする代わりに、以下のことを実現します。

文の途中でツールトリガートークンを発行する,
部分的なツール出力の受信と取り込みを開始する 到着すると、
次のトークンを生成し続ける、各受信データに基づいて動的に調整されます。

その結果、推論とアクションがシームレスに融合します。モデルは「天気APIを呼び出したい」と「これが答えです」の間でぎこちなく停止することはありません。代わりに、その文章は途切れることなく流れ、ツールからストリーミングされた結果によってリアルタイムに豊かになります。

実際には、これは大きなパラメータを持つツールの呼び出しのレイテンシを大幅に削減します。例えば、クロードに長い詩をファイルに書き込むように依頼する場合、 make_file ツールの場合、標準的なストリーミングでは詩のテキストが表示されるまでに約 15 秒かかることがあります。きめ細かなストリーミングを有効にすると、最短 3 秒で複数行のチャンクを受信し始めます。各チャンクには、任意の JSON セグメントではなく、詩の一貫した断片が含まれます。同じアプローチは、大規模な入力（バルクデータ変換、複数ステップの計算、またはマルチパート API 呼び出しなど）を扱うツールにも適用され、完全なペイロードが実現されるのを待たずにすぐに処理を開始したり結果を表示したりできます。

FGTS は標準ストリーミングとどう違うのでしょうか?

チャンキング行動

標準的なストリーミングでは、Claudeはシリアル化されたJSONペイロードを小さなフラグメントに分割します。多くの場合、トークンの途中や単語の途中で分割されるため、実質的なコンテンツが表示される前に多数の短いチャンクが生成されます。大きな詩やデータのペイロードの場合、これは10～20文字単位の非常に小さなチャンクとして数十個に分割される可能性があります。一方、きめ細かなストリーミングでは、テキストの全行など、意味的に一貫性のある大きなチャンクが生成されるため、受信側にとってより意味のある、より少ない数の長いチャンクが生成されます ()。

レイテンシーの改善

実際のベンチマークでは、標準ストリーミングを使用したツール呼び出しは、 15秒 バッファリングとJSON検証のため、最初の有効なデータチャンクを送信するまでに遅延が発生します。きめ細かなストリーミングにより、この初期レイテンシは約 3秒これにより、クライアントはストリーミングコンテンツを約5倍の速度で利用できるようになります。この高速化は、ライブコード編集、プログレッシブドキュメント生成、ダッシュボード更新といったインタラクティブなアプリケーションにおいて、迅速なフィードバックがユーザーエクスペリエンスを根本的に向上させる上で極めて重要です。

きめ細かなツールストリーミングが導入されたのはなぜですか?

FGTS以前は、ほとんどのツール対応LLMシステムでは、粗いツール呼び出し：モデルは完全な「CALL TOOL X WITH ARGS …」命令を生成し、一時停止してツールからの完全な応答を受信し、その後生成を続行します。このアプローチにはいくつかの制限があります。

レイテンシの急増: 負荷の高い計算やデータベースクエリの応答全体を待機すると、ブロッキング遅延が発生します。
漸進的なフィードバックの欠如: 完全な回答が得られるまで、モデルは解釈や再計画を開始できません。
厳格なフォーマットツール呼び出しと言語出力は別々のフェーズで実行されるため、構文の柔軟性が制限されます。

FGTS は、モデルのトークンとツールの出力の両方をトークンごとまたはチャンクごとに一緒にストリーミングすることでこれらの問題点に対処し、生成とツールの実行が同期して行われるようにします。

クロード4は実際にどのようにFGTSを適用するのでしょうか?

1. トークンレベルのトリガー

Claude 4は、デコード処理において、関数名と引数を含む「ツール呼び出し開始」を示す特別なマーカー（多くの場合、エンドユーザーには表示されない）を認識します。モデルがこのトリガーを発行すると、FGTSランタイムは完全な「CALL_TOOL」コマンドの生成を待たずに、直ちにリクエストをディスパッチします。

2. ストリーミングツールのインターフェース

Claude 4 のツールキット (Anthropic 独自のコードランナー、計算機、Web 検索インターフェイスなど) は、ストリーミング API でラップされています。

コードランナー: スクリプトの実行時に、出力された stdout/stderr を 1 行ずつ返します。
コンピュータ: 長い計算の数字または中間ステップをストリームします。
ブラウザ/検索: ページが取得され解析されるときに、テキストまたはリンクのスニペットをストリームします。

各フラグメントは、Claude 4 コンテキストバッファーに増分的に戻ります。

3. 増分コンテキスト更新

Claude 4は、ツール出力の各チャンクが流れ込むたびに、それをアクティブなコンテキストウィンドウに追加します。モデルの次のトークン選択には、この最新のデータが即座に組み込まれるため、文の途中で推論を方向転換したり、誤りを修正したり、学習した内容に基づいて分析を深めたりすることができます。

クロード4

開発者はどのようにしてきめ細かなツールストリーミングを実現するのでしょうか?

Claude 4 統合できめ細かなストリーミングを有効にするには、API リクエストヘッダーと構成にわずかな変更を加えるだけです。

APIヘッダー構成

ベータ機能にオプトインするには、次のヘッダーを含めます。

makefileanthropic-beta: fine-grained-tool-streaming-2025-05-14

並んで "stream": true 自分で /v1/messages リクエスト。

使用例

bashcurl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: fine-grained-tool-streaming-2025-05-14" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "tools": [{
      "name": "make_file",
      "description": "Write text to a file",
      "input_schema": {
        "type": "object",
        "properties": {
          "filename": {"type": "string"},
          "lines_of_text": {"type": "array"}
        },
        "required": 
      }
    }],
    "messages": ,
    "stream": true
  }' | jq .

リクエストが実行されると、次のようなものが届きます。 コンテンツブロックデルタ および 入力jsonデルタ イベント。後者にはストリーミングされたパラメータフラグメントが含まれており、ログに記録したり、増分的に検証したり、下流のプロセスに直接送ったりすることができます。

どのようなトレードオフとベストプラクティスを考慮する必要がありますか?

きめ細かなツールストリーミングには大きなメリットがある一方で、データの整合性とクライアントの複雑さに関する考慮事項も生じます。

不完全なJSONの処理

完全なJSONオブジェクトが形成される前にストリームが終了する可能性があるため（特にトークン制限に達した場合）、開発者は受信したフラグメントをバッファリングし、増分解析を試みるべきです。ストリーミングJSONパーサーを使用するか、閉じ括弧を待つ再構成バッファを実装することで、堅牢性を確保できます。 docs.anthropic.com.

検証とエラー回復

JSONスキーマ検証は通常、クライアント側またはツール内で行われるため、実行前にパラメータの完全性を検証することが重要です。不完全なストリームで検証が失敗した場合は、再試行戦略やフォールバックロジック（例：ツール呼び出しの再開を要求する）を採用できます。

ベータ安定性の考慮

ベータ版機能のため、きめ細かなストリーミング動作は進化する可能性があります。Anthropicは、公式フォームを通じて開発者の皆様からのフィードバックを歓迎しており、問題の報告、改善の提案、パフォーマンス測定結果の共有を歓迎します。互換性を維持するためには、廃止予定の通知とリリースノートのご確認が不可欠です。

スタートガイド

CometAPIは、Claudeファミリーを含む数百のAIモデルを一貫したエンドポイントに集約する統合RESTインターフェースを提供します。APIキー管理、使用量制限、課金ダッシュボードが組み込まれているため、複数のベンダーURLと認証情報を管理する手間が省けます。

開発者はアクセスできるクロード・ソネット 4 API （モデル： claude-sonnet-4-20250514 ; claude-sonnet-4-20250514-thinking）とクロード・オプス 4 API （モデル： claude-opus-4-20250514; claude-opus-4-20250514-thinking）などを通じてコメットAPI. . まず、モデルの機能を調べてみましょう。プレイグラウンドそして相談する APIガイド詳しい手順についてはこちらをご覧ください。アクセスする前に、CometAPIにログインし、APIキーを取得してください。CometAPIでは、 cometapi-sonnet-4-20250514およびcometapi-sonnet-4-20250514-thinking カーソル専用です。

CometAPI は初めてですか? クイックスタクト最も困難なタスクには Claude 4 を投入しましょう。

申請する際は、URLを置き換えるだけで済みます https://api.anthropic.com/v1/messages 　 https://api.cometapi.com/v1/chat/completions ワークフローで xx を有効にするために取得した CometAPI のキーと API キーを入力します。

皆さんが作ったものを見るのが待ちきれません。何かおかしいと感じたら、フィードバックボタンを押してください。何が問題なのかを教えていただくことが、改善への一番の近道です。

結論

Claude 4のきめ細かなツールストリーミングは、LLMツール統合におけるパラダイムシフトを表しています。フルペイロードJSON検証のセーフティネットを 超低遅延, 増分ストリーミング, 強化されたインタラクティブ性ベータ版のヘッダーを1つだけ有効化するだけで、この機能はコーディング、データ処理、そしてエージェントワークフロー全体にわたって強力な新たな可能性を切り開きます。開発者がその可能性を探求し、部分的なJSONフラグメントなどのエッジケースを考慮するにつれて、きめ細かなストリーミングは次世代のリアルタイムAI駆動型アプリケーションの基盤となるでしょう。