Claude 4 的細粒度工具 Streaming:是什麼以及如何使用

CometAPI
AnnaJun 20, 2025
Claude 4 的細粒度工具 Streaming:是什麼以及如何使用

Claude 4 的最新功能標誌著大型語言模型與外部工具和 API 互動方式的重大改進。其中, 細粒度工具流 這項尖端功能脫穎而出,使開發人員能夠近乎即時地接收工具輸入參數,而無需等待完整的 JSON 驗證。該功能於 2025 年 XNUMX 月以測試版形式推出,旨在解決與大參數工具呼叫相關的延遲問題,並增強應用程式的回應速度和互動性。

Claude 4 中的細粒度工具流是什麼?

Claude 4 中的細粒度工具流 (FGTS) 是一種機制,模型透過該機制將其自然語言產生與對外部或內建「工具」(例如,程式碼執行、搜尋、計算器)的呼叫交織在一起,粒度為單一 token 或小段文字。 Claude 4 無需批量處理完整的工具請求,然後在收到完整回應時進行阻塞,而是可以:

  • 在句子中間發出工具觸發標記,
  • 開始接收並擷取部分工具輸出 當它到達時,
  • 繼續產生下一個令牌,根據每條傳入的資料進行動態調節。

結果是推理和行動的無縫融合:模型不會在「我想呼叫天氣 API」和「這是答案」之間尷尬地停頓。相反,它的散文流暢不間斷,並透過工具的流式結果即時豐富。

在實踐中,這大大減少了大參數工具呼叫的延遲。例如,當要求 Claude 通過 make_file 工具,標準串流可能需要大約 15 秒才能看到詩歌的任何文本。啟用細粒度串流後,您只需大約 3 秒即可開始接收多行資料區塊—每個資料區塊包含詩歌的連貫片段,而不是任意的 JSON 段。相同的方法適用於任何具有大量輸入的工具(例如,批次資料轉換、多步驟計算或多部分 API 呼叫),使您無需等待完整負載完成即可立即開始處理或顯示結果。

FGTS 與標準串流媒體有何不同?

分塊行為

使用標準串流時,Claude 會將序列化的 JSON 負載拆分成小片段,通常會在標記中間或單字中間斷開,從而在出現任何實質內容之前形成許多短區塊。對於大型詩歌或數據負載,這可能會表現為數十個微小的區塊,每個區塊包含 10-20 個字元。相較之下,細粒度串流會發出更大、語義連貫的區塊(例如整行文字),從而產生更少、更長的區塊,對接收者來說更有意義 ()。

延遲改進

在實際基準測試中,使用標準流的工具呼叫可能會產生 15秒 由於緩衝和 JSON 驗證,在發出第一個有效資料區塊之前會有延遲。細粒度的串流將初始延遲縮短至大約 3秒,使客戶端能夠以近五倍的速度開始消費串流內容。這種加速對於互動式應用程式(例如即時程式碼編輯、漸進式文件產生或儀表板更新)至關重要,因為快速的回饋可以從根本上提升使用者體驗。

為什麼要引入細粒度工具流?

在 FGTS 之前,大多數支援工具的 LLM 系統都使用 工具呼叫:模型將產生完整的「CALL TOOL X WITH ARGS…」指令,暫停,接收完整的工具回應,然後繼續產生。這種方法有幾個限制:

  1. 延遲峰值:等待大量計算或資料庫查詢的整個回應會增加阻塞延遲。
  2. 缺乏增量回饋:在獲得完整答案之前,模型無法開始解釋或重新規劃。
  3. 嚴格的格式:工具呼叫和語​​言輸出處於不同的階段,限制了語法彈性。

FGTS 透過將模型的令牌和工具的輸出(逐個令牌或逐個區塊)串流在一起來解決這些痛點,因此產生和工具執行同步進行。


Claude 4 實際上如何應用 FGTS?

1. 代幣等級觸發器

在解碼過程中,Claude 4 會識別特殊標記(通常對最終用戶不可見),這些標記表示“啟動工具呼叫”,並包含函數名稱和參數。當模型發出此觸發器時,FGTS 執行時會立即排程請求,而無需等待產生完整的「CALL_TOOL」命令。

2. 串流媒體工具接口

Claude 4 的工具包(包括 Anthropic 自己的程式碼運行器、計算器和網路搜尋介面)都包含在串流 API 中。

  • 程式碼運行器:在腳本執行時逐行傳回發出的 stdout/stderr。
  • 計算機:流數字或長計算的中間步驟。
  • 瀏覽器/搜尋:在取得和解析頁面時串流文字或連結片段。

每個片段逐漸回到 Claude 4 上下文緩衝區。

3. 增量上下文更新

隨著每塊工具輸出的流入,Claude 4 都會將其附加到其活動的上下文視窗。模型的下一個標記選擇會立即納入這些新數據——因此,它的推理可以在句子中間進行調整、糾正錯誤,或根據剛剛學到的知識深化分析。

克勞德 4

開發人員如何實現細粒度的工具流程?

在 Claude 4 整合中啟動細粒度流只需要對 API 請求標頭和配置進行少量變更。

API 標頭配置

若要選擇加入測試版功能,請包含標題:

makefileanthropic-beta: fine-grained-tool-streaming-2025-05-14

並肩 "stream": true 在您的 /v1/messages 要求 。

示例用法

bashcurl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: fine-grained-tool-streaming-2025-05-14" \
  -d '{
    "model": "claude-sonnet-4-20250514",
    "tools": [{
      "name": "make_file",
      "description": "Write text to a file",
      "input_schema": {
        "type": "object",
        "properties": {
          "filename": {"type": "string"},
          "lines_of_text": {"type": "array"}
        },
        "required": 
      }
    }],
    "messages": ,
    "stream": true
  }' | jq .

隨著請求的運行,您將收到 content_block_delta 輸入_json_delta 事件。後者包含流參數片段,這些片段可以被記錄、增量驗證或直接輸入到下游流程。

應該考慮哪些權衡和最佳實踐?

雖然細粒度工具流提供了實質的好處,但它也引入了有關資料完整性和客戶端複雜性的考慮。

處理不完整的 JSON

由於流可能在形成完整的 JSON 物件之前結束(尤其是在達到令牌限制的情況下),因此開發人員應該緩衝傳入的片段並嘗試增量解析。使用串流 JSON 解析器或實作等待結束括號的重組緩衝區有助於確保穩健性。 docs.anthropic.com.

驗證和錯誤恢復

由於 JSON 模式驗證通常發生在用戶端或工具內部,因此在執行之前驗證參數的完整性至關重要。如果驗證在不完整的流上失敗,可以採用重試策略或回退邏輯(例如,請求重新開啟工具呼叫)。

Beta 穩定性考量

作為測試功能,細粒度的串流行為可能會有所改善。 Anthropic 鼓勵開發者透過其官方表單回饋問題、提出改進建議或分享效能指標。監控棄用通知和發行說明對於維護相容性至關重要。

入門

CometAPI 提供統一的 REST 接口,在一致的端點下聚合數百個 AI 模型(包括 Claude 系列),並內建 API 金鑰管理、使用配額和計費儀表板。而不需要處理多個供應商 URL 和憑證。

開發人員可以訪問 克勞德十四行詩 4 API  (模型: claude-sonnet-4-20250514 ; claude-sonnet-4-20250514-thinking) and 克勞德作品 4 API (模型: claude-opus-4-20250514claude-opus-4-20250514-thinking)等透過 彗星API。首先,探索模型在 游乐场 並諮詢 API指南 以獲得詳細說明。造訪前請確保您已經登入CometAPI並取得API金鑰。 CometAPI 也加入了 cometapi-sonnet-4-20250514 cometapi-sonnet-4-20250514-thinking 專門用於 Cursor。

首次接觸 CometAPI? 快速策略 並讓 Claude 4 完成您最艱鉅的任務。

應用時,只需替換url https://api.anthropic.com/v1/messages - https://api.cometapi.com/v1/chat/completions 並使用您獲得的 CometAPI 金鑰的 API 金鑰在工作流程中啟用 xx。

我們迫不及待地想看看您建造了什麼。如果感覺有什麼不對勁,請點擊回饋按鈕 - 告訴我們哪裡出了問題,這是最快的改進方法。

結論

Claude 4 中的細粒度工具流代表了 LLM 工具整合的範式轉移——用全負載 JSON 驗證的安全網來交換 超低延遲, 增量流增強互動性只需一個 beta 頭檔即可激活,此功能為編碼、資料處理和代理工作流程帶來了強大的全新可能性。隨著開發人員不斷探索其潛力,並考慮到部分 JSON 片段等極端情況,細粒度串流媒體有望成為下一代即時 AI 驅動應用程式的基石。

閱讀更多

一個 API 中超過 500 個模型

最高 20% 折扣