Claude 4 的最新功能标志着大型语言模型与外部工具和 API 交互方式的重大演进。其中,细粒度工具流式传输作为一项前沿特性,使开发者能够在近实时接收工具输入参数,无需等待完整的 JSON 验证。该功能于 2025 年 5 月以测试版推出,旨在解决大参数工具调用的延迟问题,并支持更灵敏、交互性更强的应用。
什么是 Claude 4 的细粒度工具流式传输?
Claude 4 的细粒度工具流式传输(FGTS)是一种机制,使模型能够在自然语言生成过程中,以单个 token 或小文本块为粒度,与外部或内置“工具”(如代码执行、搜索、计算器)交错调用。与其批量构造完整的工具请求并阻塞等待完整响应,Claude 4 可以:
- 在句中发出工具触发 token,
- 在工具输出到达时开始接收并摄取其部分内容,
- 继续生成后续 token,并根据每一段新到的数据动态调整。
其结果是推理与行动的无缝融合:模型不会在“我想调用天气 API”和“这是答案”之间尴尬地停顿。相反,它的行文不中断地流淌,并实时由工具的流式结果加以丰富。
在实践中,这显著降低了大参数工具调用的延迟。例如,当请求 Claude 通过 make_file 工具将一首长诗写入文件时,标准流式可能需要约 ~15 s 您才能看到诗歌的任何文本。启用细粒度流式后,您在约 ~3 s 内就会开始收到多行块——每个块包含连贯的诗歌片段,而非任意的 JSON 片段。同样的方法适用于任何具有大输入的工具(如批量数据转换、多步计算或多部分 API 调用),使您无需等待完整负载生成即可立即开始处理或显示结果。
FGTS 与标准流式传输有何不同?
分块行为
在标准流式中,Claude 会将序列化的 JSON 负载拆分为小片段,常常在 token 或单词中间断开,导致在出现任何实质性内容之前产生许多长度为 10–20 个字符的短块。对于一首长诗或数据负载,这可能表现为几十个微小块。相较之下,细粒度流式会发出更大、语义连贯的块——例如完整的文本行——从而产生更少、更长、对接收端()更有意义的块。
延迟改进
在实际基准测试中,使用标准流式的工具调用可能在发出首个有效数据块之前出现 15 秒 的延迟,这是由于缓冲与 JSON 验证所致。细粒度流式将初始延迟削减至约 3 秒,允许客户端几乎快五倍地开始消费流式内容。这种加速对交互式应用至关重要——例如实时代码编辑、渐进式文档生成或仪表板更新——及时反馈会从根本上增强用户体验。
为什么引入细粒度工具流式传输?
在 FGTS 之前,大多数具备工具能力的 LLM 系统采用的是粗粒度工具调用:模型会生成完整的“CALL TOOL X WITH ARGS …”指令,暂停、接收完整的工具响应,然后继续生成。这种方式存在多项局限:
- 延迟峰值:等待一次重计算或数据库查询的完整响应会产生阻塞延迟。
- 缺乏增量反馈:在完整答案抵达之前,模型无法开始解释或重新规划。
- 格式僵化:工具调用与语言输出处于分离阶段,语法灵活性受限。
FGTS 通过同时流式传输模型的 token 与工具的输出——逐 token 或逐块——使生成与工具执行以锁步方式进行,从而缓解上述痛点。
Claude 4 实际如何应用 FGTS?
1. Token 级触发
在解码过程中,Claude 4 能识别用于表示“开始工具调用”的特殊标记(对终端用户通常不可见),其中包含函数名与参数。当模型发出该触发信号时,FGTS 运行时会立即派发请求,无需等待完整的“CALL_TOOL”命令被生成。
2. 流式工具接口
Claude 4 的工具集——包括 Anthropic 自有的代码运行器、计算器和网页搜索接口——均封装为流式 API。
- 代码运行器:在脚本执行时,按行返回 stdout/stderr。
- 计算器:流式返回长计算的数字或中间步骤。
- 浏览器/搜索:在抓取与解析页面时,流式返回文本片段或链接。
每个片段都会以增量方式回流到 Claude 4 的上下文缓冲区。
3. 增量上下文更新
随着每段工具输出的流入,Claude 4 会将其追加到活动的上下文窗口中。模型的下一步 token 选择会立刻纳入这份新数据——因此它的推理可以在句中转向、纠正错误,或基于最新信息深化分析。

开发者如何启用细粒度工具流式传输?
在您的 Claude 4 集成中启用细粒度流式仅需对 API 请求头与配置做小幅调整。
API 头部配置
要加入该测试版特性,请包含以下头部:
makefileanthropic-beta: fine-grained-tool-streaming-2025-05-14
并在您的 /v1/messages 请求中同时设置 "stream": true。
示例用法
bashcurl https://api.anthropic.com/v1/messages \
-H "content-type: application/json" \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: fine-grained-tool-streaming-2025-05-14" \
-d '{
"model": "claude-sonnet-4-20250514",
"tools": [{
"name": "make_file",
"description": "Write text to a file",
"input_schema": {
"type": "object",
"properties": {
"filename": {"type": "string"},
"lines_of_text": {"type": "array"}
},
"required":
}
}],
"messages": ,
"stream": true
}' | jq .
请求运行时,您会收到 content_block_delta 与 input_json_delta 事件的混合。后者包含流式的参数片段,可用于日志记录、增量验证,或直接馈入下游流程。
需要考虑哪些权衡与最佳实践?
尽管细粒度工具流式传输带来显著收益,它也在数据完整性与客户端复杂性方面引入了新的考量。
处理不完整的 JSON
由于流可能在完整 JSON 对象形成之前就结束——尤其在达到 token 限制时——开发者应对传入片段进行缓冲,并尝试增量解析。使用流式 JSON 解析器,或实现一个等待闭合大括号的重组缓冲区,有助于保证健壮性。详见 docs.anthropic.com。
验证与错误恢复
由于 JSON 模式验证通常在客户端或工具内部进行,务必在执行之前验证参数的完整性。若验证因不完整流而失败,可采用重试策略或回退逻辑(例如请求重新打开的工具调用)。
测试版稳定性注意事项
作为测试版功能,细粒度流式的行为可能会演进。Anthropic 鼓励开发者通过其官方表单反馈问题、提出改进建议或分享性能测量。为保持兼容性,务必关注弃用公告与发行说明。
入门
CometAPI 提供统一的 REST 接口,聚合数百个 AI 模型——包括 Claude 系列——在一致的端点下,内置 API 密钥管理、使用配额与计费仪表板。无需处理多个供应商的 URL 与凭证。
开发者可通过 CometAPI 访问 Claude Sonnet 4 API(model: claude-sonnet-4-20250514、claude-sonnet-4-20250514-thinking)以及 Claude Opus 4 API(model: claude-opus-4-20250514、claude-opus-4-20250514-thinking)等。开始之前,请在 Playground 中探索模型能力,并查阅 API guide 获取详细说明。访问前,请确保已登录 CometAPI 并获取 API 密钥。CometAPI 也针对 Cursor 专门新增了 cometapi-sonnet-4-20250514 与 cometapi-sonnet-4-20250514-thinking。
刚接触 CometAPI? 快速开始,让 Claude 4 助您攻克最棘手的任务。
在应用时,您只需将 url https://api.anthropic.com/v1/messages 替换为 https://api.cometapi.com/v1/chat/completions,并将 API key 替换为您获取的 CometAPI 的 Key,即可在工作流中启用 xx。
我们迫不及待地想看到您的作品。如果有任何异常,请点击反馈按钮——告诉我们出现了什么问题,这是让它变得更好的最快方式。
结论
Claude 4 的细粒度工具流式传输代表了 LLM 工具集成的范式转变——以牺牲完整负载 JSON 验证的安全网为代价,换取超低延迟、增量流式与增强的交互性。仅需一个测试版头即可启用,此功能便能在编码、数据处理与智能体工作流中释放强大的新可能。随着开发者探索其潜力并处理诸如部分 JSON 片段等边缘情形,细粒度流式有望成为下一代实时、AI 驱动应用的基石。
