Các khả năng mới nhất của Claude 4 đánh dấu sự phát triển đáng kể về cách các mô hình ngôn ngữ lớn tương tác với các công cụ và API bên ngoài. Trong số đó, công cụ phát trực tuyến chi tiết nổi bật là tính năng tiên tiến cho phép các nhà phát triển nhận các tham số đầu vào của công cụ gần như theo thời gian thực, mà không cần chờ xác thực JSON đầy đủ. Tính năng này, được giới thiệu dưới dạng bản beta vào tháng 2025 năm XNUMX, giải quyết các thách thức về độ trễ liên quan đến các lệnh gọi công cụ có tham số lớn và hỗ trợ các ứng dụng tương tác, phản hồi nhanh hơn.
Công cụ Fine-Grained Tool Streaming trong Claude 4 là gì?
Fine‑Grained Tool Streaming (FGTS) trong Claude 4 là cơ chế mà mô hình xen kẽ việc tạo ngôn ngữ tự nhiên của nó với các lệnh gọi đến các "công cụ" bên ngoài hoặc tích hợp sẵn (ví dụ: thực thi mã, tìm kiếm, máy tính) ở mức độ chi tiết của từng mã thông báo hoặc các đoạn văn bản nhỏ. Thay vì gom một yêu cầu công cụ đầy đủ rồi chặn ở phản hồi hoàn chỉnh, Claude 4 có thể:
- Phát ra một mã thông báo kích hoạt công cụ giữa câu,
- Bắt đầu nhận và tiếp nhận một phần đầu ra của công cụ khi nó đến,
- Tiếp tục tạo ra các mã thông báo tiếp theo của nó, được điều chỉnh động theo từng phần dữ liệu đầu vào.
Kết quả là sự kết hợp liền mạch giữa lý luận và hành động: mô hình không dừng lại một cách khó xử giữa "Tôi muốn gọi API thời tiết" và "Đây là câu trả lời". Thay vào đó, văn xuôi của mô hình trôi chảy không bị gián đoạn, được làm phong phú theo thời gian thực nhờ kết quả phát trực tuyến của công cụ.
Trong thực tế, điều này làm giảm đáng kể độ trễ cho các cuộc gọi công cụ có tham số lớn. Ví dụ, khi yêu cầu Claude viết một bài thơ dài vào một tệp thông qua make_file công cụ, phát trực tuyến tiêu chuẩn có thể mất ~15 giây trước khi bạn thấy bất kỳ văn bản nào của bài thơ. Khi bật phát trực tuyến chi tiết, bạn bắt đầu nhận được các đoạn nhiều dòng chỉ trong ~3 giây—mỗi đoạn chứa các đoạn mạch lạc của bài thơ thay vì các phân đoạn JSON tùy ý. Phương pháp tiếp cận tương tự áp dụng cho bất kỳ công cụ nào có đầu vào lớn (ví dụ: chuyển đổi dữ liệu hàng loạt, tính toán nhiều bước hoặc lệnh gọi API nhiều phần), cho phép bạn bắt đầu xử lý hoặc hiển thị kết quả ngay lập tức mà không cần chờ tải trọng đầy đủ được hiện thực hóa.
FGTS khác với phát trực tuyến tiêu chuẩn như thế nào?
Hành vi phân mảnh
Với luồng chuẩn, Claude chia tải trọng JSON được tuần tự hóa thành các đoạn nhỏ, thường chia nhỏ giữa mã thông báo hoặc giữa từ, dẫn đến nhiều đoạn ngắn trước khi bất kỳ nội dung đáng kể nào xuất hiện. Đối với một bài thơ lớn hoặc tải trọng dữ liệu, điều này có thể biểu hiện dưới dạng hàng chục đoạn nhỏ, mỗi đoạn dài 10–20 ký tự. Ngược lại, luồng chi tiết sẽ phát ra các đoạn lớn hơn, mạch lạc về mặt ngữ nghĩa—chẳng hạn như các dòng văn bản đầy đủ—dẫn đến ít đoạn dài hơn, có ý nghĩa hơn đối với người nhận ().
Cải thiện độ trễ
Trong các chuẩn mực thực tế, các cuộc gọi công cụ sử dụng phát trực tuyến tiêu chuẩn có thể phải chịu 15 giây trì hoãn trước khi phát ra khối dữ liệu hợp lệ đầu tiên, do đệm và xác thực JSON. Truyền phát chi tiết cắt giảm độ trễ ban đầu này xuống còn khoảng 3 giây, cho phép khách hàng bắt đầu sử dụng nội dung phát trực tuyến nhanh hơn gần năm lần. Sự tăng tốc này chứng tỏ là rất quan trọng đối với các ứng dụng tương tác—chẳng hạn như chỉnh sửa mã trực tiếp, tạo tài liệu tiến bộ hoặc cập nhật bảng điều khiển—nơi phản hồi nhanh chóng về cơ bản nâng cao trải nghiệm của người dùng.
Tại sao công nghệ Fine-grained Tool Streaming lại được giới thiệu?
Trước FGTS, hầu hết các hệ thống LLM hỗ trợ công cụ đều được sử dụng thô tool calls: mô hình sẽ tạo ra lệnh “CALL TOOL X WITH ARGS …” đầy đủ, tạm dừng, nhận phản hồi đầy đủ của tool, sau đó tiếp tục tạo. Cách tiếp cận này có một số hạn chế:
- Độ trễ tăng đột biến: Việc chờ đợi toàn bộ phản hồi của một phép tính lớn hoặc truy vấn cơ sở dữ liệu sẽ làm tăng độ trễ.
- Thiếu phản hồi gia tăng:Mô hình không thể bắt đầu diễn giải hoặc lập kế hoạch lại cho đến khi có được câu trả lời đầy đủ.
- Định dạng cứng nhắc:Các lệnh gọi công cụ và đầu ra ngôn ngữ nằm trong các giai đoạn riêng biệt, hạn chế tính linh hoạt về cú pháp.
FGTS giải quyết những điểm khó khăn này bằng cách truyền phát cả mã thông báo của mô hình và đầu ra của công cụ cùng nhau—từng mã thông báo hoặc từng khối—để quá trình tạo và thực thi công cụ diễn ra đồng bộ.
Claude 4 thực sự áp dụng FGTS như thế nào?
1. Kích hoạt cấp mã thông báo
Trong quá trình giải mã, Claude 4 nhận dạng các dấu hiệu đặc biệt (thường vô hình với người dùng cuối) biểu thị “bắt đầu gọi công cụ”, hoàn chỉnh với tên hàm và đối số. Khi mô hình phát ra kích hoạt này, thời gian chạy FGTS sẽ ngay lập tức gửi yêu cầu mà không cần chờ lệnh “CALL_TOOL” đầy đủ được tạo ra.
2. Giao diện công cụ phát trực tuyến
Bộ công cụ của Claude 4—bao gồm trình chạy mã, máy tính và giao diện tìm kiếm trên web của Anthropic—được gói trong API phát trực tuyến.
- Người chạy mã: Trả về stdout/stderr được phát ra theo từng dòng khi tập lệnh của bạn thực thi.
- Quy đổi: Truyền các chữ số hoặc các bước trung gian của một phép tính dài.
- Trình duyệt/Tìm kiếm: Truyền các đoạn văn bản hoặc liên kết khi các trang được tải xuống và phân tích cú pháp.
Mỗi đoạn sẽ quay trở lại bộ đệm ngữ cảnh Claude 4 theo từng bước gia tăng.
3. Cập nhật ngữ cảnh gia tăng
Khi mỗi khối đầu ra của công cụ chảy vào, Claude 4 sẽ thêm nó vào cửa sổ ngữ cảnh đang hoạt động của nó. Các lựa chọn mã thông báo tiếp theo của mô hình sẽ ngay lập tức kết hợp dữ liệu mới đó—do đó, lý luận của nó có thể xoay giữa câu, sửa lỗi hoặc đào sâu phân tích dựa trên những gì nó vừa học được.

Các nhà phát triển kích hoạt tính năng phát trực tuyến công cụ chi tiết như thế nào?
Kích hoạt phát trực tuyến chi tiết trong tích hợp Claude 4 của bạn chỉ cần thay đổi nhỏ trong tiêu đề yêu cầu API và cấu hình.
Cấu hình tiêu đề API
Để chọn tham gia tính năng beta, hãy thêm tiêu đề:
makefileanthropic-beta: fine-grained-tool-streaming-2025-05-14
bên cạnh "stream": true trong /v1/messages lời yêu cầu.
Ví dụ sử dụng
bashcurl https://api.anthropic.com/v1/messages \
-H "content-type: application/json" \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: fine-grained-tool-streaming-2025-05-14" \
-d '{
"model": "claude-sonnet-4-20250514",
"tools": [{
"name": "make_file",
"description": "Write text to a file",
"input_schema": {
"type": "object",
"properties": {
"filename": {"type": "string"},
"lines_of_text": {"type": "array"}
},
"required":
}
}],
"messages": ,
"stream": true
}' | jq .
Khi yêu cầu chạy, bạn sẽ nhận được một hỗn hợp khối nội dung_delta và đầu vào json_delta sự kiện. Phần sau chứa các đoạn tham số được truyền phát, có thể được ghi lại, xác thực gia tăng hoặc đưa trực tiếp vào các quy trình hạ lưu.
Những sự đánh đổi và biện pháp tốt nhất nào cần được cân nhắc?
Trong khi việc truyền phát công cụ chi tiết mang lại những lợi ích đáng kể, nó cũng đặt ra những cân nhắc về tính toàn vẹn của dữ liệu và độ phức tạp của máy khách.
Xử lý JSON không đầy đủ
Vì luồng có thể kết thúc trước khi đối tượng JSON đầy đủ được hình thành—đặc biệt là khi đạt đến giới hạn mã thông báo—các nhà phát triển nên đệm các đoạn đến và thử phân tích gia tăng. Sử dụng trình phân tích cú pháp JSON phát trực tuyến hoặc triển khai bộ đệm lắp ráp lại chờ đóng dấu ngoặc nhọn có thể giúp đảm bảo tính mạnh mẽ docs.anthropic.com.
Xác thực và phục hồi lỗi
Vì xác thực lược đồ JSON thường xảy ra ở phía máy khách hoặc trong công cụ, nên việc xác minh tính đầy đủ của tham số trước khi thực thi là rất quan trọng. Các chiến lược thử lại hoặc logic dự phòng (ví dụ: yêu cầu lệnh gọi công cụ được mở lại) có thể được sử dụng nếu xác thực không thành công trên các luồng không đầy đủ.
Cân nhắc về tính ổn định của Beta
Là một tính năng beta, hành vi phát trực tuyến chi tiết có thể phát triển. Anthropic khuyến khích nhà phát triển phản hồi thông qua biểu mẫu chính thức của họ để báo cáo sự cố, đề xuất cải tiến hoặc chia sẻ các phép đo hiệu suất. Việc theo dõi thông báo ngừng sử dụng và ghi chú phát hành là điều cần thiết để duy trì khả năng tương thích.
Bắt đầu
CometAPI cung cấp giao diện REST thống nhất tổng hợp hàng trăm mô hình AI—bao gồm cả họ Claude—dưới một điểm cuối nhất quán, với quản lý khóa API tích hợp, hạn ngạch sử dụng và bảng điều khiển thanh toán. Thay vì phải xử lý nhiều URL và thông tin xác thực của nhà cung cấp.
Các nhà phát triển có thể truy cập Claude Sonnet 4 API (người mẫu: claude-sonnet-4-20250514 ; claude-sonnet-4-20250514-thinking) Và Claude Opus 4 API (người mẫu: claude-opus-4-20250514; claude-opus-4-20250514-thinking)vv thông qua Sao chổiAPI. . Để bắt đầu, hãy khám phá khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. CometAPI cũng đã thêm cometapi-sonnet-4-20250514vàcometapi-sonnet-4-20250514-thinking đặc biệt để sử dụng trong Con trỏ.
Bạn mới biết đến CometAPI? Nhanh chóng và sử dụng Claude 4 để thực hiện những nhiệm vụ khó khăn nhất của bạn.
Khi áp dụng, bạn chỉ cần thay url https://api.anthropic.com/v1/messages với https://api.cometapi.com/v1/chat/completions và khóa API với Khóa CometAPI mà bạn lấy được để kích hoạt xx trong quy trình làm việc.
Chúng tôi rất mong chờ được xem bạn xây dựng những gì. Nếu có gì đó không ổn, hãy nhấn nút phản hồi—nói cho chúng tôi biết điều gì bị hỏng là cách nhanh nhất để cải thiện.
Kết luận
Công cụ truyền phát chi tiết trong Claude 4 đại diện cho sự thay đổi mô hình trong tích hợp công cụ LLM—trao đổi lưới an toàn của xác thực JSON tải trọng đầy đủ cho độ trễ cực thấp, phát trực tuyến gia tăngvà tương tác nâng cao. Chỉ cần một tiêu đề beta duy nhất để kích hoạt, tính năng này mở ra những khả năng mới mạnh mẽ trên toàn bộ quy trình mã hóa, xử lý dữ liệu và tác nhân. Khi các nhà phát triển khám phá tiềm năng của nó—và tính đến các trường hợp ngoại lệ như các đoạn JSON một phần—phát trực tuyến chi tiết sẽ trở thành nền tảng của các ứng dụng AI thế hệ tiếp theo, thời gian thực.
