Tính năng chính (danh sách nhanh)
- Hai biến thể mô hình:
grok-4-fast-reasoningvàgrok-4-fast-non-reasoning(có thể điều chỉnh theo độ sâu suy luận so với tốc độ). - Cửa sổ ngữ cảnh rất lớn: lên tới 2.000.000 token, cho phép xử lý tài liệu cực dài / bản chép lời nhiều giờ / quy trình làm việc nhiều tài liệu.
- Tập trung vào hiệu quả token / chi phí: xAI cho biết giảm trung bình ~40% token suy nghĩ so với Grok-4 và tuyên bố giảm ~98% chi phí để đạt cùng hiệu năng benchmark (theo các chỉ số mà xAI báo cáo).
- Tích hợp công cụ / duyệt web gốc: được huấn luyện end-to-end với RL sử dụng công cụ cho duyệt web/X, thực thi mã và các hành vi tìm kiếm tác tử.
- Đa phương thức & gọi hàm: hỗ trợ hình ảnh và đầu ra có cấu trúc; gọi hàm và các định dạng phản hồi có cấu trúc được hỗ trợ trong API.
Chi tiết kỹ thuật
Kiến trúc suy luận hợp nhất: Grok-4-Fast sử dụng một bộ trọng số mô hình duy nhất có thể được điều hướng sang hành vi suy luận (chuỗi suy nghĩ dài) hoặc không suy luận (phản hồi nhanh) thông qua system prompt hoặc lựa chọn biến thể, thay vì phát hành hai mô hình nền tảng hoàn toàn riêng biệt. Điều này giúp giảm độ trễ khi chuyển đổi và chi phí token cho các khối lượng công việc hỗn hợp.
Học tăng cường cho mật độ trí tuệ: xAI cho biết đã sử dụng học tăng cường quy mô lớn tập trung vào mật độ trí tuệ (tối đa hóa hiệu năng trên mỗi token), đây là cơ sở cho các mức tăng hiệu quả token đã nêu.
Điều kiện hóa công cụ và tìm kiếm tác tử: Grok-4-Fast được huấn luyện và đánh giá trên các tác vụ yêu cầu gọi công cụ (duyệt web, tìm kiếm trên X, thực thi mã). Mô hình được giới thiệu là thành thạo trong việc chọn thời điểm gọi công cụ và cách kết hợp bằng chứng từ quá trình duyệt vào câu trả lời.
Hiệu năng benchmark
Cải thiện trên BrowseComp (44,9% pass\@1 so với 43,0% của Grok-4), SimpleQA (95,0% so với 94,0%), và tăng đáng kể trong một số lĩnh vực duyệt web/tìm kiếm bằng tiếng Trung. xAI cũng báo cáo vị trí xếp hạng hàng đầu trong Search Arena của LMArena cho biến thể grok-4-fast-search.
Các trường hợp sử dụng điển hình & được khuyến nghị
- Tìm kiếm và truy xuất thông lượng cao — các tác tử tìm kiếm cần suy luận web nhiều bước nhanh.
- Trợ lý & bot tác tử — các tác tử kết hợp duyệt web, thực thi mã và gọi công cụ bất đồng bộ (khi được phép).
- Triển khai sản xuất nhạy cảm về chi phí — các dịch vụ cần nhiều lượt gọi và muốn cải thiện hiệu quả kinh tế token so với một mô hình nền tảng nặng hơn.
- Thử nghiệm cho nhà phát triển — tạo nguyên mẫu các luồng đa phương thức hoặc tăng cường web dựa trên các truy vấn nhanh, lặp lại.
- Cách truy cập API Grok 4 fast
Bước 1: Đăng ký API Key
Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI của bạn. Lấy khóa API dùng để truy cập giao diện. Nhấp vào “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi đi.
Bước 2: Gửi yêu cầu đến API Grok 4 fast
Chọn endpoint “\grok-4-fast-reasoning/ grok-4-fast-non-reasoning\” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức yêu cầu và phần thân yêu cầu được cung cấp trong tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp thử nghiệm Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url có định dạng Chat (https://api.cometapi.com/v1/chat/completions).
Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Truy xuất và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.

