Tính năng chính (danh sách nhanh)

Hai biến thể mô hình: grok-4-fast-reasoning và grok-4-fast-non-reasoning (có thể điều chỉnh theo độ sâu suy luận so với tốc độ).
Cửa sổ ngữ cảnh rất lớn: lên tới 2.000.000 token, cho phép xử lý tài liệu cực dài / bản chép lời nhiều giờ / quy trình làm việc nhiều tài liệu.
Tập trung vào hiệu quả token / chi phí: xAI cho biết giảm trung bình ~40% token suy nghĩ so với Grok-4 và tuyên bố giảm ~98% chi phí để đạt cùng hiệu năng benchmark (theo các chỉ số mà xAI báo cáo).
Tích hợp công cụ / duyệt web gốc: được huấn luyện end-to-end với RL sử dụng công cụ cho duyệt web/X, thực thi mã và các hành vi tìm kiếm tác tử.
Đa phương thức & gọi hàm: hỗ trợ hình ảnh và đầu ra có cấu trúc; gọi hàm và các định dạng phản hồi có cấu trúc được hỗ trợ trong API.

Chi tiết kỹ thuật

Kiến trúc suy luận hợp nhất: Grok-4-Fast sử dụng một bộ trọng số mô hình duy nhất có thể được điều hướng sang hành vi suy luận (chuỗi suy nghĩ dài) hoặc không suy luận (phản hồi nhanh) thông qua system prompt hoặc lựa chọn biến thể, thay vì phát hành hai mô hình nền tảng hoàn toàn riêng biệt. Điều này giúp giảm độ trễ khi chuyển đổi và chi phí token cho các khối lượng công việc hỗn hợp.

Học tăng cường cho mật độ trí tuệ: xAI cho biết đã sử dụng học tăng cường quy mô lớn tập trung vào mật độ trí tuệ (tối đa hóa hiệu năng trên mỗi token), đây là cơ sở cho các mức tăng hiệu quả token đã nêu.

Điều kiện hóa công cụ và tìm kiếm tác tử: Grok-4-Fast được huấn luyện và đánh giá trên các tác vụ yêu cầu gọi công cụ (duyệt web, tìm kiếm trên X, thực thi mã). Mô hình được giới thiệu là thành thạo trong việc chọn thời điểm gọi công cụ và cách kết hợp bằng chứng từ quá trình duyệt vào câu trả lời.

Hiệu năng benchmark

Cải thiện trên BrowseComp (44,9% pass\@1 so với 43,0% của Grok-4), SimpleQA (95,0% so với 94,0%), và tăng đáng kể trong một số lĩnh vực duyệt web/tìm kiếm bằng tiếng Trung. xAI cũng báo cáo vị trí xếp hạng hàng đầu trong Search Arena của LMArena cho biến thể grok-4-fast-search.

Các trường hợp sử dụng điển hình & được khuyến nghị

Tìm kiếm và truy xuất thông lượng cao — các tác tử tìm kiếm cần suy luận web nhiều bước nhanh.
Trợ lý & bot tác tử — các tác tử kết hợp duyệt web, thực thi mã và gọi công cụ bất đồng bộ (khi được phép).
Triển khai sản xuất nhạy cảm về chi phí — các dịch vụ cần nhiều lượt gọi và muốn cải thiện hiệu quả kinh tế token so với một mô hình nền tảng nặng hơn.
Thử nghiệm cho nhà phát triển — tạo nguyên mẫu các luồng đa phương thức hoặc tăng cường web dựa trên các truy vấn nhanh, lặp lại.
Cách truy cập API Grok 4 fast

Bước 1: Đăng ký API Key

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI của bạn. Lấy khóa API dùng để truy cập giao diện. Nhấp vào “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi đi.

Bước 2: Gửi yêu cầu đến API Grok 4 fast

Chọn endpoint “\grok-4-fast-reasoning/ grok-4-fast-non-reasoning\” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức yêu cầu và phần thân yêu cầu được cung cấp trong tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp thử nghiệm Apifox để bạn tiện sử dụng. Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn. base url có định dạng Chat (https://api.cometapi.com/v1/chat/completions).

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.

Giá cả cho Grok 4 Fast

Khám phá mức giá cạnh tranh cho Grok 4 Fast, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Grok 4 Fast có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.

Giá Comet (USD / M Tokens)	Giá Chính Thức (USD / M Tokens)	Giảm giá
Đầu vào:$0.16/M Đầu ra:$0.4/M	Đầu vào:$0.2/M Đầu ra:$0.5/M	-20%

Các phiên bản của Grok 4 Fast

Lý do Grok 4 Fast có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.

Các tên công khai do xAI công bố: grok-4-fast-reasoning và grok-4-fast-non-reasoning. Mỗi biến thể cho biết cùng một giới hạn ngữ cảnh 2M token. Nền tảng cũng tiếp tục lưu trữ mẫu chủ lực Grok-4 trước đó (ví dụ, các biến thể grok-4-0709 đã được sử dụng trước đây).

Tính năng chính (danh sách nhanh)

Hai biến thể mô hình: grok-4-fast-reasoning và grok-4-fast-non-reasoning (có thể điều chỉnh theo độ sâu suy luận so với tốc độ).
Cửa sổ ngữ cảnh rất lớn: lên tới 2.000.000 token, cho phép xử lý tài liệu cực dài / bản chép lời nhiều giờ / quy trình làm việc nhiều tài liệu.
Tập trung vào hiệu quả token / chi phí: xAI cho biết giảm trung bình ~40% token suy nghĩ so với Grok-4 và tuyên bố giảm ~98% chi phí để đạt cùng hiệu năng benchmark (theo các chỉ số mà xAI báo cáo).
Tích hợp công cụ / duyệt web gốc: được huấn luyện end-to-end với RL sử dụng công cụ cho duyệt web/X, thực thi mã và các hành vi tìm kiếm tác tử.
Đa phương thức & gọi hàm: hỗ trợ hình ảnh và đầu ra có cấu trúc; gọi hàm và các định dạng phản hồi có cấu trúc được hỗ trợ trong API.

Chi tiết kỹ thuật

Hiệu năng benchmark

Các trường hợp sử dụng điển hình & được khuyến nghị

Tìm kiếm và truy xuất thông lượng cao — các tác tử tìm kiếm cần suy luận web nhiều bước nhanh.
Trợ lý & bot tác tử — các tác tử kết hợp duyệt web, thực thi mã và gọi công cụ bất đồng bộ (khi được phép).
Triển khai sản xuất nhạy cảm về chi phí — các dịch vụ cần nhiều lượt gọi và muốn cải thiện hiệu quả kinh tế token so với một mô hình nền tảng nặng hơn.
Thử nghiệm cho nhà phát triển — tạo nguyên mẫu các luồng đa phương thức hoặc tăng cường web dựa trên các truy vấn nhanh, lặp lại.
Cách truy cập API Grok 4 fast

Bước 1: Đăng ký API Key

Bước 2: Gửi yêu cầu đến API Grok 4 fast

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đây là nội dung mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API sẽ phản hồi trạng thái tác vụ và dữ liệu đầu ra.

Grok 4 Fast

Thêm mô hình

Claude Opus 4.7

Claude Sonnet 4.6

GPT-5.4 nano

GPT-5.4 mini

Grok 4.20

Qwen3.6-Plus

Blog liên quan

Cách sử dụng z-image để tạo nội dung NSFW? Hướng dẫn tốt nhất bạn cần

API nhanh Grok 4.1