Ra mắt API Grok 4 Fast: Chi phí vận hành rẻ hơn 98%, được xây dựng để tìm kiếm thông lượng cao

xAI đã được công bố Grok 4 Nhanh, một biến thể được tối ưu hóa về chi phí của dòng Grok mà công ty cho biết mang lại hiệu suất chuẩn gần như hàng đầu trong khi giảm giá để đạt được hiệu suất đó bằng cách 98% so với Grok 4. Mô hình mới được thiết kế để tìm kiếm thông lượng cao và sử dụng công cụ tác nhân, bao gồm cửa sổ ngữ cảnh 2 triệu mã thông báo và các biến thể "có lý luận" và "không có lý luận" riêng biệt để cho phép các nhà phát triển điều chỉnh tính toán theo nhu cầu của họ.

Các tính năng và lợi ích cốt lõi

Mô hình suy luận hiệu quả về mặt chi phí: Grok 4 Fast được xây dựng từ họ Grok 4, tập trung vào hiệu quả mã thông báo và sử dụng công cụ theo thời gian thực. xAI báo cáo rằng mô hình yêu cầu khoảng Ít hơn 40% mã thông báo "suy nghĩ" trung bình. Phân tích nhân tạo — theo dõi độ trễ, tốc độ đầu ra và giá/hiệu suất trên nhiều mô hình công khai — xếp Grok 4 Fast ở vị trí cao trên ranh giới trí thông minh so với chi phí và xác nhận tốc độ đầu ra nhanh và tỷ lệ chi phí thuận lợi của mô hình trong các thử nghiệm ban đầu.

Grok 4 Nhanh

Cửa sổ ngữ cảnh lớn: Grok 4 Fast được thiết kế để tìm kiếm thông lượng cao và sử dụng công cụ tác nhân, bao gồm cửa sổ ngữ cảnh 2 triệu mã thông báo và các biến thể "có lý luận" và "không có lý luận" riêng biệt để cho phép các nhà phát triển điều chỉnh khả năng tính toán theo nhu cầu của họ.

Khả năng sử dụng công cụ gốc: Grok 4 Fast cung cấp “các khả năng tìm kiếm web và X tiên tiến” giúp cải thiện khả năng truy xuất, điều hướng và tổng hợp nội dung web trong quy trình làm việc của tác nhân — định vị Grok 4 Fast là một công cụ tìm kiếm thực tế cho các ứng dụng yêu cầu thu thập và suy luận thông tin theo thời gian thực trên các tài liệu dài, Hiệu suất hàng đầu trên nhiều tiêu chuẩn tìm kiếm, bao gồm:

DuyệtComp (zh): 51.2% (so với 45.0% của Grok 4)
Tìm kiếm sâu X Bench (zh): 74.0% (so với 66.0% của Grok 4)

Kiến trúc hợp nhất: Mô hình này hỗ trợ cả chế độ suy luận và không suy luận, loại bỏ nhu cầu chuyển đổi mô hình riêng biệt. Độ trễ và chi phí thấp giúp nó phù hợp với các ứng dụng thời gian thực (như tìm kiếm, trả lời câu hỏi và hỗ trợ nghiên cứu).

So sánh hiệu suất (điểm chuẩn chính)

Trong thử nghiệm LMArena riêng tư mà xAI đã chia sẻ, grok-4-fast-search (tên mã menlo) biến thể đứng đầu Đấu trường Tìm kiếm với xếp hạng Elo là 1,163, trong khi biến thể văn bản (tahoe) nằm trong top 10 của Text Arena — kết quả xAI sử dụng để hỗ trợ các tuyên bố của mình về hiệu suất tìm kiếm.

Grok 4 Phù hợp nhanh hoặc theo sát Grok 4 trên nhiều chuẩn mực biên giới (ví dụ: GPQA Diamond, AIME 2025 và HMMT 2025), đồng thời vượt trội hơn các mô hình nhỏ hơn trước đây về các nhiệm vụ suy luận — bằng chứng xAI sử dụng để biện minh cho tuyên bố “hiệu suất tương đương”.

Ra mắt API Grok 4 Fast: Chi phí vận hành rẻ hơn 98%, được xây dựng để tìm kiếm thông lượng cao

So sánh kết quả

So với Grok 4: Rẻ hơn và ít tốn tài nguyên tính toán hơn, nhưng hiệu suất tương tự.

So với Grok 3 Mini: Mạnh mẽ hơn, có khả năng suy luận phức tạp và tìm kiếm theo thời gian thực.

So với GPT-5/Gemini/Claude: Nhờ hiệu quả mã thông báo và khả năng công cụ cực cao, nó dẫn đầu về hiệu quả chi phí và một số tác vụ tìm kiếm.

Giá cả và tính khả dụng

Bối cảnh và mã thông báo: Hai hương vị mô hình: grok-4-fast-reasoning và grok-4-fast-non-reasoning, mỗi phần có 2M ngữ cảnh.

Giá đã công bố (liệt kê) trong bài đăng ra mắt (ví dụ về các bậc):

Mã thông báo đầu vào: 0.20 đô la/1 triệu (<128k) — 0.40 đô la/1 triệu (≥128k)
Mã thông báo đầu ra: 0.50 đô la/1 triệu (<128k) — 1.00 đô la/1 triệu (≥128k)
Mã thông báo đầu vào được lưu trong bộ nhớ đệm: 0.05 đô la/1 triệu.
(Xem thông báo của xAI để biết các quy tắc thanh toán chính xác và bất kỳ chương trình khuyến mãi nào có thời hạn.)

Khả năng cung cấp của nhà cung cấp: xAI liệt kê tính khả dụng miễn phí ngắn hạn thông qua OpenRouter và Vercel AI Gateway và tính khả dụng chung thông qua API của xAI.

Điều đó có ý nghĩa gì đối với người dùng và nhóm

Tiết kiệm chi phí lớn cho mục đích sản xuất — sự kết hợp giữa giá mỗi token thấp hơn và ít token "suy nghĩ" hơn giúp các nhóm có thể chạy nhiều truy vấn hơn hoặc quy trình làm việc ngữ cảnh lớn hơn với chi phí chỉ bằng một phần nhỏ so với Grok 4, giúp giảm đáng kể các rào cản cho việc thử nghiệm và triển khai mở rộng. (Yêu cầu được hỗ trợ bởi thông tin tiết lộ về chi phí/hiệu suất xAI và phân tích chi phí của bên thứ ba.)
Làm việc với các tài liệu rất dài và lý luận nhiều bước — 2M token giúp việc tiếp nhận toàn bộ sách, cơ sở mã lớn hoặc hồ sơ pháp lý/kỹ thuật dài trong một phiên trở nên thực tế, cải thiện độ chính xác và tính mạch lạc cho các tác vụ yêu cầu ngữ cảnh dài (tìm kiếm tài liệu, tóm tắt, tạo mã dài, trợ lý nghiên cứu).
Đầu ra nhanh hơn, độ trễ thấp hơn cho các ứng dụng tương tác — là biến thể “Nhanh”, được thiết kế để xử lý mã thông báo nhanh hơn và độ trễ thấp hơn, mang lại lợi ích cho giao diện người dùng trò chuyện, trợ lý mã hóa và vòng lặp tác nhân thời gian thực, nơi khả năng phản hồi là yếu tố quan trọng. (Phân tích nhân tạo và điểm chuẩn của nhà cung cấp nhấn mạnh tốc độ đầu ra như một yếu tố khác biệt.)
Giá/hiệu suất tốt cho các tác vụ lý luận được đánh giá chuẩn — đối với các nhóm đánh giá mô hình theo chuẩn mực học thuật tiên tiến, Grok 4 Fast mang đến sự thỏa hiệp mạnh mẽ: độ chính xác gần như tuyệt đối với chi phí thấp hơn đáng kể, khiến nó trở nên hấp dẫn đối với các phòng thí nghiệm nghiên cứu và các công ty thường xuyên chạy bộ chuẩn mực đắt tiền.

Kết luận:

Grok 4 Fast định vị xAI để cạnh tranh về giá thành/hiệu năng và cho các ứng dụng agent tập trung vào tìm kiếm. Nếu các tuyên bố về hiệu quả và khả năng xác minh của công ty được chứng minh trong các bài kiểm tra độc lập, chuyên biệt cho từng lĩnh vực, Grok 4 Fast có thể định hình lại kỳ vọng về chi phí cho các triển khai LLM năng suất cao, hỗ trợ công cụ — đặc biệt là đối với các ứng dụng dựa trên truy xuất web trực tiếp và sử dụng công cụ nhiều bước.

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Các nhà phát triển có thể truy cập Grok-4-nhanh ( người mẫu: grok-4-fast-reasoning” / “grok-4-fast-reasoning) thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !