关键特性（快速列表）

两种模型变体： grok-4-fast-reasoning 和 grok-4-fast-non-reasoning（可在深度与速度间调优）。
超大上下文窗口： 高达 2,000,000 tokens，支持超长文档/多小时转录/多文档工作流。
Token 效率/成本侧重： xAI 报告较 Grok-4 平均少约 40% 的 thinking tokens，并宣称在达到相同基准表现的成本上约减少 98%（基于 xAI 报告的指标）。
原生工具/浏览集成： 通过端到端工具使用强化学习训练，覆盖 Web/X 浏览、代码执行与代理式搜索行为。
多模态与函数调用： 支持图像与结构化输出；API 支持函数调用与结构化响应格式。

技术细节

统一推理架构： Grok-4-Fast 使用单一模型权重底座，可通过系统提示或变体选择将其引导至 reasoning（长链式思维）或 non-reasoning（快速回复）行为，而非发布两套完全独立的骨干模型。这降低了混合工作负载的切换延迟与 token 成本。

面向智能密度的强化学习： xAI 报告采用大规模强化学习，聚焦智能密度（最大化每个 token 的性能），这是其所述 token 效率提升的基础。

工具条件化与代理式搜索： Grok-4-Fast 在需要调用工具（网页浏览、X 搜索、代码执行）的任务上进行训练与评估。该模型被呈现为擅长选择何时调用工具以及如何将浏览证据串联进答案。

基准表现

I在 BrowseComp 上的改进（44.9% pass@1 对比 Grok-4 的 43.0%）、SimpleQA（95.0% 对比 94.0%），以及在部分中文浏览/搜索场景中的显著提升。xAI 还报告其 grok-4-fast-search 变体在 LMArena 的 Search Arena 中位列前茅。

典型与推荐用例

高吞吐搜索与检索——需要快速多跳网页推理的搜索代理。
代理式助手与机器人——在允许的情况下，结合浏览、代码执行与异步工具调用的代理。
成本敏感的生产部署——需要大量调用、期望相较更重基座模型具有更优 token-效用经济性的服务。
开发者试验——原型设计依赖快速、重复查询的多模态或网页增强流程。
如何访问 Grok 4 fast API

登录 cometapi.com。若您尚未成为我们的用户，请先注册。登录您的CometAPI 控制台。获取接口的访问凭证 API key。在个人中心的 API token 处点击“Add Token”，获取 token key：sk-xxxxx 并提交。

Step 2: Send Requests to Grok 4 fast API

选择“\grok-4-fast-reasoning/ grok-4-fast-non-reasoning\”端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获得。我们的网站也提供 Apifox 测试以便您使用。将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。base url is Chat format(https://api.cometapi.com/v1/chat/completions)。

将您的问题或请求插入 content 字段——模型将响应该内容。处理 API 响应以获取生成的答案。

Step 3: Retrieve and Verify Results

处理 API 响应以获取生成的答案。处理完成后，API 会返回任务状态与输出数据。

Grok 4 Fast 的版本

Grok 4 Fast 可能存在多个快照，原因包括：更新后保持一致性需要保留旧版、给开发者留出迁移窗口，以及全球/区域端点提供的优化差异。具体差异请参考官方文档。

xAI 公布的公开名称为：grok-4-fast-reasoning 和 grok-4-fast-non-reasoning。两个变体均报告相同的 200 万 token 上下文限制。该平台还继续提供此前的 Grok-4 旗舰模型（例如，先前使用的 grok-4-0709 变体）。

关键特性（快速列表）

两种模型变体： grok-4-fast-reasoning 和 grok-4-fast-non-reasoning（可在深度与速度间调优）。
超大上下文窗口： 高达 2,000,000 tokens，支持超长文档/多小时转录/多文档工作流。
Token 效率/成本侧重： xAI 报告较 Grok-4 平均少约 40% 的 thinking tokens，并宣称在达到相同基准表现的成本上约减少 98%（基于 xAI 报告的指标）。
原生工具/浏览集成： 通过端到端工具使用强化学习训练，覆盖 Web/X 浏览、代码执行与代理式搜索行为。
多模态与函数调用： 支持图像与结构化输出；API 支持函数调用与结构化响应格式。

技术细节

面向智能密度的强化学习： xAI 报告采用大规模强化学习，聚焦智能密度（最大化每个 token 的性能），这是其所述 token 效率提升的基础。

基准表现

典型与推荐用例

高吞吐搜索与检索——需要快速多跳网页推理的搜索代理。
代理式助手与机器人——在允许的情况下，结合浏览、代码执行与异步工具调用的代理。
成本敏感的生产部署——需要大量调用、期望相较更重基座模型具有更优 token-效用经济性的服务。
开发者试验——原型设计依赖快速、重复查询的多模态或网页增强流程。
如何访问 Grok 4 fast API

Step 2: Send Requests to Grok 4 fast API

将您的问题或请求插入 content 字段——模型将响应该内容。处理 API 响应以获取生成的答案。

Step 3: Retrieve and Verify Results

处理 API 响应以获取生成的答案。处理完成后，API 会返回任务状态与输出数据。

Grok 4 Fast

更多模型

Claude Opus 4.7

Claude Sonnet 4.6

GPT-5.4 nano

GPT-5.4 mini

Grok 4.20

Qwen3.6-Plus

相关博客

如何使用 z-image 创建 NSFW 内容？你需要的最佳指南

Grok 4.1 快速 API