Grok-4-fast API

CometAPI
AnnaSep 22, 2025
Grok-4-fast API

Grok-4-Fast 是 xAI 的 全新高性价比推理模型,旨在让高质量的推理与网页搜索能力在面向消费者与开发者的使用中更便宜、更快速。xAI 将其定位为一款前沿产品,在提升 token 效率的同时保持 Grok-4 的基准表现,并提供两个变体,分别针对 推理非推理 工作负载进行调优。

关键特性(快速列表)

  • 两个模型变体: grok-4-fast-reasoninggrok-4-fast-non-reasoning(可在深度与速度之间调节)。
  • 超大上下文窗口: 最多 2,000,000 tokens,支持超长文档/多小时转录/多文档工作流。
  • Token 效率/成本聚焦: xAI 报告相较 Grok-4 平均 ~减少 40% 的思考 tokens,并声称为达到相同基准性能的成本 ~降低 98%(基于 xAI 报告的指标)。
  • 原生工具/浏览集成: 通过端到端的工具使用强化学习,覆盖 Web/X 浏览、代码执行与代理式搜索行为。
  • 多模态与函数调用: 支持图像与结构化输出;API 支持函数调用与结构化响应格式。

技术细节

统一推理架构: Grok-4-Fast 使用单一模型权重基座,可通过系统提示或变体选择引导为 推理(长链路思维)或 非推理(快速回复)行为,而非提供两套完全独立的骨干模型。这降低了混合工作负载的切换延迟与 token 成本。

面向智能密度的强化学习: xAI 报告采用大规模强化学习并聚焦于智能密度(最大化每个 token 的性能),这是其所述 token 效率提升的基础。

工具条件化与代理式搜索: Grok-4-Fast 在需要调用工具(网页浏览、X 搜索、代码执行)的任务上进行训练与评估,能更好地选择何时调用工具以及如何将浏览证据整合进答案。

基准表现

在 BrowseComp 的改进(44.9% pass@1 vs 43.0% for Grok-4)SimpleQA(95.0% vs 94.0%),并在部分中文浏览/搜索领域取得较大提升。xAI 还报告 grok-4-fast-search 变体在 LMArena 的 Search Arena 中位居榜首。

Grok-4-fast API

模型版本与命名

xAI 公布的公开名称:grok-4-fast-reasoninggrok-4-fast-non-reasoning。两个变体均报告相同的 2M token 上下文限制。平台仍托管较早的旗舰 Grok-4(例如此前使用的 grok-4-0709 变体)。

限制与安全考量

  • 内容安全问题: 调查媒体报道显示,xAI 的 Grok 系列(及部分功能)采用较为宽松的内容选项,某些内部流程使标注人员接触到高度令人不安的材料。对于非法内容的审核稳健性与向当局报告机制存在明确担忧。在生产部署任何 Grok 变体时,这些安全与合规问题都具有重要影响。
  • 独立验证: xAI 的性能/经济性主张多为自我报告;独立基准与同行评审仍在发布中。在第三方复现出现之前,应将成本效率声明视为供应商提供的数据。
  • 运营风险: 因 Grok-4-Fast 面向代理式浏览,使用外部工具或实时网页查询时需注意 幻觉数据时效限制(尽管具备浏览能力)以及 隐私 考量。

典型与推荐用例

  • 高吞吐搜索与检索 — 需要快速多跳网页推理的搜索代理。
  • 代理型助手与机器人 — 结合浏览、代码执行与异步工具调用的代理(在允许范围内)。
  • 对成本敏感的生产部署 — 需要大量调用、希望相较更重的基座模型获得更优 token-to-utility 经济性的服务。
  • 开发者试验 — 原型化依赖快速、重复查询的多模态或网页增强流程。

如何通过 CometAPI 调用 grok-4-fast API

grok-code-fast-1 CometAPI 中的 API 价格,较官方价优惠 20%:

grok-4-fast-non-reasoningInput Tokens: $0.16/ M tokens Output Tokens: $0.40/ M tokens
grok-4-fast-reasoningInput Tokens: $0.16/ M tokens Output Tokens: $0.40/ M tokens

必要步骤

  • 登录 cometapi.com。如果您尚未成为我们的用户,请先注册
  • 获取接口的访问凭证 API Key。在个人中心的 API Token 处点击“Add Token”,获得令牌密钥:sk-xxxxx 并提交。

使用方法

  1. 选择 “grok-4-fast-reasoning” / “grok-4-fast-reasoning ” 端点发送 API 请求并设置请求体。请求方法与请求体可从我们网站的 API 文档获取。我们的网站也提供 Apifox 测试以便使用。
  2. 将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI Key。
  3. 将您的问题或请求插入到 content 字段——模型将对其进行响应。
  4. . 处理 API 响应以获取生成的答案。

CometAPI 提供完全兼容的 REST API——实现无缝迁移。关键详情见 API doc

  • Base URL: https://api.cometapi.com/v1/chat/completions
  • Model Names:grok-4-fast-reasoning” / “grok-4-fast-reasoning
  • Authentication: 通过 Authorization: Bearer YOUR_CometAPI_API_KEY 头使用 Bearer token
  • Content-Type: application/json

API 集成与示例

通过 CometAPI 进行 ChatCompletion 调用的 Python 代码片段:

pythonimport openai

openai.api_key = "YOUR_CometAPI_API_KEY"
openai.api_base = "https://api.cometapi.com/v1/chat/completions"

messages = [
    {"role": "system",  "content": "你是一名乐于助人的助手。"},
    {"role": "user",    "content": "总结 grok-4-fast 的主要特性。"}
]

response = openai.ChatCompletion.create(
    model="grok-4-fast-reasoning",
    messages=messages,
    temperature=0.7,
    max_tokens=500
)

print(response.choices.message)

另见 Grok 4

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣