xAI悄悄發布 格洛克4.1 (2025年11月17日至18日)-對Grok 4的重點升級,優先考慮 情緒智商、創造性表達和減少幻覺 在保持 Grok 早期版本精準推理能力的同時,它提供了兩種模式(思考模式/非思考模式),於 11 月初悄然推出,在 LMArena 上顯示排行榜前列結果,並可透過 grok.com、Grok 應用和 API 使用。
什麼是 Grok 4.1?
Grok 4.1 是 Grok 4 的升級版,專注於生產環境:它基於相同的大規模強化學習基礎,但經過精細調整和重新訓練,並進行了大量的訓練後優化,旨在提升風格、個性、一致性和實際應用可靠性。 Grok 4.1 被定位為一個務實且「可用」的進步:在盲測中表現更佳,情緒智商更高,更擅長創意寫作,並且顯著降低了早期高性能學習學習模型(LLM)中常見的自信但錯誤的「幻覺」傾向。
Grok 4.1 在以下四個方面實現了質的飛躍:
- 創造力:在寫作、說故事和社交場合中展現出更強的語言風格和想像;
- 情緒智商:能夠辨識語氣和情緒變化,以更人性化的情感邏輯做出回應,並產生安慰和理解的回應;
- 人格一致性:在長時間的對話中保持一致的語氣和人格,不再表現出早期模型中不一致的行為;
- 協作:在多輪對話或任務協作中保持連貫性和目標意識。
xAI 用一句話概括了它的特點:“它更有感知力,更有同理心,更像一個有邏輯思維的人。”
Grok 4.1 的底層運作原理是什麼?
Grok 4.1 可以理解為:它沿用了 Grok 4 系列中使用的預訓練骨幹網絡,並增加了一個分層的後訓練流程,該流程專注於: 獎勵模型、風格一致性和自主評估者.
訓練和調整階段有哪些?
Grok 4.1 採用現代前沿 LLM 典型的多階段流程,並針對 4.1 版本進行了兩項重要改進:
- 訓練前 + 訓練中期: 利用網路資料進行大規模語料庫預訓練 + 有針對性的中期訓練,以增強領域知識和多模態能力。
- 監督式微調(SFT): 人類示範期望行為(回應、拒絕策略)。
- 獎勵建模(新應用): xAI訓練的獎勵模式不僅基於人類偏好標籤,而且還使用 前沿智能推理模型 作為獎勵評分器-有效地讓高能力、基於模型的評估器大規模地對候選輸出進行評分。這使得對諸如不可驗證屬性等進行最佳化成為可能。 風格、個性凝聚力、同理心和樂於助人 無需投入巨額的人工標註預算。
- 策略優化(基於模型獎勵的RLHF/RL): 使用學習到的獎勵訊號進行標準策略最佳化,以產生已部署的策略(消費者與之互動的模型)。
獎勵建模方法有哪些新變化?
在傳統的強化學習人機互動(RLHF)中,你需要收集人類的偏好標籤(A/B),訓練一個獎勵模型來預測這些標籤,然後使用強化學習(或拒絕採樣)方法,根據學習到的獎勵來優化基礎模型。但 xAI 重點介紹了兩項實用創新:
- 智能體獎勵模型: xAI 並非完全依賴人類評判,而是採用強大的「智能體」推理模型作為評分器,來評估更為微妙的屬性(例如語氣、情感細微差別和創造力)。這些評分器能夠快速運行數千組成對比較,從而幫助工程師更快地迭代。這正是提升風格和情緒智商的關鍵所在。
- 訓練後對不可驗證訊號進行對齊: 對於無法用確定性指標衡量的特質(例如,「熱情」或「連貫的個性」),他們引入了專門的獎勵目標和分級課程,以便模型能夠學習。 樣式 在不犧牲核心事實準確性的前提下,提升產出品質。
從技術層面來說,「思考」與「非思考」是如何運作的?
- Grok 4.1 思考(代號)
quasarflux) — 在得出最終答案之前,會明確地展示推理步驟(思維標記);針對複雜任務和 LMArena 中較高的 Elo 評分進行了優化。額外的思維標記會增加推理時間,但有助於多步驟推理任務、調試和提高可解釋性。 - Grok 4.1 非思考(代號)
tensor) 它繞過顯式的中間令牌,直接返回最終回應。這降低了延遲和令牌成本,同時仍受益於相同的精細化策略權重。這種「無思考模式」經過優化,實現了極低的延遲和強大的性能。
情感和風格的對齊優化
除了簡單的「真實性」訊號外,Grok 4.1 還包含情緒、語氣和人際風格的定向匹配優化。這意味著訓練流程包含獎懲機制,明確懲罰不符的語氣(例如,在需要同理心時卻顯得生硬),並獎勵符合預期風格或情緒特徵的回應。在 Grok 4.1 中,人工智慧首次引入了「人格匹配」這一優化目標。
它旨在幫助模型保持一致且穩定的身份認同感。與 Grok 4 相比,4.1 版本在訓練目標中增加了以下內容:
- 對情緒表達向度給予正向獎勵(情緒一致性獎勵);
- 人格一致性指標。
Grok 4.1 是如何評估的?它的性能如何?
盲人偏好測試結果如何?
在靜默推廣期間,Grok 4.1 在真實流量中比之前的生產模型更受歡迎 64.78%——這是一個強烈的用戶偏好訊號,表明在實際應用中對話效果更好。
Grok 4.1 是否位居排行榜榜首?
xAI報告稱,Grok 4.1的 思維 模式位於 LMArena 的 Text Arena 排名第一據報道,其 Elo 等級為 1483其非推理(快速)模式排名第 2,Elo 評分為 1465 分——在準確性和呈現方式方面都取得了強勁的公開排行榜排名(風格控制發揮了作用)。

結論:Grok 4.1 在文字理解、生成和整體品質方面優於主流的 GPT-4.5 和 Claude 系列模型,僅次於 GPT-5 高級預覽版。
情商
xAI 運行了 EQ-Bench3,這是一項專門針對情緒智商的測試,涵蓋 45 個具有挑戰性的角色扮演場景。測驗報告顯示,Grok 4.1 在同理心、節奏控制和人際洞察力方面均有顯著提升。 Grok 4.1 在理解悲傷、同理心和安慰等情境得分最高。

創意寫作-它真的更具想像力嗎?
Grok 4.1 已在以下方面進行了評估: 創意寫作 v3 (共 32 個提示,分為 3 個迭代版本,採用評分標準和 Elo 評分)。 xAI 表示,Grok 4.1 的寫作風格、語調一致性和敘事創造力均顯著提升,使其在近期創意任務排行榜中名列前茅(發布版本中包含範例提示)。獨立報告也印證了這些發現:評審員注意到其「獨特語調」明顯增強,長篇內容的連貫性也更佳。就寫作品質而言,Grok 4.1 僅次於 GPT-5 系列模型,並超越了 Claude、Gemini 和 Kimi 的所有產品線。

幻覺減少/誠實
xAI 聲稱幻覺發生率顯著降低:他們在公告和社交媒體帖子中報告稱,Grok 4.1 的幻覺發生率約為 ~出現幻覺的可能性降低3倍 與先前的 Grok 模型相比,引用生產流量分析和 FactScore 式評估(例如,傳記/人物傳記題集,分數越低越好)可知,尤其是在可以使用外部搜尋工具的「非推理模式」下,事實的一致性更加穩定。

為什麼說 Grok 4.1 “碾壓”其他模型——這是誇張的說法嗎?
「Crushes」這個詞聽起來像是行銷噱頭,但背後確實有客觀事實依據:
- 排行榜: Grok 4.1 在 LMArena 公開排行榜上文字生成能力名列前茅(思考模式下 Elo 得分高達 1483),並且在 xAI 發布後,其創意和情商測試表現也十分出色。這些都是社區內普遍採用的公平競爭指標。
- 真實流量偏好勝出: xAI 報告稱,在對真實流量進行靜默部署後,其在盲測對比中展現出更符合人類用戶的偏好(與先前的生產模型相比,偏好度提升約 65%)。這反映的是真實用戶的體驗提升,而不僅僅是紙面上的基準測試結果。
- 實用的新功能: 模型評分器、不可驗證訊號的強化學習和更嚴格的輸入過濾器相結合,是一個務實的工程步驟,可以直接改善使用者在對話、同理心和創造性任務中的體驗,而競爭對手在這些任務中歷來表現不佳。
因此,雖然“碾壓”是一種形象的說法,指的是“在多項公開和內部評估中領先”,但xAI公佈的底層公開指標也證實了這一結論。
如何訪問 Grok 4.1
消費者/應用程式訪問
xAI 會定期在「自動」模式下免費或作為促銷視窗提供 Grok 4.1 的使用權限,但高級版本(SuperGrok、SuperGrok Heavy)和具有更高配額的 API 存取權限仍然存在,並且一直作為付費產品提供。
Grok 4.1 現已開放給所有使用者開放 on grok.com, **X(以前的 Twitter)**iOS 和 Android Grok 應用程式將立即以自動模式推出,同時也可以在模型選擇器中明確選擇為「Grok 4.1」。
API 存取和開發者計劃
Grok 4.1 的介面可透過 xAI API 取得。截至本文發布之日,官方的 GPT 4.1 API 尚未發布。
彗星API 承諾持續追蹤最新的模型動態,包括 Grok 4.1 API它將與正式版同步發布。敬請期待,並繼續關注 CometAPI。在等待期間,您也可以關注 Grok 的其他模型,例如: Grok-code-fast-1 格洛克4您可以在 Playground 中探索它們的功能,並查閱 API 指南以取得詳細的呼叫說明。在造訪之前,請確保您已登入 CometAPI 並取得了 API 金鑰。
在生產環境中使用 Grok 4.1 的實用技巧
如何降低幻覺風險
- 啟用即時搜尋 或用於資訊檢索查詢的經過驗證的工具鏈。
- 提供驗證步驟要求模型返回事實主張的來源和證據;使用
response用於檢查引文的元資料(如有)。 - 運行確定性檢查 (事實查核 LLM、結構化資料驗證器)作為高風險輸出的後處理步驟。
如何控制語氣和風格
- 使用明確的系統提示來糾正語音(「你的語氣正式且富有同理心。」)。
- 使用監督提示和小型本機模板,以確保應用程式之間語音的一致性。
- 在條件允許的情況下,利用 xAI 的風格控制選項和獎勵驅動的方向盤旋鈕。
最終結論:Grok 4.1 是否帶來了翻天覆地的改變?
Grok 4.1 是 不會 它並非一種全新的建築;更確切地說,它是一種精巧而深思熟慮的建築。 訓練後/調整 專注於用戶在聊天中真正關心的內容的版本: 個性、情緒智商、創造力以及更少的事實錯誤Grok 4.1 在排行榜上取得了顯著進步,大規模真實流量偏好測試也得到了驗證,安全工具也得到了改進。對於依賴高品質對話、創意協作或語氣敏感型輔助功能的應用而言,Grok 4.1 是一次重大飛躍,並且在多個社群基準測試中,發佈時均位居榜首。
CometAPI 是一個商業 API 聚合平台,它為開發者提供統一的、類似 OpenAI 的 REST 接口,透過單一且一致的接口訪問來自多家供應商的數百種 AI 模型,包括文本語言學習模型 (LLM)、圖像/視頻生成器、嵌入模型等等。無需為 OpenAI、Anthropic、Google、Meta 或其他小型專業模型提供者分別配置 SDK 或自訂端點,CometAPI 只需更改模型字串和幾個參數即可呼叫不同的模型。
準備好嘗試了嗎? → 立即註冊 CometAPI !

