GPT-5.5 的 86% 幻覺率隨其於 2026 年 4 月發佈一同拋出,彷彿一顆沒人想去撿的手榴彈。該模型在 Artificial Analysis 的 AA-Omniscience 基準上達到 57% 準確率——有史以來最高的事實召回率——但當它不知道某件事時,卻比任何旗艦競品更傾向於在「不確定」時仍然作答。
Claude Opus 4.7 的幻覺率為 36%。Gemini 3.1 Pro 的幻覺率為 50%。GPT-5.5 的幻覺率為 86%。
兩件事同時為真:它是你能按 token 租到的最聰明的模型,也是最願意編造答案的模型。理解這道差距,是把 GPT-5.5 戰略性用在刀口上,與把滿篇自信錯誤的報告交付給客戶,兩者之間的分水嶺。
這不是一篇「GPT-5.5 不行、Claude Opus 4.7 才行」的文章。這是一套根據任務需求與可容忍失誤,決定何時用哪個模型的決策框架。
這個 86% 到底在衡量什麼(以及為什麼和你以為的不一樣)
Artificial Analysis 構建 AA-Omniscience 以在 40 多個領域中壓測事實知識。該基準追蹤兩個獨立指標:
- 準確率: 當模型作答時,有多常答對?
- 幻覺率: 當模型不知道某件事時,它有多常自信地編造答案,而不是說「我不知道」?
在專門用來衡量自信錯答的這個基準上,GPT-5.5 是所有旗艦模型中表現最差的。
86% 背後的計算
在實務上,這個數字意味著什麼?假設你問 GPT-5.5 100 個事實性問題,而它確實沒有足夠的訓練資料可以準確作答:
- GPT-5.5 (86% 幻覺率): 仍會嘗試回答其中 86 題。大多是錯的,但語氣與答對時一樣自信。
- Claude Opus 4.7 (36% 幻覺率): 會嘗試回答 36 題;另外 64 次會說「我沒有足夠資訊」或拒絕猜測。
- Gemini 3.1 Pro (50% 幻覺率): 各佔一半——回答 50 題,對 50 題承認不確定。
關鍵洞見: 「信口捏造」不是小疏失。它是一種明確的失敗型態:模型會編造細節——姓名、數字、引文、日期、法規——在語境中聽起來很合理,且用與答對時相同的語氣表達。
一個具體例子
假設你問:「2024 年蒙大拿州參議院第 37 選區的最終得票數是多少?」
- GPT-5.5(可能):「最終票數為 12,847 比 11,203,Sarah Mitchell(R)勝出。」(這是杜撰的,但讀起來像事實。)
- Claude Opus 4.7(可能):「我無法取得 2024 年蒙大拿州各立法選區的具體票數。」
- 結果: GPT-5.5 的答案會被直接複製進報告;Claude 的不作答迫使用戶花 30 秒 Google。
對政治顧問的簡報來說,這是災難性的差別。對於生成程式碼的代理來說則無關緊要——linter 會抓到假冒的函式庫引用。
三模型性能比較
| 指標 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | 最佳 |
|---|---|---|---|---|
| SWE-Bench Verified | 58.60% | 57.70% | 64.30% | Claude +5.7pp |
| Terminal-Bench 2.0 | 82.70% | 75.10% | 69.40% | GPT-5.5 相較於 5.4 +7.6pp |
| OSWorld-Verified | 78.70% | 75% | 78.00% | 統計上持平 |
| AA-Omniscience 準確率 | 57% | 43% | ~52% | GPT-5.5 +5pp |
| 幻覺率 | 86% | 未披露 | 36% | Claude 好 2.4 倍 |
這張表真正說明了什麼
- 端到端編碼工作流(SWE-Bench Pro):Claude 4.7 仍領先 5.7 個百分點。若任務是「自主解決一個 GitHub issue」,Claude 4.7 可測得更好。
- 終端指令執行(Terminal-Bench 2.0):GPT-5.5 以 82.7% 領先,較 GPT-5.4 高 7.6 個百分點。若要構建協調 shell 指令的代理,GPT-5.5 是明顯之選。
- 桌面電腦控制(OSWorld):約 78% 的統計平手。用哪個都行。
- 錯答成本高的事實召回任務: Claude 的 36% 幻覺率相對 GPT-5.5 的 86%,使其自信捏造細節的機率低 2.4 倍。
- 成本敏感的生產部署: GPT-5.4 在 CometAPI 的 2.00/2.00/2.00/12 價格,比 GPT-5.5 便宜 60%,且在輸入 tokens 上比 Claude 便宜 50%。
決策框架:何時用哪個
這個框架不是「GPT-5.5 贏」或「Claude 贏」,而是:讓失敗型態與任務需求匹配。
在以下情況使用 GPT-5.5:
輸出自帶驗證層
- 程式碼生成(測試與 linter 能抓到幻覺)
- 終端指令(shell 錯誤會立即暴露語法問題)
- 具 schema 驗證的資料轉換
- 有核對機制的數學題
你需要最大化的推理表現,且能消化錯誤
- 軟體架構複雜決策,且會進行同儕審查
- 研究綜整,反正會手動查核引文
- 發想/腦暴(幻覺概念也可能激發真點子)
- 競賽型程式練習(會對照已知輸出測試)
「智力單位成本」是首要約束
- 相比 GPT-5.4,每百萬輸入/輸出 tokens 的單價翻倍至 5/5/5/30。然而約 40% 的 token 使用量下降抵消了大半漲幅,導致運行 Intelligence Index 的淨成本約 +20%。
- 高流量 API 部署,且錯誤修正已自動化
- 內部工具,使用者了解模型限制
以下情況避免使用 GPT-5.5:
事實正確性是承重點
- 法律文件分析(杜撰判例引註可能遭到制裁)
- 醫學文獻回顧(錯誤的藥物交互會傷害病人)
- 財務報告(捏造數字會引發合規違規)
- 學術研究引用(撤稿會損害信譽)
沒有下游驗證層
- 面向客戶的客服機器人回答政策問題
- 自動化郵件回覆,引用具體法規
- 使用者會信以為真的上線文件
- 任何把「AI 這麼說」視為權威的情境
修錯成本高於使用 Claude 的成本
- 若反正會有人審核,Claude 較低的錯誤率能省人力成本
- 把(幻覺率 × 修錯人員時薪)算出來。如果超過 4input/4 input / 4input/20 output 的差額,就選 Claude。
成本最佳化:混合策略
對多數生產系統,最高投資回報的做法不是只選一個模型——而是根據任務特徵在 GPT-5.5、GPT-5.4、Claude 之間智能路由。
每月成本比較
| 每月 Token 用量 | GPT-5.5 成本 | GPT-5.4 成本 | Claude Opus 4.7 成本 | GPT-5.4 相對 5.5 節省 | Claude 相對 5.5 成本 |
|---|---|---|---|---|---|
| 50M input / 10M output | $550 | $275 | $400 | -$275(50%) | -$150(27%) |
| 500M input / 100M output | $5,500 | $2,750 | $4,000 | -$2,750(50%) | -$1,500(27%) |
| 2B input / 400M output | $22,000 | $11,000 | $16,000 | -$11,000(50%) | -$6,000(27%) |
假設代理式工作流程中典型的 5:1 輸入:輸出比例。基於官方 API 價格(GPT-5.5 為 5/5/5/30、GPT-5.4 為 2.50/2.50/2.50/15、Claude Opus 4.7 為 5/5/5/25)。
關鍵洞見: 在每月 5 億輸入 tokens 的規模上,適當任務選擇 GPT-5.4 而非 GPT-5.5,每年可省 $33,000。僅將約 30% 的查詢路由到 GPT-5.4,每年可省約 $10,000。
三層路由架構
Incoming Request
│
▼
Task Classifier
│
├──► High-stakes factual (citations, compliance, medical)
│ └──► Claude Opus 4.7 ($4 input / $20 output)
│
├──► Code generation, debugging, terminal commands
│ └──► GPT-5.5 ($5 input / $30 output)
│
└──► Simple queries, content drafting, data extraction
└──► GPT-5.4 ($2.50 input / $15 output)
範例路由規則:
- 包含引文需求 → Claude
- Task type = 代碼生成或終端執行 → GPT-5.5
- Input tokens \< 2K 且不需外部驗證 → GPT-5.4
- 輸出在發佈前會有人審閱 → GPT-5.5
- 輸出直接面向終端使用者且包含事實性主張 → Claude
與現有框架整合
若你使用 LangChain 或 LlamaIndex,可透過其內建選擇器實作模型路由:
- LangChain: 使用
ChatModelSelector依元資料標籤(例如task_complexity: "low" | "medium" | "high"與factual_risk: boolean)路由查詢 - LlamaIndex: 設定
RouterQueryEngine,在選擇 GPT-5.5、GPT-5.4 或 Claude 之前,先以自訂路由邏輯評估查詢特徵
關鍵是在上游為查詢打上風險屬性標籤(透過使用者輸入分類或基於 LLM 的意圖偵測),再將這些屬性映射為模型選擇規則。
如何使用 GPT-5.5 而不踩雷
幻覺緩解:三個必做的工作流程。若你在生產中用 GPT-5.5 處理涉及事實陳述的任務,這些不是可選項:
兩階段事實萃取
對任何包含引文、統計、日期或姓名的輸出:
First pass (GPT-5.5): Generate the analysis/report
Second pass (Same model): "Here's your previous response. For every
specific claim with a date, number, name, or citation, list:
(1) The claim
(2) A source you can verify
(3) Your confidence (0-100%) that the source says exactly this
If you fabricated anything or aren't sure, flag it explicitly."
多數杜撰的函式庫會被此提示抓出來,因為當被迫逐條列舉時,模型會在自己編造的項目上猶豫。
以信心分數標註輸出
強制模型為自己的把握度打分:
"After each factual claim, add [confidence: X%]. Use:
95-100%: You have direct training data
70-94%: Strong inference from related facts
50-69%: Educated guess
<50%: Mark as [VERIFY REQUIRED]"
在送達終端使用者前,過濾掉低於你的風險門檻的內容。
與 Claude 的混合查核
針對高風險輸出:
GPT-5.5 generates → Extract factual claims → Pass to Claude:
"Verify these claims. For each, respond SUPPORTED / CONTRADICTED / UNKNOWN
based on your training data. Do not guess."
Claude 的 36% 幻覺率讓它作為事實查核器的可靠度高出 2.4 倍。你要付兩次模型調用費,但避免一次 $50K 的合規罰單就足以覆蓋約 250 萬個輸入 tokens 的 GPT-5.5 + Claude 成本。
真正的權衡
OpenAI 並未隱瞞這個指標——Artificial Analysis 在 GPT-5.5 發佈當天就公布了它。只是沒有放在標題處而已。兩種做法都可以理解。
不可辯護的,是用你對 Claude Opus 4.7 的方式去部署 GPT-5.5。它們是不同的工具、具有不同的失敗型態:
- GPT-5.5: 上限最高、錯誤覺察最低。最適合用在工作流程內建驗證的情境。
- Claude Opus 4.7: 較低幻覺率、較擅長承認不確定。最適合在錯答成本高於不答時使用。
- GPT-5.4: 便宜 50%,對多數任務而言有 95% 的能力水準。最適合成本比尖端表現更重要的場景。
這個框架不是「GPT-5.5 贏」或「Claude 贏」,而是:讓失敗型態與任務對得上。編碼與推理可以承受自信的錯答——測試會抓到、linter 會抓到、或輸出顯然跑不起來。事實召回做不到——法律簡報中的杜撰引文與真引文有著同樣自信的語氣。
在 GPT-5.5 擅長的地方用它。把成本敏感的查詢路由到 GPT-5.4。把 Claude 留給那些一旦編造細節,造成的損害大於節省的 API 成本的任務。並且,對所有重要事項做查核。
準備好削減你的 AI 成本了嗎?
👉免費試用 CometAPI——同款模型、價格低 20%、集中結算。
比較你目前的成本: 取你上個月的 OpenAI/Anthropic 帳單,乘以 0.8。那就是你在不改一行程式碼下的新月成本。
遷移疑問? CometAPI 的文件包含 OpenAI Python SDK、LangChain 與 LlamaIndex 的「直接替換」示例。多數團隊在 2 小時內就能完成切換。
覺得這套框架有用嗎? 與你的團隊分享吧。2026 年最快的燒錢方式,就是支付 AI API 標價、而你的競爭對手已透過CometAPI智能路由。
.webp&w=3840&q=75)