2025 年 4 月 17 日: OpenAI 週三推出了兩款突破性的AI模型o3和o4-mini,標誌著人工智慧推理能力的重大進步。這些模型旨在提高複雜任務的表現,整合視覺理解和高階解決問題的技能。

o3:邁向人類層次的推理
o3 模型是 OpenAI 迄今為止最複雜的推理系統。它在各種基準測試中都表現出了卓越的性能:
- 數學:在 AIME 96.7 考試中取得了 2024% 的分數,只錯過一題。
- 科學推理:在解決研究生程度的科學問題方面,GPQA 鑽石基準得分為 87.7%。
- 軟件工程:在 SWE-Bench Verified 編碼測試中達到了 71.7% 的準確率。
- 通用情報:在高計算設定下,以 87.5% 的得分超越了 ARC-AGI 基準上的人類閾值。
這些成就使 o3 成為邁向通用人工智慧 (AGI) 的重要一步,展示了其適應超越記憶模式的新任務的能力。
o4-mini:高效能且多功能
o4-mini 型號提供了更緊湊、更具成本效益的替代方案,同時又不影響效能。它在數學、編碼和視覺分析等任務方面表現出色,適用於廣泛的應用。
視覺推理與增強工具自主性的創新
o3 和 o4-mini 都引入了利用視覺輸入進行推理的能力,包括圖像、草圖和白板內容。這種整合允許模型在分析過程中操作影像(例如縮放或旋轉),從而增強其解決問題的能力。
OpenAI 在這些模型中實現了一種稱為「審議一致性」的新穎訓練範式。這種方法使人工智慧能夠進行符合人類編寫的安全標準的結構化推理,增強對安全基準的遵守並提供上下文相關的回應。
執行長 Sam Altman 承認 OpenAI 模型命名約定的複雜性,並表示即將推出更直觀的命名系統。
無障礙設施和未來發展
ChatGPT Plus、Pro 和 Team 用戶現在可以使用 o3 和 o4-mini 型號。此次推出與 OpenAI 最近發布的 GPT-4.1 模型一致,反映了該公司在人工智慧開發方面的快速進步。
執行長 Sam Altman 承認 OpenAI 模型命名約定的複雜性,並表示即將推出更直觀的命名系統。
這些進步凸顯了 OpenAI 致力於突破人工智慧能力界限,同時專注於安全性和可訪問性。
OpenAI 也推出了 Codex CLI,這是一個在用戶終端機上本地運行的開源程式碼代理程式。它旨在為用戶提供一種簡單、清晰的方式,將 AI 模型(包括 o3 和 o4-mini(即將支援 GPT-4.1))連接到他們自己電腦上運行的程式碼和任務。 Codex CLI 是開源的,您現在可以在 GitHub 上存取它。
有關 OpenAI 最新模型及其功能的更多信息,請訪問 CometAPI o3 API O4 Mini API,介紹如何透過 CometAPI 存取和整合 o3 API 和 O4 Mini API。



