GPT 5.1 API 是什麼？GPT-5.1 Thinking 是 OpenAI 的 GPT-5.1 家族的高階推理變體，優先強化自適應、更高品質的推理，同時讓開發者能明確掌控延遲與運算之間的取捨。

基本特性

自適應推理：模型會按請求動態調整思考深度——在常規任務上更快，在複雜任務上更執著。這可降低常見查詢的延遲與 token 用量；會為複雜提示明確分配更多推理時間，並在多步問題上更「持久」；對困難任務可能較慢，但能給出更深入的答案。
推理模式：none / low / medium / high（在低延遲場景下，GPT-5.1 預設為 none；需求更嚴苛時選擇更高級別）。Responses API 提供 reasoning 參數以控制此行為。
預設語氣與風格：在複雜主題上表達更清晰（減少術語）、更解釋性且更「耐心」。
上下文視窗（token / 長上下文）Thinking：更大——付費等級提供 400K token 上下文。

關鍵技術細節

自適應運算分配——訓練與推理設計使模型在瑣碎任務上消耗更少推理 token，在困難任務上按比例投入更多。這不是一個獨立的「思考引擎」，而是推理流程內的動態分配。
Responses API 中的推理參數——客戶端可傳入 reasoning 物件（例如 reasoning: { "effort": "high" }）以請求更深入的內部推理；將 reasoning: { "effort": "none" } 設為關閉可有效停用擴展的內部推理流程以獲得更低延遲。Responses API 也會回傳推理/token 中繼資料（有助於成本與除錯）。 )
工具與並行工具呼叫——GPT-5.1 改進了並行工具呼叫，並提供具名工具（如 apply_patch）以降低程式化編輯的失敗模式；並行化可提升工具密集型流程的端到端吞吐量。
提示快取與持久化——在 Responses 與 Chat Completions 端點支援 prompt_cache_retention='24h'，以在多輪會話中保留上下文（減少重複的 token 編碼）。

基準表現

加速/節省 token 範例（供應商提供）：在常規查詢上，OpenAI 報告 token 與時間大幅下降（範例：一個 npm 列表指令在 GPT-5 約需 ~10s / ~250 tokens，在 GPT-5.1 的代表性測試中約為 ~2s / ~50 tokens）。第三方早期測試者（例如資產管理者、程式開發公司）在許多任務上回報 2–3× 的速度提升，以及在工具密集流程中的 token 效率改善。

OpenAI 與早期合作夥伴發布了具代表性的基準宣稱與實測改進：

評測	GPT‑5.1（高）	GPT‑5（高）
SWE-bench Verified（全部 500 個問題）	76.3%	72.8%
GPQA Diamond（無工具）	88.1%	85.7%
AIME 2025（無工具）	94.0%	94.6%
FrontierMath（使用 Python 工具）	26.7%	26.3%
MMMU	85.4%	84.2%
Tau2-bench Airline	67.0%	62.6%
Tau2-bench Telecom*	95.6%	96.7%
Tau2-bench Retail	77.9%	81.1%
BrowseComp Long Context 128k	90.0%	90.0%

侷限與安全考量

幻覺風險仍然存在。自適應推理有助於處理複雜問題，但無法消除幻覺；較高的 reasoning_effort 有助於檢查，但不保證正確性。高風險輸出務必另行驗證。
資源與成本取捨：雖然 GPT-5.1 在簡單流程上能顯著提升 token 效率，但啟用高推理努力或進行長鏈代理式工具使用，可能增加 token 消耗與延遲。適當使用提示快取以減輕重複成本。
工具安全：apply_patch 與 shell 工具提升了自動化能力（與風險）。正式環境應對工具執行設置閘門（在執行前檢視差異/指令）、採用最小權限，並確保穩健的 CI/CD 與營運防護。

與其他模型的比較

vs GPT-5：GPT-5.1 在自適應推理與指令遵循上有所提升；OpenAI 報告在簡單任務上回應更快、在困難任務上更具持久性。GPT-5.1 也新增了 none 推理選項與擴展的提示快取。
vs GPT-4.x / 4.1：GPT-5.1 更針對代理式、工具密集與程式設計任務設計；OpenAI 與合作夥伴在程式與多步推理基準上回報改進。對許多標準對話任務而言，GPT-5.1 Instant 可能與早期 GPT-4.x 聊天模型相當，但具備更佳的可引導性與人格預設。
vs Anthropic / Claude / 其他 LLM：ChatGPT 5.1 的 MoA 架構在需要複雜多步推理的任務上具備明顯優勢。它在複雜推理的 HELM 基準測試中取得前所未有的 98.20 分，對比 Claude 4 的 95.60 與 Gemini 2.0 Ultra 的 94.80。

基本特性

自適應推理：模型會按請求動態調整思考深度——在常規任務上更快，在複雜任務上更執著。這可降低常見查詢的延遲與 token 用量；會為複雜提示明確分配更多推理時間，並在多步問題上更「持久」；對困難任務可能較慢，但能給出更深入的答案。
推理模式：none / low / medium / high（在低延遲場景下，GPT-5.1 預設為 none；需求更嚴苛時選擇更高級別）。Responses API 提供 reasoning 參數以控制此行為。
預設語氣與風格：在複雜主題上表達更清晰（減少術語）、更解釋性且更「耐心」。
上下文視窗（token / 長上下文）Thinking：更大——付費等級提供 400K token 上下文。

關鍵技術細節

自適應運算分配——訓練與推理設計使模型在瑣碎任務上消耗更少推理 token，在困難任務上按比例投入更多。這不是一個獨立的「思考引擎」，而是推理流程內的動態分配。
Responses API 中的推理參數——客戶端可傳入 reasoning 物件（例如 reasoning: { "effort": "high" }）以請求更深入的內部推理；將 reasoning: { "effort": "none" } 設為關閉可有效停用擴展的內部推理流程以獲得更低延遲。Responses API 也會回傳推理/token 中繼資料（有助於成本與除錯）。 )
工具與並行工具呼叫——GPT-5.1 改進了並行工具呼叫，並提供具名工具（如 apply_patch）以降低程式化編輯的失敗模式；並行化可提升工具密集型流程的端到端吞吐量。
提示快取與持久化——在 Responses 與 Chat Completions 端點支援 prompt_cache_retention='24h'，以在多輪會話中保留上下文（減少重複的 token 編碼）。

基準表現

OpenAI 與早期合作夥伴發布了具代表性的基準宣稱與實測改進：

評測	GPT‑5.1（高）	GPT‑5（高）
SWE-bench Verified（全部 500 個問題）	76.3%	72.8%
GPQA Diamond（無工具）	88.1%	85.7%
AIME 2025（無工具）	94.0%	94.6%
FrontierMath（使用 Python 工具）	26.7%	26.3%
MMMU	85.4%	84.2%
Tau2-bench Airline	67.0%	62.6%
Tau2-bench Telecom*	95.6%	96.7%
Tau2-bench Retail	77.9%	81.1%
BrowseComp Long Context 128k	90.0%	90.0%

侷限與安全考量

幻覺風險仍然存在。自適應推理有助於處理複雜問題，但無法消除幻覺；較高的 reasoning_effort 有助於檢查，但不保證正確性。高風險輸出務必另行驗證。
資源與成本取捨：雖然 GPT-5.1 在簡單流程上能顯著提升 token 效率，但啟用高推理努力或進行長鏈代理式工具使用，可能增加 token 消耗與延遲。適當使用提示快取以減輕重複成本。
工具安全：apply_patch 與 shell 工具提升了自動化能力（與風險）。正式環境應對工具執行設置閘門（在執行前檢視差異/指令）、採用最小權限，並確保穩健的 CI/CD 與營運防護。

與其他模型的比較

vs GPT-5：GPT-5.1 在自適應推理與指令遵循上有所提升；OpenAI 報告在簡單任務上回應更快、在困難任務上更具持久性。GPT-5.1 也新增了 none 推理選項與擴展的提示快取。
vs GPT-4.x / 4.1：GPT-5.1 更針對代理式、工具密集與程式設計任務設計；OpenAI 與合作夥伴在程式與多步推理基準上回報改進。對許多標準對話任務而言，GPT-5.1 Instant 可能與早期 GPT-4.x 聊天模型相當，但具備更佳的可引導性與人格預設。
vs Anthropic / Claude / 其他 LLM：ChatGPT 5.1 的 MoA 架構在需要複雜多步推理的任務上具備明顯優勢。它在複雜推理的 HELM 基準測試中取得前所未有的 98.20 分，對比 Claude 4 的 95.60 與 Gemini 2.0 Ultra 的 94.80。

GPT-5.1

GPT-5.1 的 Playground

基本特性

關鍵技術細節

基準表現

侷限與安全考量

與其他模型的比較

GPT-5.1 的定價

GPT-5.1 的範例程式碼和 API

Python Code Example

JavaScript Code Example

Curl Code Example

Uptime

GPT-5.1

GPT-5.1 的 Playground

基本特性

關鍵技術細節

基準表現

侷限與安全考量

與其他模型的比較

GPT-5.1 的定價

GPT-5.1 的範例程式碼和 API

Python Code Example

JavaScript Code Example

Curl Code Example

Uptime