什么是 Gemini 3 Deep Think?你需要了解的一切

CometAPI
AnnaNov 19, 2025
什么是 Gemini 3 Deep Think?你需要了解的一切

Gemini 3 Deep Think 是 Google / DeepMind 最新基础模型家族 Gemini 3 中的一种新型、专门化的推理模式,旨在在困难的、多步骤、多模态问题上投入更多时间与内部“审慎思考”。它被宣传为推动最先进推理与代理式问题求解进一步发展的 Gemini 版本,超越此前的发布。

Gemini 3 Deep Think 究竟是什么?

定义与定位

Gemini 3 Deep Think 并不是一个独立发布、在架构上完全不同的模型家族——它是 Gemini 3 系列中的一种“增强推理模式”,Google 将其描述为“把智能的边界推得更远”。当你需要模型追寻更深的思维链、考虑多种假设并在回答前评估备选方案时,Deep Think 是明确推荐的模式——实质上允许系统以延迟换取更高质量、更具审慎性的输出。Google 将 Deep Think 定位为面向最复杂、最具新颖性和多步骤推理任务的调优版本(并在初期面向安全测试和 Google AI Ultra 订阅用户进行门控开放)。

Deep Think 与标准版 Gemini 3 Pro 的差异

从概念上讲,Gemini 3 Pro 追求适合通用代理式使用与开发者集成(如新的 Antigravity IDE 与 Vertex AI 集成)的低延迟、均衡体验。Deep Think 与其同属一系,但配置调整为:

  1. 以推理为先的解码与思维链内化。Google 表示 Gemini 3 使用了改进的内部“思考”流程,使模型更可靠地执行多步骤规划与内部审慎推理。Deep Think 进一步强化了这一流程——在生成期间分配更多内部算力、更长的内部思考链,并采用更严格的验证启发式。这些变化旨在减少脆弱的单步回应,提升对新颖任务的解决能力。
  2. 更大的推理范围(工具 + 模拟)。Deep Think 针对工具模拟(模拟浏览器、计算器、代码运行器或外部 API)做了优化,将代理式工作流视为模型推理循环的一部分。这意味着模型可以规划、假设、测试(通过模拟工具)并修订——一种对复杂编码、数学或研究类查询有益的内部试验方式。
  3. 更高算力/延迟的权衡。为获得更深的推理,Deep Think 运行在更高成本、更高延迟的推理范式下。Google 以往也曾提供此类以质量为优先的“专家”模式;Deep Think 延续了这一做法,更强调质量与可靠性。

Gemini 3 Deep Think 如何工作?

理解“如何工作”需要把产品模式(Deep Think)与底层模型家族(Gemini 3)区分开来。Deep Think 并非可单独下载的独立模型文件;它是一种配置——一个经过训练的能力阶梯与推理栈——解锁更多算力、内部推理流程与专门的解码行为,以深度与正确性优先于延迟或成本。

更紧密的工具集成

Deep Think 复用与 Gemini 3 Pro 相同的代理式工具调用与沙箱原语,但对每次工具调用采用更保守的策略与额外验证步骤(对研究型工作流的安全尤为重要)。

Deep Think 的权衡与推理策略

Deep Think 明确以“延迟”换取“深度”:每次查询运行更多算力(更长的内部审慎推理,或更彻底地搜索候选推理路径),并依赖选择性代码执行或多步骤验证等辅助机制来解决新颖问题。这使其在“前沿”基准(新颖、创意或多阶段问题)上更强,但在生产环境中可能更慢、成本更高。

思维链、草稿本与迭代精炼

Deep Think 采用业界与学界已被证明有效的机制:思维链式推理、内部草稿本,以及分阶段推理(先解决并验证子问题,再整合)。模型通过分解问题、检查中间步骤并重组解决方案,来产出更稳健的最终结果。

Gemini 3 Deep Think 的性能基准如何?

Google 发布了大量基准数据来展示 Gemini 3 的整体提升规模——尤其是 Deep Think 配置。Gemini 3 Deep Think 的公开强势表现包括:

  • ARC-AGI(抽象视觉推理,含代码执行变体):据称 Gemini 3 Pro 在 ARC-AGI-2 上约为 ~31.1%,而 Gemini 3 Deep Think 达到 ~45.1%——在此前难以取得高分的基准上实现了显著跃升。
  • GPQA Diamond(高级问答):Gemini 3 Pro reportedly around ~91.9%,而 Deep Think 在公开的测试中达 ~93.8%。这些表现使 Gemini 3 在发布时位居多个排行榜的前列或前沿。
  • Humanity’s Last Exam(无工具挑战):Google 的材料报告 Gemini 3 Deep Think 在无工具场景下的表现显著更高(Google 引用约 ~41.0%),在最具挑战性的考试式提示上优于 Gemini 3 Pro。

为何这些数字重要。这些基准提升并不在所有任务上均匀:在需要多步骤推理、抽象视觉问题求解,以及必须持有并操作大量上下文的场景上提升更为显著。这与 Deep Think 的功能意图一致:展示稳健的高阶推理,而不只是更好的表层文本预测。

Gemini 3 Deep Think vs Gemini 2.5 pro

Deep Think 相比 Gemini 2.x 的改进

  • 推理与问题求解:最明显的提升体现在推理基准与需要延展内部逻辑链的任务上。与 Gemini 2.5 Pro 相比,Gemini 3 Deep Think 在 ARC-AGI、Humanity’s Last Exam 和其他推理套件上分数显著更高。这一跃升既源于算法(不同的训练/微调),也来自推理时(Deep Think 的推理期审慎思考)的操作层增强。

Gemini Deep Think

  • 多模态理解:Gemini 3 扩展了更丰富的多模态输入支持——视频分析、手写+语音融合、更细致的图文联合推理——而 Deep Think 在混合媒介任务上进一步增强准确性与语境敏感度。相较于 Gemini 2.x 已具备的多模态能力,Gemini 3 Deep Think 被呈现为更准确、更具上下文意识。
  • 代理式与工具使用:Gemini 3 强调代理式工作流(创建可跨编辑器、终端、浏览器与 API 调用运作的代理)是一次质变。Deep Think 通过增强内部模拟与工具编排,在与外部工具交互时提供更好的规划与验证——这一能力在早期的 Gemini 代际中还处于萌芽阶段。Google 的 Antigravity IDE 是展示这一点的早期具体集成。
  • 编码与开发者易用性:Gemini 3 Pro 已改进一次性编码与“vibe coding”(高层规格 → 应用脚手架生成)。Deep Think 进一步增强模型规划更大项目、生成更连贯的多文件代码,以及跨上下文调试的能力。早期基准与合作伙伴反馈显示,相比 2.x 开发者生产力有明显提升。

架构与行为差异(H3)

这些优于 Gemini 2.x 的实际原因是多方面且相互促进的:

  1. MoE 主干改进与专家路由调优,使专业化与规模更高效。
  2. 统一的多模态栈,更好地融合跨模态推理(对 ARC-AGI 的视觉子问题尤为重要)。
  3. 像 Deep Think 这样的运行模式,有意延长内部审慎思考与假设检验,以算力/延迟换取准确性。

对用户的实际影响

对开发者与研究人员而言,这意味着:

  • 更强的能力去自动化更高价值的工作流(如科学文献综述、架构设计、高级调试),此前的 Gemini 代际在这些方面成功率有限。
  • 在复杂提示上减少幻觉,并提供更可辩护的逐步推理链。
  • 当任务需要在长文档、代码库或混合媒介间进行跨域推理时,表现更好。

如何获取 Gemini 3 Deep Think

选项 A —— 面向消费者/高级用户:Gemini 应用 + Google AI

根据 Google 的官方公告,Gemini 3 Deep Think 在通用发布层级中“尚未广泛可用”。它将首先向安全测试开放,随后面向“Ultra”订阅层级推出。

Google AI Ultra:US$249.99/month(在美国),包含“Deep Think、Gemini Agent(仅限美国,仅限英语)以及最高配额”。

订阅位置:通过 Gemini 应用 / Google One / 你所在地区的 Google AI 套餐页面订阅。订阅控制台会显示你的账户是否已启用 Deep Think。

选项 B —— 面向开发者/企业:API

对于希望通过 API 访问的开发者:Gemini 3 API 的“Pro”预览已上线。若需使用“Deep think”版本,请使用其变体 API。API 访问按量计费,按每百万输入/输出 token 计价。

Good news — CometAPI 已集成 Gemini 3 Pro Preview API,同时你也可以访问最新的 ChatGPT 5.1。API 价格低于官方价格:

模型gemini-3-pro-previewgemini-3-pro-preview-thinking
输入 Token$1.60$1.60
输出 Token$9.60$9.60

准备好开始了吗?→ Sign up for CometAPI today

如果你想了解更多技巧、指南和 AI 新闻,关注我们的 VKXDiscord

结论

Gemini 3 Deep Think 代表着一次有意且务实的尝试,将更深层次的机器推理产品化:即某些任务受益于内部、分阶段的审慎思考与工具集成使用,而非单次响应。

阅读更多

一个 API 中超 500 个模型

最高 20% 折扣