技术规格 — Gemini 3.1 Pro
| 项目 | gemini-3-pro(公开摘要) |
|---|---|
| 提供方 | |
| 规范模型 id | gemini-3-pro(公开预览) |
| 输入类型 | 文本、图像、视频、音频、PDF |
| 输出类型 | 文本(自然语言、结构化输出、函数调用载荷) |
| 输入令牌上限(上下文) | 1,048,576 tokens |
| 输出令牌上限 | 65,536 tokens |
| 函数调用 / 工具使用 | 支持(函数调用、结构化输出、工具集成) |
| 多模态能力 | 完整多模态支持(图像、视频、音频、文档) |
| 代码执行与智能体流程 | 支持(agent mode、代码辅助、工具编排) |
| 知识截止时间 | 2025 年 1 月 |
什么是 Gemini 3.1 Pro?
Gemini 3.1 Pro 是 Google 在 Gemini 3 系列中公开推出的旗舰模型,被定位为具备先进智能体能力与开发者工具支持的最前沿多模态推理模型。该模型强调高容量上下文处理能力(超过 100 万 token 的输入)、广泛的媒体支持(图像、视频、音频、PDF),以及对工具使用、函数调用和以代码为中心的工作流(例如 Gemini Code Assist 和 agent 模式)的深度集成。
Google 将 Gemini 3 Pro 描述为同时针对交互式开发者体验(低延迟编码与 agent 工作流)和高保真多模态理解(对混合媒体输入进行解释和推理)进行优化。
Gemini 3.1 Pro 的主要特性
Gemini-3.1 Pro(通过其 Preview)引入了以下特性:
多模态集成
可处理以下类型的输入:
- 自然语言
- 图像
- 语音/音频
- 视频
并采用统一的 token 表示进行跨模态推理。
扩展上下文窗口
高达约 100 万 token 的超大上下文容量,使其能够处理:
- 长文档
- 多文档综合
- 代码库和转录文本。
这超过了许多通常仅支持约 32 K–262 K tokens 的竞品模型。
稀疏混合专家(MoE)扩展
稀疏 MoE 路由能够在不按比例增加计算成本的情况下扩展模型内部容量,从而提升大规模推理能力。
高级推理 / 规划
诸如思维链训练、基于人类反馈的强化学习以及专项基准测试等创新,使其在逻辑和数学任务上表现强劲。
所谓的基准测试:
AIME 2025:100%(使用代码执行)
SWE-Bench Verified:83.9%
ARC-AGI-2:71.8%
LiveCodeBench Pro:2844 Elo
Terminal-Bench 2.0:63.5%
MMMLU:93.6%
代表性的企业使用场景
- 端到端媒体流水线: 摄取视频、转录文本和图像,以规模化生成同步摘要、元数据和结构化洞察。
- 大规模代码生成与审查: 在 IDE 和 CI 流水线中使用,以自动生成代码、重构多文件项目,并在大型代码库中生成测试建议。
- 智能体自动化: 使用结构化函数调用,协调可与云服务、编排系统和内部 API 交互的多工具智能体。
- 研究与内容生产: 起草长篇内容(报告、书籍),结合文本与嵌入式多媒体,并保留内部交叉引用。
如何访问 Gemini 3.1 Pro API
第 1 步:注册获取 API Key
登录 cometapi.com。如果您还不是我们的用户,请先注册。登录您的 CometAPI 控制台。获取接口访问凭证 API key。在个人中心的 API token 处点击“Add Token”,获取 token key:sk-xxxxx 并提交。
第 2 步:向 Gemini 3.1 Pro API 发送请求
选择 “gemini-3.1-pro” 端点发送 API 请求并设置请求体。请求方法和请求体可从我们网站的 API 文档中获取。我们的网站还提供 Apifox 测试,方便您使用。将 <YOUR_API_KEY> 替换为您账户中的实际 CometAPI key。base url 为 Gemini Generating Content 和 Chat。
将您的问题或请求插入 content 字段中——这是模型将响应的内容。处理 API 响应以获取生成的答案。
第 3 步:获取并验证结果
处理 API 响应以获取生成的答案。处理完成后,API 将返回任务状态和输出数据。
另请参阅 Gemini 3 Pro API