模型 - 所有 AI 模型都集中在一个 API 中 - CometAPI

Nano Banana 2

Nano Banana 2

核心能力概览：分辨率：最高 4K（4096×4096），与 Pro 相当。参考图像一致性：最多 14 张参考图像（10 个物体 + 4 个角色），保持风格/角色一致性。极端纵横比：新增 1:4、4:1、1:8、8:1 比例，适用于长图、海报和横幅。文本渲染：高级文本生成，适用于信息图和营销海报版式。搜索增强：集成 Google Search + 图片搜索。Grounding：内置思维过程；生成前先对复杂提示进行推理。

Claude Opus 4.6

Claude Opus 4.6

Claude Opus 4.6 是 Anthropic 的“Opus”级大型语言模型，于 2026 年 2 月发布。其定位为知识工作与研究工作流的主力模型——提升长上下文推理、多步骤规划、工具使用（包括代理型软件工作流），以及计算机使用类任务，如自动生成幻灯片和电子表格。

Claude Sonnet 4.6

Claude Sonnet 4.6

Claude Sonnet 4.6 是迄今为止我们最强大的 Sonnet 模型。它对模型在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等方面的能力进行了全面升级。Sonnet 4.6 还在 beta 阶段提供 1M token 上下文窗口。

GPT-5.4 nano

GPT-5.4 nano

上下文:400,000

GPT-5.4 nano 专为速度和成本最为关键的任务而设计，例如分类、数据提取、排序以及子智能体。

GPT-5.4 mini

GPT-5.4 mini

上下文:400,000

GPT-5.4 mini 将 GPT-5.4 的优势融入到一款更快速、更高效、专为大规模工作负载设计的模型中。

Claude Mythos Preview

Claude Mythos Preview

Claude Mythos Preview 是我们迄今为止最强大的前沿模型，并显示出在许多评测基准上的得分相较于我们此前的前沿模型 Claude Opus 4.6 有显著跃升。

mimo-v2-pro

mimo-v2-pro

MiMo-V2-Pro 是 Xiaomi 的旗舰基础模型，拥有超过 1T 的总参数量和 1M 的上下文长度，并针对智能体场景进行了深度优化。它对 OpenClaw 等通用智能体框架具有很强的适配性。在标准 PinchBench 和 ClawBench 基准测试中，它跻身全球第一梯队，感知性能接近 Opus 4.6。MiMo-V2-Pro 旨在作为智能体系统的大脑，协调复杂工作流，推动生产工程任务，并可靠地交付结果。

mimo-v2-omni

mimo-v2-omni

MiMo-V2-Omni 是一款前沿的全模态模型，能够在统一架构下原生处理图像、视频和音频输入。它将强大的多模态感知与智能体能力相结合——视觉定位、多步规划、工具使用和代码执行——使其非常适合跨模态的复杂真实世界任务。256K 上下文窗口。

MiniMax-M2.7

MiniMax-M2.7

MiniMax-M2.7 具备与标准版同等的顶级智能能力（包括递归式自我演化与专家级办公生产力），但专为需要亚秒级延迟和高速 token 生成的应用而设计。凭借增强的推理主干架构，其输出速度比标准模型快 66%（可达 100 tps）。它是交互式编程助手、实时 Agent 循环执行，以及对完成时间要求严苛的高吞吐企业流水线的首选。

GLM 5 Turbo

GLM 5 Turbo

输出:$3.264/M

GLM-5 Turbo 是 Z.ai 推出的一款新模型，专为快速推理和在 OpenClaw 等由智能体驱动的环境中的强大性能而设计。

GPT-5.4 pro

GPT-5.4 pro

上下文:1,050,000

可生成更智能、更精准回复的 GPT-5.4 版本。

GPT-5.4

GPT-5.4

上下文:1,050,000

GPT-5.4 是面向复杂专业工作的前沿模型。Reasoning.effort 支持：none（默认）、low、medium、high 和 xhigh。

GPT-5.3 Chat

GPT-5.3 Chat

ChatGPT 使用的 GPT-5.3 Instant 模型

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite

Gemini 3.1 Flash-Lite 是 Google 的 Gemini 3 系列中一款具备极高成本效益和低延迟的 Tier-3 模型，专为大规模生产级 AI 工作流而设计，在这些场景中，吞吐量与速度比追求极致的推理深度更为重要。它将大型多模态上下文窗口与高效的推理性能相结合，且成本低于大多数旗舰级同类产品。

Claude Haiku 4.5

Claude Haiku 4.5

最快、最具性价比的模型。

Sora 2 Pro

Sora 2 Pro

Sora 2 Pro 是我们最先进、最强大的媒体生成模型，可生成带有同步音频的视频。它可以根据自然语言或图像创建细致、动态的视频片段。

Sora 2

Sora 2

超级强大的视频生成模型，带有音效，支持聊天格式。

mj_fast_video

mj_fast_video

每次请求:$0.6

Midjourney video generation

Qwen 3.5 Flash

Qwen 3.5 Flash

作为原生视觉语言模型，Qwen3.5 系列中的 QWEN3.5-397B-A17B 在推理、编程、智能体能力和多模态理解等综合基准评测中表现出色，帮助开发者和企业显著提升生产力。该模型采用创新的混合架构，将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）相结合，实现了卓越的推理效率：总参数量达 3970 亿，但每次前向传播仅激活 170 亿参数，在保持能力的同时优化了速度与成本。我们还将语言和方言支持从 119 种扩展到 201 种，为全球用户提供更广泛的可用性和更完善的支持。

Grok 4.20

Grok 4.20

上下文:2,000,000

Grok 4.20 版本引入了多智能体架构（多个专业化智能体的实时协同）、扩展的上下文模式，以及在指令遵循、幻觉减少和结构化/工具化输出方面的针对性改进。

Grok Imagine Video

Grok Imagine Video

通过文本提示生成视频、为静态图像添加动画，或用自然语言编辑现有视频。该 API 支持配置生成视频的时长、长宽比和分辨率，并由 SDK 自动处理异步轮询。

gpt-realtime-1.5

gpt-realtime-1.5

上下文:32,000

用于音频输入与音频输出的最佳语音模型。

gpt-audio-1.5

gpt-audio-1.5

用于在 Chat Completions 中实现音频输入与音频输出的最佳语音模型。

GPT 5.3 Codex

GPT 5.3 Codex

上下文:400,000

GPT-5.3-Codex 专为在 Codex 或类似环境中的代理式编码任务进行优化。GPT-5.3-Codex 支持 low、medium、high 和 xhigh 的推理强度设置。

Doubao Seedream 5

Doubao Seedream 5

每次请求:$0.028

Seedream 5.0 Lite 是一款统一的多模态图像生成模型，具备深度思考和在线搜索能力，在理解、推理与生成能力方面实现了全方位升级。

Gemini 3.1 Pro

Gemini 3.1 Pro

Gemini 3.1 Pro 是 Gemini 系列模型的下一代产品，是一套功能强大、原生多模态的推理模型。Gemini 3 Pro 现已成为 Google 面向复杂任务的最先进模型，能够理解来自不同信息源的海量数据集和具有挑战性的问题，这些信息源包括文本、音频、图像、视频以及整个代码仓库。

qwen3.5-plus

qwen3.5-plus

Qwen3.5 原生视觉-语言系列的 Plus 模型采用混合架构，将线性注意力机制与稀疏混合专家模型相结合，实现更高的推理效率。

qwen3.5-397b-a17b

qwen3.5-397b-a17b

Qwen3.5 系列 397B-A17B 原生视觉语言模型基于一种混合架构，将线性注意力机制与稀疏专家混合模型集成在一起，从而实现更高的推理效率。

Doubao-Seed-2.0

Doubao-Seed-2.0

输入:$0.024/M

🔹 Doubao Seed 2.0 系列 doubao-seed-2-0-code-preview-260215 专注于长链推理能力与复杂任务的稳定性，适配真实业务环境中的复杂场景。作为 Seed 2.0 的代码增强版，更适用于 Agentic Coding。 doubao-seed-2-0-lite-260215 在生成质量与响应速度之间取得平衡，适合作为通用的生产级模型。 doubao-seed-2-0-mini-260215 面向低延迟、高并发及成本敏感场景而设计。强调快速响应与灵活的推理部署，支持四级思维与多模态理解能力。

MiniMax M2.5

MiniMax M2.5

MiniMax-M2.5 是一款专为真实世界生产力而设计的 SOTA 大语言模型。在多样且复杂的真实世界数字化工作环境中训练，M2.5 在 M2.1 的编码专长基础上拓展至通用办公工作，能够熟练生成并操作 Word、Excel 和 Powerpoint 文件，在多种软件环境之间进行上下文切换，并与不同的智能体和人类团队协作工作。