Gemini 3 Pro (Preview) — новейшая флагманская мультимодальная модель рассуждений от Google/DeepMind в семействе Gemini 3. Позиционируется как их «самая интеллектуальная на сегодня» модель, созданная для глубокого рассуждения, агентных рабочих процессов, продвинутого программирования и понимания мультимодального контента в длинном контексте (текст, изображения, аудио, видео, код и интеграции с инструментами).
Ключевые возможности
- Модальности: текст, изображения, видео, аудио, PDF (и структурированные выводы инструментов).
- Агентность/инструментарий: встроенные вызовы функций, поиск как инструмент, выполнение кода, контекст URL и поддержка оркестрации многошаговых агентов. Механизм Thought‑signature сохраняет многошаговые рассуждения между вызовами.
- Программирование и «vibe coding»: оптимизирована для генерации фронтенда, создания интерактивных интерфейсов и агентного программирования (лидирует в соответствующих рейтингах по данным Google). Позиционируется как их самая сильная на сегодня модель для «vibe-coding».
- Новые параметры для разработчиков:
thinking_level(low|high) — компромисс между стоимостью/задержкой и глубиной рассуждений, иmedia_resolutionуправляет качеством мультимодальности на уровне изображения или кадра видео. Эти параметры помогают балансировать производительность, задержку и стоимость.
Результаты на бенчмарках
- Gemini3Pro занял первое место в LMARE с результатом 1501, обойдя 1484 балла Grok-4.1-thinking, а также опередив Claude Sonnet 4.5 и Opus 4.1.
- Также первое место на арене программирования WebDevArena с результатом 1487.
- В Humanity’s Last Exam по академическим рассуждениям — 37.5% (без инструментов); в GPQA Diamond (науки) — 91.9%; в математическом соревновании MathArena Apex — 23.4%, установив новый рекорд.
- В мультимодальных возможностях: MMMU-Pro — 81%; в понимании видео по Video-MMMU — 87.6%.
Технические детали и архитектура
- Параметр «thinking level»: Gemini 3 предоставляет управление
thinking_level, позволяющее разработчикам менять глубину внутренних рассуждений в обмен на задержку/стоимость. Модель трактуетthinking_levelкак относительный бюджет на внутренние многошаговые рассуждения, а не как строгую гарантию по токенам. По умолчанию для Pro обычноhigh. Это явный новый контроль для настройки многошагового планирования и глубины chain-of-thought. - Структурированные выводы и инструменты: модель поддерживает структурированные JSON‑выводы и может комбинироваться со встроенными инструментами (привязка к Google Search, контекст URL, выполнение кода и т. п.). Некоторые возможности structured-output+tools доступны только в режиме превью для
gemini-3-pro-preview. - Мультимодальные и агентные интеграции: Gemini 3 Pro специально создана для агентных рабочих процессов (инструменты + несколько агентов поверх кода/терминалов/браузера).
Ограничения и известные оговорки
- Неидеальная фактичность — возможны галлюцинации. Несмотря на заявленные Google улучшения, в критичных сценариях (право, медицина, финансы) по-прежнему необходимы проверка на основе источников и ручная проверка.
- Производительность на длинных контекстах зависит от задачи. Поддержка окна ввода 1M — жесткая способность, но эмпирическая эффективность на экстремальных длинах может снижаться (наблюдаются точечные просадки на 1M в отдельных тестах длинного контекста).
- Компромиссы по стоимости и задержке. Большие контексты и более высокий
thinking_levelувеличивают вычисления, задержку и стоимость; тарифы зависят от объемов токенов. Используйтеthinking_levelи стратегии чанкинга для управления затратами. - Безопасность и фильтры контента. Google продолжает применять политики безопасности и слои модерации; определенный контент и действия остаются ограниченными или приводят к режимам отказа.
Как Gemini 3 Pro Preview сравнивается с другими топ‑моделями
Высокоуровневое сравнение (preview → качественное):
Против Gemini 2.5 Pro: Качественный скачок в рассуждениях, агентном использовании инструментов и мультимодальной интеграции; значительно лучшее управление большим контекстом и понимание длинных форматов. DeepMind демонстрирует устойчивый рост по академическим рассуждениям, программированию и мультимодальным задачам.
Против GPT-5.1 и Claude Sonnet 4.5 (по отчетам): По набору бенчмарков Google/DeepMind Gemini 3 Pro представлен как лидер по ряду агентных, мультимодальных и длинноконтекстных метрик (см. Terminal-Bench, MMMU-Pro, AIME). Сравнительные результаты варьируются в зависимости от задачи.
Типичные и высокоценные сценарии использования
- Резюмирование больших документов/книг и Q&A: поддержка длинного контекста делает модель привлекательной для юридических, исследовательских и комплаенс‑команд.
- Понимание и генерация кода на масштабе репозитория: интеграция с инструментальными цепочками и улучшенные рассуждения помогают при рефакторинге крупных кодовых баз и в автоматизированных ревью кода.
- Мультимодальные продуктовые ассистенты: сценарии «изображение + текст + аудио» (поддержка клиентов с использованием скриншотов, записей звонков и документов).
- Генерация и редактирование медиа (фото → видео): ранее доступные в семействе Gemini возможности теперь включают преобразование фото→видео в стиле Veo / Flow; превью указывает на более глубокую мультимедийную генерацию для прототипов и медиа‑воркфлоу.
Как получить доступ к Gemini 3 Pro API
Шаг 1: Получить API‑ключ
Войдите на cometapi.com. Если вы еще не являетесь нашим пользователем, сначала зарегистрируйтесь. Войдите в консоль CometAPI. Получите учетный API‑ключ для доступа к интерфейсу. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.
Шаг 2: Отправляйте запросы к Gemini 3 Pro API
Выберите конечную точку «gemini-3-pro» для отправки API‑запроса и задайте тело запроса. Метод и тело запроса берутся из нашей документации на сайте. Для удобства также доступно тестирование в Apifox. Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из аккаунта. Базовый URL: Gemini Generating Content и Chat
Поместите ваш вопрос или запрос в поле content — именно на него модель ответит. Обработайте ответ API, чтобы получить сгенерированный ответ.
Шаг 3: Получение и проверка результатов
Обработайте ответ API, чтобы получить сгенерированный ответ. После обработки API вернет статус задачи и выходные данные.