Gemini 3 Pro (Preview) — новейшая флагманская мультимодальная модель рассуждения от Google/DeepMind в семействе Gemini 3. Она позиционируется как их «самая интеллектуальная модель на сегодняшний день», созданная для глубоких рассуждений, агентных рабочих процессов, продвинутого кодинга и мультимодального понимания с длинным контекстом (текст, изображения, аудио, видео, код и интеграции инструментов).
Ключевые возможности
- Модальности: текст, изображение, видео, аудио, PDF (и структурированные выводы инструментов).
- Агентность/инструменты: встроенные вызовы функций, поиск как инструмент, выполнение кода, контекст по URL и поддержка оркестрации многошаговых агентов. Механизм thought-signature сохраняет многошаговое рассуждение между вызовами.
- Кодинг и «vibe coding»: оптимизирована для генерации фронтенда, создания интерактивных интерфейсов и агентного кодинга (возглавляет соответствующие рейтинги, по данным Google). Позиционируется как их самая сильная модель для «vibe‑coding» на сегодняшний день.
- Новые параметры для разработчиков:
thinking_level(low|high) — баланс стоимости/задержки и глубины рассуждения, иmedia_resolution— управление мультимодальной детализацией на уровне изображения или кадра видео. Они помогают балансировать производительность, задержку и стоимость.
Результаты на бенчмарках
- Gemini3Pro занял первое место в LMARE с результатом 1501, опередив 1484 балла Grok-4.1-thinking, а также обойдя Claude Sonnet 4.5 и Opus 4.1.
- Также первое место на арене программирования WebDevArena с результатом 1487.
- В Humanity’s Last Exam по академическому рассуждению — 37.5% (без инструментов); в GPQA Diamond по науке — 91.9%; и в математическом соревновании MathArena Apex — 23.4%, установив новый рекорд.
- В мультимодальных возможностях MMMU-Pro — 81%; а в понимании видео Video-MMMU — 87.6%.

Технические подробности и архитектура
- Параметр «Thinking level»: Gemini 3 предоставляет управление
thinking_level, позволяющее разработчикам балансировать глубину внутреннего рассуждения и задержку/стоимость. Модель рассматриваетthinking_levelкак относительное разрешение на внутреннее многошаговое рассуждение, а не как строгую гарантию токенов. По умолчанию для Pro обычноhigh. Это явный новый контрол для настройки многошагового планирования и глубины chain-of-thought. - Структурированные выводы и инструменты: модель поддерживает структурированные JSON‑выводы и может сочетаться со встроенными инструментами (привязка к Google Search, контекст по URL, выполнение кода и т. д.). Некоторые возможности structured‑output+tools доступны только в режиме предварительного просмотра для
gemini-3-pro-preview. - Мультимодальные и агентные интеграции: Gemini 3 Pro явно создана для агентных рабочих процессов (инструменты + несколько агентов поверх кода/терминалов/браузера).
Ограничения и известные оговорки
- Не идеальная фактологичность — галлюцинации остаются возможны. Несмотря на заявленные Google существенные улучшения фактологичности, проверка на основе источников и человеческая ревизия по‑прежнему необходимы в задачах с высокими рисками (право, медицина, финансы).
- Производительность на длинном контексте зависит от задачи. Поддержка входного окна 1M — реальная возможность, но эмпирическая эффективность может снижаться на некоторых бенчмарках при экстремальных длинах (наблюдались точечные падения на 1M в ряде тестов на длинном контексте).
- Компромиссы между стоимостью и задержкой. Большие контексты и повышенные настройки
thinking_levelувеличивают вычисления, задержку и стоимость; уровни ценообразования зависят от объёма токенов. Используйтеthinking_levelи стратегии разбиения на блоки для управления затратами. - Безопасность и фильтры контента. Google продолжает применять политики безопасности и уровни модерации; определённый контент и действия остаются ограниченными или могут вызывать режимы отказа.
Как Gemini 3 Pro Preview сравнивается с другими топ‑моделями
Сравнение на высоком уровне (предпросмотр → качественно):
По сравнению с Gemini 2.5 Pro: скачкообразные улучшения в рассуждении, использовании агентных инструментов и мультимодальной интеграции; гораздо более масштабная обработка контекста и лучшее понимание длинных форматов. DeepMind демонстрирует устойчивые улучшения в академическом рассуждении, кодинге и мультимодальных задачах.
По сравнению с GPT-5.1 и Claude Sonnet 4.5 (по данным): согласно набору бенчмарков Google/DeepMind, Gemini 3 Pro представлена лидирующей по ряду метрик агентности, мультимодальности и длинного контекста (см. Terminal-Bench, MMMU-Pro, AIME). Сравнительные результаты зависят от задачи.
Типичные и наиболее ценные варианты использования
- Реферат/суммаризация больших документов и книг, вопросы‑ответы: поддержка длинного контекста делает её привлекательной для юридических, исследовательских и комплаенс‑команд.
- Понимание и генерация кода в масштабе репозитория: интеграция с инструментальными цепочками для разработки и улучшенное рассуждение помогают при рефакторинге крупных кодовых баз и автоматизации потоков обзора кода.
- Мультимодальные продуктовые ассистенты: рабочие процессы изображение + текст + аудио (службы поддержки, обрабатывающие скриншоты, фрагменты звонков и документы).
- Генерация и редактирование медиа (фото → видео): прежние возможности семейства Gemini теперь включают функции photo→video в стиле Veo / Flow; предварительный просмотр предполагает более глубокую мультимедийную генерацию для прототипов и медиа‑процессов.