Gemini 3 Pro (Preview) — новейшая флагманская мультимодальная модель рассуждения от Google/DeepMind в семействе Gemini 3. Она позиционируется как их «самая интеллектуальная модель на сегодняшний день», созданная для глубоких рассуждений, агентных рабочих процессов, продвинутого кодинга и мультимодального понимания с длинным контекстом (текст, изображения, аудио, видео, код и интеграции инструментов).

Ключевые возможности

Модальности: текст, изображение, видео, аудио, PDF (и структурированные выводы инструментов).
Агентность/инструменты: встроенные вызовы функций, поиск как инструмент, выполнение кода, контекст по URL и поддержка оркестрации многошаговых агентов. Механизм thought-signature сохраняет многошаговое рассуждение между вызовами.
Кодинг и «vibe coding»: оптимизирована для генерации фронтенда, создания интерактивных интерфейсов и агентного кодинга (возглавляет соответствующие рейтинги, по данным Google). Позиционируется как их самая сильная модель для «vibe‑coding» на сегодняшний день.
Новые параметры для разработчиков: thinking_level (low|high) — баланс стоимости/задержки и глубины рассуждения, и media_resolution — управление мультимодальной детализацией на уровне изображения или кадра видео. Они помогают балансировать производительность, задержку и стоимость.

Результаты на бенчмарках

Gemini3Pro занял первое место в LMARE с результатом 1501, опередив 1484 балла Grok-4.1-thinking, а также обойдя Claude Sonnet 4.5 и Opus 4.1.
Также первое место на арене программирования WebDevArena с результатом 1487.
В Humanity’s Last Exam по академическому рассуждению — 37.5% (без инструментов); в GPQA Diamond по науке — 91.9%; и в математическом соревновании MathArena Apex — 23.4%, установив новый рекорд.
В мультимодальных возможностях MMMU-Pro — 81%; а в понимании видео Video-MMMU — 87.6%.

Технические подробности и архитектура

Параметр «Thinking level»: Gemini 3 предоставляет управление thinking_level, позволяющее разработчикам балансировать глубину внутреннего рассуждения и задержку/стоимость. Модель рассматривает thinking_level как относительное разрешение на внутреннее многошаговое рассуждение, а не как строгую гарантию токенов. По умолчанию для Pro обычно high. Это явный новый контрол для настройки многошагового планирования и глубины chain-of-thought.
Структурированные выводы и инструменты: модель поддерживает структурированные JSON‑выводы и может сочетаться со встроенными инструментами (привязка к Google Search, контекст по URL, выполнение кода и т. д.). Некоторые возможности structured‑output+tools доступны только в режиме предварительного просмотра для gemini-3-pro-preview.
Мультимодальные и агентные интеграции: Gemini 3 Pro явно создана для агентных рабочих процессов (инструменты + несколько агентов поверх кода/терминалов/браузера).

Ограничения и известные оговорки

Не идеальная фактологичность — галлюцинации остаются возможны. Несмотря на заявленные Google существенные улучшения фактологичности, проверка на основе источников и человеческая ревизия по‑прежнему необходимы в задачах с высокими рисками (право, медицина, финансы).
Производительность на длинном контексте зависит от задачи. Поддержка входного окна 1M — реальная возможность, но эмпирическая эффективность может снижаться на некоторых бенчмарках при экстремальных длинах (наблюдались точечные падения на 1M в ряде тестов на длинном контексте).
Компромиссы между стоимостью и задержкой. Большие контексты и повышенные настройки thinking_level увеличивают вычисления, задержку и стоимость; уровни ценообразования зависят от объёма токенов. Используйте thinking_level и стратегии разбиения на блоки для управления затратами.
Безопасность и фильтры контента. Google продолжает применять политики безопасности и уровни модерации; определённый контент и действия остаются ограниченными или могут вызывать режимы отказа.

Как Gemini 3 Pro Preview сравнивается с другими топ‑моделями

Сравнение на высоком уровне (предпросмотр → качественно):

По сравнению с Gemini 2.5 Pro: скачкообразные улучшения в рассуждении, использовании агентных инструментов и мультимодальной интеграции; гораздо более масштабная обработка контекста и лучшее понимание длинных форматов. DeepMind демонстрирует устойчивые улучшения в академическом рассуждении, кодинге и мультимодальных задачах.

По сравнению с GPT-5.1 и Claude Sonnet 4.5 (по данным): согласно набору бенчмарков Google/DeepMind, Gemini 3 Pro представлена лидирующей по ряду метрик агентности, мультимодальности и длинного контекста (см. Terminal-Bench, MMMU-Pro, AIME). Сравнительные результаты зависят от задачи.

Типичные и наиболее ценные варианты использования

Реферат/суммаризация больших документов и книг, вопросы‑ответы: поддержка длинного контекста делает её привлекательной для юридических, исследовательских и комплаенс‑команд.
Понимание и генерация кода в масштабе репозитория: интеграция с инструментальными цепочками для разработки и улучшенное рассуждение помогают при рефакторинге крупных кодовых баз и автоматизации потоков обзора кода.
Мультимодальные продуктовые ассистенты: рабочие процессы изображение + текст + аудио (службы поддержки, обрабатывающие скриншоты, фрагменты звонков и документы).
Генерация и редактирование медиа (фото → видео): прежние возможности семейства Gemini теперь включают функции photo→video в стиле Veo / Flow; предварительный просмотр предполагает более глубокую мультимедийную генерацию для прототипов и медиа‑процессов.