Google представила Gemini 3.5 Flash на Google I/O 2026 как новейшую модель серии Flash, обеспечивающую возможности передового уровня при скорости и стоимости класса Flash. Выпущена примерно 19 мая 2026 года, сочетает продвинутое рассуждение, сильные агентные возможности и мультимодальное понимание при сохранении низкой задержки.
Эта модель особенно выделяется для разработчиков, предприятий и создателей ИИ, которым нужна высокопроизводительная система без накладных расходов более крупных моделей «Pro». Она сопоставима или превосходит предыдущие Pro-модели по ключевым агентным и кодовым бенчмаркам, обеспечивая при этом лучшую скорость и эффективность.
Key Highlights (структура выделенного сниппета):
- Производительность: превосходит Gemini 3.1 Pro на Terminal-Bench 2.1 (76.2% против 70.3%), MCP Atlas (83.6%) и др.
- Скорость: задержка уровня Flash для сценариев реального времени и больших объёмов.
- Контекст: до 1M токенов ввода, 64k токенов вывода.
- Мультимодальность: нативно обрабатывает текст, изображения, видео, аудио, PDF.
- Стоимость: примерно $1.50 / 1M токенов ввода и $9 / 1M токенов вывода (зависит от провайдера/платформы).
Для бесшовной интеграции CometAPI предоставляет единый, надёжный прокси к моделям Gemini (и многим другим) с повышенными лимитами, упрощённым биллингом, резервным маршрутизацией и аналитикой использования — идеально для продакшн‑приложений, масштабирующихся с Gemini 3.5 Flash.
What is Gemini 3.5 Flash?
Gemini 3.5 Flash — самая «умная» модель уровня Flash от Google, созданная для устойчивой производительности передового уровня в агентных и кодовых задачах в масштабе. Она основана на серии Gemini 3, сочетая Pro‑уровень рассуждения с эффективностью класса Flash.
В отличие от более лёгких вариантов «Lite», нацеленных исключительно на снижение стоимости, или более тяжёлых моделей Pro, приоритезирующих максимальный интеллект, 3.5 Flash блестяще справляется с реальными многошаговыми сценариями: развертывание субагентов, быстрые итерации кода («vibe coding»), параллельное использование инструментов и длинные процессы, требующие поддержания контекста на многих шагах.
Core Capabilities:
- Мультимодальные входы: текст, изображения, видео, аудио, PDF.
- Инструменты и агентные возможности: вызов функций, выполнение кода, привязка к поиску, поиск по файлам, контекст по URL. (Computer Use пока не поддерживается.)
- Режимы мышления: настраиваемые уровни усилий для баланса глубины и скорости.
- Готовность к продакшну: статус GA со стабильным версионированием (
gemini-3.5-flash).
Поддерживает контекст в 1M токенов, что позволяет обрабатывать огромные документы, кодовые базы или историю диалогов — критично для сложных агентов.
What's New in Gemini 3.5 Flash
По сравнению с Gemini 3 Flash и 3.1 Pro, 3.5 Flash приносит значимые улучшения:
- Улучшенная агентная производительность: на 42% лучше на дальнобойных многошаговых кибер‑бенчмарках при снижении токенов до 72% в некоторых случаях.
- Лучшее кодирование: лидирует в Terminal-Bench и вариантах SWE-Bench для реальных рабочих процессов разработчиков.
- Усиленное мультимодальное рассуждение: топовые результаты на CharXiv (84.2%) и MMMU-Pro.
- Координация параллельных субагентов: нативная поддержка сложной мультиагентной оркестрации (показано в примерах Antigravity, таких как миграция кодовой базы и разработка игр).
- Прирост эффективности: сохраняет или улучшает скорость при повышении интеллекта, делая модель подходящей для высоконагруженного продакшна.
Benchmark Comparison Table:
| Benchmark | Gemini 3.5 Flash | Gemini 3 Flash | Gemini 3.1 Pro | Notes |
|---|---|---|---|---|
| Terminal-Bench 2.1 (Agentic) | 76.2% | 58.0% | 70.3% | Сильное преимущество в коде |
| MCP Atlas (Multi-step) | 83.6% | 62.0% | 78.2% | Агентные рабочие процессы |
| CharXiv (Multimodal) | 84.2% | 80.3% | 83.3% | Понимание графиков |
| GDPval-AA (Elo) | 1656 | 1204 | 1314 | Интеллектуальная работа |
| MMMU-Pro | 83.6% | 81.2% | 80.5% | Мультимодальность |
Реальные пользователи (например, Shopify, Macquarie Bank, Salesforce) сообщают о росте в прогнозировании, обработке документов и корпоративной автоматизации.
Behavior Adjustments and Key Changes
Google представила важные поведенческие обновления для большей эффективности и согласованности.
New Default Effort Level: Medium
Значение по умолчанию для thinking_level изменено с high (в предыдущих превью) на medium. Это даёт отличные результаты для большинства задач, снижая задержку и стоимость. Используйте high для наиболее сложного рассуждения.
Effort Level Comparison Table:
| Effort Level | Best For | Latency/Cost Impact | Recommended Use Cases |
|---|---|---|---|
| minimal | Quick responses | Lowest | Chat, simple facts, basic routing |
| low | Fewer-step agentic/code | Low | Analysis, writing, quick tools |
| medium (default) | Most tasks | Balanced | Complex code, standard agents |
| high | Deep reasoning | Higher | Hard math, toughest agent tasks |
Code Example (Python - Setting Thinking Level):
Python
from google import genai
from google.genai import types
client = genai.Client() # Assumes API key configured via env or auth
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Prove that the square root of 2 is irrational.",
config=types.GenerateContentConfig(
thinking_config=types.ThinkingConfig(thinking_level="high")
),
)
print(response.text)
Похожие шаблоны применимы в JavaScript, REST и т. д.
Thought Preservation
Модель теперь автоматически сохраняет промежуточное рассуждение в многошаговых диалогах при наличии полной истории (включая «подписи мыслей»). Это повышает эффективность в итеративной отладке, рефакторинге и длительных сессиях агентов — никаких дополнительных изменений API не требуется для Interactions API; GenerateContent выигрывает от передачи полной истории.
Parameter Updates (Gemini 3.x Best Practices)
- Избегайте ручной настройки temperature, top_p, top_k — значения по умолчанию оптимизированы.
- Используйте thinking_level вместо числового thinking_budget.
- Строгое соответствие ответов функций (id, name, count) критично, иначе возможны пустые ответы.
How to Access and Use Gemini 3.5 Flash API
1. Access Options:
- Google AI Studio (самый простой для тестирования) — доступен бесплатный тариф.
- Gemini API (напрямую по API‑ключу).
- Vertex AI / Gemini Enterprise Agent Platform (корпоративные функции, повышенные лимиты).
- Сторонние, такие как CometAPI (рекомендуется для упрощённого доступа к нескольким провайдерам, аналитики и надёжности).
Get Started with CometAPI: CometAPI агрегирует доступ к моделям Gemini через единый эндпоинт с улучшенной обработкой ошибок, дашбордами использования и оповещениями о стоимости. Зарегистрируйтесь на Cometapi.com, получите ключ и направляйте запросы к gemini-3.5-flash (или эквивалентному ID модели) с минимальными изменениями кода. Это идеально для масштабирования без управления множеством API‑ключей и ручного решения проблем с лимитами.
2. Basic Setup and Hello World
Python Quickstart:
import osfrom google import genaifrom google.genai import types# Configure client (API key from env or Google auth)genai.configure(api_key=os.environ["GEMINI_API_KEY"]) # Or use Client() with defaultsclient = genai.Client()response = client.models.generate_content( model="gemini-3.5-flash", contents="Explain parallel agentic execution in three sentences.",)print(response.text)
JavaScript Example:
import { GoogleGenAI } from "@google/genai";const ai = new GoogleGenAI({});async function main() { const response = await ai.models.generateContent({ model: "gemini-3.5-flash", contents: "Explain parallel agentic execution in three sentences.", }); console.log(response.text);}main();
REST API Curl:
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \ -H "x-goog-api-key: $GEMINI_API_KEY" \ -H 'Content-Type: application/json' \ -X POST \ -d '{ "contents": [{ "parts": [{"text": "Hello, Gemini 3.5 Flash!"}] }] }'```<grok-card data-id="a39ea3" data-type="citation_card" data-plain-type="render_inline_citation" ></grok-card>
3. Advanced Usage: Multimodal, Function Calling, and Agents
Multimodal Example (Image + Text):
# Assuming you have an image file or bytesimage_part = types.Part.from_bytes(data=image_bytes, mime_type="image/jpeg")response = client.models.generate_content( model="gemini-3.5-flash", contents=[image_part, "Describe this image in detail and suggest improvements."],)
Function Calling for Agentic Workflows:
Определите инструменты, позвольте модели вызывать их, затем предоставьте ответы (строго соответствуя id/name).
Structured Outputs:
Используйте схемы ответов для надёжного парсинга JSON — идеально для конвейеров извлечения данных.
Code Execution Tool:
Включите, чтобы модель могла выполнять код Python в песочнице для математики, анализа данных и т. п.
Для полноценных агентных систем рассмотрите Managed Agents от Google (превью) или постройте собственные с помощью Cometapi.com для оркестрации, логирования и контроля затрат.
Advice for Gemini 3.5 Flash API
- Используйте средний уровень усилий по умолчанию — переопределяйте только при необходимости.
- Передавайте полную историю для сохранения хода рассуждений в чатах/агентах.
- Применяйте кэширование контекста для повторяющихся больших подсказок (значительная экономия).
- Строго обрабатывайте ответы инструментов, чтобы избежать сбоев.
- Отслеживайте токены — контекст 1M мощный, но дорогой при неправильном использовании.
- Совмещайте с Cometapi.com — внедряйте интеллектуальную маршрутизацию (например, резерв на Flash-Lite для простых запросов), слои кэширования, дашборды использования и унифицированную обработку ошибок. Это оптимизирует расходы и надёжность для высоких нагрузок и критичных приложений.
Best Practices for Using Gemini 3.5 Flash API
Prompt Engineering:
- Используйте чёткие, структурированные подсказки с ролями (System + User).
- Указывайте формат вывода (JSON, таблицы Markdown).
- Chain-of-Thought: «Думай шаг за шагом...»
Cost Optimization:
- Используйте «medium» по умолчанию.
- Применяйте кэширование (где поддерживается).
- Отслеживайте использование токенов через дашборды CometAPI.
- Пакетуйте не срочные задачи.
Error Handling & Reliability:
- Реализуйте ретраи с экспоненциальной задержкой.
- Используйте CometAPI для автоматических фолбэков на другие модели.
Agentic Design:
- Разбивайте сложные задачи на субагентов.
- Поддерживайте состояние сессиями чата или внешней памятью.
- Комбинируйте с Antigravity или собственной оркестрацией.
Real-World Applications and Case Studies
- Кодовые агенты: итеративная разработка с быстрыми циклами обратной связи.
- Корпоративная автоматизация: обработка документов, извлечение данных (например, успехи Box Life Sciences).
- Мультимодальный анализ: видео/аудио + текст для глубоких инсайтов.
- Клиентские поддерживающие агенты: ведение диалога с длинным контекстом.
Интеграция через Cometapi.com позволяет командам A/B‑тестировать подсказки/модели, отслеживать ROI по рабочим процессам и масштабироваться без инфраструктурных сложностей.
Comparison: Gemini 3.5 Flash vs. Competitors & Previous Models
Gemini 3.5 Flash предлагает отличное соотношение цена/производительность для агентных/кодовых сценариев. Часто быстрее и экономичнее полноценных Pro‑моделей для многих задач, при этом сокращает разрыв по «сырому» интеллекта.
When to Choose It:
- Высокопропускные приложения (чат-боты, ассистенты для кодирования).
- Агентная автоматизация.
- Мультимодальный анализ с жёсткими требованиями по скорости.
- Продакшн с ограниченным бюджетом.
Limitations: всё ещё есть нюансы превью/стабильности; цены выше, чем у старых уровней Flash для некоторых выводов. Тщательно тестируйте.
Performance Comparison Table (Approximate, Based on Public Reports):
| Model | Agentic Strength | Speed | Cost (Input/Output) | Best For |
|---|---|---|---|---|
| Gemini 3.5 Flash | High (Frontier) | Very High | $1.50 / $9 | Agents, Coding, Scale |
| Gemini 3 Flash | Medium-High | High | Lower | General Fast Tasks |
| Gemini 3.1 Pro | Very High | Medium | Higher | Max Intelligence |
| Lite Variants | Medium | Highest | Lowest | High-Volume Simple |
Common Pitfalls and Troubleshooting
- Несоответствие ответов функций → пустые выводы.
- Чрезмерное использование «high» → рост затрат/задержки.
- Неиспользование кэширования для повторяющихся контекстов.
- Сюрпризы с лимитами токенов в длинных сессиях.
Conclusion: Start Building with Gemini 3.5 Flash Today
Gemini 3.5 Flash демократизирует возможности передового ИИ для приложений, чувствительных к скорости и стоимости. Её GA‑релиз, в сочетании с продуманными обновлениями поведения, такими как «medium» по умолчанию и сохранение хода рассуждений, делает её мощным инструментом для продакшна.
Action Steps:
- Get your API key and test .
- Реализуйте через SDK по приведённым выше примерам кода.
- Масштабируйтесь умно с помощью Cometapi.com для проксирования, оптимизации, мониторинга и поддержки нескольких LLM.
- Экспериментируйте с агентными паттернами и делитесь результатами.
Следуя этому руководству, вы эффективно задействуете Gemini 3.5 Flash, минимизируя риски и затраты. Для бесшовного управления API, ориентированного на современные рабочие процессы ИИ, посетите CometAPI и интегрируйтесь уже сегодня.
