Gemini 2.5 Flash разработан для выдачи быстрых ответов без ущерба для качества результата. Он поддерживает мультимодальные входы, включая текст, изображения, аудио и видео, что делает его подходящим для разнообразных приложений. Модель доступна через такие платформы, как Google AI Studio и Vertex AI, предоставляя разработчикам инструменты для бесшовной интеграции в различные системы.

Основная информация (возможности)

Gemini 2.5 Flash предлагает несколько выдающихся функций, которые выделяют его в семействе Gemini 2.5:

Гибридное рассуждение: Разработчики могут задать параметр thinking_budget, чтобы тонко контролировать, сколько токенов модель выделяет на внутреннее рассуждение перед выводом.
Граница Парето: Находясь в оптимальной точке цена–производительность, Flash предлагает лучшее соотношение цены и «интеллекта» среди моделей 2.5.
Мультимодальная поддержка: Родная обработка текста, изображений, видео и аудио, обеспечивающая более богатые разговорные и аналитические возможности.
Контекст на 1 миллион токенов: Непревзойденная длина контекста позволяет выполнять глубокий анализ и понимать длинные документы в одном запросе.

Версии модели

Gemini 2.5 Flash прошел через следующие ключевые версии:

gemini-2.5-flash-lite-preview-09-2025: Улучшенная удобство использования инструментов: Повышена производительность на сложных многошаговых задачах, рост метрики SWE-Bench Verified на 5% (с 48.9% до 54%). Повышена эффективность: При включении рассуждения достигается более высокое качество вывода при меньшем числе токенов, что снижает задержки и затраты.
Preview 04-17: Ранний доступ со способностью «мышления», доступен через gemini-2.5-flash-preview-04-17.
Стабильный релиз General Availability (GA): С 17 июня 2025 г. стабильная конечная точка gemini-2.5-flash заменяет превью, обеспечивая промышленную надежность без изменений API относительно превью от 20 мая.
Вывод превью из эксплуатации: Конечные точки превью были запланированы к отключению 15 июля 2025 г.; пользователи должны перейти на GA-эндпоинт до этой даты.

По состоянию на июль 2025 г. Gemini 2.5 Flash теперь публично доступен и стабилен (без изменений относительно gemini-2.5-flash-preview-05-20). Если вы используете gemini-2.5-flash-preview-04-17, существующее превью-ценообразование будет действовать до запланированного вывода конечной точки модели из эксплуатации 15 июля 2025 г., когда она будет отключена. Вы можете перейти на общедоступную модель "gemini-2.5-flash".

Быстрее, дешевле, умнее:

Цели проектирования: низкая задержка + высокая пропускная способность + низкая стоимость;
Общий ускоренный режим работы при рассуждении, мультимодальной обработке и задачах с длинным текстом;
Использование токенов снижено на 20–30%, что существенно сокращает стоимость рассуждения.

Технические характеристики

Окно входного контекста: до 1 миллиона токенов, что обеспечивает обширное удержание контекста.

Выходные токены: может генерировать до 8,192 токенов на ответ.

Поддерживаемые модальности: текст, изображения, аудио и видео.

Платформы интеграции: доступен через Google AI Studio и Vertex AI.

Ценообразование: конкурентная модель тарификации на основе токенов, обеспечивающая экономичное развертывание.

Технические подробности

Под капотом Gemini 2.5 Flash — это крупная языковая модель на основе трансформеров, обученная на смеси данных из веба, кода, изображений и видео. Ключевые технические характеристики включают:

Мультимодальное обучение: Обученная согласовывать несколько модальностей, Flash может бесшовно смешивать текст с изображениями, видео или аудио, что полезно для задач вроде суммаризации видео или подписи аудио.

Динамический процесс мышления: Реализует внутренний цикл рассуждения, в котором модель планирует и декомпозирует сложные подсказки перед финальным выводом.

Настраиваемые бюджеты на мышление: Параметр thinking_budget можно установить от 0 (без рассуждения) до 24,576 токенов, позволяя балансировать между задержкой и качеством ответа.

Интеграция инструментов: Поддерживает Grounding with Google Search, Code Execution, URL Context и Function Calling, что позволяет выполнять реальные действия напрямую из запросов на естественном языке.

Производительность в бенчмарках

В ходе строгих оценок Gemini 2.5 Flash демонстрирует ведущую в отрасли производительность:

LMArena Hard Prompts: Занял место вторым после 2.5 Pro на сложном бенчмарке Hard Prompts, продемонстрировав сильные многошаговые способности к рассуждению.
Оценка MMLU 0.809: Превышает средний уровень моделей с точностью 0.809 по MMLU, отражая широкий охват доменов и силу рассуждений.
Задержка и пропускная способность: Достигает скорости декодирования 271.4 токенов/с при 0.29 с Time-to-First-Token, что делает его идеальным для сценариев, чувствительных к задержке.
Лидер по соотношению цены и производительности: При \$0.26/1 M токенов Flash обходится дешевле многих конкурентов, при этом соответствуя им или превосходя их по ключевым бенчмаркам.

Эти результаты указывают на конкурентное преимущество Gemini 2.5 Flash в рассуждении, научном понимании, решении математических задач, кодировании, визуальной интерпретации и многоязычных возможностях.

Ограничения

Хотя Gemini 2.5 Flash мощен, у него есть некоторые ограничения:

Риски для безопасности: Модель может проявлять «поучительный» тон и выдавать правдоподобные, но неверные или предвзятые ответы (галлюцинации), особенно по пограничным запросам. Строгий человеческий контроль остается необходимым.
Лимиты скорости: Использование API ограничено лимитами (10 RPM, 250,000 TPM, 250 RPD на стандартных тарифах), что может влиять на пакетную обработку или высокообъемные приложения.
Нижняя планка интеллекта: Хотя модель исключительно способна для класса Flash, она остается менее точной, чем 2.5 Pro, в наиболее требовательных агентных задачах, таких как продвинутое кодирование или многоагентная координация.
Компромиссы стоимости: Несмотря на лучшее соотношение цены и производительности, обширное использование режима мышления увеличивает общий расход токенов, повышая затраты на глубоко рассуждающие запросы.

Функции для Gemini 2.5 Flash

Изучите ключевые функции Gemini 2.5 Flash, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для Gemini 2.5 Flash

Изучите конкурентоспособные цены на Gemini 2.5 Flash, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как Gemini 2.5 Flash может улучшить ваши проекты, сохраняя при этом управляемые расходы.

gemini-2.5-flash (same price across variants)

Model family	Variant (model name)	Input price (USD / 1M tokens)	Output price (USD / 1M tokens)
gemini-2.5-flash	gemini-2.5-flash-thinking	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash-all	$0.24	$2.00
gemini-2.5-flash	gemini-2.5-flash	$0.24	$2.00

Пример кода и API для Gemini 2.5 Flash

Gemini 2.5 Flash API — новейшая мультимодальная модель ИИ от Google, предназначенная для задач, требующих высокой скорости и низких затрат, с управляемыми возможностями рассуждения, позволяющая разработчикам включать или отключать расширенные функции «мышления» через Gemini API

Python
JavaScript
Curl

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Версии Gemini 2.5 Flash

Причина наличия нескольких снимков Gemini 2.5 Flash может включать такие потенциальные факторы, как: изменения в выходных данных после обновлений, требующие сохранения старых снимков для обеспечения согласованности; предоставление разработчикам переходного периода для адаптации и миграции; а также наличие разных снимков, соответствующих глобальным или региональным конечным точкам для оптимизации пользовательского опыта. Для получения подробной информации о различиях между версиями обратитесь к официальной документации.

version
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-thinking
gemini-2.5-flash-image
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking

Основная информация (возможности)

Gemini 2.5 Flash предлагает несколько выдающихся функций, которые выделяют его в семействе Gemini 2.5:

Гибридное рассуждение: Разработчики могут задать параметр thinking_budget, чтобы тонко контролировать, сколько токенов модель выделяет на внутреннее рассуждение перед выводом.
Граница Парето: Находясь в оптимальной точке цена–производительность, Flash предлагает лучшее соотношение цены и «интеллекта» среди моделей 2.5.
Мультимодальная поддержка: Родная обработка текста, изображений, видео и аудио, обеспечивающая более богатые разговорные и аналитические возможности.
Контекст на 1 миллион токенов: Непревзойденная длина контекста позволяет выполнять глубокий анализ и понимать длинные документы в одном запросе.

Версии модели

Gemini 2.5 Flash прошел через следующие ключевые версии:

gemini-2.5-flash-lite-preview-09-2025: Улучшенная удобство использования инструментов: Повышена производительность на сложных многошаговых задачах, рост метрики SWE-Bench Verified на 5% (с 48.9% до 54%). Повышена эффективность: При включении рассуждения достигается более высокое качество вывода при меньшем числе токенов, что снижает задержки и затраты.
Preview 04-17: Ранний доступ со способностью «мышления», доступен через gemini-2.5-flash-preview-04-17.
Стабильный релиз General Availability (GA): С 17 июня 2025 г. стабильная конечная точка gemini-2.5-flash заменяет превью, обеспечивая промышленную надежность без изменений API относительно превью от 20 мая.
Вывод превью из эксплуатации: Конечные точки превью были запланированы к отключению 15 июля 2025 г.; пользователи должны перейти на GA-эндпоинт до этой даты.

Быстрее, дешевле, умнее:

Цели проектирования: низкая задержка + высокая пропускная способность + низкая стоимость;
Общий ускоренный режим работы при рассуждении, мультимодальной обработке и задачах с длинным текстом;
Использование токенов снижено на 20–30%, что существенно сокращает стоимость рассуждения.

Технические характеристики

Окно входного контекста: до 1 миллиона токенов, что обеспечивает обширное удержание контекста.

Выходные токены: может генерировать до 8,192 токенов на ответ.

Поддерживаемые модальности: текст, изображения, аудио и видео.

Платформы интеграции: доступен через Google AI Studio и Vertex AI.

Технические подробности

Производительность в бенчмарках

В ходе строгих оценок Gemini 2.5 Flash демонстрирует ведущую в отрасли производительность:

LMArena Hard Prompts: Занял место вторым после 2.5 Pro на сложном бенчмарке Hard Prompts, продемонстрировав сильные многошаговые способности к рассуждению.
Оценка MMLU 0.809: Превышает средний уровень моделей с точностью 0.809 по MMLU, отражая широкий охват доменов и силу рассуждений.
Задержка и пропускная способность: Достигает скорости декодирования 271.4 токенов/с при 0.29 с Time-to-First-Token, что делает его идеальным для сценариев, чувствительных к задержке.
Лидер по соотношению цены и производительности: При \$0.26/1 M токенов Flash обходится дешевле многих конкурентов, при этом соответствуя им или превосходя их по ключевым бенчмаркам.

Ограничения

Хотя Gemini 2.5 Flash мощен, у него есть некоторые ограничения:

Риски для безопасности: Модель может проявлять «поучительный» тон и выдавать правдоподобные, но неверные или предвзятые ответы (галлюцинации), особенно по пограничным запросам. Строгий человеческий контроль остается необходимым.
Лимиты скорости: Использование API ограничено лимитами (10 RPM, 250,000 TPM, 250 RPD на стандартных тарифах), что может влиять на пакетную обработку или высокообъемные приложения.
Нижняя планка интеллекта: Хотя модель исключительно способна для класса Flash, она остается менее точной, чем 2.5 Pro, в наиболее требовательных агентных задачах, таких как продвинутое кодирование или многоагентная координация.
Компромиссы стоимости: Несмотря на лучшее соотношение цены и производительности, обширное использование режима мышления увеличивает общий расход токенов, повышая затраты на глубоко рассуждающие запросы.

Gemini 2.5 Flash

Больше моделей

Claude Opus 4.7

Claude Sonnet 4.6

GPT 5.5 Pro

GPT 5.5

GPT Image 2 ALL

GPT 5.5 ALL

Связанные блоги

Nano Banana 2 Flash Скоро – стремительная эволюция генерации изображений на базе ИИ

Скидки Nano Banana: настоящий способ сэкономить деньги для разработчиков в 2026 году

Сломан ли бесплатный API Gemini 2.5 Pro? Изменения бесплатной квоты в 2025 году.

Полное руководство по нано-банану: как использовать и как выбрать лучший вариант

Как использовать Nano Banana через API? (Gemini-2-5-flash-image)