Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

Ввод:$0.24/M
Вывод:$2/M
Контекст:1M
Максимальный вывод:65K
Gemini 2.5 Flash — это модель ИИ, разработанная компанией Google, предназначенная для предоставления быстрых и экономичных решений разработчикам, особенно для приложений, требующих повышенных возможностей инференса. Согласно анонсу предварительной версии Gemini 2.5 Flash, модель была выпущена в предварительном доступе 17 апреля 2025 года, поддерживает мультимодальный ввод и имеет контекстное окно в 1 миллион токенов. Эта модель поддерживает максимальную длину контекста 65,536 токенов.
Новый
Коммерческое использование
Playground
Обзор
Функции
Цены
API
Версии

Gemini 2.5 Flash разработан для сверхбыстрых ответов без компромиссов по качеству вывода. Он поддерживает мультимодальные входные данные — текст, изображения, аудио и видео — что делает его подходящим для самых разных приложений. Модель доступна через платформы Google AI Studio и Vertex AI, предоставляя разработчикам инструменты для бесшовной интеграции в различные системы.


Базовая информация (возможности)

Gemini 2.5 Flash представляет несколько выдающихся возможностей, которые выделяют его в семействе Gemini 2.5:

  • Гибридное рассуждение: Разработчики могут задать параметр thinking_budget, точно контролируя, сколько токенов модель выделит на внутреннее рассуждение перед выдачей ответа.
  • Фронт Парето: Находясь в оптимальной точке цена–производительность, Flash предлагает лучшее соотношение цена–интеллект среди моделей 2.5.
  • Мультимодальная поддержка: Нативно обрабатывает текст, изображения, видео и аудио, обеспечивая более богатые разговорные и аналитические возможности.
  • Контекст на 1 миллион токенов: Беспрецедентная длина контекста позволяет выполнять глубокий анализ и понимать длинные документы в одном запросе.

Версии модели

Gemini 2.5 Flash прошёл через следующие ключевые версии:

  • gemini-2.5-flash-lite-preview-09-2025: Повышена удобство использования инструментов: улучшена производительность на сложных многошаговых задачах, рост показателя SWE-Bench Verified на 5% (с 48.9% до 54%). Повышена эффективность: при включении reasoning достигается более высокое качество вывода с меньшим числом токенов, снижая задержку и затраты.
  • Preview 04-17: Ранний доступ с возможностью «thinking», доступен через gemini-2.5-flash-preview-04-17.
  • Stable General Availability (GA): По состоянию на 17 июня 2025 года стабильная конечная точка gemini-2.5-flash заменяет превью, гарантируя промышленную надёжность без изменений API по сравнению с превью от 20 мая.
  • Deprecation of Preview: Превью-эндпоинты были запланированы к отключению 15 июля 2025 года; пользователи должны перейти на GA-эндпоинт до этой даты.

По состоянию на июль 2025 года Gemini 2.5 Flash теперь публично доступен и стабилен (без изменений по сравнению с gemini-2.5-flash-preview-05-20). Если вы используете gemini-2.5-flash-preview-04-17, действующее превью-ценообразование будет сохраняться до запланированного вывода эндпоинта модели из эксплуатации 15 июля 2025 года, когда он будет отключён. Вы можете перейти на общедоступную модель "gemini-2.5-flash".

Быстрее, дешевле, умнее:

  • Цели дизайна: низкая задержка + высокая пропускная способность + низкая стоимость;
  • Общее ускорение в рассуждении, мультимодальной обработке и задачах с длинным текстом;
  • Использование токенов снижено на 20–30%, что существенно уменьшает расходы на рассуждение.

Технические характеристики

Окно входного контекста: до 1 миллиона токенов, позволяя удерживать обширный контекст.

Выходные токены: способна генерировать до 8,192 токенов на ответ.

Поддерживаемые модальности: текст, изображения, аудио и видео.

Платформы интеграции: доступна через Google AI Studio и Vertex AI.

Цены: конкурентная модель тарификации по токенам, обеспечивающая экономичное развертывание.


Технические детали

В основе Gemini 2.5 Flash — крупная языковая модель на базе трансформеров, обученная на смеси веба, кода, изображений и видео. Ключевые технические характеристики включают:

Мультимодальное обучение: Обученная согласованию нескольких модальностей, Flash может бесшовно смешивать текст с изображениями, видео или аудио, что полезно для задач вроде суммаризации видео или подписи аудио.

Динамический процесс мышления: Реализует внутренний цикл рассуждения, в котором модель планирует и декомпозирует сложные запросы перед финальным выводом.

Настраиваемые бюджеты thinking: Параметр thinking_budget можно устанавливать от 0 (без рассуждения) до 24,576 токенов, балансируя между задержкой и качеством ответа.

Интеграция инструментов: Поддерживает Grounding with Google Search, Code Execution, URL Context и Function Calling, что позволяет выполнять реальные действия прямо из естественных запросов.


Результаты бенчмарков

В строгих оценках Gemini 2.5 Flash демонстрирует лидирующую в индустрии производительность:

  • LMArena Hard Prompts: Уступил только 2.5 Pro на сложном бенчмарке Hard Prompts, показывая сильные многошаговые способности к рассуждению.
  • Результат MMLU 0.809: Превышает средний уровень моделей с точностью 0.809 на MMLU, что отражает широкий кругозор и силу рассуждений.
  • Задержка и пропускная способность: Достигает скорости декодирования 271.4 tokens/sec при 0.29 s Time-to-First-Token, что делает его идеальным для чувствительных к задержке нагрузок.
  • Лидер по цене и производительности: При стоимости $0.26/1 M tokens Flash превосходит многих конкурентов, сохраняя или превосходя их по ключевым бенчмаркам.

Эти результаты указывают на конкурентные преимущества Gemini 2.5 Flash в рассуждении, научном понимании, решении математических задач, программировании, визуальной интерпретации и многоязычных возможностях:

Gemini 2.5 Flash


Ограничения

Несмотря на мощь, у Gemini 2.5 Flash есть некоторые ограничения:

  • Риски безопасности: Модель может демонстрировать «назидательный» тон и выдавать правдоподобные, но неверные или предвзятые ответы (галлюцинации), особенно на пограничных запросах. Строгий человеческий контроль остаётся необходимым.
  • Лимиты скорости: Использование API ограничено лимитами (10 RPM, 250,000 TPM, 250 RPD на базовых уровнях), что может повлиять на пакетную обработку или высокие объёмы.
  • Нижняя планка интеллекта: Хотя для модели класса Flash возможности исключительно высоки, она менее точна, чем 2.5 Pro, в наиболее требовательных агентных задачах, таких как продвинутое программирование или мультиагентная координация.
  • Компромиссы по стоимости: Несмотря на лучшее соотношение цена–производительность, интенсивное использование режима thinking увеличивает общее потребление токенов, повышая стоимость для запросов с глубоким рассуждением.

Функции для Gemini 2.5 Flash

Изучите ключевые функции Gemini 2.5 Flash, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для Gemini 2.5 Flash

Изучите конкурентоспособные цены на Gemini 2.5 Flash, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как Gemini 2.5 Flash может улучшить ваши проекты, сохраняя при этом управляемые расходы.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Пример кода и API для Gemini 2.5 Flash

Gemini 2.5 Flash API — новейшая мультимодальная модель ИИ от Google, предназначенная для высокоскоростных и экономичных задач с управляемыми возможностями рассуждения, что позволяет разработчикам включать и отключать расширенные функции «мышления» через Gemini API
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Версии Gemini 2.5 Flash

Причина наличия нескольких снимков Gemini 2.5 Flash может включать такие потенциальные факторы, как: изменения в выходных данных после обновлений, требующие сохранения старых снимков для обеспечения согласованности; предоставление разработчикам переходного периода для адаптации и миграции; а также наличие разных снимков, соответствующих глобальным или региональным конечным точкам для оптимизации пользовательского опыта. Для получения подробной информации о различиях между версиями обратитесь к официальной документации.
version
gemini-2.5-flash
gemini-2.5-flash-all
gemini-2.5-flash-image
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-thinking
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-preview-05-20-thinking
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite
gemini-2.5-flash-lite-thinking
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-preview-09-2025

Больше моделей