МоделиЦеныПредприятие
500+ API моделей ИИ, всё в одном API. Только в CometAPI
API моделей
Разработчик
Быстрый стартДокументацияПанель управления API
Компания
О насПредприятие
Ресурсы
AI МоделиБлогЖурнал измененийПоддержка
Условия обслуживанияПолитика конфиденциальности
© 2026 CometAPI · All rights reserved
Home/Models/Google/Gemini 2.5 Flash
G

Gemini 2.5 Flash

Ввод:$0.24/M
Вывод:$2/M
Контекст:1M
Максимальный вывод:65K
Gemini 2.5 Flash — это модель ИИ, разработанная компанией Google, предназначенная для предоставления быстрых и экономичных решений разработчикам, особенно для приложений, требующих повышенных возможностей инференса. Согласно анонсу предварительной версии Gemini 2.5 Flash, модель была выпущена в предварительном доступе 17 апреля 2025 года, поддерживает мультимодальный ввод и имеет контекстное окно в 1 миллион токенов. Эта модель поддерживает максимальную длину контекста 65,536 токенов.
Новый
Коммерческое использование
Playground
Обзор
Функции
Цены
API
Версии

Gemini 2.5 Flash разработан для выдачи быстрых ответов без ущерба для качества результата. Он поддерживает мультимодальные входы, включая текст, изображения, аудио и видео, что делает его подходящим для разнообразных приложений. Модель доступна через такие платформы, как Google AI Studio и Vertex AI, предоставляя разработчикам инструменты для бесшовной интеграции в различные системы.


Основная информация (возможности)

Gemini 2.5 Flash предлагает несколько выдающихся функций, которые выделяют его в семействе Gemini 2.5:

  • Гибридное рассуждение: Разработчики могут задать параметр thinking_budget, чтобы тонко контролировать, сколько токенов модель выделяет на внутреннее рассуждение перед выводом.
  • Граница Парето: Находясь в оптимальной точке цена–производительность, Flash предлагает лучшее соотношение цены и «интеллекта» среди моделей 2.5.
  • Мультимодальная поддержка: Родная обработка текста, изображений, видео и аудио, обеспечивающая более богатые разговорные и аналитические возможности.
  • Контекст на 1 миллион токенов: Непревзойденная длина контекста позволяет выполнять глубокий анализ и понимать длинные документы в одном запросе.

Версии модели

Gemini 2.5 Flash прошел через следующие ключевые версии:

  • gemini-2.5-flash-lite-preview-09-2025: Улучшенная удобство использования инструментов: Повышена производительность на сложных многошаговых задачах, рост метрики SWE-Bench Verified на 5% (с 48.9% до 54%). Повышена эффективность: При включении рассуждения достигается более высокое качество вывода при меньшем числе токенов, что снижает задержки и затраты.
  • Preview 04-17: Ранний доступ со способностью «мышления», доступен через gemini-2.5-flash-preview-04-17.
  • Стабильный релиз General Availability (GA): С 17 июня 2025 г. стабильная конечная точка gemini-2.5-flash заменяет превью, обеспечивая промышленную надежность без изменений API относительно превью от 20 мая.
  • Вывод превью из эксплуатации: Конечные точки превью были запланированы к отключению 15 июля 2025 г.; пользователи должны перейти на GA-эндпоинт до этой даты.

По состоянию на июль 2025 г. Gemini 2.5 Flash теперь публично доступен и стабилен (без изменений относительно gemini-2.5-flash-preview-05-20). Если вы используете gemini-2.5-flash-preview-04-17, существующее превью-ценообразование будет действовать до запланированного вывода конечной точки модели из эксплуатации 15 июля 2025 г., когда она будет отключена. Вы можете перейти на общедоступную модель "gemini-2.5-flash".

Быстрее, дешевле, умнее:

  • Цели проектирования: низкая задержка + высокая пропускная способность + низкая стоимость;
  • Общий ускоренный режим работы при рассуждении, мультимодальной обработке и задачах с длинным текстом;
  • Использование токенов снижено на 20–30%, что существенно сокращает стоимость рассуждения.

Технические характеристики

Окно входного контекста: до 1 миллиона токенов, что обеспечивает обширное удержание контекста.

Выходные токены: может генерировать до 8,192 токенов на ответ.

Поддерживаемые модальности: текст, изображения, аудио и видео.

Платформы интеграции: доступен через Google AI Studio и Vertex AI.

Ценообразование: конкурентная модель тарификации на основе токенов, обеспечивающая экономичное развертывание.


Технические подробности

Под капотом Gemini 2.5 Flash — это крупная языковая модель на основе трансформеров, обученная на смеси данных из веба, кода, изображений и видео. Ключевые технические характеристики включают:

Мультимодальное обучение: Обученная согласовывать несколько модальностей, Flash может бесшовно смешивать текст с изображениями, видео или аудио, что полезно для задач вроде суммаризации видео или подписи аудио.

Динамический процесс мышления: Реализует внутренний цикл рассуждения, в котором модель планирует и декомпозирует сложные подсказки перед финальным выводом.

Настраиваемые бюджеты на мышление: Параметр thinking_budget можно установить от 0 (без рассуждения) до 24,576 токенов, позволяя балансировать между задержкой и качеством ответа.

Интеграция инструментов: Поддерживает Grounding with Google Search, Code Execution, URL Context и Function Calling, что позволяет выполнять реальные действия напрямую из запросов на естественном языке.


Производительность в бенчмарках

В ходе строгих оценок Gemini 2.5 Flash демонстрирует ведущую в отрасли производительность:

  • LMArena Hard Prompts: Занял место вторым после 2.5 Pro на сложном бенчмарке Hard Prompts, продемонстрировав сильные многошаговые способности к рассуждению.
  • Оценка MMLU 0.809: Превышает средний уровень моделей с точностью 0.809 по MMLU, отражая широкий охват доменов и силу рассуждений.
  • Задержка и пропускная способность: Достигает скорости декодирования 271.4 токенов/с при 0.29 с Time-to-First-Token, что делает его идеальным для сценариев, чувствительных к задержке.
  • Лидер по соотношению цены и производительности: При \$0.26/1 M токенов Flash обходится дешевле многих конкурентов, при этом соответствуя им или превосходя их по ключевым бенчмаркам.

Эти результаты указывают на конкурентное преимущество Gemini 2.5 Flash в рассуждении, научном понимании, решении математических задач, кодировании, визуальной интерпретации и многоязычных возможностях.


Ограничения

Хотя Gemini 2.5 Flash мощен, у него есть некоторые ограничения:

  • Риски для безопасности: Модель может проявлять «поучительный» тон и выдавать правдоподобные, но неверные или предвзятые ответы (галлюцинации), особенно по пограничным запросам. Строгий человеческий контроль остается необходимым.
  • Лимиты скорости: Использование API ограничено лимитами (10 RPM, 250,000 TPM, 250 RPD на стандартных тарифах), что может влиять на пакетную обработку или высокообъемные приложения.
  • Нижняя планка интеллекта: Хотя модель исключительно способна для класса Flash, она остается менее точной, чем 2.5 Pro, в наиболее требовательных агентных задачах, таких как продвинутое кодирование или многоагентная координация.
  • Компромиссы стоимости: Несмотря на лучшее соотношение цены и производительности, обширное использование режима мышления увеличивает общий расход токенов, повышая затраты на глубоко рассуждающие запросы.

Функции для Gemini 2.5 Flash

Изучите ключевые функции Gemini 2.5 Flash, разработанные для повышения производительности и удобства использования. Узнайте, как эти возможности могут принести пользу вашим проектам и улучшить пользовательский опыт.

Цены для Gemini 2.5 Flash

Изучите конкурентоспособные цены на Gemini 2.5 Flash, разработанные для различных бюджетов и потребностей использования. Наши гибкие планы гарантируют, что вы платите только за то, что используете, что упрощает масштабирование по мере роста ваших требований. Узнайте, как Gemini 2.5 Flash может улучшить ваши проекты, сохраняя при этом управляемые расходы.

gemini-2.5-flash (same price across variants)

Model familyVariant (model name)Input price (USD / 1M tokens)Output price (USD / 1M tokens)
gemini-2.5-flashgemini-2.5-flash-thinking$0.24$2.00
gemini-2.5-flashgemini-2.5-flash-all$0.24$2.00
gemini-2.5-flashgemini-2.5-flash$0.24$2.00

Пример кода и API для Gemini 2.5 Flash

Gemini 2.5 Flash API — новейшая мультимодальная модель ИИ от Google, предназначенная для задач, требующих высокой скорости и низких затрат, с управляемыми возможностями рассуждения, позволяющая разработчикам включать или отключать расширенные функции «мышления» через Gemini API
POST
/v1beta/models/{model}:{operator}
POST
/v1/chat/completions
Python
JavaScript
Curl
from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

Python Code Example

from google import genai
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com"

client = genai.Client(
    http_options={"api_version": "v1beta", "base_url": BASE_URL},
    api_key=COMETAPI_KEY,
)

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Tell me a three sentence bedtime story about a unicorn.",
)

print(response.text)

JavaScript Code Example

// Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY;
const base_url = "https://api.cometapi.com/v1beta";
const model = "gemini-2.5-flash";
const operator = "generateContent";

async function main() {
  const response = await fetch(`${base_url}/models/${model}:${operator}`, {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      Authorization: api_key,
    },
    body: JSON.stringify({
      contents: [
        {
          parts: [
            { text: "Tell me a three sentence bedtime story about a unicorn." },
          ],
        },
      ],
    }),
  });

  const data = await response.json();
  console.log(data.candidates[0].content.parts[0].text);
}

await main();

Curl Code Example

curl "https://api.cometapi.com/v1beta/models/gemini-2.5-flash:generateContent" \
  -H "Authorization: $COMETAPI_KEY" \
  -H 'Content-Type: application/json' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Tell me a three sentence bedtime story about a unicorn."
          }
        ]
      }
    ]
  }'

Версии Gemini 2.5 Flash

Причина наличия нескольких снимков Gemini 2.5 Flash может включать такие потенциальные факторы, как: изменения в выходных данных после обновлений, требующие сохранения старых снимков для обеспечения согласованности; предоставление разработчикам переходного периода для адаптации и миграции; а также наличие разных снимков, соответствующих глобальным или региональным конечным точкам для оптимизации пользовательского опыта. Для получения подробной информации о различиях между версиями обратитесь к официальной документации.
version
gemini-2.5-flash-lite
gemini-2.5-flash-lite-preview-09-2025
gemini-2.5-flash
gemini-2.5-flash-image-preview
gemini-2.5-flash-lite-preview-06-17
gemini-2.5-flash-preview-04-17
gemini-2.5-flash-preview-05-20
gemini-2.5-flash-thinking
gemini-2.5-flash-image
gemini-2.5-flash-preview-09-2025
gemini-2.5-flash-all
gemini-2.5-flash-deepsearch
gemini-2.5-flash-lite-preview-06-17-thinking
gemini-2.5-flash-lite-thinking

Больше моделей

C

Claude Opus 4.7

Ввод:$3/M
Вывод:$15/M
Самая интеллектуальная модель для агентов и программирования
A

Claude Sonnet 4.6

Ввод:$2.4/M
Вывод:$12/M
Claude Sonnet 4.6 — наша самая мощная на сегодняшний день модель Sonnet. Это полноценное обновление навыков модели в областях программирования, использования компьютера, рассуждений с длинным контекстом, агентного планирования, интеллектуальной работы и дизайна. Sonnet 4.6 также поддерживает окно контекста на 1M токенов в бета-версии.
O

GPT 5.5 Pro

Ввод:$24/M
Вывод:$144/M
Продвинутая модель, спроектированная для работы с чрезвычайно сложной логикой и профессиональными требованиями, олицетворяющая высший стандарт глубокого логического рассуждения и точных аналитических возможностей.
O

GPT 5.5

Ввод:$4/M
Вывод:$24/M
Флагманская мультимодальная модель нового поколения, сочетающая выдающуюся производительность с высокой эффективностью отклика, предназначенная для предоставления комплексных и стабильных ИИ-сервисов общего назначения.
O

GPT Image 2 ALL

За запрос:$0.04
GPT Image 2 — передовая модель генерации изображений OpenAI для быстрой и высококачественной генерации и редактирования. Она поддерживает гибкие размеры изображений и высокоточные входные изображения.
O

GPT 5.5 ALL

Ввод:$4/M
Вывод:$24/M
GPT-5.5 превосходно справляется с написанием кода, онлайн-исследованиями, анализом данных и операциями с несколькими инструментами. Модель не только повышает автономность при выполнении сложных многошаговых задач, но и существенно улучшает способности к рассуждению и эффективность выполнения задач, при этом сохраняя такую же задержку, как у предшественника, что знаменует важный шаг на пути к автоматизации офисной деятельности на базе ИИ.

Связанные блоги

Nano Banana 2 Flash Скоро – стремительная эволюция генерации изображений на базе ИИ
Jan 6, 2026
nano-banana-2

Nano Banana 2 Flash Скоро – стремительная эволюция генерации изображений на базе ИИ

Google вновь изменила ландшафт генеративного ИИ, представив Nano Banana 2 Flash, который скоро появится, — новейшее пополнение своего широко признанного семейства генерации изображений "Nano Banana". Вслед за огромным успехом Nano Banana Pro (Gemini 3 Pro Image) в конце прошлого года эта новая итерация обещает демократизировать визуальный синтез профессионального уровня, сочетая передовые интеллектуальные возможности архитектуры Gemini 3 с беспрецедентной скоростью и эффективностью.
Скидки Nano Banana: настоящий способ сэкономить деньги для разработчиков в 2026 году
Dec 25, 2025
nano-banana-pro

Скидки Nano Banana: настоящий способ сэкономить деньги для разработчиков в 2026 году

В заключение: официальный API Nano Banana не предлагает никаких скидок на Рождество, Новый год или другие праздники. Это факт, который должны понимать все разработчики, планирующие использовать Nano Banana (включая Nano Banana Pro) для генерации изображений, создания контента или интеграции в продукт в 2026 году. Google не предлагает сезонных скидок на API Nano Banana — будь то Рождество, Черная пятница или Новый год. Ценовая система официального API стабильно остается прозрачной и практически не предполагает скидок. Итак, вопрос: если вы разработчик и планируете в период Рождества или Нового года выполнять крупномасштабную генерацию изображений, тестирование моделей или итерации продукта, есть ли способ снизить стоимость использования Nano Banana?
Сломан ли бесплатный API Gemini 2.5 Pro? Изменения бесплатной квоты в 2025 году.
Dec 11, 2025
gemini-2-5-pro
gemini-2-5-flash

Сломан ли бесплатный API Gemini 2.5 Pro? Изменения бесплатной квоты в 2025 году.

Google резко ужесточила бесплатный уровень для Gemini API: Gemini 2.5 Pro убрали из бесплатного уровня, а дневное число бесплатных запросов для Gemini 2.5 Flash было резко сокращено (по сообщениям: ~250 → ~20 в день). Это не означает, что модель навсегда «мертва» для экспериментов — но это означает, что бесплатный доступ фактически сведён на нет для многих реальных сценариев использования.
Полное руководство по нано-банану: как использовать и как выбрать лучший вариант
Sep 8, 2025
gemini-2-5-flash-image

Полное руководство по нано-банану: как использовать и как выбрать лучший вариант

Недавняя версия Gemini 2.5 Flash Image от Google, получившая прозвище «Nano-Banana», быстро стала популярным инструментом для редактирования изображений в режиме разговора: она сохраняет сходство
Как использовать Nano Banana через API? (Gemini-2-5-flash-image)
Aug 28, 2025
gemini-2-5-flash-image

Как использовать Nano Banana через API? (Gemini-2-5-flash-image)

Nano Banana — это прозвище сообщества (и внутреннее сокращение) для Gemini 2.5 Flash Image от Google — высококачественного генератора многомодальных изображений с малой задержкой.