Основная информация и ключевые возможности
GPT-5 mini — это оптимизированный по стоимости и задержке участник семейства GPT-5 от OpenAI, предназначенный для обеспечения значительной части мультимодальных возможностей и следования инструкциям GPT-5 при существенно более низкой стоимости для крупномасштабного промышленного использования. Он нацелен на среды, где основными ограничениями являются пропускная способность, предсказуемое по-токенное ценообразование и быстрые ответы, при этом сохраняя сильные универсальные возможности.
- Model Name:
gpt-5-mini - Context Window: 400 000 tokens
- Max Output Tokens: 128 000
- Key features: скорость, пропускная способность, экономичность, детерминированные ответы для кратких запросов
Как работает gpt-5-mini?
Оптимизированный путь инференса и развёртывание. Практический прирост скорости достигается за счёт слияния ядер (kernel fusion), тензорного параллелизма, настроенного под меньший граф, и среды выполнения инференса, которая предпочитает более короткие внутренние «циклы размышления», если разработчик не запрашивает более глубокое рассуждение. Поэтому mini достигает заметно меньших вычислительных затрат на один вызов и предсказуемой задержки при высоком трафике. Этот компромисс намеренный: меньше вычислений на прямой проход → ниже стоимость и ниже средняя задержка.
Параметры для разработчиков. GPT-5 mini предоставляет такие параметры, как verbosity (контролирует детализацию/длину) и reasoning_effort (компромисс между скоростью и глубиной), а также надёжную поддержку вызова инструментов (вызовы функций, параллельные цепочки инструментов и структурированная обработка ошибок), что позволяет производственным системам точно настраивать баланс точности и стоимости.
Производительность в бенчмарках — ключевые показатели и их интерпретация
Обычно GPT-5 mini находится в пределах ~85–95% от GPT-5 high на общих бенчмарках, значительно улучшая задержку/цену. Материалы запуска платформы указывают на очень высокие абсолютные показатели для GPT-5 high (AIME ≈ 94.6% для топового варианта), у mini несколько ниже, но всё ещё лидирующие в индустрии с учётом цены.
По широкому спектру стандартизованных и внутренних бенчмарков GPT-5 mini достигает:
- Интеллект (AIME ’25): 91.1% (против 94.6% у GPT-5 high)
- Мультимодальность (MMMU): 81.6% (против 84.2% у GPT-5 high)
- Программирование (SWE-bench Verified): 71.0% (против 74.9% у GPT-5 high)
- Следование инструкциям (Scale MultiChallenge): 62.3% (против 69.6%)
- Вызов функций (τ²-bench telecom): 74.1% (против 96.7%)
- Частота галлюцинаций (LongFact-Concepts): 0.7% (меньше — лучше)([OpenAI][4])
Эти результаты демонстрируют сбалансированные компромиссы GPT-5 mini между производительностью, стоимостью и скоростью.
Ограничения
Известные ограничения: у GPT-5 mini снижена способность к глубокому рассуждению по сравнению с полным GPT-5, выше чувствительность к двусмысленным запросам и сохраняются риски галлюцинаций.
- Сниженное глубокое рассуждение: Для многошаговых, долгосрочных задач рассуждения полная модель рассуждений или варианты «thinking» превосходят mini.
- Галлюцинации и чрезмерная уверенность: Mini снижает уровень галлюцинаций по сравнению с очень маленькими моделями, но не устраняет их; в критических сценариях (право, клиника, комплаенс) выходы следует валидировать.
- Чувствительность к контексту: Очень длинные, сильно взаимозависимые цепочки контекста лучше обслуживаются полными вариантами GPT-5 с более крупными контекстными окнами или моделью «thinking».
- Ограничения безопасности и политики: К mini применяются те же защитные барьеры и лимиты скорости/использования, что и к другим моделям GPT-5; для чувствительных задач требуется участие человека.
Что делает gpt-5-mini?
- Высоконагруженные разговорные агенты: низкая задержка, предсказуемая стоимость.
- Резюмирование документов и мультимодальных данных: суммирование с длинным контекстом, отчёты по изображениям+тексту.
- Инструменты для разработчиков в масштабе: проверки кода в CI, авто‑ревью, легковесная генерация кода.
- Оркестрация агентов: вызов инструментов с параллельными цепочками, когда глубокое рассуждение не требуется.
Как начать использовать gpt-5-mini API?
Обязательные шаги
- Войдите на cometapi.com. Если вы ещё не наш пользователь, пожалуйста, сначала зарегистрируйтесь
- Получите ключ API для доступа к интерфейсу. Нажмите «Add Token» в разделе API token в личном кабинете, получите ключ токена: sk-xxxxx и отправьте.
- Получите URL этого сайта: https://api.cometapi.com/
Способ использования
- Выберите конечную точку «
gpt-5-mini» / «gpt-5-mini-2025-08-07» для отправки API‑запроса и задайте тело запроса. Метод и тело запроса берутся из нашей документации по API на сайте. Для удобства на сайте также доступно тестирование в Apifox. - Замените <YOUR_API_KEY> на ваш фактический ключ CometAPI из вашего аккаунта.
- Вставьте свой вопрос или запрос в поле content — именно на него модель ответит.
- . Обработайте ответ API, чтобы получить сгенерированный ответ.
CometAPI предоставляет полностью совместимый REST API — для бесшовной миграции. Подробности см. в API doc:
- Core Parameters:
prompt,max_tokens_to_sample,temperature,stop_sequences - Endpoint: https://api.cometapi.com/v1/chat/completions
- Model Parameter: “
gpt-5-mini“ / "gpt-5-mini-2025-08-07" - Authentication:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.
Инструкции по вызовам API: gpt-5-chat-latest следует вызывать с использованием стандартного /v1/chat/completions format. Для прочих моделей (gpt-5, gpt-5-mini, gpt-5-nano и их датированных версий) использование the /v1/responses format рекомендуется. В настоящее время доступны два режима.