Сколько видеокарт нужно для тренировки GPT-5? Всё, что вам нужно знать

Обучение современной большой языковой модели (LLM), такой как GPT-5, — это масштабное инженерное, логистическое и финансовое мероприятие. Информация о количестве использованных графических процессоров сильно разнится — от нескольких десятков тысяч до нескольких сотен тысяч. Отчасти этот разброс обусловлен сменой поколений оборудования, повышением эффективности программного обеспечения и тем фактом, что компании редко публикуют полную телеметрию обучения. В этой статье я объясняю, как получается эта оценка, и выделяю ограничения, определяющие окончательное число.

Сколько графических процессоров требуется для обучения GPT-5?

Короткий ответ сразу: Единого числа не существует. Публичные сигналы и технические формулы масштабирования дают правдоподобные ответы от нескольких тысяч (для компактного, гибкого по времени тренировочного прогона) до нескольких сотен тысяч, если вы настаиваете на обучении очень большой и плотной модели в коротком окне на массовых графических процессорах. Какой конец этого диапазона вы выберете, зависит от размер модели, бюджет учебных вычислений (FLOP), использованные токены, постоянная пропускная способность каждого графического процессора, бюджет времении используете ли вы более новое стоечное оборудование Blackwell или более старые машины A100/H100. OpenAI сообщает, что GPT-5 обучался на суперкомпьютерах Microsoft Azure (точное количество графических процессоров не указано), а внешние данные и предварительные инженерные оценки дают остальную картину.

OpenAI (как и большинство организаций) не публикует точные значения FLOP при обучении или сырые данные о часах использования GPU для своих крупнейших моделей, поэтому мы объединяем спецификации поставщиков, наблюдаемые исторические модели использования GPU для предыдущих моделей и законы масштабирования для получения обоснованных диапазонов.

Какое основное правило связывает размер модели с количеством графических процессоров?

Основная формула, которую вы можете использовать

Команда Megatron из NVIDIA предлагает практичное и широко используемое приближение для времени полного обучения: training_time (s)≈8⋅T⋅PN⋅X\text{training\_time (s)} \approx 8 \cdot \frac{T \cdot P}{N \cdot X}training_time (s)≈8⋅N⋅XT⋅P

где:

PPP = количество параметров модели (весов)
TTT = количество обучающих токенов
NNN = количество графических процессоров
XXX = постоянная пропускная способность на каждый графический процессор (в FLOP/сек, часто выражается в терафлопсах)
коэффициент 8 получается из подсчета вперед+назад + оптимизатора и других констант в приближении трансформатора FLOPs.

Перегруппировано для оценки графических процессоров для целевого расписания: N≈8⋅T⋅PX⋅время_обучения (с)N \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{время_обучения (с)}}N≈8⋅X⋅время_обучения (с)T⋅P

Это самая важная инженерная формула для перевода вычислительного бюджета (FLOP) в размер парка графических процессоров, и именно с нее мы начинаем любую оценку количества графических процессоров.

Важные предостережения

«X» (постоянное количество терафлопс на графический процессор) — число, которое сложнее всего определить. Теоретические пиковые значения FLOP (по спецификациям) обычно значительно выше, чем те, которые достигаются в реальных учебных задачах, из-за трафика памяти, коммуникаций и пузырей конвейера. NVIDIA сообщила достигнутый Пропускная способность ~163 терафлопс на графический процессор A100 в сквозном эксперименте с большой моделью обучения; устройства H100 и Blackwell имеют гораздо более высокие теоретические пиковые значения, но достижимая устойчивая пропускная способность зависит от программного стека, конфигурации параллельной модели и коммуникационной инфраструктуры. При составлении бюджета используйте консервативные значения достигнутой пропускной способности.
Бюджет токенов TTT не стандартизировано. NVIDIA использовала около 450 млрд токенов для примера с 1 триллионом параметров; другие команды используют другие соотношения токенов и параметров (и всё чаще используются синтетические токены). Всегда явно указывайте предполагаемое количество токенов.
Ограничения памяти и топологии (объем памяти на GPU, матрица NVLink, ограничения конвейерного/тензорного параллелизма) могут сделать некоторые типы графических процессоров более подходящими для больших, плотно шардированных моделей, даже если у них схожие показатели FLOP. Системы стоечного масштабирования, такие как NVIDIA GB300/GB300 NVL72, меняют практический баланс между FLOP и памятью.

Сколько графических процессоров использовали предыдущие поколения?

Исторические якоря: отчеты GPT-3 и GPT-4

В отраслевых отчётах и технических комментариях неоднократно использовались данные о количестве графических процессоров, представленные в предыдущих моделях, для привязки оценок к последующим. Многочисленные авторитетные издания и отраслевые наблюдатели подсчитали, что предварительная тренировка GPT-4 включала десятки тысяч графических процессоров A100 в течение недель или месяцев. Например, в современных отчётах объём обучения GPT-4 составлял около 10–25 тысяч графических процессоров A100 в зависимости от того, учитывается ли пиковое количество графических процессоров или одновременно активные графические процессоры во время предварительной тренировки. Эти исторические привязки полезны, поскольку они показывают порядок величины и то, как поколения оборудования (A100 → H100 / Blackwell) изменяют пропускную способность на устройство.

Последствия: Если бы GPT-4 использовала ~10–25 тысяч A100, то GPT-5, будь она на один или несколько порядков больше или обучена на большем количестве токенов, потребовала бы значительно больше совокупных вычислительных ресурсов. Однако усовершенствования в аппаратном обеспечении (H100/Blackwell/TPU) и программном обеспечении (оптимизатор/точность/микс экспертов, эффективность данных) могут сократить количество физических устройств, необходимых для обеспечения той же или большей вычислительной мощности.

Сколько графических процессоров вам понадобится для различных сценариев масштабирования GPT-5?

Ниже я провожу расчёты по трём конкретным сценариям — одним и тем же методом, но с разными допущениями, — чтобы вы могли увидеть, как количество графических процессоров меняется в зависимости от размера модели, аппаратного обеспечения и временного бюджета. Я излагаю предположения явно, чтобы вы могли их повторить или скорректировать.

Использованные предположения (явные)

Формула расчета основных FLOP: N≈8⋅T⋅PX⋅timeN \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{time}}N≈8⋅X⋅timeT⋅P. (См. NVIDIA Megatron.)
Масштабирование количества токенов: Я использую пример NVIDIA с ~450 млрд токенов на 1T параметров (то есть T≈0.45⋅PT \approx 0.45 \cdot PT≈0.45⋅P) в качестве базового значения и масштабирую токены линейно в зависимости от параметров для этих сценариев. Это приемлемый, но не универсальный вариант — некоторые команды используют больше или меньше токенов на параметр.
Окно обучения: 90 дней (≈ 7 776 000 секунд). Более короткие графики требуют пропорционально больше графических процессоров; более длинные графики требуют меньше.
Постоянная пропускная способность для каждого графического процессора (X, терафлопс): три прагматических уровня проявления чувствительности:

Консервативный / более старый класс A100 достигнут: 163 TFLOPs на графический процессор (измеренная NVIDIA производительность, достигнутая в примере 1T).
Эффективная пропускная способность современного высокопроизводительного оборудования класса H100: ~ 600 терафлопс (консервативная, достижимая доля теоретических пиков тензорных ядер H100 после учета неэффективности на системном уровне).
Эффективность стоечного Blackwell/GB300: ~ 2,000 терафлопс на графический процессор (отражает агрессивную эффективность стоек Blackwell/GB300 следующего поколения и преимущества FP4/оптимизации; реальные устойчивые цифры будут варьироваться в зависимости от рабочей нагрузки и топологии).

Примечание: эти значения X являются предположения Для инженерной иллюстрации используйте их как ручки, которые можно менять. Суть в том, чтобы показать порядки величин.

Результаты (округленные)

Используя формулу и предположения, указанные выше, для 90-дневного тренировочного прогона с токенами, масштабированными как T=0.45⋅PT=0.45\cdot PT=0.45⋅P:

1 триллион параметров (1T):

163 терафлопс/GPU → ≈ 2,800 графических процессоров.
600 терафлопс/GPU → ≈ 770 графических процессоров.
2,000 терафлопс/GPU → ≈ 230 графических процессоров.

3 триллион параметров (3T):

163 терафлопс/GPU → ≈ 25,600 графических процессоров.
600 терафлопс/GPU → ≈ 6,900 графических процессоров.
2,000 терафлопс/GPU → ≈ 2,100 графических процессоров.

10 триллион параметров (10T):

163 терафлопс/GPU → ≈ 284,000 графических процессоров.
600 терафлопс/GPU → ≈ 77,000 графических процессоров.
2,000 терафлопс/GPU → ≈ 23,000 графических процессоров.

Это объясняет, почему оценки так сильно различаются: изменение как поддерживаемой пропускной способности на GPU (аппаратной и программной), так и желаемого времени обучения существенно влияет на количество GPU. Модель, размер которой в десять раз больше, требует в десять раз больше параметров PPP, а поскольку токены обычно масштабируются вместе с размером модели, общее количество операций с плавающей точкой (FLOP) (и, следовательно, потребность в GPU) растет сверхлинейно при фиксированном бюджете времени.

Диапазон наилучших усилий для GPT-5 (синтез):

Нижняя граница (вычислительно эффективный рецепт + пропускная способность класса Blackwell/H100): ~10 000–25 000 графических процессоров, эквивалентных H100, развернутых в течение месяцев (если модель использует значительное повышение алгоритмической эффективности и меньшее количество параметров с агрессивным дополнением данных/тонкой настройкой).
Центральный (вероятный основной сценарий): ~25 000–80 000 графических процессоров, эквивалентных H100 (что соответствует увеличению по сравнению с заявленными десятками тысяч в GPT-4, что обусловлено большими вычислительными бюджетами и количеством токенов).
Верхняя граница (очень большая модель с несколькими триллионами параметров, обученная с несколькими алгоритмическими сокращениями): 80 000–150 000+ графических процессоров, эквивалентных H100, в пиковой ситуации (если команда стремилась к очень короткому времени выполнения и использовала много устройств параллельно).

Эти диапазоны соответствуют текущей производительности поставщика, историческому использованию графических процессоров в более ранних моделях и заявленным размерам кластеров в отрасли. Оценки, а не прямые допуски от OpenAI. Точное число для GPT-5 остаётся засекреченным.

Что еще добавляется к счету за GPU, помимо сырого предварительного обучения?

Факторы, увеличивающие количество устройств

Амбиции в отношении количества параметров и токенов: Удвоение параметров обычно подразумевает сопоставимое увеличение количества токенов для сохранения оптимальности вычислений.
Желание сократить время настенных часов: Чтобы завершить обучение за недели, а не за месяцы, необходимо пропорционально увеличить количество одновременно работающих графических процессоров.
Режимы большой проверки или RLHF: Значительные циклы обратной связи RLHF или человека после обучения значительно увеличивают использование графического процессора сверх базового предварительного FLOP.
Неэффективность сетей и инфраструктуры: Недостаточное масштабирование межсоединений или низкая загрузка увеличивают количество физических графических процессоров, необходимых для достижения заявленной пропускной способности.

RLHF, тонкая настройка и оценка

Фазы обучения с подкреплением на основе обратной связи с человеком (RLHF), многоэтапная тонкая настройка, прогоны с красными командами и большие оценочные циклы добавляют значительные дополнительные вычислительные ресурсы сверх «предтренировочных» FLOP. Эти последующие фазы часто требуют эффективных циклов обучения политик и масштабируемого повторного вывода (который обслуживается другими кластерами графических процессоров), поэтому Проект Ресурс графического процессора превышает оценку, полученную при одном предварительном обучении. Разработка OpenAI GPT-5 явно ссылается на сложные процессы безопасности и оценки, которые увеличивают вычислительные мощности сверх предварительного обучения.

Генерация данных и синтетические токены

Дефицит высококачественных токенов в очень больших масштабах заставляет команды генерировать синтетические токены (создаваемые самостоятельно, сгенерированные моделью продолжения), которые сами по себе требуют вычислений для производства и проверки. Учёт этого конвейера увеличивает общую нагрузку на графические процессоры и вычислительные ресурсы, используемые в рамках проекта модели.

Обслуживание флота для запуска и итерации

Для запуска модели для миллионов пользователей требуется обширный парк вычислений, не связанный с учебным кластером. Сообщения о том, что OpenAI использует от сотен тысяч до миллиона и более графических процессоров, включают в себя и вычислительную мощность. Это отдельная статья бюджета, нежели учебный кластер, но в публичных обсуждениях эти понятия часто объединяются.

Заключение

Не существует единого общедоступного значения для количества графических процессоров, необходимых для обучения GPT-5, поскольку ответ зависит от параметризации модели, рецепта обучения и от того, что важнее: время выполнения или общая стоимость. Используя в качестве опорных данных общедоступные спецификации поставщиков, исследования законов масштабирования и отраслевые отчёты, наиболее обоснованный что такое варган? оценка показывает, что, вероятно, потребуется обучение по классу GPT-5 десятки тысяч графических процессоров, эквивалентных H100 на пике (возможный центральный диапазон: ~25 тыс.–80 тыс. эквивалентов H100), с общим количеством часов работы GPU в многомиллионный .

Где получить доступ к GPT-5

Если вам нужен программный доступ или встроенная поддержка GPT-5 Pro в продукты, используйте API. OpenAI, CometAPI и т.д. включают названия моделей для семейства GPT-5 (gpt-5-pro / gpt-5-pro-2025-10-06) и оплата производится за использованные токены. API предоставляет расширенные функции, такие как выполнение с помощью инструментов, более длинные контекстные окна, потоковые ответы и параметры модели для управления трудоёмкостью и многословностью рассуждений.

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ ГПТ-5 Про через CometAPI, последняя версия модели Всегда обновляется на официальном сайте. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.

Готовы к работе?→ Зарегистрируйтесь в CometAPI сегодня !