OpenAI GPT-OSS: как запустить локально или разместить в облаке, требования к оборудованию

GPT-OSS необычайно хорошо спроектирован для обеспечения доступности: gpt-oss-20B вариант предназначен для работы на одном потребительском графическом процессоре (~16 ГБ видеопамяти) или на современных высокопроизводительных ноутбуках с использованием квантованных сборок GGUF, в то время как gpt-oss-120BНесмотря на общий объём параметров в 117 байт, поставляется с функциями MoE/активных параметров и квантованием MXFP4, что позволяет запускать его как на отдельных графических процессорах класса H100 (≈80 ГБ), так и на многопроцессорных системах. Развёртывание модели в стиле GPT с открытым исходным кодом (часто называемой «GPT OSS») — будь то компактная модель с 6–7 байтами для локальных приложений или модель с более чем 70 байтами для производственных сервисов — поднимает один и тот же ключевой вопрос: как запустить GPT-OSS локально или самостоятельно в облаке, требования к оборудованию.

Что такое модели GPT-OSS и каковы их требования к оборудованию?

Что такое GPT-OSS?

GPT-OSS — это недавно выпущенное OpenAI семейство больших языковых моделей с открытым весом (на момент выпуска было два основных варианта: версии с ~20 и ~120 млрд параметров). Они поставляются с оптимизированными вариантами (смешанные экспертные модели, встроенное квантование MXFP4 в дистрибутиве OpenAI, инновации в области разреженного/плотного размещения), которые позволяют этим относительно большим числам параметров работать с существенно меньшим объёмом памяти, чем потребовалось бы для простых копий FP32/FP16. Этот выпуск был специально разработан для того, чтобы сделать мощные модели более доступными для широкого применения и настраиваемыми за пределами гиперскейлеров.

Основные факты о продукте (несущие нагрузки):

gpt-oss-20B предназначен для работы на одном потребительском графическом процессоре с ~16 ГБ видеопамяти (и может использоваться на настольных компьютерах/ноутбуках с квантованием GGUF).
gpt-oss-120B (≈117B параметров, ~5.1B активный параметры в конструкции MoE компании OpenAI) спроектированы таким образом, чтобы модель могла поместиться в один 80-гигабайтный H100 / A100 при использовании MXFP4 и определенной поддержки среды выполнения или в установках с несколькими GPU.

Аппаратные факторы, определяющие требования

Размер и архитектура модели – MoE и разреженные/плотные слои могут изменять активацию и рабочую память. (GPT-OSS использует компоненты в стиле «смешанных экспертов».)
Точность и квантование – FP32, FP16, BF16, 8 бит, 4 бит (GPTQ/AWQ/MXFP4). Более низкая точность уменьшает объём памяти, но может повлиять на задержку и точность числовых данных. OpenAI предоставляет квантованные веса MXFP4 для GPT-OSS.
Длина контекста (длина последовательности) – более длинные контексты пропорционально увеличивают использование кэша активации; GPT-OSS поддерживает чрезвычайно длинные контексты (вплоть до очень больших окон токенов в своей конструкции), что многократно увеличивает потребности в памяти.
Размер партии и параллелизм – Обслуживание нескольких одновременных пользователей увеличивает объём памяти для активаций и кэширования. Такие фреймворки, как vLLM, DeepSpeed и Triton, стремятся эффективно группировать и распределять активации между запросами.
Накладные расходы на обслуживание инфраструктуры – различные серверы вывода (vLLM, text-generation-inference, llama.cpp, ONNX Runtime) добавляют различные накладные расходы и оптимизации.

Что куда «вписывается»: грубые правила памяти

При планировании оборудования важны две концепции:

Общее количество параметров — верхняя граница размера модели (117Б против 21Б).
Активированный/рабочий набор — в MoE или при определенных настройках точности активная память, необходимая при выводе, может быть намного меньше необработанных байтов параметров.

Практические правила:

Графические процессоры класса 16 ГБ/ноутбуки Edge → возможно для gpt-oss-20b если вы используете предоставленную моделью конфигурацию, обеспечивающую эффективное использование памяти (или агрессивно квантуете до 4-бит/NF4/AWQ).
80 ГБ H100 / A100 80 ГБ → хостинг с одним GPU для gpt-oss-120b в рекомендуемой конфигурации. Для обеспечения производительности вам всё равно может потребоваться несколько графических процессоров для пакетной обработки, резервирования или снижения задержки при параллельной обработке.
Большие конфигурации с несколькими GPU (кластеры A100/H100) → требуется, если вы хотите обеспечить одновременную работу большого количества пользователей с низкой задержкой или выполнить сложную тонкую настройку/обучение. DeepSpeed/ZeRO и автоматический тензорный параллелизм позволяют распределять большие модели между графическими процессорами.

Краткий вывод: для экспериментов и лёгкого локального использования планируйте видеокарту объёмом 16–24 ГБ (или центральный процессор с мощным квантованием). Для продакшена с использованием одной видеокарты для построения модели GPT-OSS вам понадобится H100 объёмом 80 ГБ, в противном случае используйте разбиение на несколько видеокарт.

Какая вычислительная мощность требуется для развертывания GPT-OSS на практике?

Вывод против обучения: совершенно разные бюджеты

вывод: основная часть затрат приходится на видеопамять (VRAM) и оптимизированные ядра. Благодаря оптимизированным средам выполнения (vLLM, TensorRT, DeepSpeed-Inference) и квантованию, вывод на gpt-oss-20b возможен на потребительском GPU с 16 ГБ памяти; модель MoE с 120 ГБ памяти разработана для H100 с 80 ГБ памяти.
Тонкая настройка / полномасштабное обучение: на порядки больше — вам потребуется много графических процессоров или специализированных обучающих экземпляров (многоузловые кластеры H100/A100, бюджет DFLOP и скорость ввода-вывода хранилища). В этой статье основное внимание уделено методам вывода/самостоятельного размещения и лёгкой тонкой настройки (QLoRA/LoRA), а не многонедельному предварительному обучению.

CPU против GPU против специализированных ускорителей

только процессор: возможно с GGUF/llama.cpp и небольшими квантованными сборками, жертвуя задержкой ради снижения затрат. Выполнение 20 байт на CPU без квантования нецелесообразно. Используйте CPU, когда конфиденциальность или локальная работа в автономном режиме имеют решающее значение, а ваши требования к пропускной способности невысоки.
GPU ：: предпочтительный вариант с точки зрения задержки и пропускной способности. Современные графические процессоры машинного обучения (A100/H100/4090/4080) значительно различаются по HBM/VRAM и структуре межпроцессорных соединений. В документации gpt-oss рекомендуется класс H100 для варианта 120B.
ТПУ / AMD MI300X: поддерживается некоторыми средами выполнения (сборки vLLM/ROCm) и может быть экономически эффективным в определенных облаках — при выборе оборудования сверьтесь с документацией поставщика.

Как запустить GPT-OSS локально при ограниченном бюджете? (код + пошаговое руководство)

Ниже приведены два практических подхода: (A) GPU для ноутбука/настольного компьютера с ~16–24 ГБ видеопамяти, использующей 4-битное квантование, и (B) CPU/малая загрузка GPU (офлайн) с использованием llama.cpp (GGUF) или небольших квантованных сборок. Оба варианта широко используются разработчиками в условиях ограниченных средств и ресурсов.

Примечание: эти инструкции предполагают наличие рабочей среды Python (рекомендуется Linux для лучшей поддержки CUDA). Для Windows используйте WSL2 для лучшей совместимости с инструментами GPU.

A. Маршрут GPU (рекомендуется для лучшей задержки при ограниченном бюджете) — квантование + загрузка с помощью bitsandbytes (4 бита)

Этот путь направлен на то, чтобы пробежать openai/gpt-oss-20b на одном потребительском графическом процессоре (например, 4090 24 ГБ или 4080 16 ГБ). Использует 4-битное квантование bitsandbytes и технологию Hugging Face. transformers устройство-карта/ускорение.

Шаг 1 — Установка основ

# Linux + CUDA (example); pick the correct torch CUDA wheel for your driver

python -m pip install -U pip
pip install torch --index-url https://download.pytorch.org/whl/cu121  # pick your CUDA version

pip install -U transformers accelerate bitsandbytes safetensors

(Если вы используете conda, создайте env и установите CUDA-совместимое Torch Wheel для вашей платформы.)

Шаг 2 — (Необязательно) Войдите в Hugging Face, чтобы загрузить большие файлы.

huggingface-cli login

Шаг 3 — Пример на Python (загрузка квантованной 4-битной модели)

# save as run_gptoss_4bit.py

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

model_id = "openai/gpt-oss-20b"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"   # or "fp4"/"nf4" depending on support

)

tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",                 # let transformers pick GPU + CPU offload if needed

    quantization_config=bnb_config,
    torch_dtype=torch.float16,
    trust_remote_code=True
)

prompt = "Write a concise summary of quantization for LLMs."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(out, skip_special_tokens=True))

Примечания и советы

Используйте device_map="auto" so transformers Автоматически использует разгрузку ЦП/ГП. Если у вас один ГП, device_map="auto" обычно все переносит на графический процессор и разгружает центральный процессор.
Если у вас закончилась видеопамять, добавьте --offload_folder ./offload (или установить offload_folder in from_pretrained) для выгрузки тензоров в NVMe.
Подход Hugging Face + bitsandbytes широко документирован; подробности см. в руководстве по 4-битным трансформаторам.

B. Маршрут с использованием CPU/микробюджета (llama.cpp/GGUF)

Если у вас нет графического процессора или очень маленький графический процессор, llama.cpp / Сборки GGUF (и квантованные файлы AWQ/GPTQ) позволяют запускать модели на ЦП с приемлемой задержкой для отдельных пользователей.

Шаг 1 — Установка llama.cpp / привязок Python

# Download and build (Linux)

git clone --recursive https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
# Python bindings (optional)

pip install llama-cpp-python

Шаг 2 — Преобразование safetensors → GGUF (если скрипты преобразования доступны для gpt-oss)
OpenAI/Hugging Face предоставляют безопасные тензоры; преобразователи сообщества (или скрипты в llama.cpp) конвертировать в GGUF. Точная команда зависит от текущего llama.cpp инструменты; проверьте README в репозитории convert.py/convert-safetensors-to-gguf(В темах сообщества обсуждается преобразование новых моделей.)

Шаг 3 — Запустите модель с llama.cpp

# basic inference (example)

./main -m ./gpt-oss-20b.gguf -p "Explain GGUF and quantization in one paragraph." -n 256

Примечания и компромиссы

Процессоры работают гораздо медленнее. Используйте этот маршрут для тестирования, обеспечения конфиденциальности или локальных агентов с очень низким уровнем параллелизма.
Генерация длинных выходных данных или обслуживание большого количества одновременных пользователей на центральном процессоре нецелесообразно; для производства перейдите на графический процессор.

Квантованные сборки на диске (GPTQ/AWQ)

Если вам нужно втиснуть большую модель в небольшой графический процессор (например, 8–12 ГБ), результаты, полученные в сообществе, показывают, что квантование в стиле GPTQ/AWQ может заставить некоторые модели 20B работать на графических процессорах с малым объемом видеопамяти — но преобразование часто требует больше ОЗУ ЦП и один промежуточный графический процессор во время преобразования. Инструменты: GPTQ-for-LLaMa, AutoGPTQ (архивировано), AWQ и QLLM.

Практические советы для ограниченного бюджета

Предпочитать 4-битные квантованные контрольные точки (GPTQ/AWQ/MXFP4) — часто разница между «работает на 12 ГБ» и «требует 80 ГБ».
Ограничить длину контекста Для вывода бюджета: длинные контексты переполняют кэш активации. Если вам необходимо хранить длинные контексты, рассмотрите стратегии разгрузки.
Осторожно используйте унифицированную разгрузку памяти/nvmem — фреймворки могут предлагать разгрузку CPU/NVMe (DeepSpeed ZeRO-Offload / ZeRO-Infinity), но это увеличивает задержку.

Как самостоятельно разместить GPT-OSS у облачных провайдеров (практическое руководство и ориентиры затрат)?

Какое облачное оборудование выбрать?

Однопроцессорный 80 ГБ H100: подходит для хостинга gpt-oss-120b для малого и среднего трафика. В терминах AWS инстансы P5 предоставляют аппаратное обеспечение H100; варианты с одним GPU (анонсированы в 2025 году) позволяют дешевле подобрать оптимальный размер для вывода. Используйте семейство P5/ND H100 в зависимости от провайдера.
Мульти-GPU (8× H100): для высокой пропускной способности и избыточности используйте кластер p5.48x, p5dn или аналогичный. NVidia NVLink/NVSwitch в одном экземпляре снижает накладные расходы на обмен данными между графическими процессорами.
Альтернативные облака: CoreWeave, Lambda Labs, Paperspace, Runpod — зачастую более дешёвая аренда отдельных/по требованию графических процессоров для интенсивного вывода. Используйте их для разработки, прежде чем вкладываться в долгосрочную инфраструктуру.
Передовое / тяжелое производство: AWS p5 (H100) (8 × H100 по 80 ГБ на экземпляр) — для максимальной пропускной способности на узел и потребностей в 80+ ГБ для одного графического процессора или для 120+ байт с меньшим разделением. P5 предоставляет H100 и большое локальное хранилище NVMe.

rmers, контейнеры text-generation-inference (TGI)/NVIDIA TGI или настройка вывода DeepSpeed.

Обеспечение быстрого локального NVMe Если вы планируете разгружать большие состояния активации (ZeRO-Infinity). Узлы P4/P5 часто имеют локальные NVMe-накопители и очень высокую пропускную способность сети. ()
Безопасность и сетевые технологии — размещайте конечные точки вывода за балансировщиками нагрузки, используйте группы автоматического масштабирования для интерфейсов и разделяйте задачи (обслуживание модели и маршрутизация запросов).
Мониторинг и SLO — отслеживайте использование графического процессора, памяти, токенов/сек, задержку p95 и ошибки; используйте Prometheus + Grafana для метрик.

Пример рабочего процесса самостоятельного размещения в облаке (AWS P4/P5)

Выберите экземпляр (p4d/p5) в зависимости от потребностей модели в памяти. Для gpt-oss-20B подойдёт один экземпляр объёмом 16–32 ГБ; для gpt-oss-120B выберите экземпляр HBM объёмом 80 ГБ или несколько GPU.
Подготовить AMI/образ — используйте AMI поставщика, который объединяет CUDA, cuDNN и оптимизированный PyTorch (или образы поставщика с драйверами NVIDIA).
Установить сервировочный стек: vLLM, трансформаторы, контейнеры text-generation-inference (TGI)/NVIDIA TGI или настройка вывода DeepSpeed.
Обеспечение быстрого локального NVMe если вы планируете разгружать большие состояния активации (ZeRO-Infinity). Узлы P4/P5 часто имеют локальные NVMe и очень высокую пропускную способность сети.
Безопасность и сетевые технологии — размещайте конечные точки вывода за балансировщиками нагрузки, используйте группы автоматического масштабирования для интерфейсов и разделяйте задачи (обслуживание модели и маршрутизация запросов).
Мониторинг и SLO — отслеживайте использование графического процессора, памяти, токенов/сек, задержку p95 и ошибки; используйте Prometheus + Grafana для метрик.

Пример плана самостоятельного размещения (gpt-oss-20b, мелкосерийное производство)

Цель: обслуживает ~20 одновременных пользователей, время отклика 1–2 с, чувствителен к затратам.

Пример: 1× A10G / 1× 24 ГБ GPU (например, G5 / A10G / RTX 6000) для модели + 1× небольшой сервер начальной загрузки CPU.
Время выполнения: vLLM как модель сервера (непрерывное пакетирование) + шлюз CometAPI.
Autoscale: использовать группу автомасштабирования с GPU AMI и ALB + горизонтальное автомасштабирование по метрикам CPU/GPU.
Память: Локальное хранилище NVMe для кэширования моделей; хранилище объектов (S3) для холодного хранения моделей.
мониторинг: Prometheus + Grafana, отслеживание использования графического процессора, задержки, длины очереди.
Безопасность.: VPC, частные подсети, роли IAM для хранения моделей, сертификаты TLS.

Пример плана размещения (gpt-oss-120b, production)

Цель: низкая задержка для большого количества одновременных пользователей/предприятий.

Пример: 1× H100 80 ГБ (один GPU) для базового уровня; горизонтальное масштабирование или использование экземпляров p5 с несколькими GPU для повышения пропускной способности. Для высокой пропускной способности либо реплицируйте сервис с одним GPU (параллельная обработка данных), либо разделите модель на несколько GPU с помощью DeepSpeed (тензор/конвейер).
Время выполнения: DeepSpeed-Inference с автоматическим TP или NVIDIA TensorRT (где доступно). Поддержка vLLM для MoE/Multi-GPU и настроенных ядер также может быть полезной.
Kubernetes: используйте K8 с подключаемыми модулями устройств и локальным NVMe; используйте хаос-тестирование на доступность.
Оптимизация затрат: зарезервированные экземпляры для прогнозируемой нагрузки; точечные экземпляры для пакетных рабочих нагрузок.

Пример: запуск обслуживающего контейнера vLLM для gpt-oss-20b

# assume vllm is installed and CUDA is set up

vllm serve --model openai/gpt-oss-20b --port 8000 --num-gpus 1

Затем направьте свой интерфейс на http://<host>:8000/v1/chat/completions (vLLM поддерживает API, совместимый с OpenAI).

Советы по оптимизации затрат

Spot/Preemptive VMs на 50–80% дешевле, но требуют контрольных точек или стратегий быстрого возрождения.
Квантование модели снижает требования к типу экземпляра (например, квантованные 120 Б могут обслуживаться на меньшем количестве графических процессоров, если движки поддерживают деквантование «на лету»).
Использовать только оптимизированные для вывода семейства экземпляров (P5/P4/A2 Ultra) с высоким значением NVLink/NVSwitch при реализации параллелизма моделей с несколькими GPU; пропускная способность сети имеет значение для шардинга между GPU.

Как сбалансировать стоимость, задержку и качество модели

Квантование: скорость против качества

Агрессивное квантование (2-4 бит, AWQ/GPTQ) → Значительная экономия памяти при частой незначительной потере качества для многих задач. Используйте AWQ/GPTQ в производстве, если вы хотите оценить производительность конкретной рабочей нагрузки. Преобразование может потребовать большого объёма памяти ЦП во время квантования.

Смешанная точность и оптимизация ядра

Используйте fp16, bf16 где поддерживается; используйте со специализированными ядрами CUDA (FasterTransformer, TensorRT) для максимальной пропускной способности. Nvidia/TensorRT предлагает спекулятивное декодирование и оптимизированные ядра для многих трансформеров (NVIDIA предоставляет оптимизированные адаптеры GPT-OSS).

Безопасность и наблюдаемость

Модели Open-weight означают, что вы несёте ответственность за мониторинг нецелевого использования, утечки данных и дрейфа. Реализуйте журналирование запросов, фильтрацию контента, ограничение скорости и модерацию с участием человека. В заметках к выпуску и карточке модели OpenAI особое внимание уделяется внутреннему тестированию и внешним оценкам, но размещение на собственном сервере переносит периметр безопасности на вас.

Заключение

GPT-OSS меняет ситуацию: модели, которые ранее требовали масштабной специализированной инфраструктуры, теперь стали более доступными благодаря тщательному выбору архитектуры и квантованным распределениям. Но развертывание остается дисциплиной: при выборе размера оборудования необходимо учитывать точность модели, длину контекста и профиль параллелизма вашего приложения. Используйте небольшие тестовые стенды (квантованные 20 байт) для измерения токенов в секунду и задержки p95, а затем умножьте эти значения для оценки облачных вычислений и стоимости для производства.

Как получить доступ к API GPT-OSS

CometAPI — это унифицированная платформа API, которая объединяет более 500 моделей ИИ от ведущих поставщиков, таких как серия GPT OpenAI, Gemini от Google, Claude от Anthropic, Midjourney, Suno и других, в единый, удобный для разработчиков интерфейс. Предлагая последовательную аутентификацию, форматирование запросов и обработку ответов, CometAPI значительно упрощает интеграцию возможностей ИИ в ваши приложения. Независимо от того, создаете ли вы чат-ботов, генераторы изображений, композиторов музыки или конвейеры аналитики на основе данных, CometAPI позволяет вам выполнять итерации быстрее, контролировать расходы и оставаться независимыми от поставщика — и все это при использовании последних достижений в экосистеме ИИ.

Разработчики могут получить доступ ГПТ-ОСС-20Б и ГПТ-ОСС-120Б через CometAPIПоследние версии моделей указаны на дату публикации статьи. Для начала изучите возможности модели в Детская Площадка и проконсультируйтесь с API-руководство для получения подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили ключ API. CometAPI предложить цену намного ниже официальной, чтобы помочь вам интегрироваться.