Ірі зертханалардың ашық салмақты үлгілері жергілікті немесе шет жағында үлкен тіл үлгілерін қолданғысы келетін ұйымдар үшін есептеуді өзгертті. OpenAI жақында gpt-oss отбасы (әсіресе gpt-oss-20B және gpt-oss-120B шығарылымдар) орналастырудың екі түрлі сыныбына нақты бағытталған: жеңіл жергілікті қорытынды (тұтынушы/жиек) және ауқымды деректер орталығының қорытындысы. Бұл шығарылым және кванттау, төмен дәрежелі адаптерлер және сирек/сарапшылар қоспасы (ММ) дизайн үлгілеріне қатысты қауымдастық құралдарының көптігі — мынаны сұрауға тұрарлық етеді: өндірісте осы үлгілерді іске қосу, дәл баптау және қызмет көрсету үшін сізге қанша есептеу қажет?
Ескерту: бұл мақалаға сілтеме жасалады қорытынды/орналастыру есептеу (пайдаланушыларға үлгіні қызмет ету үшін не қажет), бұрын қолданылған үлкенірек есептеу емес поезд модельдер. Контекст үшін ірі жеткізушілер жаңа ұрпақтарды үлкен GPU кластерлеріне үйретеді; бұл мүлдем басқа шкала.
gpt-oss үлгілері үшін базалық есептеу профильдері қандай?
OpenAI gpt-oss отбасы туралы не айтады?
OpenAI жариялаған спецификациялар позициясы gpt-oss-20B «бар болғаны 16 ГБ жады бар шеткі құрылғыларда» жұмыс істей алатын модель ретінде және gpt-oss-120B көптеген қорытынды пайдалану үшін «бір 80 ГБ GPU» пайдалануға болатын үлгі ретінде. 20B үлгісі жергілікті желіден тыс пайдалануға және жылдам итерацияға бағытталған; 120B жоғары деңгейлі «шағын» үлгілермен жақын теңдік беруге арналған, бірақ толық FP16-да талап етілетін алдыңғы 100B+ салмақтарынан төменірек аппараттық жолақпен. Бұл дизайн талаптары (және іске асыру/кванттау/дәлдігі бойынша өзгереді), бірақ олар нақты мақсат қояды: бір модель тұтынушы/жиек үшін, біреуі деректер орталығындағы жалғыз GPU қорытындысы үшін.
Бұл сандарды қалай түсіндіру керек?
Бұл тақырып нөмірлері (16 ГБ, 80 ГБ). жад таза FLOP санаулары емес, мақсаттар. Олар мыналардың комбинациясын көрсетеді:
- Үлгінің салмағын сақтау (кванттық немесе толық дәлдік),
- Белсендіру және КВ кэш қорытынды жасау кезінде жады (мәтіннің ұзындығы мен пакет өлшемімен масштабталады),
- Рамалық үстеме шығындар (орындау уақытының буферлері, CUDA жұмыс кеңістігі, токенизатор буферлері),
- Қосымша құрамдас бөліктер ТМ бағыттау бойынша үстеме шығындар немесе адаптер салмақтары сияқты.
Іс жүзінде модель жады + КВ кэш + жұмыс кеңістігі модельдің GPU жедел жадына немесе жүйелік жедел жадыға сәйкес келетінін анықтайтын қосынды болып табылады. Үлкен контекстік терезелер үшін (он мыңдаған таңбалауыштар) КВ кэшінің өзі ондаған ГБ жұмсауы мүмкін, бұл тиімді жабдық қажеттілігін жоғары қарай жылжытады.
Модель өлшемі неге маңызды
Орналастыру есептеуі үшін басым фактор болып табылады параметрлердегі үлгі өлшемі өйткені бұл шикі салмақты сақтауды және белсендіру жадын анықтайды. Тәжірибешілер қолданатын өрескел ереже: FP16 (жарты дәлдік) жады бір параметрге ~2 байт қажет, сондықтан FP16-дағы 70B үлгісі тек ~140 ГБ салмақтық жадты құрайды — және белсендірулер, оңтайландыру күйі (нақты баптау болса) және жүйенің үстеме шығындары үшін қосымша жад қажет. Бұл арифметика модельдердің неліктен GPU құрылғыларында жиі бөлінетінін немесе бір GPU пайдалану үшін квантталғанын түсіндіреді.
GPT-OSS қолдануына «қанша есептеу» қажет екенін не анықтайды?
Адамдар «қанша есептеу керек» деп сұрағанда, олар әдетте келесі өлшенетін ресурстардың біреуін немесе бірнешеуін білдіреді:
- GPU жады (VRAM): үлгі салмақтарын жүктеуге және токендерге қызмет көрсетуге арналған шектеу коэффициенті.
- GPU есептеуі (FLOPS / тензор өткізу қабілеті): кідіріс пен секундтағы белгілерге әсер етеді.
- GPU және өзара қосылу саны (NVLink / PCIe / желі): үлкен салмақтар үшін модельді құрылғылар арасында бөлу мүмкіндігін анықтайды.
- Орталық процессор, жедел жады және жады: алдын ала/соңғы өңдеуге, кэштеуге және үлгі салмағын сақтауға арналған қосалқы құрамдас бөліктер.
- Қорытынды бағдарламалық қамтамасыз ету стегі және оңтайландырулар: Hugging Face Text-Generation-Inference (TGI), vLLM, NVIDIA Triton сияқты фреймворктер және кванттау немесе түсіру сияқты әдістер тиімді талаптарды көп өзгертеді.
Бұл өлшемдер өзара әрекеттеседі: квантталған модельге азырақ VRAM қажет, бірақ аз кідіріс үшін жылдамырақ графикалық процессордың пайдасы бар. Керісінше, бір уақытта көптеген пайдаланушылары бар жоғары өнімді орнату жадты да, күшті GPU есептеуін немесе ақылды топтаманы қажет етеді.
20B және 120B үлгісі үшін қорытынды қанша жадты пайдаланады?
Шикізат параметрлері қанша жадты қажет етеді?
Параметрлер санының өзі жетілмеген көрсеткіш болып табылады, себебі әр параметрге жады сандық дәлдікке байланысты:
- FP32 құны 4 байт/парам; FP16/16-бит флоат құны 2 байт/парам.
- 8-биттік, 4-биттік және тіпті 3-биттік кванттау мұны күрт төмендетеді (мысалы, 4-бит ≈ 0.5 байт/парам және шағын деквантизация кестелері). GPTQ, AWQ және ML-спецификалық квантизаторлар сияқты әдістер тәжірибеде үлкен қысқартулар әкеледі.
Дөрекі математиканы қолдану:
- A 20B-параметр FP16 кезіндегі модель ≈ 40 ГБ өңделмеген (20В × 2 байт). Оңтайландырылған 4-биттік кванттау кезінде ол ~16 ГБ-тан (плюс шағын үстеме) төмен түсуі мүмкін, бұл gpt-oss-20B орындау уақыты трюктерімен біріктірілген кезде мақсатты.
- A 120B-параметр FP16 ≈ 240 ГБ өңделмеген үлгідегі модель. Оны бір 80 ГБ графикалық процессорға сыйдыру үшін модель қысу/кванттау және/немесе сирек белсендірулерді (мысалы, ТМ, таңбалауыш үшін тек сарапшылардың ішкі жиыны белсенді) пайдалануы керек. белсенді жад ізі айтарлықтай. OpenAI құжаттамасы 120В салмақтарын жалпы қорытынды пайдалану жағдайлары үшін ~80 ГБ құрылғының жедел жадына тиімді орналастыруға мүмкіндік беретін дизайн таңдауларын сипаттайды (сиректік, топтастырылған көп сұрауларға назар аудару және жаңа кванттау схемалары).
КВ кэш және мәтінмән ұзындығы туралы не деуге болады?
Мәтінмәндік ұзындық жадты жоспарлау үшін бірінші дәрежелі азамат болып табылады:
- КВ кэш жады шамамен келесідей таралады:
(#layers) × (head_dim) × (context_length) × 2(кілттер + мәндер) × элемент_өлшемі. - Ұзын терезелері бар үлкен үлгілер үшін (кейбір gpt-oss конфигурациялары қолдайтын 64K–131K таңбалауыштар) KV кэш жадтың басым тұтынушысы бола алады, көбінесе толық өлшемді өңдеу үшін ондаған және жүздеген ГБ қажет. Егер сізге жоғары өткізу қабілеттілігімен өте ұзын мәтінмәндік терезелерді қолдау қажет болса, айтарлықтай қосымша GPU жадын резервтеңіз немесе КВ кэшін орталық процессорға/хосттың жедел жадысына немесе арнайы бөлінген KV кэштеріне жүктеп алыңыз.
Кванттау және сирек архитектуралар есептеуді төмендетудің кілті ме?
Кванттау — салмақтардың және белсендірулердің сандық дәлдігін азайту — қорытынды жасау және төмен бағамен дәл реттеу үшін VRAM талаптарының жалғыз ең үлкен төмендеуіне әкеледі.
Кванттау (жаттығудан кейінгі немесе түрлендіру кезінде) жадты азайтуға арналған жалғыз ең қуатты рычаг болып табылады және көбінесе қорытынды өткізу қабілетін жақсартады, себебі модельдің көп бөлігі жылдам кэштерге сәйкес келеді. 2024–2025 жылдары кеңінен қолданылатын әдістерге GPTQ, AWQ және реттелетін 3–4-бит квантизаторлары жатады; қауымдастық көрсеткіштері мұны көрсетеді 4-биттік кванттау жиі сапада шамалы жоғалтуды тудырады жадты FP16 қарағанда ~4× қысқарту кезінде. Бұл әдістер енді стандартты орналастыру құбырларының бөлігі болу үшін жеткілікті жетілген.
Қалай сирек / MoE дизайн жасайды
Сарапшылар қоспасы (ММ) үлгілері азаяды белсенді параметр таңбалауыштарды сарапшылардың шағын жиынтығына бағыттау арқылы әрбір таңбалауышты санайды. Бұл 120B дегенді білдіреді параметрленген Модель кез келген жеке таңбалауыш үшін салмағының бір бөлігін ғана белсендіре алады, бұл жадты және қорытынды жасау үшін флоп қажеттіліктерін күрт төмендетеді. OpenAI-дің gpt-oss архитектурасы 120B нұсқасын бір жоғары жады GPU-да іс жүзінде қолдануға болатын ету үшін MoE және басқа да сиректік үлгілерін пайдаланады. Дегенмен, ТМ сіз жоспарлауыңыз керек жұмыс уақытының күрделілігін қосады (маршруттау кестелері, жүктемені теңестіру, көп GPU орнатуларындағы ықтимал байланыс шығындары).
Қорытынды құрылымдар және қызмет көрсету архитектурасы есептеу қажеттіліктерін қалай өзгертеді?
Бір GPU және көп GPU және бөлшектелген қызмет көрсету
- Бір графикалық процессор: ең қарапайым орналастыру; шағын үлгілер (≤13B) немесе үлкен квантталған үлкен үлгілер үшін ең жақсы.
- Көп графикалық графикалық процессордың бөлінетін қызметі: салмақтарды және/немесе белсендірулерді GPU арқылы бөледі; кванттаусыз FP16 70B+ үлгілері үшін қажет. NVLink немесе өткізу қабілеттілігі жоғары интерконнектер кешіктіруді жақсартады.
- Бөлінген / үлгі параллельді қызмет көрсету: заманауи шешімдер GPU-дағы ыстық қабаттардың бөлек жылдам кэші бар жадты бөлшектеу (машиналарда сақталған салмақтар) бар флоттарға есептеуді итермелейді. NVIDIA-ның жаңа Dynamo/Triton платформасы және басқа да шығаруды ұйымдастыру қабаттары құны мен кідірісін оңтайландыру кезінде LLM нәтижесін масштабтау үшін осы үлгілерді нақты қолдайды.
H3: Маңызды жақтаулар мен бағдарламалық қамтамасыз ету
- Құшақтап тұрған бет мәтінін жасау қорытындысы (TGI) — көптеген ашық үлгілер үшін оңтайландырылған қызмет көрсетуді қамтамасыз етеді және топтаманы, таңбалауыш ағынын және үлгіні оңтайландыруды қолдайды.
- NVIDIA Triton / Динамо (Тритон → Динамо Тритон) — LLM-арнайы оңтайландырулары және Blackwell/H100 архитектурасын қолдауы бар кәсіпорын қорытынды сервері, өнімділігі жоғары, кідірісі төмен флоттар үшін пайдаланылады.
- vLLM / ExLlama / llama.cpp / GGUF құбырлары — үлкен үлгілерді кішірек аппараттық іздерге сығу үшін жад пен CPU/GPU ядроларын оңтайландыратын қауымдастық және академиялық жобалар.
Дұрыс құрылымды таңдау сізге ондаған GPU қажет пе (ақылсыз бөлшектеу) немесе жадты жақсы басқару, ядроны біріктіру және квантталған ядролардың арқасында аз құрылғылармен бірдей кешігуге қол жеткізуге әсер етеді.
Өкілдік орналастыру мысалдары және аппараттық құралдар туралы ұсыныстар қандай?
1-мысал — Жергілікті әзірлеуші / жергілікті ноутбук (gpt-oss-20B)
- нысана: Интерактивті әзірлеу, жеке жергілікті қорытынды, шағын ауқымды тестілеу.
- Ең аз практикалық спецификация: тұтынушы немесе жұмыс станциясының GPU 16–32 ГБ жедел жады (32+ ГБ бар M1/M2/M3 Mac компьютерлері немесе RTX 4090/4080 / RTX 6000 24–48 ГБ бар компьютер) плюс Үлгі файлдары үшін SSD сақтау орны. 4-биттік кванттауды және оңтайландырылған орындалу уақыттарын (llama.cpp/ggml, ONNX Runtime немесе Ollama) пайдаланыңыз. Бұл орнату ақылға қонымды кідіріспен қалыпты мәтінмән ұзындықтарын өңдейді.
2-мысал — Бір GPU деректер орталығының қорытындысы (gpt-oss-120B)
- нысана: Орташа өткізу қабілеттілігіндегі өндірістік қорытынды.
- Ұсынылған спецификация: Жалғыз 80 ГБ графикалық процессор (A100 80GB, H100-80GB немесе соған ұқсас), серверлік процессор және түсіру және буферлеуге арналған 512 ГБ+ жүйелік жедел жады, модельді жылдам жүктеу үшін NVMe жады. gpt-oss ресми құрастыруларын / оңтайландырылған ядроларды және ауыр кванттауды + MoE белсендіру сиректігін пайдаланыңыз. Бұл көптеген коммерциялық жұмыс жүктемелері үшін шығындар мен мүмкіндіктер арасындағы жақсы теңгерімді қамтамасыз етеді.
3-мысал — Өткізу қабілеті жоғары, масштабта аз кідіріс
- нысана: Мыңдаған qps, қатаң кідіріс мақсаттары, ұзақ контекстік терезелер.
- Ұсынылған спецификация: бірнеше A100/H100 карталары немесе жаңарақ шығару үдеткіштері бойынша үлгіні бөлшектеу (тензорлық параллелизм + құбыр параллелизмі) бар GPU кластерлері; КВ кэшті бөлу немесе процессорды түсіру; және бұлттық GPU-пулдарында автомасштабтау. Сізге желіні (NVLink / PCIe / RDMA), бөлінген жұмыс уақытының үстеме шығындарын және мұқият пакеттеу стратегияларын есепке алу қажет. MLPerf және тәуелсіз салыстыру жұмыстары көп GPU орнатулары үшін анықтамалық нүктелерді қамтамасыз етеді.
Өткізу қабілеті мен кідіріс сізге қажет есептеуге қалай әсер етеді?
Кешігу мен топтаманың арасындағы айырбас қандай?
- Пакет өткізу қабілеттілігін арттырады (секундына сұраулар), сонымен қатар кез келген жалғыз сұрау үшін кідіріс уақытын арттырады. CPU/GPU толтырылуын үлкенірек партиялармен барынша арттыруға болады, бірақ пайдаланушыға арналған қолданбалар жиі сұраныстың төмен кідірісін қалайды.
- Үлгі мөлшері бұл сауда-саттықты күшейтеді: үлкенірек үлгілер токеннің құнын жоғарылатады, сондықтан үнемді өткізу қабілетіне жету үшін оларға үлкен партиялар немесе кідіріске зиян келтірместен жүктемені тарату үшін көбірек GPU қажет.
Жұмыс жүктемесін профильдеу өте қажет: GPU үшін таңбалауыштарды/сектерді мақсатты пакет өлшемдеріңізде және кідіріс бюджетінде өлшеңіз, содан кейін сәйкесінше қамтамасыз етіңіз. SLA қолдау көрсету үшін автомасштабтауды және сұрау деңгейіндегі топтамалау логикасын (микро-топтама, өсу терезелері) пайдаланыңыз.
Өндірісте gpt-oss іске қосу қанша тұрады?
Операциялық шығындардың драйверлері қандай?
Шығында үш фактор басым болады:
- GPU сағаттары (түрі және саны) — ауыр үлгілерге арналған ең үлкен жол элементі.
- Жад және сақтау — Үлгі бөлшектері мен кэштеу үшін NVMe; КВ түсіруге арналған RAM.
- Инженерлік уақыт — бөлуді, кванттау құбырларын, бақылауды және қауіпсіздікті сүзуді басқару операциялары.
Шамамен бағалау үшін:
Тұрақты қорытынды жасау үшін пайдаланылатын жалғыз A100 80 ГБ данасы үшін бұлтты сағаттық шығындар (аймаққа және міндеттемеге байланысты), сонымен қатар амортизацияланған инженерия мен желі жиі күніне жүздеген доллардан төмен мыңдаған долларға дейін орташа жүктемелер үшін. Көп GPU кластерлеріне көшу бұл шығынды көбейтеді. Нақты сандар провайдердің жеңілдіктеріне, сақталған даналарға және өткізу қабілеті/кідіріс профиліне байланысты. Соңғы аппараттық нұсқаулықтар мен эталондар болжамыңызға бейімделе алатын qps бастапқы көрсеткіштері үшін ақылға қонымды шығындарды қамтамасыз етеді.
Қандай операциялық әдістер есептеу мен шығындарды азайтады?
Қандай бағдарламалық жасақтама мен үлгі трюктері маңыздырақ?
- Кванттау (GPTQ/AWQ) 4-бит/3-бит салмақ сақтауды азайтады және жиі қорытынды шығаруды жылдамдатады.
- LoRA / QLoRA дәл реттеу үшін GPU жады мен есептеулері әлдеқайда аз үлкен үлгілерді бейімдеуге мүмкіндік береді.
- ТМ / сирек белсендірулер маршруттау күрделілігінің құны бойынша қорытынды уақытында белсенді параметрді пайдалануды азайту.
- КВ кэшті түсіру (смарт асинхронды IO бар жедел жадқа немесе дискіге көшу) өте ұзақ контекстер үшін.
- Модельді айдау немесе композиция: шлюз үлгілерін дистилляциялаңыз немесе қарапайым тапсырмалар үшін үлкен үлгіге қоңырауларды азайту үшін іздеуді пайдаланыңыз.
Қандай жұмыс уақытын таңдау маңызды?
Жоғары оңтайландырылған орындалу уақыттарын таңдаңыз (ONNX Runtime, Triton, теңшелетін CUDA ядролары немесе CPU қорытындысы үшін llama.cpp сияқты қауымдастық жұмыс уақыттары) және пайдалануды барынша арттыру үшін тензорлық өзектерді, топтамаларды, біріктірілген ядроларды және жадпен салыстырылған модельді жүктеуді пайдаланыңыз. Бұл таңдаулар көбінесе үлгі өлшемін кішігірім жақсартулардан гөрі тиімді аппараттық құрал талаптарын өзгертеді.
Практикалық қателер мен қиындықтар қандай?
Есептеу қажеттіліктеріңіз күтпеген жерден жарылып кетуіне не себеп болуы мүмкін?
- Ұзын мәтінмәндік терезелер: КВ кэшінің өсуі жад бюджетіңізді бұзуы мүмкін. Жүкті түсіруді жоспарлаңыз.
- Жоғары параллельділік: Көптеген бір уақытта пайдаланушылар тек бір ірі графикалық процессорды емес, көлденең масштабтауды қажет етеді.
- Қауіпсіздік сүзгілері мен құбырлар: Модерация үлгілері, ендірілген дүкендер және іздеу әрбір сұрауға CPU/GPU қосымша шығындарын қоса алады.
- Рамка сәйкессіздіктері: Оңтайландырылмаған операторларды пайдалану немесе квантталған ядроларды пайдаланбау мәлімделген жад/кідіріс сандарын іске асыру мүмкін емес етеді.
Қорытынды - сізге қанша есептеу қажет?
Жалғыз жауап жоқ, бірақ заманауи ашық салмақты шығарылымдар сияқты gpt-oss жолақты айтарлықтай төмендетті:
- Көптеген пайдалану жағдайлары үшін, тұтынушы/жұмыс станциясы класының аппараттық құралы (4-биттік кванттауы бар ≈16–32 ГБ жедел жады) жергілікті/шеттік пайдалану үшін 20B-сынып үлгісін жақсы іске қоса алады.
- Жоғары қабілетті бір GPU қорытындысы үшін, ан 80 ГБ графикалық процессор кванттаумен және сиректеумен үйлескенде 100–200B-параметрлі отбасылар үшін ақылға қонымды базалық көрсеткіш болып табылады.
- Нақты баптау қолдану ауқымында практикалық LoRA/QLoRA көптеген тапсырмалар үшін жалғыз станоктарда; 100B+ үлгілерін толық оқыту көп GPU деректер орталығының әрекеті болып қала береді.
Ақырында, мұны есте сақтаңыз бағдарламалық құрал таңдауы (квантизаторлар, орындалу уақыттары, топтамалық стратегия) көбінесе аппараттық есептеулерді параметрлер санауындағы кішігірім айырмашылықтарға қарағанда көбірек өзгертеді.. SLA, профильді ерте бастаңыз және сапаны жоғалтпай шығындарды азайту үшін кванттау және параметрді тиімді бейімдеу стратегияларын қабылдаңыз.
GPT-OSS API интерфейсіне қалай кіруге болады
CometAPI – OpenAI GPT сериялары, Google Gemini, Anthropic's Claude, Midjourney, Suno және т.б. сияқты жетекші провайдерлердің 500-ден астам AI үлгілерін бір, әзірлеушілерге ыңғайлы интерфейске біріктіретін бірыңғай API платформасы. Тұрақты аутентификацияны, сұрауды пішімдеуді және жауаптарды өңдеуді ұсына отырып, CometAPI қолданбаларыңызға AI мүмкіндіктерін біріктіруді айтарлықтай жеңілдетеді. Чат-боттарды, кескін генераторларын, музыкалық композиторларды немесе деректерге негізделген аналитикалық құбырларды құрастырып жатсаңыз да, CometAPI сізге AI экожүйесіндегі соңғы жетістіктерге қол жеткізе отырып, жылдамырақ қайталауға, шығындарды басқаруға және жеткізуші-агностикалық күйде қалуға мүмкіндік береді.
Әзірлеушілер қол жеткізе алады GPT-OSS-20B және GPT-OSS-120B арқылы CometAPI, тізімдегі соңғы үлгілердің нұсқасы мақаланың жарияланған күнінен бастап берілген. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз. CometAPI біріктіруге көмектесу үшін ресми бағадан әлдеқайда төмен баға ұсыныңыз.
