GPT-OSS-Safeguard: Принцип, бағалау және орналастыру

OpenAI зерттеуінің алдын ала нұсқасын жариялады gpt-oss-сақтауы, әзірлеушілерге орындауға мүмкіндік беру үшін жасалған ашық салмақты қорытынды үлгісі отбасы олардың өздері шығару уақытындағы қауіпсіздік саясаты. Тұрақты классификаторды немесе қара жәшік модерация қозғалтқышын тасымалдаудың орнына, жаңа модельдер себебі әзірлеуші ұсынған саясаттан, олардың пайымдауын түсіндіретін ой тізбегін (CoT) шығарады және құрылымдық жіктеу нәтижелерін шығарады. Зерттеуді алдын ала қарау ретінде жарияланған, gpt-oss-safeguard пайымдау үлгілерінің жұбы ретінде ұсынылған -gpt-oss-safeguard-120b және gpt-oss-safeguard-20b— gpt-oss тобынан дәл реттелген және қорытынды жасау кезінде қауіпсіздікті жіктеу және саясатты орындау тапсырмаларын орындау үшін нақты жасалған.

gpt-oss-safeguard дегеніміз не?

gpt-oss-safeguard - бұл gpt-oss отбасынан кейінгі дайындықтан өткен ашық салмақты, тек мәтінге негізделген дәлелдеу үлгілерінің жұбы. табиғи тілде жазылған саясатты және осы саясатқа сәйкес таңбалау мәтінін түсіндіру. Айырмашылық ерекшелігі - бұл саясат қорытынды уақытында беріледі (саясат-кіріс), статикалық жіктеуіш салмақтарына өңделмеген. Модельдер негізінен қауіпсіздікті жіктеу тапсырмалары үшін әзірленген, мысалы, көп саясатты модерация, бірнеше реттеу режимдері бойынша мазмұнды жіктеу немесе саясаттың сәйкестігін тексеру.

Бұл неге маңызды?

Дәстүрлі модерация жүйелері әдетте (a) белгіленген мысалдар бойынша оқытылған жіктеуіштермен салыстырылған бекітілген ережелер жиындарына немесе (b) кілт сөзді анықтау үшін эвристикаға/регекстерге сүйенеді. gpt-oss-safeguard парадигманы өзгертуге әрекет жасайды: саясат өзгерген сайын жіктеуіштерді қайта оқытудың орнына сіз саясат мәтінін (мысалы, компанияңыздың қолайлы пайдалану саясаты, платформаның TOS немесе реттеуші нұсқаулығы) және берілген мазмұн бөлігінің осы саясатты бұзатын-бұзамайтыны туралы үлгі себептерін бересіз. Бұл ептілікке (саясат қайта даярлаусыз өзгереді) және түсініктілікке (модель өзінің пайымдау тізбегін шығарады) уәде береді.

Бұл оның негізгі философиясы — «есте сақтауды пайымдаумен, ал болжауды түсіндірумен ауыстыру».

Бұл мазмұн қауіпсіздігінің жаңа кезеңін білдіреді, ол «енжар оқу ережелерінен» «ережелерді белсенді түсінуге» ауысады.

GPT-OSS-Safeguard: Принцип, бағалау және орналастыру

gpt-oss-safeguard әзірлеушілер анықтаған қауіпсіздік саясаттарын тікелей оқи алады және қорытынды жасау кезінде пайымдаулар жасау үшін сол саясаттарды орындай алады.

gpt-oss-safeguard қалай жұмыс істейді?

Енгізу ретіндегі саясат

Қорытынды уақытында сіз екі нәрсені қамтамасыз етесіз: саясат мәтіні және кандидаттың мазмұны белгіленеді. Модель саясатты негізгі нұсқау ретінде қарастырады, содан кейін мазмұнға рұқсат етілгенін, рұқсат етілмегенін немесе қосымша модерация қадамдарын қажет ететінін анықтау үшін кезең-кезеңмен негіздеуді орындайды. Модельді шығару кезінде:

қорытындыны (белгі, санат, сенімділік) және осы қорытындыға неліктен қол жеткізілгенін түсіндіретін адам оқи алатын дәлелдеме ізін қамтитын құрылымдық нәтижені шығарады.
саясатты және жіктелетін мазмұнды қабылдайды,
ой тізбегі тәрізді қадамдарды пайдалана отырып, саясаттың баптары арқылы ішкі себептер, және

Мысалға:

Policy: Content that encourages violence, hate speech, pornography, or fraud is not allowed.

Content: This text describes a fighting game.

Ол жауап береді:

Classification: Safe

Reasoning: The content only describes the game mechanics and does not encourage real violence.

Ой тізбегі (CoT) және құрылымдық нәтижелер

gpt-oss-safeguard әрбір қорытындының бөлігі ретінде толық CoT ізін шығара алады. CoT тексеруге арналған — сәйкестік топтары модель неліктен қорытындыға келгенін оқи алады және инженерлер саясаттың анық еместігін немесе үлгінің сәтсіз режимдерін диагностикалау үшін ізді пайдалана алады. Модель де қолдайды құрылымдық шығыстар— мысалы, үкімді, бұзылған саясат бөлімдерін, ауырлық көрсеткішін және ұсынылған түзету әрекеттерін қамтитын JSON — модерация құбырларына біріктіруді жеңілдетеді.

Бапталуға болатын «ой қозғау» деңгейлері

Кідіріс, құн және мұқияттылықты теңестіру үшін модельдер конфигурацияланатын ойлау әрекетін қолдайды: төмен / орташа / жоғары. Жоғары күш-жігер ой тізбегінің тереңдігін арттырады және әдетте сенімдірек, бірақ баяу және қымбатырақ қорытындылар береді. Бұл әзірлеушілерге жұмыс жүктемелерін анықтауға мүмкіндік береді — әдеттегі мазмұн үшін аз күш жұмсау және шеткі жағдайлар немесе жоғары тәуекелді мазмұн үшін жоғары күш жұмсау.

Модель құрылымы дегеніміз не және қандай нұсқалары бар?

Үлгілі отбасы мен тегі

gpt-oss-safeguard болып табылады оқудан кейінгі OpenAI нұсқасының бұрынғы нұсқалары gpt-oss ашық үлгілер. Қорғаныс тобы қазіргі уақытта екі шығарылған өлшемді қамтиды:

gpt-oss-safeguard-120b — оңтайландырылған жұмыс уақытында әлі де бір 80 ГБ графикалық процессорда жұмыс істейтін жоғары дәлдіктегі ойлау тапсырмаларына арналған 120 миллиард параметрлі модель.
gpt-oss-safeguard-20b — 20 миллиардтық параметр моделі төмен бағамен қорытынды шығару және шеткі немесе жергілікті орталар үшін оңтайландырылған (кейбір конфигурацияларда 16 ГБ VRAM құрылғыларында жұмыс істей алады).

Архитектура жазбалары және орындалу уақыты сипаттамалары (не күтуге болады)

Әрбір таңбалауыш үшін белсенді параметрлер: Негізгі gpt-oss архитектурасы бір таңбалауыш үшін белсендірілген параметрлердің санын азайтатын әдістерді пайдаланады (негізгі gpt-oss жүйесіндегі тығыз және сирек назардың қоспасы / сарапшылар стилінің дизайны).
іс жүзінде 120B класы бір үлкен үдеткіштерге сәйкес келеді және 20В класы оңтайландырылған жұмыс уақытында 16 ГБ VRAM орнатуларында жұмыс істеуге арналған.

Қорғаныс үлгілері болды қосымша биологиялық немесе киберқауіпсіздік деректерімен оқытылмаған, және gpt-oss шығарылымы үшін орындалған ең нашар жағдайда дұрыс пайдаланбау сценарийлерінің талдаулары қорғаныс нұсқаларына шамамен қолданылады. Модельдер соңғы пайдаланушылар үшін мазмұнды құруға емес, жіктеуге арналған.

gpt-oss-safeguard мақсаттары қандай

мақсаттары

Саясаттың икемділігі: әзірлеушілерге кез келген саясатты табиғи тілде анықтауға және үлгіні теңшелетін белгілер жинағынсыз қолдануға мүмкіндік беріңіз.
Түсіндіру мүмкіндігі: шешімдерді тексеруге және саясаттарды қайталауға болатындай негіздеуді ашыңыз.
Қол жетімділік: ұйымдар жергілікті жерде қауіпсіздік негіздемесін жүргізіп, үлгінің ішкі бөліктерін тексере алатындай ашық салмақты балама ұсынады.

Классикалық классификаторлармен салыстыру

Дәстүрлі классификаторларға қарсы артықшылықтар

Саясатты өзгерту үшін қайта даярлау жоқ: Модерация саясатыңыз өзгерсе, белгілерді жинап, классификаторды қайта оқытудың орнына саясат құжатын жаңартыңыз.
Байрақ пайымдау: CoT нәтижелері нәзік саясаттың өзара әрекеттесуін аша алады және адам шолушыларына пайдалы баяндауды негіздей алады.
Реттеу мүмкіндігі: Жалғыз модель қорытынды жасау кезінде бір уақытта көптеген әртүрлі саясаттарды қолдана алады.

Дәстүрлі классификаторларға қарсы кемшіліктер

Кейбір тапсырмалар үшін өнімділік төбелері: OpenAI бағалауы бұл туралы атап өтеді ондаған мың таңбаланған мысалдар бойынша дайындалған жоғары сапалы классификаторлар gpt-oss-safeguard-тан асып түседі. мамандандырылған жіктеу тапсырмалары бойынша. Мақсат шикі жіктеу дәлдігі болса және сізде таңбаланған деректер болса, осы тарату бойынша дайындалған арнайы жіктеуіш жақсырақ болуы мүмкін.
Кешігу және құны: CoT арқылы ойлау жеңіл классификаторға қарағанда есептеуді көп қажет етеді және баяуырақ; бұл таза қорғауға негізделген құбырларды масштабта қымбатқа түсіруі мүмкін.

Қысқасы: gpt-oss-safeguard қай жерде жақсы қолданылады саясаттың икемділігі мен аудиттілігі басымдықтар болып табылады немесе таңбаланған деректер аз болған кезде және гибридті құбырлардағы қосымша құрамдас ретінде, масштабта оңтайландырылған классификаторды алмастыру ретінде міндетті түрде емес.

OpenAI бағалауларында gpt-oss-safeguard қалай жұмыс істеді?

OpenAI бастапқы нәтижелерді ішкі және сыртқы бағалауларды қорытындылайтын 10 беттік техникалық есепте жариялады. Негізгі қорытындылар (таңдалған, жүк көтеретін көрсеткіштер):

Көп саясаттың дәлдігі (ішкі бағалау)

OpenAI модельді беру арқылы көп саясаттың дәлдігін бағалады бірнеше саясаттарды бір уақытта қолданады және болжамды алтын белгілерге сәйкес келген жағдайда ғана дұрыс деп санайды барлық саясаттар. Нәтижелер:

gpt-oss-safeguard-120b: 46.3% көп саясаттың дәлдігі
gpt-oss-safeguard-20b: 43.6%
Салыстыру үшін: gpt-5-ойлау: 43.2%; gpt-oss-120b: 32.5%; gpt-oss-20b: 32.1%.
OpenAI-дің ішкі «қауіпсіздік-реасонер» ансамблі сол сынақта 52.2% жинады. Бұл сандар қорғаныс үлгілерінің көпсаясатты тапсырмада өздерінің gpt-oss базалық үлгілерінен айтарлықтай асып түсетінін көрсетеді және олар тіпті ішкі көпсаясатты метрикадағы үлкенірек gpt-5-ойлаудың негізгі деңгейінен асып түсті.

GPT-OSS-Safeguard: Принцип, бағалау және орналастыру

Модерация F1 (сыртқы көрсеткіштер)

OpenAI 2022 модерация деректер жинағында және ToxicChat жалпыға ортақ эталонында gpt-oss-safeguard модельдері F1 сенімді ұпайларына қол жеткізді:

OpenAI режимі (2022) F1: gpt-oss-safeguard-120b = 82.9%, gpt-oss-safeguard-20b = 82.9%
ToxicChat F1: gpt-oss-safeguard-120b = 79.3%, gpt-oss-safeguard-20b = 79.9%

Бұл ұпайлар gpt-oss-safeguard-ты кейбір эталондар бойынша мамандандырылған OpenAI ішкі жүйелеріне жақын немесе сәл артта қалдырады және әдетте дәл реттелмеген gpt-oss әріптестерінен алда.

GPT-OSS-Safeguard: Принцип, бағалау және орналастыру

Байқалған шектеулер

OpenAI екі практикалық шектеуді белгілейді:

Үлкен, тапсырмаға арналған таңбаланған деректер жиынында оқытылған классификаторлар әлі де қорғаныс үлгілерінен асып түседі. классификация дәлдігі жалғыз мақсат болған кезде.
Есептеу және кідіріс шығындары: CoT пайымдаулары қорытынды жасау уақытын және есептеу шығынын арттырады, бұл триаж классификаторларымен және асинхронды құбырлармен жұпталмаған болса, платформа деңгейіндегі трафикке масштабтауды қиындатады.

Көптілді паритет

gpt-oss-safeguard MMMLU стиліндегі сынақтарда көптеген тілдердегі негізгі gpt-oss үлгілерімен тепе-теңдікте жұмыс істейді, бұл нақты реттелген қорғаныс нұсқаларының кең ойлау қабілетін сақтайтынын көрсетеді.

Топтар gpt-oss-safeguard жүйесіне қалай қол жеткізе алады және қолдана алады?

OpenAI Apache 2.0 астында салмақтарды қамтамасыз етеді және жүктеп алу үшін модельдерді байланыстырады (Құшақтап тұрған бет). gpt-oss-safeguard ашық салмақты үлгі болғандықтан, жергілікті және өзін-өзі басқаратын орналастыру (құпиялылық және теңшеу үшін ұсынылады)

Үлгі салмақтарын жүктеп алыңыз (OpenAI / Hugging Face ішінен) және оларды өз серверлеріңізде немесе бұлттық виртуалды құрылғыларда орналастырыңыз. Apache 2.0 өзгертуге және коммерциялық пайдалануға мүмкіндік береді.
Жұмыс уақыты: Үлкен трансформатор үлгілерін (ONNX Runtime, Triton немесе оңтайландырылған жеткізушінің орындалу уақыттары) қолдайтын стандартты қорытынды орындау уақыттарын пайдаланыңыз. Ollama және LM Studio сияқты қауымдастықтың жұмыс уақыттары gpt-oss отбасыларына қолдау көрсетуде.
аппараттық: 120B әдетте жоғары жады GPU (мысалы, 80 ГБ A100 / H100 немесе көп графикалық процессорды бөлу) қажет етеді, ал 20B арзанырақ іске қосылуы мүмкін және 16 ГБ VRAM орнатулары үшін оңтайландырылған опциялары бар. Ең жоғары өткізу қабілеттілігі мен көп саясатты бағалау шығындарын жоспарлаңыз.

Басқарылатын және үшінші тарап жұмыс уақыттары

Егер жеке жабдықты іске қосу мүмкін болмаса, CometAPI gpt-oss үлгілеріне қолдауды жылдам қосуда. Бұл платформалар жеңілірек масштабтауды қамтамасыз етуі мүмкін, бірақ үшінші тарап деректерінің экспозициясын қайта енгізеді. Басқарылатын орындалу уақыттарын таңдамас бұрын құпиялылықты, SLA және кіруді басқару элементтерін бағалаңыз.

gpt-oss-safeguard көмегімен тиімді модерация стратегиялары

1) Гибридті құбырды қолданыңыз (триаж → себебі → шешім)

Триаж қабаты: шағын, жылдам жіктеуіштер (немесе ережелер) тривиальды жағдайларды сүзеді. Бұл қымбат қорғаныс үлгісіне жүктемені азайтады.
Қорғау қабаты: Саясаттың нюанстары маңызды болған кезде анық емес, жоғары тәуекелді немесе көп саясатты тексеру үшін gpt-oss-safeguard іске қосыңыз.
Адамның шешімі: ашықтық үшін дәлел ретінде CoT сақтай отырып, шеткі істер мен апелляцияларды күшейтіңіз. Бұл гибридті дизайн өткізу қабілеті мен дәлдікті теңестіреді.

2) Саясат инженериясы (жедел инженерия емес)

Саясаттарды бағдарламалық жасақтама артефактілері ретінде қарастырыңыз: олардың нұсқасын жасаңыз, деректер жиынына қарсы сынаңыз және оларды анық және иерархиялық ұстаңыз.
Саясаттарды мысалдармен және қарсы мысалдармен жазыңыз. Мүмкіндігінше, мән-мағынаны ажырататын нұсқауларды қосыңыз (мысалы, «Егер пайдаланушының ниеті анық зерттеуші және тарихи болса, X деп белгілеңіз; егер ниет операциялық және нақты уақытта болса, Y деп белгілеңіз»).

3) Ойлау әрекетін динамикалық түрде конфигурациялаңыз

пайдалану төмен күш жаппай өңдеуге арналған және жоғары күш белгіленген мазмұн, апелляциялар немесе жоғары әсер ететін вертикалдар (заң, медициналық, қаржы) үшін.
Құнды/сапаны табу үшін шекті мәндерді адам пікірімен реттеңіз.

4) КТ-ны растаңыз және галлюцинацияланған пайымдауды бақылаңыз

CoT құнды, бірақ ол галлюцинациялауы мүмкін: із - негізді шындық емес, модельден жасалған негіздеме. CoT нәтижелерін жүйелі түрде тексеру; галлюцинацияланған дәйексөздер немесе сәйкес келмейтін дәлелдер үшін құрал детекторлары. OpenAI галлюцинацияланған ойлау тізбегін бақыланатын мәселе ретінде құжаттайды және жұмсарту стратегияларын ұсынады.

5) Жүйе жұмысынан деректер жиынын құру

Үштік жіктеуіштерін жақсартатын немесе саясатты қайта жазуды хабарлайтын таңбаланған деректер жиынын жасау үшін үлгі шешімдері мен адам түзетулерін журналға жазыңыз. Уақыт өте келе шағын, жоғары сапалы таңбаланған деректер жиынтығы және тиімді жіктеуіш әдеттегі мазмұн үшін толық CoT қорытындысына тәуелділікті азайтады.

6) Есептер мен шығындарды бақылау; асинхронды ағындарды қолданады

Тұтынушыға арналған төмен кідіріс қолданбалары үшін жоғары күш-жігерді синхронды түрде орындаудың орнына қысқа мерзімді консервативті UX (мысалы, қарауды күтудегі мазмұнды уақытша жасыру) арқылы асинхронды қауіпсіздік тексерулерін қарастырыңыз. OpenAI ескертпесі Safety Reasoner өндірістік қызметтердің кешігуін басқару үшін ішкі асинхронды ағындарды пайдаланады.

7) Құпиялықты және орналастыру орнын қарастырыңыз

Салмақтар ашық болғандықтан, деректерді қатаң басқаруға сәйкес келу немесе реттелетін салалар үшін құнды үшінші тарап API интерфейстерінің әсерін азайту үшін қорытындыны толығымен жергілікті жерде іске қосуға болады.

Қорытынды:

gpt-oss-safeguard – бұл практикалық, мөлдір және икемді құрал саясатқа негізделген қауіпсіздік негіздемесі. Қажет кезде жарқырайды айқын саясаттарға байланысты тексерілетін шешімдер, саясаттарыңыз жиі өзгергенде немесе қауіпсіздік тексерулерін жергілікті жерде жүргізгіңіз келгенде. Бұл емес мамандандырылған, жоғары көлемді классификаторларды автоматты түрде алмастыратын күміс оқ — OpenAI компаниясының жеке бағалаулары үлкен таңбаланған корпустарда дайындалған арнайы жіктеуіштер тар тапсырмалар үшін шикі дәлдік бойынша осы үлгілерден асып түсетінін көрсетеді. Оның орнына, gpt-oss-safeguard-ты стратегиялық құрамдас ретінде қарастырыңыз: қабатты қауіпсіздік архитектурасының негізіндегі түсіндірілетін дәлелдеу қозғалтқышы (жылдам триаж → түсіндірілетін пайымдау → адам бақылауы).

Басталу

CometAPI – OpenAI GPT сериялары, Google Gemini, Anthropic's Claude, Midjourney, Suno және т.б. сияқты жетекші провайдерлердің 500-ден астам AI үлгілерін бір, әзірлеушілерге ыңғайлы интерфейске біріктіретін бірыңғай API платформасы. Тұрақты аутентификацияны, сұрауды пішімдеуді және жауаптарды өңдеуді ұсына отырып, CometAPI қолданбаларыңызға AI мүмкіндіктерін біріктіруді айтарлықтай жеңілдетеді. Чат-боттарды, кескін генераторларын, музыкалық композиторларды немесе деректерге негізделген аналитикалық құбырларды құрастырып жатсаңыз да, CometAPI сізге AI экожүйесіндегі соңғы жетістіктерге қол жеткізе отырып, жылдамырақ қайталауға, шығындарды басқаруға және жеткізуші-агностикалық күйде қалуға мүмкіндік береді.

Ең соңғы интеграциялық gpt-oss-safeguard жақында CometAPI жүйесінде пайда болады, сондықтан хабардар болыңыз! Біз gpt-oss-safeguard үлгісін жүктеп салуды аяқтағанша, әзірлеушілер қол жеткізе алады GPT-OSS-20B API және GPT-OSS-120B API CometAPI арқылы, соңғы үлгі нұсқасы әрқашан ресми сайтпен жаңартылып отырады. Бастау үшін үлгінің мүмкіндіктерін зерттеңіз Ойын алаңы және кеңесіңіз API нұсқаулығы егжей-тегжейлі нұсқаулар үшін. Қол жеткізу алдында CometAPI жүйесіне кіріп, API кілтін алғаныңызға көз жеткізіңіз. CometAPI біріктіруге көмектесу үшін ресми бағадан әлдеқайда төмен баға ұсыныңыз.

Баруға дайынсыз ба?→ CometAPI-ге бүгін тіркеліңіз !

Егер сіз AI туралы көбірек кеңестер, нұсқаулықтар және жаңалықтар білгіңіз келсе, бізге жазылыңыз VK, X және Арасындағы айырмашылық!

gpt-oss-safeguard дегеніміз не?

Бұл неге маңызды?

gpt-oss-safeguard қалай жұмыс істейді?

Енгізу ретіндегі саясат

Ой тізбегі (CoT) және құрылымдық нәтижелер

Бапталуға болатын «ой қозғау» деңгейлері

Модель құрылымы дегеніміз не және қандай нұсқалары бар?

Үлгілі отбасы мен тегі

Архитектура жазбалары және орындалу уақыты сипаттамалары (не күтуге болады)

gpt-oss-safeguard мақсаттары қандай

мақсаттары

Классикалық классификаторлармен салыстыру

OpenAI бағалауларында gpt-oss-safeguard қалай жұмыс істеді?

Көп саясаттың дәлдігі (ішкі бағалау)

Модерация F1 (сыртқы көрсеткіштер)

Байқалған шектеулер

Көптілді паритет

Топтар gpt-oss-safeguard жүйесіне қалай қол жеткізе алады және қолдана алады?

Басқарылатын және үшінші тарап жұмыс уақыттары

gpt-oss-safeguard көмегімен тиімді модерация стратегиялары

1) Гибридті құбырды қолданыңыз (триаж → себебі → шешім)

2) Саясат инженериясы (жедел инженерия емес)

3) Ойлау әрекетін динамикалық түрде конфигурациялаңыз

4) КТ-ны растаңыз және галлюцинацияланған пайымдауды бақылаңыз

5) Жүйе жұмысынан деректер жиынын құру

6) Есептер мен шығындарды бақылау; асинхронды ағындарды қолданады

7) Құпиялықты және орналастыру орнын қарастырыңыз

Қорытынды:

Басталу

Толығырақ оқу

500+ модель бір API-да