GPT-OSS-Safeguard: 원칙, 평가 및 배포

OpenAI는 연구 미리보기를 발표했습니다. gpt-oss-safeguard개발자가 시행할 수 있도록 설계된 개방형 가중치 추론 모델 제품군 자신의 추론 시점의 안전 정책. 고정된 분류기나 블랙박스 조정 엔진을 탑재하는 대신, 새로운 모델은 다음과 같이 미세 조정됩니다. 개발자가 제공한 정책의 이유, 추론 과정을 설명하는 사고의 사슬(CoT)을 생성하고, 구조화된 분류 결과를 생성합니다. 연구 미리보기로 발표된 gpt-oss-safeguard는 한 쌍의 추론 모델로 제시됩니다.gpt-oss-safeguard-120b 및 gpt-oss-safeguard-20b—gpt-oss 제품군에서 미세 조정되었으며 추론 중에 안전 분류 및 정책 시행 작업을 수행하도록 명시적으로 설계되었습니다.

gpt-oss-safeguard란 무엇인가요?

gpt-oss-safeguard는 gpt-oss 패밀리에서 사후 학습된 개방형 가중치, 텍스트 전용 추론 모델 쌍입니다. 자연어로 작성된 정책을 해석하고 해당 정책에 따라 텍스트에 레이블을 지정합니다.. 특징은 정책이 추론 시간에 제공됨 (정책 입력)은 정적 분류기 가중치에 포함되지 않습니다. 이 모델은 주로 안전 분류 작업(예: 다중 정책 조정, 여러 규제 체계에 걸친 콘텐츠 분류 또는 정책 준수 확인)을 위해 설계되었습니다.

왜이 문제

기존의 중재 시스템은 일반적으로 (a) 레이블이 지정된 예시를 기반으로 학습된 분류기에 매핑된 고정 규칙 세트, 또는 (b) 키워드 감지를 위한 휴리스틱/정규 표현식에 의존합니다. gpt-oss-safeguard는 이러한 패러다임을 바꾸려고 합니다. 정책이 변경될 때마다 분류기를 재학습하는 대신, 정책 텍스트(예: 회사의 허용 가능한 사용 정책, 플랫폼 서비스 약관 또는 규제 기관의 지침)를 제공하면 모델이 주어진 콘텐츠가 해당 정책을 위반하는지 여부를 추론합니다. 이는 민첩성(재학습 없이 정책 변경 가능)과 해석 가능성(모델이 추론 체인을 출력 가능)을 보장합니다.

이것이 바로 핵심 철학입니다. "암기를 추론으로, 추측을 설명으로 대체하는 것"입니다.

이는 콘텐츠 보안의 새로운 단계를 나타내며, "수동적으로 규칙을 배우는 것"에서 "적극적으로 규칙을 이해하는 것"으로 전환됩니다.

GPT-OSS-Safeguard: 원칙, 평가 및 배포

gpt-oss-safeguard는 개발자가 정의한 보안 정책을 직접 읽고 추론 중에 해당 정책에 따라 판단을 내릴 수 있습니다.

gpt-oss-safeguard는 어떻게 작동하나요?

정책-입력 추론

추론 시간에는 두 가지를 제공합니다. 정책 텍스트 그리고 후보자 콘텐츠 레이블이 지정됩니다. 모델은 정책을 기본 지침으로 취급한 후 단계별 추론을 수행하여 콘텐츠가 허용되는지, 허용되지 않는지, 또는 추가 검토 단계가 필요한지 여부를 판단합니다. 추론 단계에서 모델은 다음과 같은 작업을 수행합니다.

결론(레이블, 범주, 신뢰도)과 그 결론에 도달한 이유를 설명하는 사람이 읽을 수 있는 추론 추적을 포함하는 구조화된 출력을 생성합니다.
분류할 정책과 콘텐츠를 수집합니다.
사고의 사슬과 같은 단계를 사용하여 정책 조항을 내부적으로 추론하고

예 :

Policy: Content that encourages violence, hate speech, pornography, or fraud is not allowed.

Content: This text describes a fighting game.

다음과 같이 응답합니다.

Classification: Safe

Reasoning: The content only describes the game mechanics and does not encourage real violence.

사고의 사슬(CoT) 및 구조화된 출력

gpt-oss-safeguard는 각 추론의 일부로 전체 CoT 추적을 생성할 수 있습니다. CoT는 검사 가능하도록 설계되었습니다. 즉, 규정 준수 팀은 모델이 결론에 도달한 이유를 확인할 수 있고, 엔지니어는 이 추적을 사용하여 정책 모호성이나 모델 실패 모드를 진단할 수 있습니다. 이 모델은 또한 다음을 지원합니다. 구조화된 출력예를 들어, 판결, 위반된 정책 섹션, 심각도 점수, 제안된 수정 조치가 포함된 JSON을 사용하면 검토 파이프라인에 쉽게 통합할 수 있습니다.

조정 가능한 "추론 노력" 수준

지연 시간, 비용, 철저함의 균형을 맞추기 위해 모델은 구성 가능한 추론 노력을 지원합니다. 낮음 / 중간 / 높음더 많은 노력을 기울일수록 사고의 연쇄가 깊어지고 일반적으로 더 강력하지만 더 느리고 비용이 많이 드는 추론이 도출됩니다. 이를 통해 개발자는 워크로드를 분류할 수 있습니다. 즉, 일상적인 콘텐츠에는 낮은 노력을, 예외 사례 또는 고위험 콘텐츠에는 높은 노력을 사용할 수 있습니다.

모델 구조는 무엇이고 어떤 버전이 있나요?

모델 가족 및 혈통

gpt-oss-safeguard는 훈련 후 OpenAI의 이전 변형 gpt-oss 개방형 모델. 세이프가드 제품군에는 현재 두 가지 출시 크기가 포함되어 있습니다.

gpt-oss-safeguard-120b — 최적화된 런타임에서 단일 80GB GPU에서 실행되는 고정확도 추론 작업을 위한 120억 개의 매개변수 모델입니다.
gpt-oss-safeguard-20b — 저비용 추론 및 에지 또는 온프레미스 환경에 최적화된 20억 개의 매개변수 모델(일부 구성에서는 16GB VRAM 장치에서 실행 가능).

아키텍처 노트 및 런타임 특성(예상 사항)

토큰당 활성 매개변수: 기본 gpt-oss 아키텍처는 토큰당 활성화되는 매개변수 수를 줄이는 기술을 사용합니다(부모 gpt-oss에서는 밀도가 높고 낮은 주의/전문가 혼합 스타일 디자인).
실제로 120B 클래스는 단일 대형 가속기에 적합하고 20B 클래스는 최적화된 런타임에서 16GB VRAM 설정에서 작동하도록 설계되었습니다.

보호 모델은 다음과 같습니다. 추가적인 생물학적 또는 사이버 보안 데이터로 훈련되지 않음gpt-oss 릴리스에 대해 수행된 최악의 오용 시나리오 분석은 보호 조치 변종에도 대략적으로 적용됩니다. 이 모델은 최종 사용자를 위한 콘텐츠 생성보다는 분류를 위한 것입니다.

gpt-oss-safeguard의 목표는 무엇입니까?

목표

정책 유연성: 개발자가 자연어로 모든 정책을 정의하고 사용자 정의 레이블 수집 없이 모델이 해당 정책을 적용하도록 할 수 있습니다.
설명 가능성 : 추론을 공개하여 결정을 감사하고 정책을 반복할 수 있습니다.
접근성 : 조직이 현지에서 안전 추론을 실행하고 모델 내부를 검사할 수 있도록 개방형 가중치 대안을 제공합니다.

기존 분류기와의 비교

장점 vs. 기존 분류기

정책 변경에 따른 재교육 없음: 검토 정책이 변경되면 라벨을 수집하고 분류기를 재교육하는 대신 정책 문서를 업데이트하세요.
더 풍부한 추론: CoT 출력은 미묘한 정책 상호 작용을 드러내고 인간 검토자에게 유용한 서술적 정당성을 제공할 수 있습니다.
사용자 지정 가능성 : 단일 모델은 추론 중에 여러 가지 다른 정책을 동시에 적용할 수 있습니다.

기존 분류기와의 단점

일부 작업의 성능 한계: OpenAI의 평가에서는 다음과 같이 언급합니다. 수만 개의 레이블이 지정된 예제로 훈련된 고품질 분류기는 gpt-oss-safeguard보다 성능이 더 좋을 수 있습니다. 전문화된 분류 작업에 적합합니다. 목표가 원시 분류 정확도이고 레이블이 지정된 데이터가 있는 경우, 해당 분포에 대해 학습된 전담 분류기가 더 나을 수 있습니다.
지연 시간과 비용: CoT를 이용한 추론은 컴퓨팅 집약적이며 가벼운 분류기보다 느립니다. 이로 인해 순수하게 보호 기반 파이프라인은 대규모로 구축할 경우 비용이 많이 들 수 있습니다.

간단히 말해서: gpt-oss-safeguard는 다음과 같은 경우에 가장 잘 사용됩니다. 정책 민첩성 및 감사 가능성 우선순위가 있거나 레이블이 지정된 데이터가 부족할 때, 그리고 하이브리드 파이프라인의 보완적 구성 요소로 사용할 때, 반드시 규모 최적화된 분류기를 대체하는 것은 아닙니다.

OpenAI 평가에서 gpt-oss-safeguard의 성능은 어땠나요?

OpenAI는 내부 및 외부 평가를 요약한 10페이지 분량의 기술 보고서로 기준 결과를 발표했습니다. 주요 내용(선정된 주요 지표):

다중 정책 정확도(내부 평가)

OpenAI는 모델에 다음을 제공하여 다중 정책 정확도를 평가했습니다. 여러 동시에 정책을 적용하고 골든 라벨과 일치하는 경우에만 예측을 올바른 것으로 간주합니다. 모든 정책. 결과:

gpt-oss-safeguard-120b: 46.3% 다중 정책 정확도
gpt-oss-safeguard-20b: 43.6%
비교하려고: gpt-5-생각: 43.2 %의; gpt-oss-120b: 32.5 %의; gpt-oss-20b: 32.1 %
OpenAI의 내부 "안전 추론" 앙상블은 동일한 테스트에서 52.2%의 점수를 받았습니다. 이러한 수치는 안전장치 모델이 다중 정책 작업에서 gpt-oss 기반 모델을 상당히 능가하며, 내부 다중 정책 지표에서 더 큰 gpt-5-thinking 기준선보다 더 높은 성능을 보였음을 보여줍니다.

GPT-OSS-Safeguard: 원칙, 평가 및 배포

Moderation F1(외부 벤치마크)

OpenAI의 2022년 조정 데이터 세트와 공개 ToxicChat 벤치마크에서 gpt-oss-safeguard 모델은 견고한 F1 점수를 달성했습니다.

OpenAI 모드(2022) F1: gpt-oss-safeguard-120b = 82.9%, gpt-oss-safeguard-20b = 82.9%
독성채팅 F1: gpt-oss-safeguard-120b = 79.3%, gpt-oss-safeguard-20b = 79.9%

이러한 점수는 일부 벤치마크에서 gpt-oss-safeguard가 전문화된 OpenAI 내부 시스템보다 비슷하거나 약간 뒤처진 것으로 나타났고, 일반적으로 미세 조정되지 않은 gpt-oss 대응 제품보다 앞서 있음을 보여줍니다.

GPT-OSS-Safeguard: 원칙, 평가 및 배포

관찰된 한계

OpenAI는 두 가지 실질적인 한계를 지적합니다.

대규모 작업별 레이블이 지정된 데이터 세트에서 학습된 분류기는 여전히 보호 모델보다 성능이 더 좋을 수 있습니다. 분류 정확도가 유일한 목표인 경우.
컴퓨팅 및 지연 비용: CoT 추론은 추론 시간과 컴퓨팅 소비를 증가시키므로, 분류기 및 비동기 파이프라인과 함께 사용하지 않으면 플랫폼 수준 트래픽으로 확장하기가 복잡해집니다.

다국어 동등성

gpt-oss-safeguard는 MMMLU 스타일 테스트에서 다양한 언어에 걸쳐 기본 gpt-oss 모델과 동등한 성능을 보였으며, 이는 미세 조정된 safeguard 변형이 광범위한 추론 능력을 유지함을 나타냅니다.

팀은 어떻게 gpt-oss-safeguard에 액세스하고 배포할 수 있나요?

OpenAI는 Apache 2.0에서 가중치를 제공하고 다운로드를 위한 모델(Hugging Face)을 연결합니다. gpt-oss-safeguard는 개방형 가중치 모델이므로 로컬 및 자체 관리형 배포(개인정보 보호 및 맞춤 설정 권장)가 가능합니다.

모델 가중치 다운로드 (OpenAI/Hugging Face에서 제공) 자체 서버나 클라우드 VM에 호스팅할 수 있습니다. Apache 2.0은 수정 및 상업적 이용을 허용합니다.
런타임: 대규모 변환기 모델(ONNX 런타임, Triton 또는 최적화된 공급업체 런타임)을 지원하는 표준 추론 런타임을 사용하세요. Ollama 및 LM Studio와 같은 커뮤니티 런타임은 이미 gpt-oss 제품군에 대한 지원을 추가하고 있습니다.
하드웨어: 120B는 일반적으로 고용량 메모리 GPU(예: 80GB A100/H100 또는 다중 GPU 샤딩)가 필요하지만, 20B는 더 저렴하게 실행할 수 있으며 16GB VRAM 설정에 최적화된 옵션을 제공합니다. 최대 처리량 및 다중 정책 평가 비용을 고려하여 용량을 계획하십시오.

관리형 및 타사 런타임

자신의 하드웨어를 실행하는 것이 비현실적이라면, 코멧API gpt-oss 모델에 대한 지원을 빠르게 추가하고 있습니다. 이러한 플랫폼은 확장성이 더 쉬울 수 있지만, 타사 데이터 노출이라는 단점을 다시 안고 있습니다. 관리형 런타임을 선택하기 전에 개인정보 보호, SLA 및 액세스 제어를 평가하십시오.

gpt-oss-safeguard를 활용한 효과적인 중재 전략

1) 하이브리드 파이프라인 사용(분류 → 사유 → 판정)

트리아지 계층: 작고 빠른 분류기(또는 규칙)는 사소한 사례를 걸러냅니다. 이를 통해 값비싼 안전장치 모델의 부담을 줄일 수 있습니다.
보호 계층: 정책의 미묘한 차이가 중요한 모호하고 위험성이 높거나 다중 정책 검사를 수행하려면 gpt-oss-safeguard를 실행합니다.
인간의 판단: 경계 사례와 이의 제기를 확대하고, 투명성의 증거로 CoT를 저장합니다. 이러한 하이브리드 설계는 처리량과 정밀도의 균형을 유지합니다.

2) 정책 엔지니어링(즉각적인 엔지니어링 아님)

정책을 소프트웨어 아티팩트로 취급하세요. 정책을 버전화하고, 데이터 세트와 비교 테스트하고, 명시적이고 계층적으로 유지하세요.
예시와 반례를 포함하여 정책을 작성하세요. 가능하면 명확한 지침을 포함하세요(예: "사용자 의도가 명확하게 탐색적이고 과거 지향적이면 X로 표시하고, 의도가 운영적이고 실시간적이면 Y로 표시하세요").

3) 추론 노력을 동적으로 구성합니다.

낮은 노력 대량 처리 및 높은 노력 플래그가 지정된 콘텐츠, 항소 또는 영향력이 큰 분야(법률, 의료, 금융)의 경우.
비용/품질의 적정점을 찾으려면 인간의 검토 피드백을 통해 임계값을 조정하세요.

4) CoT를 검증하고 환각적 추론을 주의하세요.

CoT는 가치 있지만 환각을 유발할 수 있습니다. 추적은 실제 데이터가 아닌 모델에서 생성된 근거입니다. CoT 출력을 정기적으로 감사하고, 환각된 인용이나 추론 불일치를 감지하는 장비를 설치하십시오. OpenAI는 환각된 사고의 사슬을 관찰된 과제로 기록하고 완화 전략을 제시합니다.

5) 시스템 운영으로부터 데이터세트 구축

모델 결정 및 인적 수정 사항을 기록하여 분류 분류기를 개선하거나 정책 재작성에 활용할 수 있는 레이블이 지정된 데이터 세트를 생성합니다. 시간이 지남에 따라, 소규모의 고품질 레이블이 지정된 데이터 세트와 효율적인 분류기를 함께 사용하면 일상적인 콘텐츠에 대한 전체 CoT 추론에 대한 의존도가 줄어드는 경우가 많습니다.

6) 컴퓨팅 및 비용 모니터링, 비동기 흐름 사용

소비자 대상 저지연 애플리케이션의 경우, 많은 노력이 드는 CoT(Co-Test)를 동기적으로 수행하는 대신, 단기적인 보수적인 UX(예: 검토 대기 중인 콘텐츠 임시 숨기기)를 적용한 비동기 안전 점검을 고려하세요. OpenAI는 Safety Reasoner가 프로덕션 서비스의 지연 시간을 관리하기 위해 내부적으로 비동기 흐름을 사용한다고 언급합니다.

7) 개인정보 보호 및 배포 위치 고려

가중치가 공개되어 있으므로 엄격한 데이터 거버넌스를 준수하거나 타사 API에 대한 노출을 줄이기 위해 전적으로 온프레미스에서 추론을 실행할 수 있습니다. 이는 규제된 산업에 매우 유용합니다.

결론 :

gpt-oss-safeguard는 실용적이고 투명하며 유연한 도구입니다. 정책 기반 안전 추론. 필요할 때 빛납니다 명시적 정책에 연결된 감사 가능한 결정정책이 자주 변경되거나 사내에서 안전 점검을 유지하려는 경우입니다. 지원 전문화된 대용량 분류기를 자동으로 대체할 묘책입니다. OpenAI 자체 평가에 따르면, 대규모 레이블이 지정된 코퍼스를 기반으로 학습된 전용 분류기는 좁은 범위의 작업에 대한 원시 정확도 측면에서 이러한 모델을 능가할 수 있습니다. 따라서 gpt-oss-safeguard를 전략적 구성 요소, 즉 계층화된 안전 아키텍처의 핵심인 설명 가능 추론 엔진(빠른 분류 → 설명 가능 추론 → 사람의 감독)으로 간주해야 합니다.

시작 가이드

CometAPI는 OpenAI의 GPT 시리즈, Google의 Gemini, Anthropic의 Claude, Midjourney, Suno 등 주요 공급업체의 500개 이상의 AI 모델을 단일 개발자 친화적인 인터페이스로 통합하는 통합 API 플랫폼입니다. CometAPI는 일관된 인증, 요청 형식 지정 및 응답 처리를 제공하여 애플리케이션에 AI 기능을 통합하는 과정을 획기적으로 간소화합니다. 챗봇, 이미지 생성기, 음악 작곡가 또는 데이터 기반 분석 파이프라인 등 어떤 제품을 구축하든 CometAPI를 사용하면 AI 생태계 전반의 최신 혁신 기술을 활용하면서 반복 작업을 더 빠르게 수행하고 비용을 관리하며 공급업체에 구애받지 않을 수 있습니다.

최신 통합 gpt-oss-safeguard가 곧 CometAPI에 등장할 예정이므로 계속 지켜봐 주세요! gpt-oss-safeguard 모델 업로드를 마무리하는 동안 개발자는 액세스할 수 있습니다. GPT-OSS-20B API 및 GPT-OSS-120B API CometAPI를 통해 최신 모델 버전 공식 웹사이트에서 항상 업데이트됩니다. 시작하려면 모델의 기능을 살펴보세요. 운동장 그리고 상담하십시오 API 가이드 자세한 내용은 CometAPI를 참조하세요. 접속하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. 코멧API 공식 가격보다 훨씬 낮은 가격을 제공하여 통합을 돕습니다.

출발 준비 되셨나요?→ 지금 CometAPI에 가입하세요 !

AI에 대한 더 많은 팁, 가이드 및 뉴스를 알고 싶다면 저희를 팔로우하세요. VK, X 및 디스코드!

gpt-oss-safeguard란 무엇인가요?

왜이 문제

gpt-oss-safeguard는 어떻게 작동하나요?

정책-입력 추론

사고의 사슬(CoT) 및 구조화된 출력

조정 가능한 "추론 노력" 수준

모델 구조는 무엇이고 어떤 버전이 있나요?

모델 가족 및 혈통

아키텍처 노트 및 런타임 특성(예상 사항)

gpt-oss-safeguard의 목표는 무엇입니까?

목표

기존 분류기와의 비교

OpenAI 평가에서 gpt-oss-safeguard의 성능은 어땠나요?

다중 정책 정확도(내부 평가)

Moderation F1(외부 벤치마크)

관찰된 한계

다국어 동등성

팀은 어떻게 gpt-oss-safeguard에 액세스하고 배포할 수 있나요?

관리형 및 타사 런타임

gpt-oss-safeguard를 활용한 효과적인 중재 전략

1) 하이브리드 파이프라인 사용(분류 → 사유 → 판정)

2) 정책 엔지니어링(즉각적인 엔지니어링 아님)

3) 추론 노력을 동적으로 구성합니다.

4) CoT를 검증하고 환각적 추론을 주의하세요.

5) 시스템 운영으로부터 데이터세트 구축

6) 컴퓨팅 및 비용 모니터링, 비동기 흐름 사용

7) 개인정보 보호 및 배포 위치 고려

결론 :

시작 가이드

더 보기

하나의 API로 500개 이상의 모델