GPT-OSS-Safeguard: Nguyên tắc, Đánh giá và Triển khai

CometAPI
AnnaDec 2, 2025
GPT-OSS-Safeguard: Nguyên tắc, Đánh giá và Triển khai

OpenAI đã công bố bản xem trước nghiên cứu của gpt-oss-safeguard, một họ mô hình suy luận trọng số mở được thiết kế để cho phép các nhà phát triển thực thi của riêng mình chính sách an toàn tại thời điểm suy luận. Thay vì vận chuyển một bộ phân loại cố định hoặc một công cụ kiểm duyệt hộp đen, các mô hình mới được tinh chỉnh để lý do từ chính sách do nhà phát triển cung cấp, phát ra một chuỗi suy nghĩ (CoT) giải thích lập luận của chúng và tạo ra các kết quả phân loại có cấu trúc. Được công bố như một bản xem trước nghiên cứu, gpt-oss-safeguard được trình bày dưới dạng một cặp mô hình lập luận—gpt-oss-safeguard-120bgpt-oss-safeguard-20b—được tinh chỉnh từ họ gpt-oss và được thiết kế rõ ràng để thực hiện các nhiệm vụ phân loại an toàn và thực thi chính sách trong quá trình suy luận.

gpt-oss-safeguard là gì?

gpt-oss-safeguard là một cặp mô hình suy luận chỉ có văn bản, trọng lượng mở đã được đào tạo sau từ họ gpt-oss để diễn giải chính sách được viết bằng ngôn ngữ tự nhiên và dán nhãn văn bản theo chính sách đó. Đặc điểm nổi bật là chính sách này là được cung cấp tại thời điểm suy luận (chính sách làm đầu vào), không được tích hợp vào các trọng số phân loại tĩnh. Các mô hình được thiết kế chủ yếu cho các tác vụ phân loại an toàn—ví dụ: kiểm duyệt đa chính sách, phân loại nội dung trên nhiều chế độ quản lý hoặc kiểm tra tuân thủ chính sách.

Tại sao điều này quan trọng

Các hệ thống kiểm duyệt truyền thống thường dựa vào (a) các bộ quy tắc cố định được ánh xạ đến các bộ phân loại được huấn luyện dựa trên các ví dụ được gắn nhãn, hoặc (b) các phương pháp tìm kiếm/biểu thức chính quy để phát hiện từ khóa. gpt-oss-safeguard cố gắng thay đổi mô hình: thay vì đào tạo lại các bộ phân loại mỗi khi chính sách thay đổi, bạn cung cấp một văn bản chính sách (ví dụ: chính sách sử dụng được chấp nhận của công ty, Điều khoản Dịch vụ (TOS) của nền tảng hoặc hướng dẫn của cơ quan quản lý), và mô hình sẽ lập luận liệu một nội dung nhất định có vi phạm chính sách đó hay không. Điều này hứa hẹn tính linh hoạt (chính sách thay đổi mà không cần đào tạo lại) và khả năng diễn giải (mô hình đưa ra chuỗi suy luận của nó).

Đây là triết lý cốt lõi của nó - “Thay thế ghi nhớ bằng lý luận và đoán bằng giải thích.”

Điều này thể hiện một giai đoạn mới trong bảo mật nội dung, chuyển từ “học các quy tắc một cách thụ động” sang “chủ động hiểu các quy tắc”.

GPT-OSS-Safeguard: Nguyên tắc, Đánh giá và Triển khai

gpt-oss-safeguard có thể đọc trực tiếp các chính sách bảo mật do nhà phát triển xác định và tuân theo các chính sách đó để đưa ra phán đoán trong quá trình suy luận.

gpt-oss-safeguard hoạt động như thế nào?

Lý luận chính sách như đầu vào

Vào thời điểm suy luận, bạn cung cấp hai thứ: văn bản chính sáchnội dung ứng cử viên cần được gắn nhãn. Mô hình coi chính sách là hướng dẫn chính và sau đó thực hiện suy luận từng bước để xác định xem nội dung được phép, không được phép hay cần thêm các bước kiểm duyệt. Khi suy ra, mô hình:

  • tạo ra đầu ra có cấu trúc bao gồm kết luận (nhãn, danh mục, độ tin cậy) và dấu vết lý luận dễ hiểu giải thích lý do tại sao đi đến kết luận đó.
  • tiếp nhận chính sách và nội dung cần phân loại,
  • lý luận nội bộ thông qua các điều khoản của chính sách bằng các bước giống như chuỗi suy nghĩ và

Ví dụ:

Policy: Content that encourages violence, hate speech, pornography, or fraud is not allowed.

Content: This text describes a fighting game.

Nó sẽ trả lời:

Classification: Safe

Reasoning: The content only describes the game mechanics and does not encourage real violence.

Chuỗi suy nghĩ (CoT) và đầu ra có cấu trúc

gpt-oss-safeguard có thể phát ra một dấu vết CoT đầy đủ như một phần của mỗi suy luận. CoT được thiết kế để có thể kiểm tra được—các nhóm tuân thủ có thể đọc lý do tại sao mô hình đạt được kết luận, và các kỹ sư có thể sử dụng dấu vết này để chẩn đoán sự mơ hồ về chính sách hoặc các chế độ lỗi mô hình. Mô hình cũng hỗ trợ kết quả đầu ra có cấu trúc—ví dụ: JSON chứa phán quyết, các phần chính sách vi phạm, điểm nghiêm trọng và đề xuất hành động khắc phục—giúp dễ dàng tích hợp vào quy trình kiểm duyệt.

Mức độ “nỗ lực lý luận” có thể điều chỉnh

Để cân bằng độ trễ, chi phí và tính toàn diện, các mô hình hỗ trợ nỗ lực suy luận có thể cấu hình: thấp / trung bình / cao. Nỗ lực cao hơn làm tăng độ sâu của chuỗi suy nghĩ và thường mang lại những suy luận mạnh mẽ hơn, nhưng chậm hơn và tốn kém hơn. Điều này cho phép các nhà phát triển phân loại khối lượng công việc — sử dụng nỗ lực thấp cho nội dung thường xuyên và nỗ lực cao cho các trường hợp ngoại lệ hoặc nội dung rủi ro cao.

Cấu trúc mô hình là gì và có những phiên bản nào?

Gia đình và dòng dõi mẫu mực

gpt-oss-safeguard là được đào tạo sau các biến thể trước đó của OpenAI gpt-oss Các mô hình mở. Dòng sản phẩm bảo vệ hiện bao gồm hai kích thước đã phát hành:

  • gpt-oss-safeguard-120b — một mô hình tham số 120 tỷ dành cho các tác vụ suy luận có độ chính xác cao vẫn chạy trên một GPU 80GB duy nhất trong thời gian chạy được tối ưu hóa.
  • gpt-oss-safeguard-20b — mô hình tham số 20 tỷ được tối ưu hóa cho suy luận chi phí thấp hơn và môi trường biên hoặc tại chỗ (có thể chạy trên thiết bị VRAM 16GB trong một số cấu hình).

Ghi chú về kiến ​​trúc và đặc điểm thời gian chạy (những điều cần mong đợi)

  • Tham số hoạt động cho mỗi mã thông báo: Kiến trúc gpt-oss cơ bản sử dụng các kỹ thuật giúp giảm số lượng tham số được kích hoạt trên mỗi mã thông báo (kết hợp giữa thiết kế chú ý dày đặc và thưa thớt/thiết kế theo phong cách kết hợp chuyên gia trong gpt-oss gốc).
  • Trên thực tế, lớp 120B phù hợp với các bộ tăng tốc lớn đơn lẻ và lớp 20B được thiết kế để hoạt động trên các thiết lập VRAM 16GB trong thời gian chạy được tối ưu hóa.

Các mô hình bảo vệ đã được không được đào tạo với dữ liệu sinh học hoặc an ninh mạng bổ sungvà các phân tích về tình huống sử dụng sai mục đích xấu nhất được thực hiện cho bản phát hành gpt-oss gần như áp dụng cho các biến thể bảo vệ. Các mô hình này được thiết kế để phân loại hơn là tạo nội dung cho người dùng cuối.

Mục tiêu của gpt-oss-safeguard là gì?

Các mục tiêu

  • Tính linh hoạt của chính sách: cho phép các nhà phát triển xác định bất kỳ chính sách nào bằng ngôn ngữ tự nhiên và để mô hình áp dụng chính sách đó mà không cần thu thập nhãn tùy chỉnh.
  • Khả năng giải thích: trình bày lý luận để có thể kiểm tra các quyết định và lặp lại các chính sách.
  • Tiếp cận: cung cấp một giải pháp thay thế có trọng lượng mở để các tổ chức có thể chạy lý luận an toàn tại địa phương và kiểm tra nội bộ mô hình.

So sánh với các bộ phân loại cổ điển

Ưu điểm so với các bộ phân loại truyền thống

  • Không đào tạo lại để thay đổi chính sách: Nếu chính sách kiểm duyệt của bạn thay đổi, hãy cập nhật tài liệu chính sách thay vì thu thập nhãn và đào tạo lại bộ phân loại.
  • Lý luận phong phú hơn: Đầu ra của CoT có thể tiết lộ những tương tác chính sách tinh tế và cung cấp lý do tường thuật hữu ích cho người đánh giá.
  • Khả năng tùy chỉnh: Một mô hình duy nhất có thể áp dụng nhiều chính sách khác nhau cùng lúc trong quá trình suy luận.

Nhược điểm so với các bộ phân loại truyền thống

  • Giới hạn hiệu suất cho một số nhiệm vụ: Đánh giá của OpenAI lưu ý rằng các bộ phân loại chất lượng cao được đào tạo trên hàng chục nghìn ví dụ được gắn nhãn có thể vượt trội hơn gpt-oss-safeguard trong các tác vụ phân loại chuyên biệt. Khi mục tiêu là độ chính xác của phân loại thô và bạn đã có dữ liệu được gắn nhãn, một bộ phân loại chuyên dụng được đào tạo dựa trên phân phối đó có thể hoạt động tốt hơn.
  • Độ trễ và chi phí: Việc lập luận bằng CoT tốn nhiều tài nguyên tính toán và chậm hơn so với bộ phân loại nhẹ; điều này có thể khiến các quy trình chỉ dựa trên biện pháp bảo vệ trở nên tốn kém ở quy mô lớn.

Tóm lại: gpt-oss-safeguard được sử dụng tốt nhất ở đâu tính linh hoạt và khả năng kiểm toán của chính sách là những ưu tiên hoặc khi dữ liệu được gắn nhãn khan hiếm — và như một thành phần bổ sung trong các quy trình kết hợp, không nhất thiết phải là sự thay thế tạm thời cho bộ phân loại được tối ưu hóa theo quy mô.

gpt-oss-safeguard hoạt động như thế nào trong các đánh giá của OpenAI?

OpenAI đã công bố kết quả cơ sở trong một báo cáo kỹ thuật dài 10 trang, tóm tắt các đánh giá nội bộ và bên ngoài. Những điểm chính (các số liệu được chọn lọc, có tính chất quyết định):

Độ chính xác đa chính sách (đánh giá nội bộ)

OpenAI đã đánh giá độ chính xác của nhiều chính sách bằng cách đưa ra mô hình nhiều chính sách đồng thời và chỉ coi một dự đoán là đúng nếu nó khớp với các nhãn vàng trên tất cả các chính sách. Kết quả:

  • gpt-oss-safeguard-120b: 46.3% độ chính xác đa chính sách
  • gpt-oss-safeguard-20b: 43.6%
  • Để so sánh: gpt-5-suy nghĩ: 43.2%; gpt-oss-120b: 32.5%; gpt-oss-20b: 32.1%.
    Nhóm "suy luận an toàn" nội bộ của OpenAI đạt điểm 52.2% trong cùng bài kiểm tra. Những con số này cho thấy các mô hình bảo vệ vượt trội hơn đáng kể so với các mô hình cơ sở gpt-oss của chúng trong nhiệm vụ đa chính sách, và chúng thậm chí còn vượt qua đường cơ sở gpt-5-thinking lớn hơn trong phép đo đa chính sách nội bộ.

GPT-OSS-Safeguard: Nguyên tắc, Đánh giá và Triển khai

Kiểm duyệt F1 (chuẩn mực bên ngoài)

Trên tập dữ liệu kiểm duyệt năm 2022 của OpenAI và điểm chuẩn ToxicChat công khai, các mô hình gpt-oss-safeguard đã đạt được điểm F1 vững chắc:

  • Bản mod OpenAI (2022) F1: gpt-oss-safeguard-120b = 82.9%, gpt-oss-safeguard-20b = 82.9%
  • ToxicChat F1: gpt-oss-safeguard-120b = 79.3%, gpt-oss-safeguard-20b = 79.9%

Những điểm số này xếp gpt-oss-safeguard gần hoặc hơi tụt hậu so với các hệ thống nội bộ chuyên biệt của OpenAI trên một số tiêu chuẩn và nhìn chung là cao hơn so với các đối tác gpt-oss chưa được tinh chỉnh.

GPT-OSS-Safeguard: Nguyên tắc, Đánh giá và Triển khai

Những hạn chế được quan sát

OpenAI nêu ra hai hạn chế thực tế:

  1. Các bộ phân loại được đào tạo trên các tập dữ liệu lớn, có nhãn cụ thể cho từng tác vụ vẫn có thể vượt trội hơn các mô hình bảo vệ khi độ chính xác phân loại là mục tiêu duy nhất.
  2. Chi phí tính toán và độ trễ: Suy luận CoT làm tăng thời gian suy luận và mức tiêu thụ điện toán, làm phức tạp việc mở rộng quy mô theo lưu lượng cấp nền tảng trừ khi được kết hợp với bộ phân loại phân loại và đường ống không đồng bộ.

Sự tương đương đa ngôn ngữ

gpt-oss-safeguard có hiệu suất ngang bằng với các mô hình gpt-oss cơ bản trên nhiều ngôn ngữ trong các bài kiểm tra theo kiểu MMMLU, cho thấy các biến thể protect được tinh chỉnh vẫn giữ được khả năng suy luận rộng.

Các nhóm có thể truy cập và triển khai gpt-oss-safeguard như thế nào?

OpenAI cung cấp các trọng số theo Apache 2.0 và liên kết các mô hình để tải xuống (Hugging Face). Vì gpt-oss-safeguard là một mô hình trọng số mở, nên việc triển khai cục bộ và tự quản lý (khuyến nghị vì quyền riêng tư và tùy chỉnh)

  • Tải xuống trọng lượng mô hình (từ OpenAI / Hugging Face) và lưu trữ chúng trên máy chủ hoặc máy ảo đám mây của riêng bạn. Apache 2.0 cho phép sửa đổi và sử dụng cho mục đích thương mại.
  • Runtime: Sử dụng các thời gian chạy suy luận tiêu chuẩn hỗ trợ các mô hình máy biến áp lớn (ONNX Runtime, Triton hoặc các thời gian chạy được tối ưu hóa của nhà cung cấp). Các thời gian chạy cộng đồng như Ollama và LM Studio hiện đã bổ sung hỗ trợ cho các họ gpt-oss.
  • Hàng sắt thép: 120B thường yêu cầu GPU bộ nhớ cao (ví dụ: A100/H100 80GB hoặc phân mảnh đa GPU), trong khi 20B có thể chạy với chi phí thấp hơn và có các tùy chọn được tối ưu hóa cho thiết lập VRAM 16GB. Lập kế hoạch dung lượng cho thông lượng đỉnh và chi phí đánh giá đa chính sách.

Thời gian chạy được quản lý và của bên thứ ba

Nếu việc chạy phần cứng của riêng bạn là không thực tế, Sao chổiAPI đang nhanh chóng bổ sung hỗ trợ cho các mô hình gpt-oss. Các nền tảng này có thể giúp mở rộng quy mô dễ dàng hơn nhưng lại phải đối mặt với những đánh đổi về việc lộ dữ liệu của bên thứ ba. Hãy đánh giá quyền riêng tư, mức dịch vụ (SLA) và kiểm soát truy cập trước khi chọn thời gian chạy được quản lý.

Chiến lược kiểm duyệt hiệu quả với gpt-oss-safeguard

1) Sử dụng quy trình kết hợp (phân loại → lý do → xét xử)

  • Lớp phân loại: Các bộ phân loại (hoặc quy tắc) nhỏ, nhanh sẽ lọc ra các trường hợp tầm thường. Điều này giúp giảm tải cho mô hình bảo vệ tốn kém.
  • Lớp bảo vệ: chạy gpt-oss-safeguard để kiểm tra các chính sách mơ hồ, rủi ro cao hoặc nhiều chính sách khi sắc thái chính sách quan trọng.
  • Sự phán xét của con người: Tăng cường xử lý các trường hợp khẩn cấp và kháng cáo, lưu trữ CoT làm bằng chứng minh bạch. Thiết kế kết hợp này cân bằng giữa thông lượng và độ chính xác.

2) Kỹ thuật chính sách (không phải kỹ thuật nhanh chóng)

  • Xử lý chính sách như các sản phẩm phần mềm: tạo phiên bản, kiểm tra chúng dựa trên các tập dữ liệu và giữ cho chúng rõ ràng và có thứ bậc.
  • Viết chính sách kèm theo ví dụ và phản ví dụ. Nếu có thể, hãy đưa ra hướng dẫn rõ ràng (ví dụ: "Nếu mục đích của người dùng rõ ràng là khám phá và mang tính lịch sử, hãy dán nhãn là X; nếu mục đích là vận hành và theo thời gian thực, hãy dán nhãn là Y").

3) Cấu hình nỗ lực lý luận một cách linh hoạt

  • Sử dụng nỗ lực thấp để xử lý số lượng lớn và nỗ lực cao đối với nội dung bị gắn cờ, kháng cáo hoặc các ngành có tác động cao (pháp lý, y tế, tài chính).
  • Điều chỉnh ngưỡng bằng phản hồi đánh giá của con người để tìm ra điểm cân bằng về chi phí/chất lượng.

4) Xác thực CoT và theo dõi lý luận ảo giác

CoT rất có giá trị, nhưng nó có thể gây ảo giác: dấu vết là một lý lẽ do mô hình tạo ra, không phải là sự thật cơ bản. Kiểm tra đầu ra CoT thường xuyên; các thiết bị phát hiện trích dẫn ảo giác hoặc lập luận không khớp. OpenAI ghi nhận các chuỗi suy nghĩ ảo giác như một thách thức đã được quan sát và đề xuất các chiến lược giảm thiểu.

5) Xây dựng các tập dữ liệu từ hoạt động của hệ thống

Ghi lại các quyết định của mô hình và hiệu chỉnh của con người để tạo ra các tập dữ liệu được gắn nhãn, có thể cải thiện bộ phân loại phân loại hoặc cung cấp thông tin cho việc viết lại chính sách. Theo thời gian, một tập dữ liệu được gắn nhãn nhỏ, chất lượng cao cùng với một bộ phân loại hiệu quả thường làm giảm sự phụ thuộc vào suy luận CoT đầy đủ cho nội dung thường quy.

6) Giám sát tính toán và chi phí; sử dụng luồng không đồng bộ

Đối với các ứng dụng hướng đến người dùng có độ trễ thấp, hãy cân nhắc kiểm tra an toàn không đồng bộ với UX bảo thủ ngắn hạn (ví dụ: tạm thời ẩn nội dung đang chờ xem xét) thay vì thực hiện CoT đồng bộ với nỗ lực cao. OpenAI lưu ý rằng Safety Reasoner sử dụng các luồng không đồng bộ nội bộ để quản lý độ trễ cho các dịch vụ sản xuất.

7) Xem xét quyền riêng tư và vị trí triển khai

Vì trọng số mở nên bạn có thể chạy suy luận hoàn toàn tại chỗ để tuân thủ quản trị dữ liệu nghiêm ngặt hoặc giảm thiểu việc tiếp xúc với API của bên thứ ba - điều này rất có giá trị đối với các ngành được quản lý.

Kết luận:

gpt-oss-safeguard là một công cụ thiết thực, minh bạch và linh hoạt cho lý luận an toàn theo chính sách. Nó tỏa sáng khi bạn cần các quyết định có thể kiểm toán gắn liền với các chính sách rõ ràng, khi chính sách của bạn thay đổi thường xuyên hoặc khi bạn muốn kiểm tra an toàn tại chỗ. Đó là không Một giải pháp đột phá sẽ tự động thay thế các bộ phân loại chuyên dụng, khối lượng lớn—các đánh giá riêng của OpenAI cho thấy các bộ phân loại chuyên dụng được đào tạo trên các tập dữ liệu được gắn nhãn lớn có thể vượt trội hơn các mô hình này về độ chính xác thô cho các tác vụ hẹp. Thay vào đó, hãy coi gpt-oss-safeguard như một thành phần chiến lược: công cụ suy luận có thể giải thích nằm ở trung tâm của kiến ​​trúc an toàn phân lớp (phân loại nhanh → suy luận có thể giải thích → giám sát của con người).

Bắt đầu

CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.

Tích hợp mới nhất gpt-oss-safeguard sẽ sớm xuất hiện trên CometAPI, vì vậy hãy theo dõi! Trong khi chúng tôi hoàn thiện việc tải lên Mô hình gpt-oss-safeguard, các nhà phát triển có thể truy cập API GPT-OSS-20BAPI GPT-OSS-120B thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VKX và Discord!

SHARE THIS BLOG

Đọc thêm

500+ Mô hình trong Một API

Giảm giá lên đến 20%