OpenAI gpt-oss-120b GPT-2 이후 조직의 첫 번째 오픈웨이트 릴리스를 나타내며 개발자에게 제공됩니다. 투명한, 맞춤형및 고성능 AI 기능은 다음과 같습니다. Apache 2.0 라이센스. 정교한 디자인을 위해 설계되었습니다 추리 및 대리인의 이 모델은 애플리케이션에서 고급 대규모 언어 기술에 대한 액세스를 민주화하여 온프레미스 배포와 심층적인 미세 조정을 가능하게 합니다.
핵심 기능 및 디자인 철학
GPT‑OSS 모델은 범용 텍스트 전용 LLM으로 설계되었습니다. 수학적 추론, 구조적 분석, 언어 이해 등 고수준 인지 과제를 지원합니다. GPT‑4와 같은 폐쇄형 상용 모델과 달리, GPT‑OSS는 모델 가중치의 완전한 다운로드 및 사용을 허용하여 연구자와 개발자가 자체 인프라에서 모델을 검사, 미세 조정 및 배포할 수 있는 전례 없는 접근 권한을 제공합니다.
기본 정보
- 파라미터: 총 117억, 5.1억 활동적인 를 통해 전문가 혼합(MoE)
- 특허: 제한 없는 상업적 및 학술적 사용을 위한 Apache 2.0
- 컨텍스트 창: 까지 128K 토큰장문 입력 및 다중 문서 추론 지원
- 생각의 사슬: 전체 간이 침대 감사 가능성 및 세분화된 제어를 위한 출력
- 구조화된 출력: JSON, XML 및 사용자 정의 스키마에 대한 기본 지원.
기술적인 세부 사항
GPT-OSS는 다음을 활용합니다. 변신 로봇 척추뼈가 증강됨 전문가 혼합(MoE) 희소 활성화를 달성하고 추론 비용을 줄이기 위한 아키텍처입니다. gpt-oss-120b 모델에는 다음이 포함됩니다 128 전문가 분포하다 36 층, 활성화 토큰당 전문가 4명 (5.1 B 활성 매개변수), gpt-oss-20b 이용하다 32 전문가 위에 24 층, 활성화 토큰당 전문가 4명 (3.6 B 활성 매개변수). 이를 사용합니다. 교대로 나타나는 조밀하고 국소적으로 띠 모양의 희소한 주의, 그룹화된 다중 쿼리 주의 (그룹 크기 8) 및 지원 128 k에 토큰 컨텍스트 윈도우는 현재까지 공개 가중치 제공에서 비교할 수 없을 정도로 뛰어납니다. **4비트 혼합 정밀도 양자화**를 통해 메모리 효율성이 더욱 향상되어 상용 하드웨어에서 더 큰 컨텍스트를 구현할 수 있습니다.
GPT‑OSS 모델은 잘 알려진 데이터세트에 대한 엄격한 벤치마킹을 거쳤으며, 비슷한 크기의 독점 모델과 비교했을 때 경쟁력이 있거나 더 우수한 성능을 보였습니다.
벤치마킹 및 성능 평가
표준 벤치마크에서 gpt-oss-120b OpenAI의 독점 기술과 일치하거나 능가합니다. o4-미니 모델:
- MMLU(대규모 멀티태스킹 언어 이해): ~88% 정확도
- Codeforces Elo(코딩 추론): ~ 2205
- AIME(도구를 활용한 수학 경시대회): ~87.9%
- 헬스벤치: 임상 QA 및 진단 작업에서 o4-mini보다 훨씬 뛰어난 성능을 발휘합니다.
- 타우벤치(소매 + 추론 과제): 평균 62%
모델 버전
- 기본 변형:
gpt-oss-120b(v1.0) - 활성 매개변수: 5.1 B (동적 MoE 선택)
- 후속 릴리스: 개선을 위한 패치 계획 안전 필터 및 전문화된 도메인 미세 조정
제한 사항
GPT‑OSS 모델은 강력함에도 불구하고 다음과 같은 특정 제한 사항이 있습니다.
- 텍스트 전용 인터페이스: GPT-4o 또는 Gemini와 달리 GPT‑OSS는 다중 모드 입력(이미지, 오디오, 비디오)을 지원하지 않습니다.
- 훈련 세트 투명성 없음: OpenAI는 사용된 특정 데이터 세트에 대한 세부 정보를 공개하지 않았는데, 이는 학문적 재현성이나 편향 감사에 대한 우려를 불러일으킬 수 있습니다.
- 성능 불일치: 일부 커뮤니티 벤치마크(예: Simple-Bench)는 특정 추론 테스트에서 좋지 않은 결과(22b의 일부 작업에서 약 120%)를 보고합니다. 도메인에 따라 성능이 크게 다를 수 있습니다..
- 하드웨어 제한: 120B 모델은 로컬 추론에 상당한 컴퓨팅이 필요하므로 GPU에 접근할 수 없는 일반 개발자는 접근할 수 없습니다.
- 안전성의 균형: 적대적인 미세 조정 시나리오에서 테스트했지만, 개방형 가중치의 특성으로 인해 이러한 모델은 적절하게 관리되지 않으면 스팸, 잘못된 정보 또는 모델 탈옥 등에 여전히 오용될 수 있습니다.
그럼에도 불구하고 OpenAI는 gpt‑oss 모델을 보고합니다. 현재 국경 수준의 안전 위험을 제기하지 마십시오특히 생물학적 위험이나 사이버 보안 분야에서 그렇습니다.
전화하는 방법 gpt-oss-120b CometAPI의 API
gpt-oss-120b CometAPI의 API 가격 책정, 공식 가격 대비 20% 할인:
| 입력 토큰 | $0.16 |
| 출력 토큰 | $0.80 |
필수 단계
- 에 로그인 코메타피닷컴. 아직 당사 사용자가 아니신 경우 먼저 등록해 주시기 바랍니다.
- 인터페이스의 액세스 자격 증명 API 키를 받으세요. 개인 센터의 API 토큰에서 "토큰 추가"를 클릭하고 토큰 키(sk-xxxxx)를 받아 제출하세요.
- 이 사이트의 url을 받으세요: https://api.cometapi.com/
사용 방법
- "를 선택하세요
gpt-oss-120bAPI 요청을 전송하고 요청 본문을 설정하는 엔드포인트입니다. 요청 메서드와 요청 본문은 웹사이트 API 문서에서 확인할 수 있습니다. 웹사이트에서는 사용자의 편의를 위해 Apifox 테스트도 제공합니다. - 바꾸다 귀하 계정의 실제 CometAPI 키를 사용합니다.
- 질문이나 요청을 콘텐츠 필드에 입력하세요. 모델이 이에 응답합니다.
- . API 응답을 처리하여 생성된 답변을 얻습니다.
CometAPI는 완벽한 호환성을 갖춘 REST API를 제공하여 원활한 마이그레이션을 지원합니다. 주요 세부 정보는 다음과 같습니다. API doc:
- 종점 : https://api.cometapi.com/v1/chat/completions
- 모델 매개 변수 : gpt-oss-120b
- 입증:
Bearer YOUR_CometAPI_API_KEY - 컨텐츠 타입:
application/json. - 핵심 매개 변수:
prompt,max_tokens_to_sample,temperature,stop_sequences
GPT‑OSS는 완전히 오프라인으로 사용할 수 있지만 다음을 지원합니다. OpenAI 호환 채팅 API Hugging Face나 AWS Bedrock과 같은 서비스에서 호스팅되는 경우.
Python을 사용한 샘플 통합은 다음과 같습니다.
from openai import OpenAI
import os
client = OpenAI(
base_url="https://api.cometapi.com/v1/chat/completions", # or AWS/Azure provider
api_key=cometapi_key
)
response = client.chat.completions.create(
model="gpt-oss-120b",
messages=[
{"role": "user", "content": "Explain how quantum tunneling works."}
]
)
print(response.choices.message.content)
또는 다음과 같은 도구를 사용하여 로컬로 모델을 실행할 수 있습니다. LMDeploy, **TGI(텍스트 생성 추론)**및 vLLM.
도 참조 GPT-OSS-20B


