OpenAI gpt-oss-120b GPT-2以来の組織初のオープンウェイトリリースとなり、開発者に トランスペアレント, カスタマイズ可能な, ハイパフォーマンス AI機能 Apache 2.0ライセンス洗練されたデザイン 推論 および エージェント的な アプリケーションの場合、このモデルにより、高度な大規模言語テクノロジへのアクセスが民主化され、オンプレミス展開と詳細な微調整が可能になります。
コア機能と設計哲学
GPT-OSSモデルは、汎用的なテキストのみのLLMとして設計されています。数学的推論、構造分析、言語理解といった高度な認知タスクをサポートします。GPT-4などのクローズドな商用モデルとは異なり、GPT-OSSはモデルの重みを完全にダウンロードして使用できるため、研究者や開発者はこれまでにないアクセス性で、自社のインフラストラクチャ上でモデルを検査、微調整、展開することができます。
基本情報
- 技術パラメータ 合計117億、5.1億 アクティブ 、 専門家の混合(MoE)
- ライセンス: Apache 2.0 は商用および学術目的で無制限にご利用いただけます
- コンテキストウィンドウ:最大 128Kトークン長文入力と複数文書の推論をサポート
- 思考の連鎖:フル コット 監査可能性ときめ細かな制御のための出力
- 構造化された出力: JSON、XML、カスタム スキーマのネイティブ サポート。
技術的詳細
GPT-OSSは、 トランスフォーマー バックボーンを拡張した 専門家の混合(MoE) 疎な活性化を実現し、推論コストを削減するアーキテクチャ。 gpt-oss-120b モデルには 128のエキスパート 分散している 36層、活性化 トークンあたり4人のエキスパート (5.1 Bのアクティブパラメータ)、 gpt-oss-20b 利用 32のエキスパート が 24層、活性化 トークンあたり4人のエキスパート (3.6億のアクティブパラメータ)。 交互の密な注目と局所的に縞模様の疎な注目, グループ化されたマルチクエリアテンション (グループサイズ8)、そして 128 K トークンコンテキストウィンドウは、これまでのオープンウェイト製品では比類のないものです。**4ビット混合精度量子化**によりメモリ効率がさらに向上し、汎用ハードウェア上でより大きなコンテキストを実現します。
GPT-OSS モデルは、よく知られたデータセットに対して厳密なベンチマークテストを受けており、同様の規模の独自モデルと比較して、競争力のある(あるいは優れている)パフォーマンスが明らかになっています。
ベンチマークとパフォーマンス評価
標準的なベンチマークでは、 gpt-oss-120b OpenAIの独自の o4-mini モデル:
- MMLU (大規模マルチタスク言語理解): 約88%の精度
- Codeforces Elo(コーディング推論):〜2205
- AIME(ツールを使った数学コンテスト): ~87.9%
- ヘルスベンチ: 臨床QAおよび診断タスクにおいてo4-miniを大幅に上回る
- **タウベンチ(小売 + 推論タスク)**平均約62%
モデルバージョン
- デフォルトのバリアント:
gpt-oss-120b(v1.0) - アクティブパラメータ: 5.1 B (動的MoE選択)
- フォローアップリリース: 改善のためのパッチを計画 安全フィルター および 専門分野の微調整
製品制限
GPT-OSS モデルは強力ですが、次のような制限もあります。
- テキストのみのインターフェースGPT-4o や Gemini とは異なり、GPT-OSS はマルチモーダル入力 (画像、音声、ビデオ) をサポートしていません。
- トレーニングセットの透明性がないOpenAI は使用された特定のデータセットの詳細を発表していないため、学術的な再現性やバイアス監査に関して懸念が生じる可能性があります。
- パフォーマンスの不一致いくつかのコミュニティベンチマーク(例えばSimple-Bench)では、特定の推論テストで低い結果が報告されています(22bのいくつかのタスクでは約120%)。 ドメインによってパフォーマンスが大きく異なる場合がある.
- ハードウェアの制限: 120B モデルでは、ローカル推論に多大な計算が必要となるため、GPU にアクセスできない一般的な開発者にはアクセスできません。
- 安全性のトレードオフ: 敵対的な微調整シナリオでテストされていますが、オープンウェイトの性質により、これらのモデルは、適切に管理されていない場合、スパム、誤情報、モデルの脱獄など、悪用される可能性があります。
それにもかかわらず、OpenAIはGPT-OSSモデルが 現在の最前線レベルの安全リスクを引き起こさない特にバイオリスクやサイバーセキュリティの分野で顕著です。
電話方法 gpt-oss-120b CometAPI からの API
gpt-oss-120b CometAPI の API 価格、公式価格より 20% オフ:
| 入力トークン | $0.16 |
| 出力トークン | $0.80 |
必要な手順
- ログインする コムタピまだユーザーでない場合は、まず登録してください
- インターフェースのアクセス認証情報APIキーを取得します。パーソナルセンターのAPIトークンで「トークンを追加」をクリックし、トークンキー(sk-xxxxx)を取得して送信します。
- このサイトの URL を取得します: https://api.cometapi.com/
使用方法
- 「
gpt-oss-120b” エンドポイントを使用してAPIリクエストを送信し、リクエストボディを設定します。リクエストメソッドとリクエストボディは、弊社ウェブサイトのAPIドキュメントから取得できます。また、お客様の便宜を図るため、弊社ウェブサイトではApifoxテストも提供しています。 - 交換するアカウントの実際の CometAPI キーを使用します。
- コンテンツ フィールドに質問またはリクエストを入力します。モデルはこれに応答します。
- API 応答を処理して、生成された回答を取得します。
CometAPIは、シームレスな移行のために完全に互換性のあるREST APIを提供します。 APIドキュメント:
- 終点: https://api.cometapi.com/v1/chat/completions
- モデルパラメータ: gpt-oss-120b
- 認証:
Bearer YOUR_CometAPI_API_KEY - コンテンツタイプ:
application/json. - コアパラメータ:
prompt,max_tokens_to_sample,temperature,stop_sequences
GPT-OSSは完全にオフラインで使用できますが、 OpenAI互換のチャットAPI Hugging Face や AWS Bedrock などのサービスでホストされている場合。
以下は Python を使用した統合のサンプルです。
from openai import OpenAI
import os
client = OpenAI(
base_url="https://api.cometapi.com/v1/chat/completions", # or AWS/Azure provider
api_key=cometapi_key
)
response = client.chat.completions.create(
model="gpt-oss-120b",
messages=[
{"role": "user", "content": "Explain how quantum tunneling works."}
]
)
print(response.choices.message.content)
あるいは、次のようなツールを使用してローカルでモデルを実行することもできます。 LMデプロイ, **テキスト生成推論 (TGI)**または vLLM.
も参照してください GPT-OSS-20B


