OpenAIs gpt-oss-120b markiert die erste Open-Weight-Version der Organisation seit GPT-2 und bietet Entwicklern transparente, anpassbare und Hohe Leistungsfähigkeit KI-Fähigkeiten unter der Apache 2.0-Lizenz. Konzipiert für anspruchsvolle Argumentation kombiniert mit einem nachhaltigen Materialprofil. Agenten Anwendungen demokratisiert dieses Modell den Zugriff auf fortschrittliche Technologien für große Sprachen und ermöglicht die Bereitstellung vor Ort und eine gründliche Feinabstimmung.
Kernfunktionen und Designphilosophie
GPT-OSS-Modelle sind als universelle, textbasierte LLMs konzipiert. Sie unterstützen anspruchsvolle kognitive Aufgaben, darunter mathematisches Denken, strukturierte Analysen und Sprachverständnis. Im Gegensatz zu geschlossenen kommerziellen Modellen wie GPT-4 ermöglicht GPT-OSS den vollständigen Download und die Nutzung von Modellgewichten. Dadurch erhalten Forscher und Entwickler beispiellosen Zugriff, um Modelle vollständig auf ihrer Infrastruktur zu prüfen, zu optimieren und bereitzustellen.
Grundinformation
- Kenngrößen: 117 Milliarden insgesamt, 5.1 Milliarden aktiv Expertenmix (MoE)
- Lizenz: Apache 2.0 für uneingeschränkte kommerzielle und akademische Nutzung
- Kontextfenster: Bis zu 128 Token, unterstützt Langformeingaben und Multi-Document-Argumentation
- Gedankenkette: Voll Kinderbett Ergebnisse für Überprüfbarkeit und feinkörnige Kontrolle
- Strukturierte Ausgaben: Native Unterstützung für JSON, XML und benutzerdefinierte Schemata.
Technische Daten
GPT-OSS nutzt eine Transformator Rückgrat ergänzt durch eine Expertenmix (MoE) Architektur, um eine spärliche Aktivierung zu erreichen und Inferenzkosten zu reduzieren. Die gpt-oss-120b Modell enthält 128-Experten über verteilt 36-Schichten, aktivieren 4 Experten pro Token (5.1 B aktive Parameter), während gpt-oss-20b die 32-Experten übrig 24-Schichten, aktivieren 4 Experten pro Token (3.6 B aktive Parameter). Es verwendet abwechselnd dicht und lokal gebändert spärlich Aufmerksamkeit, gruppierte Multi-Query-Aufmerksamkeit (Gruppengröße 8) und unterstützen eine 128 k Token-Kontextfenster – bisher unerreicht in Open-Weight-Angeboten. Die Speichereffizienz wird durch **4-Bit-Quantisierung mit gemischter Genauigkeit** weiter verbessert, wodurch größere Kontexte auf Standardhardware möglich werden.
GPT-OSS-Modelle wurden einem strengen Benchmarking anhand bekannter Datensätze unterzogen und zeigten im Vergleich zu proprietären Modellen ähnlicher Größe eine konkurrenzfähige – wenn nicht sogar bessere – Leistung.
Benchmarking und Leistungsbewertung
Bei Standard-Benchmarks gpt-oss-120b entspricht oder übertrifft OpenAIs proprietäre o4-mini Modell:
- MMLU (Massive Multitask Language Understanding): ~88 % Genauigkeit
- Codeforces Elo (Codierungsschlussfolgerung): ~ 2205
- AIME (Mathe-Wettbewerb mit Tools): ~87.9 %
- Gesundheitsbank: Übertrifft o4-mini bei klinischen Qualitätssicherungs- und Diagnoseaufgaben deutlich
- Tau-Bench (Einzelhandel + Reasoning-Aufgaben): ~62 % im Durchschnitt
Modellversion
- Standardvariante:
gpt-oss-120b(V1.0) - Aktive Parameter: 5.1 B (dynamische MoE-Auswahl)
- Folgeveröffentlichungen: Geplante Patches zur Verbesserung Sicherheitsfilter kombiniert mit einem nachhaltigen Materialprofil. spezialisierte Domänenfeinabstimmung
Einschränkungen
Trotz ihrer Leistungsfähigkeit weisen GPT-OSS-Modelle bestimmte Einschränkungen auf:
- Nur-Text-Schnittstelle: Im Gegensatz zu GPT-4o oder Gemini unterstützt GPT-OSS keine multimodalen Eingaben (Bilder, Audio, Video).
- Keine Transparenz des Trainingssatzes: OpenAI hat keine Details zu den verwendeten spezifischen Datensätzen veröffentlicht, was Bedenken hinsichtlich der akademischen Reproduzierbarkeit oder der Prüfung auf Voreingenommenheit aufwerfen könnte.
- Leistungsinkonsistenz: Einige Community-Benchmarks (z. B. Simple-Bench) berichten von schlechten Ergebnissen bei bestimmten Denktests (~22 % bei einigen Aufgaben für 120b), was darauf hindeutet, Die Leistung kann je nach Domäne erheblich variieren.
- Hardware-Einschränkungen: Das 120B-Modell erfordert erhebliche Rechenleistung für lokale Inferenzen und ist daher für Gelegenheitsentwickler ohne GPU-Zugriff unzugänglich.
- Sicherheitskompromisse: Obwohl diese Modelle unter gegnerischen Feinabstimmungsszenarien getestet wurden, können sie aufgrund ihrer offenen Gewichtung immer noch missbraucht werden, z. B. für Spam, Fehlinformationen oder Modell-Jailbreaks, wenn sie nicht ordnungsgemäß verwaltet werden.
Dennoch berichtet OpenAI, dass gpt‑oss Modelle erhöhen keine aktuellen Sicherheitsrisiken auf Grenzebene, insbesondere in den Bereichen Biorisiken oder Cybersicherheit.
Wie man anruft gpt-oss-120b API von CometAPI
gpt-oss-120b API-Preise in CometAPI, 20 % Rabatt auf den offiziellen Preis:
| Eingabetoken | $0.16 |
| Ausgabetoken | $0.80 |
Erforderliche Schritte
- Einloggen in cometapi.comWenn Sie noch nicht unser Benutzer sind, registrieren Sie sich bitte zuerst
- Holen Sie sich den API-Schlüssel für die Zugangsdaten der Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Token hinzufügen“, holen Sie sich den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.
- Holen Sie sich die URL dieser Site: https://api.cometapi.com/
Methode verwenden
- Wählen Sie die Option „
gpt-oss-120b”-Endpunkt, um die API-Anfrage zu senden und den Anfragetext festzulegen. Die Anfragemethode und der Anfragetext stammen aus der API-Dokumentation unserer Website. Unsere Website bietet außerdem einen Apifox-Test für Ihre Bequemlichkeit. - Ersetzen mit Ihrem aktuellen CometAPI-Schlüssel aus Ihrem Konto.
- Geben Sie Ihre Frage oder Anfrage in das Inhaltsfeld ein – das Modell antwortet darauf.
- . Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.
CometAPI bietet eine vollständig kompatible REST-API für eine nahtlose Migration. Wichtige Details zu API-Dokument:
- Endpunkt: https://api.cometapi.com/v1/chat/completions
- Modellparameter: gpt-oss-120b
- Authentifizierung:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json. - Kernparameter:
prompt,max_tokens_to_sample,temperature,stop_sequences
GPT‑OSS kann zwar vollständig offline verwendet werden, unterstützt aber auch OpenAI-kompatible Chat-APIs wenn sie auf Diensten wie Hugging Face oder AWS Bedrock gehostet werden.
Hier ist ein Beispiel für eine Integration mit Python:
from openai import OpenAI
import os
client = OpenAI(
base_url="https://api.cometapi.com/v1/chat/completions", # or AWS/Azure provider
api_key=cometapi_key
)
response = client.chat.completions.create(
model="gpt-oss-120b",
messages=[
{"role": "user", "content": "Explain how quantum tunneling works."}
]
)
print(response.choices.message.content)
Alternativ können Sie die Modelle lokal mit Tools wie ausführen LMDeploy, Textgenerierungsinferenz (TGI) oder vLLM.
Siehe auch GPT-OSS-20B


