GPT-OSS-20B-API

CometAPI
AnnaAug 7, 2025
GPT-OSS-20B-API

gpt-oss-20b ist eine portables, offengewichtetes Reasoning-Modell bieten Leistung auf o3‑Mini‑Niveau, agentenfreundliche Tool-Nutzung, und voll Gedankenkettenunterstützung unter einer freizügigen Lizenz. Obwohl es nicht so leistungsstark ist wie sein 120 B-Gegenstück, eignet es sich hervorragend für Bereitstellungen auf dem Gerät, mit geringer Latenz und unter Berücksichtigung des Datenschutzes. Entwickler sollten die bekannten kompositorische Einschränkungen, insbesondere bei wissensintensiven Aufgaben, und passen Sie die Sicherheitsvorkehrungen entsprechend an.

Grundinformation

gpt-oss-20b ist eine 21-Milliarden-Parameter-Open-Weight-Reasoning-Modell veröffentlicht von OpenAI unter der Apache 2.0-Lizenz, So dass Vollzugriff zum Herunterladen, Feinabstimmen und Weiterverteilen. Es ist OpenAIs erste Veröffentlichung eines Open-Weight-Modells seit GPT‑2 im Jahr 2019 und ist optimiert für Edge-Bereitstellung und lokale Inferenz auf Systemen mit ≥ 16 GB VRAM.

  • Parameter: 21 Milliarden insgesamt, davon 3.6 Milliarden aktiv pro Token
  • Die Architektur: Transformator mit Expertenmischung (MoE)
  • Kontextfenster: Bis zu 128 Token für ausführliches Verständnis
  • Lizenz: Apache 2.0 ermöglicht eine uneingeschränkte akademische und kommerzielle Nutzung ().

Funktionen und technische Architektur

Modellspezifikationen

  • Kenngrößen: 21 B insgesamt, 3.6 Milliarden aktive Einheiten pro Token über Mixture-of-Experts (MoE) Architektur mit 32 Experten pro Schicht, 4 aktiv pro Token .
  • Schichten: 24, Kontextfenster bis zu 128 Token, maximale Ausgabe-Token bis zu 32k in einigen Bereitstellungen.
  • Aufmerksamkeit & Gedächtnis: Abwechselnde dichte + spärliche Aufmerksamkeitsmuster; gruppierte Mehrfachabfrageaufmerksamkeit (Gruppengröße = 8) für Inferenzeffizienz.

Training & Reasoning-Kontrollen

  • Geschult an englischsprachigen Texten mit Schwerpunkt auf MINT, Codierung und Allgemeinwissen.
  • Unterstützt Gedankenkette (CoT) Argumentation und einstellbar Argumentationsebenen (Niedrig, Mittel, Hoch) abhängig von der Aufgabenkomplexität.

Benchmark-Leistung

  • Streichhölzer bzw übertrifft die Leistung des o3-mini-Modells von OpenAI auf Benchmarks wie MMLU, AIME, HLE, HealthBench, Codeforces, Tau‑Bench sogar in seiner kleineren Größe.
  • Übertrifft proprietäre Modelle wie OpenAI o1, GPT‑4o und o4‑mini in den Bereichen Gesundheit und mathematisches Denken Aufgaben auf hohem Denkniveau.
  • Im Vergleich zum größeren GPT‑OSS‑120B (117 B) hinkt es bei Aufgaben hinterher, die auf tiefem symbolischem Denken oder umfassendem Wissen beruhen (z. B. GPQA), bleibt aber in den Bereichen Codierung und Gesundheit effizient.

Die 20 B Auch die Variante überzeugt: Sie konkurriert o3-mini über die gleiche Suite hinweg trotz des geringeren Platzbedarfs und zeigt eine effiziente Skalierung der Argumentationsfähigkeiten mit MoE.

  • MMLU (Massive Multitask Language Understanding): ~88 % Genauigkeit
  • Codeforces Elo (Codierungsschlussfolgerung): ~ 2205
  • AIME (Mathe-Wettbewerb mit Tools): ~87.9 %
  • Gesundheitsbank: Übertrifft o4-mini bei klinischen Qualitätssicherungs- und Diagnoseaufgaben deutlich
  • Tau-Bench (Einzelhandel + Reasoning-Aufgaben): ~62 % im Durchschnitt

Modellversion und Vergleich

ModellparamsAktive ParameterHardwarebedarfBenchmark-Leistung
gpt-oss-20b21 Milliarden3.6 Milliarden≥ 16 GB GPU oder On-DeviceVergleichbar mit o3‑mini
gpt‑oss‑120b117 Milliarden5.1 Milliarden80 GB+ GPUEntspricht oder übertrifft o4‑mini

Konzipiert als leichtes Gegenstück zu gpt‑oss‑120BGPT‑OSS‑20B bietet Portabilität bei gleichzeitig hoher Aufgabenleistung bei begrenzten Ressourcen. Es hebt sich von proprietären OpenAI-Modellen dadurch ab, dass es offen zugänglich und anpassbar ist.


Einschränkungen

  • Geringeres Erinnerungsvermögen bei komplexen Aufgaben wie GPQA im Vergleich zu größeren Modellen.
  • Berichte von Benutzern weisen auf Schwankungen in der tatsächlichen Leistung hin, insbesondere bei Codierungs- oder Allgemeinwissensaufforderungen. Einige führen dies auf eine frühe Implementierung oder einen Missbrauch der Aufforderungen zurück.
  • Sicherheits- und Missbrauchsrisiken: Obwohl OpenAI fein abgestimmte GPT-OSS-Varianten für gegnerische Angriffe evaluierte, erreichten selbst diese keine hohe Leistungsfähigkeit in den Bereichen Biorisiko oder Cybersicherheit. Dennoch benötigen Benutzer, die groß angelegte Anwendungsfälle implementieren, möglicherweise zusätzliche Sicherheitsvorkehrungen.

Anwendungsfälle

OpenAI hat GPT‑OSS entwickelt, um eine breites Spektrum an Anwendungsfällen, von Verbraucher-Apps bis hin zu unternehmensweiten Analysen. Die 20B-Variante ist für die lokale Ausführung optimiert und kann auf Geräten mit nur 16GB RAM, sowie High-End-Laptops oder MacBooks mit Chips der M-SerieGPT‑OSS‑20B ist ideal für:

  • Lokale/Offline-Inferenz auf Windows-PCs (über Windows AI Foundry), macOS oder Snapdragon-basierten Edge-Geräten.
  • Agenten-Workflows: Codeausführung, Tool-Nutzung, browserbasierte Agenten oder autonome Assistenten in Umgebungen mit eingeschränkter Bandbreite.
  • Rapid Prototyping und Feinabstimmung, insbesondere für Entwickler, die ohne Cloud-Infrastruktur oder mit Datenschutzbeschränkungen arbeiten.

Andere Modellvergleiche

  • gpt-oss-20bvs. o3‑mini / o4‑mini: GPT‑OSS‑20B konkurriert mit o3‑mini in Genauigkeit und Co‑Thought-Argumentation; es ist effizienter und offener als o4‑mini, aber leistungsschwächer im Vergleich zu gpt‑oss‑120B bei anspruchsvollen Denkaufgaben.
  • gpt-oss-20b vs. LLaMA 4, GLM‑4.5, DeepSeek: GPT‑OSS‑20B bietet unter Apache 2.0 im Gegensatz zu halboffenen Modellen vollständige Transparenz bei offenen Gewichtungen. Benutzer berichten jedoch, dass sie in einigen Fällen GLM‑4.5‑AIR hinsichtlich der Argumentationsqualität bevorzugen.

Wie man anruft gpt-oss-20b API von CometAPI

gpt-oss-20b API-Preise in CometAPI, 20 % Rabatt auf den offiziellen Preis:

Eingabetoken$0.08
Ausgabetoken$0.32

Erforderliche Schritte

  • Einloggen in cometapi.comWenn Sie noch nicht unser Benutzer sind, registrieren Sie sich bitte zuerst
  • Holen Sie sich den API-Schlüssel für die Zugangsdaten der Schnittstelle. Klicken Sie im persönlichen Bereich beim API-Token auf „Token hinzufügen“, holen Sie sich den Token-Schlüssel: sk-xxxxx und senden Sie ihn ab.
  • Holen Sie sich die URL dieser Site: https://api.cometapi.com/

Methode verwenden

  1. Wählen Sie das "gpt-oss-20b”-Endpunkt, um die API-Anfrage zu senden und den Anfragetext festzulegen. Die Anfragemethode und der Anfragetext stammen aus der API-Dokumentation unserer Website. Unsere Website bietet außerdem einen Apifox-Test für Ihre Bequemlichkeit.
  2. Ersetzen mit Ihrem aktuellen CometAPI-Schlüssel aus Ihrem Konto.
  3. Geben Sie Ihre Frage oder Anfrage in das Inhaltsfeld ein – das Modell antwortet darauf.
  4. . Verarbeiten Sie die API-Antwort, um die generierte Antwort zu erhalten.

CometAPI bietet eine vollständig kompatible REST-API für eine nahtlose Migration. Wichtige Details zu  API-Dokument:

  • Kernparameterpromptmax_tokens_to_sampletemperaturestop_sequences
  • Endpunkt: https://api.cometapi.com/v1/chat/completions
  • Modellparameter: "gpt-oss-20b"
  • Authentifizierung: Bearer YOUR_CometAPI_API_KEY
  • Content-Type: application/json .

Beispiel für einen API-Aufruf

Obwohl GPT‑OSS-Modelle offen sind, können sie über APIs wie CometAPI und andere aufgerufen werden. Für gpt‑oss‑20B, ein typischer Aufruf von CometAPI sieht folgendermaßen aus:

POST  https://api.cometapi.com/v1/chat/completions
{
  "model": "gpt-oss-20b",
  "messages": [{ "role": "system", "content": "Reasoning: high" },
               { "role": "user", "content": "Solve bilateral integral…" }],
  "max_tokens": 2048,
  "temperature": 0.0
}

Dies unterstützt Funktionsaufrufe, strukturierte Ausgabeschemata, Toolintegrationen und Argumentationssteuerung über Systemaufforderungen.

Siehe auch GPT-OSS-120B

SHARE THIS BLOG

Mehr lesen

500+ Modelle in einer API

Bis zu 20% Rabatt