OpenAI's gpt-oss-120b markeert de eerste open-gewicht release van de organisatie sinds GPT-2, die ontwikkelaars biedt transparant, aanpasbareen hoge performantie AI-mogelijkheden onder de Apache 2.0-licentie. Ontworpen voor geavanceerde redenering en agentisch Voor toepassingen democratiseert dit model de toegang tot geavanceerde technologieën voor grote talen, waardoor implementatie op locatie en diepgaande afstemming mogelijk worden.
Kernfuncties en ontwerpfilosofie
GPT-OSS-modellen zijn ontworpen als algemene, tekst-only LLM's. Ze ondersteunen cognitieve taken op hoog niveau, zoals wiskundig redeneren, gestructureerde analyse en taalbegrip. In tegenstelling tot gesloten commerciële modellen zoals GPT-4, maakt GPT-OSS het volledig downloaden en gebruiken van modelgewichten mogelijk, waardoor onderzoekers en ontwikkelaars ongekende toegang hebben om modellen volledig op hun infrastructuur te inspecteren, te verfijnen en te implementeren.
Algemene informatie
- Kenmerken : 117 miljard totaal, 5.1 miljard actieve via Mix-of-Experts (MoE)
- Vergunning: Apache 2.0 voor onbeperkt commercieel en academisch gebruik
- Contextvenster: Tot 128K-tokens, ondersteuning van lange invoer en redenering in meerdere documenten
- Keten-van-gedachte: Vol Kinderbed outputs voor controleerbaarheid en fijnmazige controle
- Gestructureerde resultaten: Native ondersteuning voor JSON, XML en aangepaste schema's.
Technische gegevens
GPT-OSS maakt gebruik van een Transformator ruggengraat uitgebreid met een Mix-of-Experts (MoE) architectuur om spaarzame activering te bereiken en de inferentiekosten te verlagen. De gpt-oss-120b model bevat 128-experts verdeeld over 36 lagen, activeren 4 experts per token (5.1 B actieve parameters), terwijl gpt-oss-20b maakt gebruik van 32-experts over 24 lagen, activeren 4 experts per token (3.6 B actieve parameters). Het maakt gebruik van afwisselend dichte en lokaal gebandeerde schaarse aandacht, gegroepeerde multi-query aandacht (groepsgrootte 8) en ondersteun een 128 k Tokencontextvenster – tot nu toe ongeëvenaard in open-weight-aanbiedingen. De geheugenefficiëntie wordt verder verbeterd via **4-bits mixed-precision-kwantificering**, waardoor grotere contexten op standaardhardware mogelijk zijn.
GPT-OSS-modellen zijn grondig getest op basis van bekende datasets. Hieruit is gebleken dat ze concurrerend, of zelfs beter presteren dan vergelijkbare, bedrijfseigen modellen.
Benchmarking en prestatie-evaluatie
Op standaard benchmarks, gpt-oss-120b komt overeen met of overtreft de gepatenteerde OpenAI o4-mini model:
- MMLU (Massive Multitask Language Understanding): ~88% nauwkeurigheid
- Codeforces Elo (coderingsredenering): ~2205
- AIME (wiskundewedstrijd met hulpmiddelen): ~ 87.9%
- HealthBench: Presteert aanzienlijk beter dan o4-mini bij klinische QA- en diagnosetaken
- Tau-Bench (Retail + Redeneertaken): ~62% gemiddeld
Modelversie:
- Standaardvariant:
gpt-oss-120b(V1.0) - Actieve parameters: 5.1 B (dynamische MoE-selectie)
- Vervolgreleases: Geplande patches om te verbeteren veiligheidsfilters en gespecialiseerde domeinfine-tuning
Beperkingen
Ondanks hun kracht hebben GPT-OSS-modellen ook bepaalde beperkingen:
- Alleen-tekstinterface: In tegenstelling tot GPT-4o of Gemini ondersteunt GPT-OSS geen multimodale invoer (afbeeldingen, audio, video).
- Geen transparantie van trainingssets:OpenAI heeft geen details vrijgegeven over de specifieke gebruikte datasets, wat tot zorgen kan leiden over de academische reproduceerbaarheid of de controle op vooringenomenheid.
- Inconsistentie in prestaties: Sommige community benchmarks (bijv. Simple-Bench) melden slechte resultaten in specifieke redeneertesten (~22% op sommige taken voor 120b), wat suggereert prestaties kunnen aanzienlijk variëren tussen domeinen.
- Hardwarebeperkingen:Het 120B-model vereist veel rekenkracht voor lokale inferentie, waardoor het ontoegankelijk is voor gewone ontwikkelaars zonder GPU-toegang.
- VeiligheidsafwegingenHoewel ze zijn getest in scenario's met vijandige fine-tuning, kunnen deze modellen, vanwege hun open karakter, nog steeds worden misbruikt, bijvoorbeeld voor spam, desinformatie of modeljailbreaks, als ze niet op de juiste manier worden beheerd.
Niettemin meldt OpenAI dat gpt-oss-modellen de huidige veiligheidsrisico's op grensniveau niet verhogen, vooral op het gebied van biorisico's of cyberbeveiliging.
Hoe te bellen gpt-oss-120b API van CometAPI
gpt-oss-120b API-prijzen in CometAPI, 20% korting op de officiële prijs:
| Invoertokens | $0.16 |
| Uitvoertokens | $0.80 |
Vereiste stappen
- Inloggen cometapi.com. Als u nog geen gebruiker van ons bent, registreer u dan eerst
- Haal de API-sleutel voor de toegangsgegevens van de interface op. Klik op 'Token toevoegen' bij de API-token in het persoonlijke centrum, haal de tokensleutel op: sk-xxxxx en verstuur.
- Haal de url van deze site op: https://api.cometapi.com/
Gebruik methode
- Selecteer de "
gpt-oss-120b"eindpunt om de API-aanvraag te versturen en de aanvraagbody in te stellen. De aanvraagmethode en de aanvraagbody zijn te vinden in de API-documentatie op onze website. Onze website biedt ook een Apifox-test voor uw gemak. - Vervangen met uw werkelijke CometAPI-sleutel van uw account.
- Vul het inhoudsveld in en het model zal hierop reageren.
- Verwerk het API-antwoord om het gegenereerde antwoord te verkrijgen.
CometAPI biedt een volledig compatibele REST API voor een naadloze migratie. Belangrijke details voor API-document:
- eindpunt: https://api.cometapi.com/v1/chat/completions
- Modelparameter: gpt-oss-120b
- authenticatie:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json. - Kernparameters:
prompt,max_tokens_to_sample,temperature,stop_sequences
Hoewel GPT-OSS volledig offline kan worden gebruikt, ondersteunt het ook OpenAI-compatibele chat-API's wanneer gehost op services zoals Hugging Face of AWS Bedrock.
Hier is een voorbeeldintegratie met behulp van Python:
from openai import OpenAI
import os
client = OpenAI(
base_url="https://api.cometapi.com/v1/chat/completions", # or AWS/Azure provider
api_key=cometapi_key
)
response = client.chat.completions.create(
model="gpt-oss-120b",
messages=[
{"role": "user", "content": "Explain how quantum tunneling works."}
]
)
print(response.choices.message.content)
Als alternatief kunt u de modellen lokaal uitvoeren met behulp van hulpmiddelen zoals LMDeploy, **Tekstgeneratie-inferentie (TGI)**of vLLM.
Zie ook GPT-OSS-20B


