GPT-OSS-120B API

CometAPI
AnnaAug 7, 2025
GPT-OSS-120B API

OpenAI gpt-oss-120b markerer organisasjonens første åpenvektsutgivelse siden GPT-2, og tilbyr utviklere gjennomsiktig, tilpassesog høy ytelse AI-kapasiteter under Apache 2.0 lisens. Utviklet for sofistikerte resonnement og agent applikasjoner demokratiserer denne modellen tilgangen til avanserte teknologier for store språk, noe som muliggjør lokal distribusjon og grundig finjustering.

Kjernefunksjoner og designfilosofi

GPT-OSS-modeller er utformet som generelle, tekstbaserte LLM-er. De støtter kognitive oppgaver på høyt nivå, inkludert matematisk resonnement, strukturert analyse og språkforståelse. I motsetning til lukkede kommersielle modeller som GPT-4, tillater GPT-OSS full nedlasting og bruk av modellvekter, noe som gir forskere og utviklere enestående tilgang til å inspisere, finjustere og distribuere modeller utelukkende på infrastrukturen deres.

Grunnleggende informasjon

  • Parametre117 milliarder totalt, 5.1 milliarder aktiv av Blanding av eksperter (MoE)
  • TillatelseApache 2.0 for ubegrenset kommersiell og akademisk bruk
  • Kontekstvindu: Opp til 128 tusen tokens, som støtter langformatinndata og resonnement i flere dokumenter
  • Tankekjede: Full CoT resultater for reviderbarhet og finjustert kontroll
  • Strukturerte utgangerInnebygd støtte for JSON, XML og tilpassede skjemaer.

Tekniske detaljer

GPT-OSS utnytter en Transformator ryggrad forsterket med en Blanding av eksperter (MoE) arkitektur for å oppnå sparsom aktivering og redusere inferenskostnader. gpt-oss-120b modellen inneholder 128 eksperter fordelt over 36 lag, aktiverer 4 eksperter per token (5.1 B aktive parametere), mens gpt-oss-20b bruker 32 eksperter enn 24 lag, aktiverer 4 eksperter per token (3.6 B aktive parametere). Den bruker vekslende tett og lokalt båndet sparsom oppmerksomhet, gruppert oppmerksomhet på flere spørringer (gruppestørrelse 8), og støtte en 128 k token-kontekstvindu – uten sidestykke i åpne tilbud hittil. Minneeffektiviteten forbedres ytterligere via **4-bits blandet presisjonskvantisering**, noe som muliggjør større kontekster på vanlig maskinvare.

GPT-OSS-modeller har gjennomgått grundige benchmarking-testinger mot kjente datasett, noe som viser konkurransedyktig – om ikke overlegen – ytelse sammenlignet med proprietære modeller av lignende størrelse.

Benchmarking og ytelsesevaluering

På standard benchmarks, gpt-oss-120b samsvarer med eller overgår OpenAIs proprietære o4-mini modell:

  • MMLU (Massive Multitask Language Understanding)~88 % nøyaktighet
  • Codeforces Elo (kodingsresonnement): ~2205 XNUMX
  • AIME (mattekonkurranse med verktøy): ~87.9 %
  • HelsebenkOvergår o4-mini betydelig i kliniske kvalitetssikrings- og diagnoseoppgaver
  • Tau-Bench (Detaljhandel + Resonneringsoppgaver)~62 % i gjennomsnitt

Modellversjon

  • Standardvariant: gpt-oss-120b (V1.0)
  • Aktive parametere: 5.1 B (dynamisk MoE-valg)
  • OppfølgingsutgivelserPlanlagte oppdateringer for å forbedre sikkerhetsfiltre og spesialisert domenefinjustering

Begrensninger

Til tross for kraften sin, har GPT-OSS-modeller visse begrensninger:

  • Kun tekstgrensesnittI motsetning til GPT-4o eller Gemini støtter ikke GPT-OSS multimodale inndata (bilder, lyd, video).
  • Ingen gjennomsiktighet i treningssettetOpenAI har ikke gitt ut detaljer om spesifikke datasett som er brukt, noe som kan gi grunn til bekymring for akademisk reproduserbarhet eller skjevhetsrevisjon.
  • YtelsesinkonsekvensNoen fellesskapstester (f.eks. Simple-Bench) rapporterer dårlige resultater i spesifikke resonneringstester (~22 % på noen oppgaver for 120b), noe som tyder på Ytelsen kan variere betydelig på tvers av domener.
  • Maskinvarebegrensninger120B-modellen krever betydelig databehandling for lokal inferens, noe som gjør den utilgjengelig for vanlige utviklere uten GPU-tilgang.
  • SikkerhetsavveiningerSelv om de er testet under fiendtlige finjusteringsscenarier, betyr den åpne vekten at disse modellene fortsatt kan misbrukes – f.eks. til spam, feilinformasjon eller modell-jailbreaks – hvis de ikke styres riktig.

Likevel rapporterer OpenAI at gpt-oss-modeller ikke øker nåværende sikkerhetsrisikoer på grensenivå, spesielt innen biorisiko eller cybersikkerhet.

Hvordan ringe gpt-oss-120b API fra CometAPI

gpt-oss-120b API-priser i CometAPI, 20 % avslag på den offisielle prisen:

Skriv inn tokens$0.16
Output tokens$0.80

Nødvendige trinn

  • Logg på cometapi.com. Hvis du ikke er vår bruker ennå, vennligst registrer deg først
  • Få tilgangslegitimasjons-API-nøkkelen til grensesnittet. Klikk "Legg til token" ved API-tokenet i det personlige senteret, hent tokennøkkelen: sk-xxxxx og send inn.
  • Få url til dette nettstedet: https://api.cometapi.com/

Bruk metoden

  1. Velg «gpt-oss-120b” endepunkt for å sende API-forespørselen og angi forespørselsteksten. Forespørselsmetoden og forespørselsteksten er hentet fra vårt API-dokument for nettstedet vårt. Vårt nettsted gir også Apifox-test for din bekvemmelighet.
  2. Erstatt med din faktiske CometAPI-nøkkel fra kontoen din.
  3. Sett inn spørsmålet eller forespørselen din i innholdsfeltet – det er dette modellen vil svare på.
  4. . Behandle API-svaret for å få det genererte svaret.

CometAPI tilbyr et fullt kompatibelt REST API – for sømløs migrering. Viktige detaljer for  API-dok:

  • endepunkt: https://api.cometapi.com/v1/chat/completions
  • Modellparameter: gpt-oss-120b
  • Autentisering: Bearer YOUR_CometAPI_API_KEY
  • Innholdstype: application/json .
  • Kjerneparameterepromptmax_tokens_to_sampletemperaturestop_sequences

Selv om GPT-OSS kan brukes helt offline, støtter det også OpenAI-kompatible chat-API-er når det hostes på tjenester som Hugging Face eller AWS Bedrock.

Her er et eksempel på en integrasjon ved bruk av Python:

from openai import OpenAI
import os

client = OpenAI(
    base_url="https://api.cometapi.com/v1/chat/completions",  # or AWS/Azure provider

    api_key=cometapi_key
)

response = client.chat.completions.create(
    model="gpt-oss-120b",
    messages=[
        {"role": "user", "content": "Explain how quantum tunneling works."}
    ]
)

print(response.choices.message.content)

Alternativt kan du kjøre modellene lokalt ved hjelp av verktøy som LMDeploy, **Text Generation Inference (TGI)**eller vLLM.

Se også GPT-OSS-20B

SHARE THIS BLOG

500+ modeller i ett API

Opptil 20 % rabatt