API GPT-OSS-20B

CometAPI
AnnaAug 7, 2025
API GPT-OSS-20B

gpt-oss-20b è un modello di ragionamento portatile e aperto offerta prestazioni di livello o3-mini, utilizzo di strumenti adatti agli agenti, e pieno supporto alla catena di pensiero con una licenza permissiva. Sebbene non sia potente quanto la sua controparte da 120 B, è particolarmente adatto per distribuzioni su dispositivo, a bassa latenza e sensibili alla privacyGli sviluppatori dovrebbero valutare la sua conoscenza limitazioni compositive, in particolare per le attività che richiedono molta conoscenza, e adattare di conseguenza le precauzioni di sicurezza.

Informazioni di base

gpt-oss-20b è un Modello di ragionamento a peso aperto da 21 miliardi di parametri rilasciato da OpenAI sotto la Licenza Apache 2.0, Consentendo accesso completo per download, messa a punto e ridistribuzione. Segna il primo rilascio di un modello open-weight di OpenAI da allora GPT‑2 nel 2019 ed è ottimizzato per distribuzione edge e inferenza locale su sistemi con ≥ 16 GB di VRAM.

  • parametri: 21 miliardi in totale, di cui 3.6 miliardi attivi per token
  • architettura: Trasformatore con miscela di esperti (MoE)
  • Finestra contestuale: Fino a 128 token per una comprensione approfondita
  • Licenza: Apache 2.0, che consente un utilizzo accademico e commerciale illimitato ().

Caratteristiche e architettura tecnica

Specifiche del modello

  • Scheda Sintetica: 21 miliardi in totale, 3.6 miliardi attivi per token tramite architettura Mixture-of-Experts (MoE) con 32 esperti per strato, 4 attivi per token .
  • Livelli: 24, finestra di contesto fino a Token da 128, token di output massimo fino a 32K in alcune distribuzioni.
  • Attenzione e memoria: Alternanza di modelli di attenzione densi + radi; attenzione multi-query raggruppata (dimensione del gruppo = 8) per l'efficienza dell'inferenza.

Controlli di addestramento e ragionamento

  • Formazione su testi prevalentemente in inglese, incentrati su materie STEM, programmazione e cultura generale.
  • supporti catena di pensiero (CoT) ragionamento e regolabile livelli di ragionamento (Basso, Medio, Alto) a seconda della complessità dell'attività.

Prestazioni di riferimento

  • Partite o supera le prestazioni del modello o3-mini di OpenAI su parametri di riferimento come MMLU, AIME, HLE, HealthBench, Codeforces, Tau‑Bench anche nelle sue dimensioni più piccole.
  • Supera i modelli proprietari come OpenAI o1, GPT‑4o e o4‑mini nel ragionamento matematico e sanitario compiti ad alto livello di ragionamento.
  • Rispetto al più grande GPT‑OSS‑120B (117 B), è inferiore nei compiti che si basano su un ragionamento simbolico profondo o su una conoscenza estesa (ad esempio GPQA), ma rimane efficiente nei domini di codifica e salute.

. 20 B Anche la variante impressiona: rivaleggia con o3-mini nella stessa suite nonostante le dimensioni ridotte, dimostrando un'efficiente scalabilità delle capacità di ragionamento con MoE.

  • MMLU (Comprensione linguistica multitasking di massa): ~88% di precisione
  • Codeforces Elo (ragionamento di codifica): ~ 2205
  • AIME (gara di matematica con strumenti): ~ 87.9%
  • HealthBench: Supera significativamente o4-mini nelle attività di QA e diagnosi clinica
  • Tau-Bench (attività di vendita al dettaglio + ragionamento): ~62% in media

Versione del modello e confronto

ModelloParametriParametri attiviNecessità hardwarePrestazioni di riferimento
gpt-oss-20b21 miliardi3.6 miliardi≥ 16 GB GPU o sul dispositivoComparabile a o3-mini
gpt‑oss‑120b117 miliardi5.1 miliardiGPU da 80 GB+Corrisponde o supera o4-mini

Progettato come controparte leggera per gpt‑oss‑120BGPT‑OSS‑20B offre portabilità mantenendo elevate prestazioni nelle attività in cui le risorse sono limitate. Si distingue dai modelli proprietari OpenAI per essere accessibile e personalizzabile.


Limiti

  • Minore richiamo di conoscenze su attività complesse come GPQA rispetto a modelli più grandi.
  • Segnalazioni degli utenti indicano una variabilità nelle prestazioni nel mondo reale, in particolare per la codifica o per i prompt di conoscenza generale; alcuni attribuiscono questo fenomeno all'implementazione precoce o all'uso improprio dei prompt.
  • Rischi per la sicurezza e l'uso improprio: Sebbene OpenAI abbia valutato varianti gpt-oss ottimizzate per gli avversari, anche queste non hanno raggiunto elevate capacità nei domini del biorischio o del cybercrime; tuttavia, gli utenti che implementano casi d'uso su larga scala potrebbero richiedere misure di sicurezza aggiuntive.

Casi d'uso

OpenAI ha progettato GPT‑OSS per supportare un ampio spettro di casi d'uso, che spaziano dalle app consumer alle analisi di livello aziendale. La variante 20B è ottimizzata per l'esecuzione locale, in grado di funzionare su dispositivi con un minimo di 16GB di RAM, come laptop di fascia alta o MacBook con chip serie MGPT‑OSS‑20B è ideale per:

  • Inferenza locale/offline su PC Windows (tramite Windows AI Foundry), macOS o dispositivi edge basati su Snapdragon.
  • Flussi di lavoro agentici: esecuzione di codice, utilizzo di strumenti, agenti basati su browser o assistenti autonomi in ambienti con larghezza di banda limitata.
  • Prototipazione rapida e messa a punto, in particolare per gli sviluppatori che lavorano senza infrastrutture cloud o con vincoli di privacy.

Altri confronti di modelli

  • gpt-oss-20brispetto a o3‑mini / o4‑mini: GPT‑OSS‑20B rivaleggia con o3‑mini in accuratezza e ragionamento co-pensato; è più efficiente e aperto di o4‑mini ma ha prestazioni inferiori rispetto a gpt‑oss‑120B su compiti di ragionamento impegnativi.
  • gpt-oss-20b rispetto a LLaMA 4, GLM‑4.5, DeepSeek: GPT‑OSS‑20B offre la completa trasparenza open‑weight in Apache 2.0, a differenza dei modelli semi‑open; tuttavia, in alcuni casi gli utenti segnalano di preferire GLM‑4.5‑AIR per la qualità del ragionamento.

Come chiamare gpt-oss-20b API di CometAPI

gpt-oss-20b Prezzi API in CometAPI: sconto del 20% sul prezzo ufficiale:

Token di input$0.08
Gettoni di uscita$0.32

Passi richiesti

  • Accedere cometapi.comSe non sei ancora un nostro utente, registrati prima
  • Ottieni la chiave API delle credenziali di accesso dell'interfaccia. Fai clic su "Aggiungi token" nel token API nell'area personale, ottieni la chiave token: sk-xxxxx e invia.
  • Ottieni l'URL di questo sito: https://api.cometapi.com/

Usa il metodo

  1. Selezionare l'opzione "gpt-oss-20b"endpoint" per inviare la richiesta API e impostarne il corpo. Il metodo e il corpo della richiesta sono reperibili nella documentazione API del nostro sito web. Il nostro sito web fornisce anche il test Apifox per vostra comodità.
  2. Sostituire con la tua chiave CometAPI effettiva dal tuo account.
  3. Inserisci la tua domanda o richiesta nel campo contenuto: il modello risponderà a questa domanda.
  4. Elaborare la risposta API per ottenere la risposta generata.

CometAPI fornisce un'API REST completamente compatibile, per una migrazione senza interruzioni. Dettagli chiave per  Documento API:

  • Parametri fondamentalipromptmax_tokens_to_sampletemperaturestop_sequences
  • endpoint: https://api.cometapi.com/v1/chat/completions
  • Parametro del modello: "gpt-oss-20b"
  • Autenticazione: Bearer YOUR_CometAPI_API_KEY
  • Tipo di contenuto: application/json .

Esempio di chiamata API

Sebbene siano open-weight, i modelli GPT-OSS sono accessibili tramite API come CometAPI e altre. Per gpt‑oss‑20B, una tipica chiamata a CometAPI si presenta così:

POST  https://api.cometapi.com/v1/chat/completions
{
  "model": "gpt-oss-20b",
  "messages": [{ "role": "system", "content": "Reasoning: high" },
               { "role": "user", "content": "Solve bilateral integral…" }],
  "max_tokens": 2048,
  "temperature": 0.0
}

Supporta la chiamata di funzioni, schemi di output strutturati, integrazioni di strumenti e controllo del ragionamento tramite prompt di sistema.

Vedere anche GPT-OSS-120B

SHARE THIS BLOG

Leggi di più

500+ Modelli in Una API

Fino al 20% di sconto