gpt-oss-20b est une modèle de raisonnement portable et ouvert offrant Performances de niveau o3-mini, utilisation d'outils conviviaux pour les agents, et plein soutien de la chaîne de pensée sous licence permissive. Bien qu'il ne soit pas aussi puissant que son homologue 120 B, il est particulièrement adapté déploiements sur l'appareil, à faible latence et respectueux de la confidentialitéLes développeurs devraient peser ses connaissances limitations de composition, en particulier pour les tâches nécessitant beaucoup de connaissances, et adapter les précautions de sécurité en conséquence.
Information basique
gpt-oss-20b est une Modèle de raisonnement ouvert à 21 milliards de paramètres publié par OpenAI sous le Licence Apache 2.0, Ce qui permet accès complet au téléchargement, au réglage fin et à la redistributionIl s'agit de la première version de modèle de pondération ouverte d'OpenAI depuis GPT-2 en 2019 et est optimisé pour déploiement périphérique et inférence locale sur les systèmes avec ≥ 16 Go de VRAM.
- Paramètres: 21 milliards au total, dont 3.6 milliards sont actifs par jeton
- Archi Transformateur avec mélange d'experts (MoE)
- Fenêtre contextuelle : Jusqu'à 128 000 jetons pour une compréhension approfondie
- Licence: Apache 2.0, permettant une utilisation académique et commerciale sans restriction ().
Fonctionnalités et architecture technique
Spécifications du modèle
- Paramètres: 21 B au total, 3.6 milliards actifs par jeton via une architecture Mixture-of-Experts (MoE) avec 32 experts par couche, 4 actifs par jeton .
- Couches: 24, fenêtre contextuelle jusqu'à 128 XNUMX jetons, jetons de sortie max. jusqu'à 32K dans certains déploiements.
- Attention et mémoire:Modèles d'attention denses et clairsemés alternés ; attention multi-requêtes groupée (taille du groupe = 8) pour l'efficacité de l'inférence.
Contrôles d'entraînement et de raisonnement
- Formé sur des textes à dominante anglaise axés sur les STEM, le codage et les connaissances générales.
- accompagne chaîne de pensée (CoT) raisonnement et ajustable niveaux de raisonnement (Faible, Moyen, Élevé) selon la complexité de la tâche.
Performances de référence
- Matches ou dépasse les performances du modèle o3-mini d'OpenAI sur des benchmarks comme MMLU, AIME, HLE, HealthBench, Codeforces, Tau-Bench même dans sa plus petite taille.
- Surpasse les modèles propriétaires tels que OpenAI o1, GPT‑4o et o4‑mini dans le domaine de la santé et du raisonnement mathématique tâches à des niveaux de raisonnement élevés.
- Comparé au GPT-OSS-120B (117 B), plus grand, il est à la traîne dans les tâches reposant sur un raisonnement symbolique profond ou des connaissances approfondies (par exemple GPQA), mais reste efficace dans les domaines du codage et de la santé.
La 20 B la variante impressionne également : elle rivalise o3-mini dans la même suite malgré son encombrement réduit, démontrant une mise à l'échelle efficace des capacités de raisonnement avec MoE.
- MMLU (Compréhension massive du langage multitâche): ~88% de précision
- Codeforces Elo (raisonnement de codage): ~ 2205
- AIME (concours de mathématiques avec outils): ~ 87.9%
- HealthBench:Surpasse considérablement l'o4-mini dans les tâches d'assurance qualité clinique et de diagnostic
- Tau-Bench (tâches de vente au détail et de raisonnement): ~62% en moyenne
Version et comparaison du modèle
| Modèle | Paramètres | Paramètres actifs | Besoin en matériel | Performances de référence |
|---|---|---|---|---|
gpt-oss-20b | 21 B | 3.6 B | ≥ 16 Go de GPU ou sur l'appareil | Comparable à o3-mini |
| gpt-oss-120b | 117 B | 5.1 B | GPU 80 Go+ | Correspond ou dépasse o4-mini |
Conçu comme un homologue léger de gpt-oss-120BGPT‑OSS‑20B offre une portabilité optimale tout en maintenant d'excellentes performances lorsque les ressources sont limitées. Il se distingue des modèles propriétaires OpenAI par son accessibilité et sa modularité.
Limites
- Faible rappel des connaissances sur des tâches complexes comme GPQA par rapport à des modèles plus grands.
- Rapports des utilisateurs indiquent une variabilité dans les performances dans le monde réel, en particulier pour les invites de codage ou de connaissances générales ; certains attribuent cela à une mise en œuvre précoce ou à une mauvaise utilisation des invites.
- Risques de sécurité et d'utilisation abusive:Bien qu'OpenAI ait évalué des variantes gpt-oss affinées et contradictoires, même celles-ci n'ont pas atteint une capacité élevée dans les domaines du biorisque ou du cyberespace ; néanmoins, les utilisateurs déployant des cas d'utilisation à grande échelle peuvent nécessiter des garanties supplémentaires.
Cas d'usage
OpenAI a conçu GPT-OSS pour prendre en charge un large éventail de cas d'utilisation, allant des applications grand public aux analyses d'entreprise. La variante 20B est optimisée pour l'exécution locale et peut fonctionner sur des appareils nécessitant seulement RAM: 16GB tels que ordinateurs portables haut de gamme ou MacBooks avec puces de la série M. GPT‑OSS‑20B est idéal pour :
- Inférence locale/hors ligne sur les PC Windows (via Windows AI Foundry), macOS ou les appareils Edge basés sur Snapdragon.
- Flux de travail d'agents: exécution de code, utilisation d'outils, agents basés sur un navigateur ou assistants autonomes dans des paramètres de bande passante restreinte.
- Prototypage rapide et mise au point, en particulier pour les développeurs travaillant sans infrastructure cloud ou avec des contraintes de confidentialité.
Autres comparaisons de modèles
gpt-oss-20bcontre o3-mini / o4-mini: Le GPT-OSS-20B rivalise avec l'o3-mini en termes de précision et de raisonnement co-pensé ; il est plus efficace et ouvert que l'o4-mini mais est moins performant que gpt-oss-120B sur des tâches de raisonnement exigeantes.gpt-oss-20bcontre LLaMA 4, GLM‑4.5, DeepSeek: GPT‑OSS‑20B apporte une transparence totale du poids ouvert sous Apache 2.0, contrairement aux modèles semi-ouverts ; mais les utilisateurs signalent dans certains cas préférer GLM‑4.5‑AIR en termes de qualité de raisonnement.
Comment appeler gpt-oss-20b API de CometAPI
gpt-oss-20b Tarification de l'API dans CometAPI, 20 % de réduction sur le prix officiel :
| Jetons d'entrée | $0.08 |
| Jetons de sortie | $0.32 |
Étapes requises
- Se connecter à cometapi.comSi vous n'êtes pas encore notre utilisateur, veuillez d'abord vous inscrire
- Obtenez la clé API d'accès à l'interface. Cliquez sur « Ajouter un jeton » au niveau du jeton API dans l'espace personnel, récupérez la clé : sk-xxxxx et validez.
- Obtenez l'URL de ce site : https://api.cometapi.com/
Utiliser la méthode
- Sélectionnez l'option "
gpt-oss-20bPoint de terminaison pour envoyer la requête API et définir le corps de la requête. La méthode et le corps de la requête sont disponibles dans la documentation API de notre site web. Notre site web propose également le test Apifox pour plus de commodité. - Remplacer avec votre clé CometAPI réelle de votre compte.
- Insérez votre question ou demande dans le champ de contenu : c'est à cela que le modèle répondra.
- Traitez la réponse de l'API pour obtenir la réponse générée.
CometAPI fournit une API REST entièrement compatible, pour une migration fluide. Informations clés API doc:
- Paramètres de base:
prompt,max_tokens_to_sample,temperature,stop_sequences - Endpoint: https://api.cometapi.com/v1/chat/completions
- Paramètre de modèle: "
gpt-oss-20b" - Authentification:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.
Exemple d'appel d'API
Bien que de poids ouvert, les modèles GPT-OSS sont accessibles via des API telles que CometAPI et d'autres. gpt-oss-20B, un appel typique à CometAPI ressemble à :
POST https://api.cometapi.com/v1/chat/completions
{
"model": "gpt-oss-20b",
"messages": [{ "role": "system", "content": "Reasoning: high" },
{ "role": "user", "content": "Solve bilateral integral…" }],
"max_tokens": 2048,
"temperature": 0.0
}
Cela prend en charge l'appel de fonctions, les schémas de sortie structurés, les intégrations d'outils et le contrôle du raisonnement via des invites système.
Voir aussi GPT-OSS-120B


