gpt-oss-20b es un modelo de razonamiento portátil y de peso abierto que ofrece Rendimiento de nivel o3-mini, Uso de herramientas fácil de usar para agentesy lleno soporte de cadena de pensamiento bajo una licencia permisiva. Si bien no es tan potente como su contraparte 120 B, es especialmente adecuado para Implementaciones en el dispositivo, de baja latencia y sensibles a la privacidadLos desarrolladores deberían sopesar sus características conocidas. limitaciones de composición, especialmente en tareas que requieren mucho conocimiento, y adaptar las precauciones de seguridad en consecuencia.
Información básica
gpt-oss-20b es un Modelo de razonamiento de peso abierto de 21 mil millones de parámetros publicado por OpenAI bajo la Licencia Apache 2.0, lo que permite Acceso completo al peso para descarga, ajuste y redistribuciónMarca el primer lanzamiento de un modelo de peso abierto de OpenAI desde GPT‑2 en 2019 y está optimizado para Implementación de borde e inferencia local en sistemas con ≥ 16 GB de VRAM.
- parámetros: 21 mil millones en total, de los cuales 3.6 mil millones están activos por token
- arquitectura: Transformador con mezcla de expertos (MoE)
- Ventana de contexto: Hasta 128 000 tokens para comprensión de formato largo
- Licencia: Apache 2.0, que permite el uso académico y comercial sin restricciones ().
Características y arquitectura técnica
Especificaciones del modelo
- Parámetros:21 B en total, 3.6 B activos por token a través de la arquitectura de mezcla de expertos (MoE) con 32 expertos por capa, 4 activos por token .
- capas:24, ventana de contexto hasta 128 mil fichas, tokens de salida máximos hasta 32K en algunas implementaciones .
- Atención y memoria:Patrones de atención alternados densos y dispersos; atención de múltiples consultas agrupadas (tamaño del grupo = 8) para eficiencia de inferencia.
Controles de entrenamiento y razonamiento
- Capacitado en textos con predominio del inglés centrados en STEM, codificación y conocimientos generales.
- soportes cadena de pensamiento (CdP) razonado y ajustable niveles de razonamiento (Bajo, Medio, Alto) dependiendo de la complejidad de la tarea.
Rendimiento de referencia
- partidos o supera el rendimiento del modelo o3-mini de OpenAI en puntos de referencia como MMLU, AIME, HLE, HealthBench, Codeforces, Tau-Bench Incluso en su tamaño más pequeño.
- Supera a los modelos propietarios como OpenAI o1, GPT‑4o y o4‑mini en salud y razonamiento matemático tareas que requieren altos niveles de razonamiento.
- En comparación con el GPT‑OSS‑120B de mayor tamaño (117 B), se queda atrás en tareas que dependen de un razonamiento simbólico profundo o de un conocimiento extenso (por ejemplo, GPQA), pero sigue siendo eficiente en los dominios de codificación y salud.
El elemento 20 B La variante también impresiona: rivaliza o3-mini en la misma suite a pesar de su menor tamaño, mostrando un escalamiento eficiente de las capacidades de razonamiento con MoE.
- MMLU (Comprensión masiva del lenguaje multitarea):~88% de precisión
- Codeforces Elo (razonamiento de codificación): ~ 2205
- AIME (concurso de matemáticas con herramientas): ~ 87.9%
- Banco de salud:Supera significativamente a o4-mini en tareas de diagnóstico y control de calidad clínico.
- Tau-Bench (Tareas de venta minorista y razonamiento):~62% en promedio
Versión del modelo y comparación
| Modelo | Parámetros | Parámetros activos | Necesidad de hardware | Rendimiento de referencia |
|---|---|---|---|---|
gpt-oss-20b | 21 B | 3.6 B | ≥ 16 GB GPU o en el dispositivo | Comparable a o3‑mini |
| gpt‑oss‑120b | 117 B | 5.1 B | GPU de más de 80 GB | Iguala o supera o4‑mini |
Diseñado como una contraparte liviana de gpt‑oss‑120BGPT‑OSS‑20B ofrece portabilidad y mantiene un alto rendimiento en tareas con recursos limitados. Se distingue de los modelos propietarios de OpenAI por su acceso abierto y su capacidad de ajuste.
Limitaciones
- menor capacidad de recordar conocimientos en tareas complejas como GPQA en comparación con modelos más grandes.
- Informes de los usuarios indican variabilidad en el desempeño en el mundo real, especialmente para indicaciones de codificación o de conocimiento general; algunos atribuyen esto a una implementación temprana o a un mal uso de las indicaciones.
- Riesgos de seguridad y mal uso:Si bien OpenAI evaluó variantes gpt-oss adversarias perfeccionadas, incluso estas no alcanzaron una gran capacidad en dominios de riesgo biológico o cibernético; aun así, los usuarios que implementan casos de uso a gran escala pueden requerir protecciones adicionales.
Casos de uso
OpenAI ha diseñado GPT-OSS para soportar un amplio espectro de casos de uso, que abarcan desde aplicaciones para consumidores hasta análisis de nivel empresarial. La variante 20B está optimizada para la ejecución local y puede ejecutarse en dispositivos con tan solo 16GB de RAM, como portátiles de alta gama o MacBooks con chips de la serie MGPT‑OSS‑20B es ideal para:
- Inferencia local/fuera de línea en PC con Windows (a través de Windows AI Foundry), macOS o dispositivos perimetrales basados en Snapdragon.
- Flujos de trabajo de agentes:ejecución de código, uso de herramientas, agentes basados en navegador o asistentes autónomos en configuraciones de ancho de banda limitado.
- Prototipado rápido y ajuste fino, especialmente para desarrolladores que trabajan sin infraestructura en la nube o con restricciones de privacidad.
Otras comparaciones de modelos
gpt-oss-20bfrente a o3‑mini / o4‑mini:GPT‑OSS‑20B rivaliza con o3‑mini en precisión y razonamiento de co-pensamiento; es más eficiente y abierto que o4‑mini pero tiene un rendimiento inferior en comparación con gpt‑oss‑120B en tareas de razonamiento exigentes.gpt-oss-20bfrente a LLaMA 4, GLM‑4.5, DeepSeek:GPT‑OSS‑20B brinda transparencia total en peso abierto bajo Apache 2.0, a diferencia de los modelos semiabiertos; pero los usuarios informan que en algunos casos prefieren GLM‑4.5‑AIR en cuanto a calidad de razonamiento.
Como llamar gpt-oss-20b API de CometAPI
gpt-oss-20b Precios de API en CometAPI: 20 % de descuento sobre el precio oficial.
| Tokens de entrada | $0.08 |
| Fichas de salida | $0.32 |
Pasos requeridos
- Inicia sesión en cometapi.comSi aún no eres nuestro usuario, por favor regístrate primero.
- Obtenga la clave API de credenciales de acceso de la interfaz. Haga clic en "Agregar token" en el token API del centro personal, obtenga la clave del token: sk-xxxxx y envíe.
- Obtenga la URL de este sitio: https://api.cometapi.com/
Método de uso
- Seleccione la opción "
gpt-oss-20bPunto final para enviar la solicitud de API y configurar el cuerpo de la solicitud. El método y el cuerpo de la solicitud se obtienen de la documentación de la API de nuestro sitio web. Nuestro sitio web también ofrece la prueba de Apifox para su comodidad. - Reemplazar con su clave CometAPI real de su cuenta.
- Inserte su pregunta o solicitud en el campo de contenido: esto es lo que responderá el modelo.
- . Procesa la respuesta de la API para obtener la respuesta generada.
CometAPI proporciona una API REST totalmente compatible para una migración fluida. Detalles clave para Documento API:
- Parámetros centrales:
prompt,max_tokens_to_sample,temperature,stop_sequences - Punto final: https://api.cometapi.com/v1/chat/completions
- Parámetro del modelo: "
gpt-oss-20b" - Autenticación:
Bearer YOUR_CometAPI_API_KEY - Tipo de contenido:
application/json.
Ejemplo de llamada a la API
Aunque son de peso abierto, se puede acceder a los modelos GPT-OSS a través de API como CometAPI y otras. Para gpt‑oss‑20BUna llamada típica a CometAPI se ve así:
POST https://api.cometapi.com/v1/chat/completions
{
"model": "gpt-oss-20b",
"messages": [{ "role": "system", "content": "Reasoning: high" },
{ "role": "user", "content": "Solve bilateral integral…" }],
"max_tokens": 2048,
"temperature": 0.0
}
Esto admite llamadas de funciones, esquemas de salida estructurados, integraciones de herramientas y control de razonamiento a través de indicaciones del sistema.
Vea también GPT-OSS-120B


