gpt-oss-20b é um modelo de raciocínio portátil e de peso aberto oferecendo treinamento para distância desempenho de nível o3-mini, uso de ferramentas amigáveis ao agentee cheio suporte à cadeia de pensamento sob uma licença permissiva. Embora não seja tão poderoso quanto seu equivalente 120 B, é especialmente adequado para implantações no dispositivo, de baixa latência e sensíveis à privacidade. Os desenvolvedores devem considerar seus conhecidos limitações composicionais, especialmente em tarefas que exigem muito conhecimento, e adapte as precauções de segurança adequadamente.
Informação básica
gpt-oss-20b é um Modelo de raciocínio de peso aberto de 21 bilhões de parâmetros lançado pela OpenAI sob o Licença Apache 2.0, Permitindo acesso total para download, ajuste fino e redistribuição. Marca o primeiro lançamento do modelo de peso aberto da OpenAI desde GPT‑2 em 2019 e é otimizado para implantação de borda e inferência local em sistemas com ≥ 16 GB de VRAM.
- parâmetros: 21 bilhões no total, dos quais 3.6 bilhões são ativos por token
- Arquitetura: Transformador com mistura de especialistas (MoE)
- Janela de Contexto: Até 128 tokens para compreensão de formato longo
- Licença: Apache 2.0, permitindo uso acadêmico e comercial irrestrito ().
Características e Arquitetura Técnica
Especificações do modelo
- Parâmetros Técnicos : 21 B no total, 3.6 B ativos por token via arquitetura Mixture-of-Experts (MoE) com 32 especialistas por camada, 4 ativos por token .
- Camadas: 24, janela de contexto até 128 mil fichas, tokens de saída máxima até 32K em algumas implantações.
- Atenção e Memória: Padrões alternados de atenção densa + esparsa; atenção multiconsulta agrupada (tamanho do grupo = 8) para eficiência de inferência.
Controles de Treinamento e Raciocínio
- Treinado em textos de língua inglesa com foco em STEM, codificação e conhecimento geral.
- suportes cadeia de pensamento (CoT) raciocínio e ajustável níveis de raciocínio (Baixo, Médio, Alto) dependendo da complexidade da tarefa.
Desempenho de referência
- Partidas ou excede o desempenho do modelo o3-mini da OpenAI em benchmarks como MMLU, AIME, HLE, HealthBench, Codeforces, Tau-Bench mesmo em seu tamanho menor.
- Supera modelos proprietários como OpenAI o1, GPT‑4o e o4‑mini em saúde e raciocínio matemático tarefas em altos níveis de raciocínio.
- Comparado ao GPT‑OSS‑120B (117 B), ele fica atrás em tarefas que dependem de raciocínio simbólico profundo ou conhecimento extenso (por exemplo, GPQA), mas permanece eficiente em domínios de codificação e saúde.
O 20 B variante também impressiona: rivaliza o3-mini no mesmo conjunto, apesar de seu tamanho menor, demonstrando dimensionamento eficiente de capacidades de raciocínio com MoE.
- MMLU (compreensão massiva de linguagem multitarefa): ~88% de precisão
- Codeforces Elo (raciocínio de codificação): ~ 2205
- AIME (competição de matemática com ferramentas): ~87.9%
- Banco de Saúde: Supera significativamente o o4-mini em tarefas clínicas de controle de qualidade e diagnóstico
- Tau-Bench (Tarefas de Varejo + Raciocínio): ~62% em média
Versão e comparação do modelo
| Modelo | Params | Parâmetros ativos | Necessidade de hardware | Desempenho de referência |
|---|---|---|---|---|
gpt-oss-20b | 21 B | 3.6 B | ≥ 16 GB GPU ou no dispositivo | Comparável a o3-mini |
| gpt-oss-120b | 117 B | 5.1 B | GPU de mais de 80 GB | Corresponde ou excede o4-mini |
Projetado como uma contraparte leve para gpt-oss-120BO GPT‑OSS‑20B oferece portabilidade, mantendo um forte desempenho em tarefas onde os recursos são limitados. Ele se destaca dos modelos proprietários OpenAI por ser abertamente acessível e ajustável.
Limitações
- Menor recordação de conhecimento em tarefas complexas como GPQA em comparação com modelos maiores.
- Relatórios de usuários indicam variabilidade no desempenho no mundo real, especialmente para codificação ou prompts de conhecimento geral; alguns atribuem isso à implementação precoce ou ao uso indevido do prompt.
- Riscos de segurança e uso indevido:Embora a OpenAI tenha avaliado variantes adversárias de gpt-oss ajustadas com precisão, mesmo essas não atingiram alta capacidade em domínios de biorisco ou cibernéticos; ainda assim, usuários que implementam casos de uso em larga escala podem exigir salvaguardas extras.
Casos de uso
A OpenAI projetou o GPT-OSS para oferecer suporte a um amplo espectro de casos de uso, abrangendo desde aplicativos de consumo até análises de nível empresarial. A variante 20B é otimizada para execução local, capaz de rodar em dispositivos com até 16GB de RAM, como laptops de última geração ou MacBooks com chips da série M. O GPT‑OSS‑20B é ideal para:
- Inferência local/offline em PCs com Windows (via Windows AI Foundry), macOS ou dispositivos de ponta baseados em Snapdragon.
- Fluxos de trabalho de agentes: execução de código, uso de ferramentas, agentes baseados em navegador ou assistentes autônomos em configurações de largura de banda restritas.
- Prototipagem rápida e ajuste fino, especialmente para desenvolvedores que trabalham sem infraestrutura de nuvem ou com restrições de privacidade.
Outras comparações de modelos
gpt-oss-20bvs. o3‑mini / o4‑mini: O GPT‑OSS‑20B rivaliza com o o3‑mini em precisão e raciocínio de co‑pensamento; é mais eficiente e aberto do que o o4‑mini, mas tem desempenho inferior em comparação com gpt-oss-120B em tarefas de raciocínio exigentes.gpt-oss-20bcontra LLaMA 4, GLM‑4.5, DeepSeek: O GPT‑OSS‑20B traz transparência total de peso aberto no Apache 2.0, diferentemente dos modelos semiabertos; mas usuários relatam, em alguns casos, preferir o GLM‑4.5‑AIR em termos de qualidade de raciocínio.
Como ligar gpt-oss-20b API da CometAPI
gpt-oss-20b Preços da API no CometAPI, 20% de desconto sobre o preço oficial:
| Tokens de entrada | $0.08 |
| Tokens de saída | $0.32 |
Etapas Necessárias
- Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
- Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Use o método
- Selecione a opção "
gpt-oss-20b” endpoint para enviar a solicitação de API e definir o corpo da solicitação. O método e o corpo da solicitação são obtidos da documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência. - Substituir com sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para Doc API:
- Parâmetros principais:
prompt,max_tokens_to_sample,temperature,stop_sequences - Endpoint: https://api.cometapi.com/v1/chat/completions
- Parâmetro do modelo: "
gpt-oss-20b" - Autenticação:
Bearer YOUR_CometAPI_API_KEY - Tipo de conteúdo:
application/json.
Exemplo de chamada de API
Embora sejam de peso aberto, os modelos GPT-OSS podem ser acessados por meio de APIs como CometAPI e outras. gpt-oss-20B, uma chamada típica para CometAPI se parece com:
POST https://api.cometapi.com/v1/chat/completions
{
"model": "gpt-oss-20b",
"messages": [{ "role": "system", "content": "Reasoning: high" },
{ "role": "user", "content": "Solve bilateral integral…" }],
"max_tokens": 2048,
"temperature": 0.0
}
Isso oferece suporte a chamadas de função, esquemas de saída estruturados, integrações de ferramentas e controle de raciocínio por meio de prompts do sistema.
Veja também GPT-OSS-120B


