OpenAI's gpt-oss-120b marca o primeiro lançamento de peso aberto da organização desde o GPT-2, oferecendo aos desenvolvedores transparente, personalizável e alta performance Capacidades de IA sob o Licença Apache 2.0. Projetado para sofisticados raciocínio e agente aplicações, este modelo democratiza o acesso a tecnologias avançadas de grandes linguagens, permitindo implantação local e ajustes finos aprofundados.
Principais recursos e filosofia de design
Os modelos GPT-OSS são projetados como LLMs de uso geral, somente texto. Eles suportam tarefas cognitivas de alto nível, incluindo raciocínio matemático, análise estruturada e compreensão de linguagem. Ao contrário de modelos comerciais fechados como o GPT-4, o GPT-OSS permite o download e o uso completos dos pesos do modelo, dando a pesquisadores e desenvolvedores acesso sem precedentes para inspecionar, ajustar e implementar modelos inteiramente em sua infraestrutura.
Informação básica
- Parâmetros Técnicos : 117 bilhões no total, 5.1 bilhões ativo via Mistura de Especialistas (MoE)
- Licença: Apache 2.0 para uso comercial e acadêmico irrestrito
- Janela de contexto: Até 128 mil tokens, suportando entradas de formato longo e raciocínio multidocumento
- Cadeia de Pensamento: Cheio Berço saídas para auditoria e controle refinado
- Resultados Estruturados: Suporte nativo para JSON, XML e esquemas personalizados.
Detalhes Técnicos
O GPT-OSS aproveita uma transformador espinha dorsal aumentada com uma Mistura de Especialistas (MoE) arquitetura para alcançar ativação esparsa e reduzir custos de inferência. gpt-oss-120b modelo contém Especialistas 128 distribuído por 36 camadas , ativando 4 especialistas por token (5.1 B parâmetros ativos), enquanto gpt-oss-20b utiliza Especialistas 32 Acima de 24 camadas , ativando 4 especialistas por token (3.6 B parâmetros ativos). Ele emprega alternando atenção densa e atenção esparsa localmente em faixas, atenção multi-consulta agrupada (tamanho do grupo 8) e apoiar um 128 k janela de contexto de token — incomparável em ofertas de peso aberto até o momento. A eficiência da memória é ainda mais aprimorada por meio da **quantização de precisão mista de 4 bits**, permitindo contextos maiores em hardware comum.
Os modelos GPT-OSS passaram por rigorosos testes comparativos com conjuntos de dados bem conhecidos, revelando desempenho competitivo — se não superior — quando comparados a modelos proprietários de tamanho semelhante.
Benchmarking e avaliação de desempenho
Em benchmarks padrão, gpt-oss-120b corresponde ou excede o proprietário da OpenAI o4-mini modelo:
- MMLU (compreensão massiva de linguagem multitarefa): ~88% de precisão
- Codeforces Elo (raciocínio de codificação): ~ 2205
- AIME (competição de matemática com ferramentas): ~87.9%
- Banco de Saúde: Supera significativamente o o4-mini em tarefas clínicas de controle de qualidade e diagnóstico
- Tau-Bench (Tarefas de Varejo + Raciocínio): ~62% em média
Versão do modelo
- Variante padrão:
gpt-oss-120b(V1.0) - Parâmetros Ativos: 5.1 B (seleção dinâmica de MoE)
- Comunicados de acompanhamento: Patches planejados para melhorar filtros de segurança e ajuste fino de domínio especializado
Limitações
Apesar de seu poder, os modelos GPT-OSS apresentam certas limitações:
- Interface somente texto: Ao contrário do GPT-4o ou Gemini, o GPT‑OSS não suporta entradas multimodais (imagens, áudio, vídeo).
- Nenhuma transparência do conjunto de treinamento: A OpenAI não divulgou detalhes sobre conjuntos de dados específicos usados, o que pode levantar preocupações sobre reprodutibilidade acadêmica ou auditoria tendenciosa.
- Inconsistência de desempenho:Alguns benchmarks da comunidade (por exemplo, Simple-Bench) relatam resultados ruins em testes de raciocínio específicos (~22% em algumas tarefas para 120b), sugerindo o desempenho pode variar significativamente entre domínios.
- Limitações de hardware:O modelo 120B requer computação significativa para inferência local, tornando-o inacessível para desenvolvedores casuais sem acesso à GPU.
- Compensações de segurança:Embora testados em cenários de ajuste fino adversários, a natureza de peso aberto significa que esses modelos ainda podem ser mal utilizados — por exemplo, para spam, desinformação ou fugas de modelos — se não forem governados adequadamente.
No entanto, a OpenAI relata que os modelos gpt-oss não levantem riscos de segurança atuais ao nível da fronteira, especialmente em domínios de biorisco ou segurança cibernética.
Como ligar gpt-oss-120b API da CometAPI
gpt-oss-120b Preços da API no CometAPI, 20% de desconto sobre o preço oficial:
| Tokens de entrada | $0.16 |
| Tokens de saída | $0.80 |
Etapas Necessárias
- Faça o login no cometapi.com. Se você ainda não é nosso usuário, registre-se primeiro
- Obtenha a chave de API da credencial de acesso da interface. Clique em "Adicionar Token" no token da API no centro pessoal, obtenha a chave de token: sk-xxxxx e envie.
- Obtenha a URL deste site: https://api.cometapi.com/
Use o método
- Selecione o “
gpt-oss-120b” endpoint para enviar a solicitação de API e definir o corpo da solicitação. O método e o corpo da solicitação são obtidos da documentação da API do nosso site. Nosso site também oferece o teste Apifox para sua conveniência. - Substituir com sua chave CometAPI real da sua conta.
- Insira sua pergunta ou solicitação no campo de conteúdo — é a isso que o modelo responderá.
- . Processe a resposta da API para obter a resposta gerada.
A CometAPI fornece uma API REST totalmente compatível — para uma migração perfeita. Detalhes importantes para Doc API:
- Endpoint: https://api.cometapi.com/v1/chat/completions
- Parâmetro do modelo: gpt-oss-120b
- Autenticação:
Bearer YOUR_CometAPI_API_KEY - Tipo de conteúdo:
application/json. - Parâmetros principais:
prompt,max_tokens_to_sample,temperature,stop_sequences
Embora o GPT-OSS possa ser usado totalmente offline, ele também oferece suporte APIs de bate-papo compatíveis com OpenAI quando hospedado em serviços como Hugging Face ou AWS Bedrock.
Aqui está um exemplo de integração usando Python:
from openai import OpenAI
import os
client = OpenAI(
base_url="https://api.cometapi.com/v1/chat/completions", # or AWS/Azure provider
api_key=cometapi_key
)
response = client.chat.completions.create(
model="gpt-oss-120b",
messages=[
{"role": "user", "content": "Explain how quantum tunneling works."}
]
)
print(response.choices.message.content)
Alternativamente, você pode executar os modelos localmente usando ferramentas como Implantação LM, Inferência de geração de texto (TGI), ou vLLM.
Veja também GPT-OSS-20B


