Claude Mythos Preview é o mais novo e mais capaz modelo de IA de fronteira da Anthropic, representando um salto impressionante além dos modelos Claude anteriores, como o Opus 4.6. Anunciado em 7 de abril de 2026, como parte do Project Glasswing, é um modelo de linguagem de uso geral com pontos fortes sem precedentes em programação agencial, raciocínio complexo e, especialmente, tarefas de cibersegurança. Diferentemente de lançamentos anteriores do Claude disponíveis ao público via API ou interfaces de chat, o Mythos Preview permanece em um preview de pesquisa altamente restrito. Ele não é oferecido para uso geral devido à sua extraordinária capacidade de descobrir e encadear vulnerabilidades de alta gravidade de forma autônoma — incluindo zero-days em sistemas operacionais, navegadores e softwares fundamentais.
Para usuários comuns que utilizam a Claude API, recomendo a CometAPI. Ela agrega os modelos mais fortes de diferentes domínios, incluindo a série Claude 4.6, e oferece um modelo de preços pay-as-you-go, com preços de API significativamente inferiores aos preços oficiais.
Neste guia abrangente, detalhamos exatamente o que é o Claude Mythos Preview, seu domínio em benchmarks de programação, raciocínio, segurança e P&D em IA, como ele identifica e explora vulnerabilidades por meio de ataques encadeados, quem pode acessá-lo hoje, casos de uso práticos para parceiros e o que usuários comuns podem (ou não) esperar no futuro.
O que é o Claude Mythos Preview?
Claude Mythos Preview é o modelo de IA mais avançado da Anthropic até hoje — uma nova classe “Mythos” que fica acima do nível Opus existente em seu portfólio. Ele se baseia nos princípios de IA constitucional da família Claude, mas oferece uma “mudança de patamar” qualitativa em capacidades, particularmente em comportamentos agenciais autônomos. Referenciado internamente durante o desenvolvimento (com vazamentos iniciais mencionando “Capybara”), destaca-se em tarefas de longo horizonte que exigem compreensão profunda de código, raciocínio em múltiplas etapas e uso autodirigido de ferramentas.
Diferenciais principais incluem:
- Autonomia agencial: Pode ser executado em ambientes isolados, levantar hipóteses de bugs, rodar testes, depurar e gerar explorações PoC (proof of concept) completas com orientação humana mínima.
- Escala e eficiência: Lida com bases de código massivas, contextos longos (até milhões de tokens via compactação) e cadeias complexas de raciocínio muito além dos modelos anteriores.
- Especialização em cibersegurança (emergente, não fruto de fine-tuning): Derivada de sua superioridade em programação e raciocínio, já identificou milhares de vulnerabilidades de alta gravidade em todos os principais sistemas operacionais e navegadores.
A Anthropic o descreve como “o modelo mais capaz em cibersegurança que já lançamos”, saturando praticamente todas as avaliações internas e externas conhecidas. Ele é posicionado não como um chatbot de consumo, mas como uma ferramenta transformadora para segurança de software na era da IA.
Por que o Claude Mythos Preview não foi lançado publicamente?
A Anthropic tomou a decisão deliberada de não disponibilizar o Claude Mythos Preview para uso geral. A principal razão: suas capacidades representam um risco ofensivo inaceitável em cibersegurança caso caiam em mãos erradas. O modelo pode descobrir vulnerabilidades zero-day de forma autônoma e desenvolver explorações encadeadas sofisticadas em velocidade e escala que reduzem a janela tradicional de “descoberta para exploração” de meses (ou anos) para minutos ou horas.
Anthropic: “O grande aumento de capacidades do Claude Mythos Preview nos levou a decidir não torná-lo amplamente disponível. Em vez disso, estamos usando-o como parte de um programa defensivo de cibersegurança com um conjunto limitado de parceiros.”
Riscos específicos incluem:
- Não especialistas poderiam gerar exploits funcionais da noite para o dia.
- Ataques autônomos de ponta a ponta a redes empresariais de pequeno porte com posturas fracas.
- Potencial de proliferação para agentes mal-intencionados, amplificando os custos do cibercrime (já estimados em ~US$500 bilhões anuais globalmente).
Em vez de um lançamento amplo, a Anthropic lançou o Project Glasswing — uma iniciativa defensiva colaborativa com Big Tech, empresas de cibersegurança e mantenedores de open source. O objetivo é dar vantagem aos defensores aplicando patches em vulnerabilidades antes de serem exploradas em larga escala. A Anthropic comprometeu US$100 milhões em créditos de uso e US$4 milhões em doações para esforços de segurança open source.
É a primeira vez que a Anthropic retém completamente um modelo de fronteira do acesso público, destacando a seriedade do salto de capacidade.
Visão geral dos dados de benchmarks do Claude Mythos Preview
Claude Mythos Preview apresenta melhorias consistentes, muitas vezes dramáticas, sobre o Claude Opus 4.6 (e concorrentes como GPT-5.4 Pro ou Gemini 3.1 Pro). Abaixo estão benchmarks-chave extraídos do System Card da Anthropic e do anúncio do Project Glasswing. Todas as pontuações usam harnesses padronizados com filtros de memorização aplicados quando relevante.
Habilidades de Programação & Código
O Mythos Preview estabelece novos recordes em tarefas de engenharia de software que exigem edição de código no mundo real, depuração e fluxos de trabalho agenciais.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 problems; memorization-filtered |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 problems |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 problems |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Internal harness |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentic terminal tasks |
Claude Mythos Preview apresenta desempenho excepcional em benchmarks de programação:
- SWE-bench Pro: 77.8% (vs. 53.4% no Opus 4.6)
- SWE-bench Verified: 93.9% (vs. 80.8%)
- Terminal-Bench 2.0: 82.0% (vs. 65.4%)
Esses benchmarks medem tarefas reais de engenharia, como depuração, criação de patches e raciocínio em nível de repositório.
Os resultados indicam que o Mythos Preview não está apenas gerando código — ele está atuando como um engenheiro de software.
Habilidades de Raciocínio & Matemática
Ganhos massivos em problemas de nível de pós-graduação e de competições.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Proof-based; 6 problems |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 questions |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Web/code tools |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Graduate-level science |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
Em benchmarks de raciocínio:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (com ferramentas): 64.7%
Essas pontuações demonstram forte desempenho em tarefas complexas de raciocínio em múltiplas etapas, particularmente quando ferramentas externas são envolvidas.
Habilidades de Cibersegurança & Segurança
A categoria de destaque. O Mythos Preview satura testes anteriores e se sobressai na reprodução e exploração de vulnerabilidades reais.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1,507 targeted vuln tasks |
| Cybench | 100% pass@1 | Lower (not specified) | — | 35 challenges |
| Firefox 147 Exploitation | Dramatically higher (reliable PoCs) | 2/several hundred attempts | Qualitative leap | Proof-of-concept from crashes |
A categoria mais importante de benchmark é segurança:
- CyberGym: 83.1% (vs. 66.6% no Opus 4.6)
Isso reflete a capacidade do modelo de:
- Identificar vulnerabilidades
- Entender a mecânica de exploits
- Reproduzir cenários de ataque do mundo real
Esta é a principal razão pela qual o modelo é considerado de alto risco.
Capacidades de P&D em IA
O Mythos Preview acelera dramaticamente tarefas de pesquisa (por exemplo, ganho de 399,42× em otimização de kernel vs. 190× do Opus 4.6). Ele também lidera em benchmarks multimodais agenciais como OSWorld (79.6% vs. 72.7%) e BrowseComp (86.9%, usando 4,9× menos tokens).
Esses números confirmam o Mythos Preview como o “salto” mais claro na história da IA de fronteira, segundo a Anthropic.
Como o Claude Mythos Preview funciona: encontrando vulnerabilidades e executando ataques encadeados
A aptidão do Mythos Preview em cibersegurança decorre de seu loop de programação agencial, e não de treinamento especializado. Em um fluxo típico:
- É lançado em um contêiner isolado com o código-fonte alvo.
- Levanta hipóteses de possíveis bugs com base na revisão de código.
- Executa, depura e itera usando ferramentas.
- Produz um relatório de bugs priorizado + exploit PoC funcional.
Exemplos do mundo real:
- DoS de SACK TCP do OpenBSD com 27 anos (RFC de 1998): condição de corrida + overflow de inteiro assinado levando a gravação de ponteiro NULL. Encontrado após ~1.000 execuções (~US$50 em computação).
- Gravação fora dos limites em H.264 no FFmpeg com 16 anos (2003): Sobreviveu a 5 milhões de execuções de fuzzers e revisão humana.
- Escalada de privilégios no kernel Linux: Encadeia 2–4 vulnerabilidades (out-of-bounds, use-after-free) → contorna KASLR → lê estruturas do kernel → heap spray → root.
- Escape de sandbox de navegador: Heap spray no JIT encadeando primitivos de leitura/gravação para escapar do renderer + sandboxes do SO.
- RCE no NFS do FreeBSD: Stack overflow de 17 anos → cadeia ROP com 20 gadgets divididos entre pacotes RPC → root remoto sem autenticação.
Ele também se destaca em exploits N-day (dado apenas um CVE + hash do git) e testes de binários em caixa-preta. Parceiros relatam que resolveu cyber ranges privados de ponta a ponta — tarefas antes estimadas em mais de 10 horas para especialistas humanos.
Ao usar a ferramenta, é possível acompanhar se os recursos neurais correspondentes a conceitos como “cheating”, “reward hacking” e “pain” são destacados dentro do modelo, e também traduzir o estado interno para linguagem humana, de forma semelhante a uma máquina de leitura da mente. Dados quantitativos mostram que, em 7,6% das rodadas, o modelo reconhece internamente que está sendo avaliado. Na maioria das vezes, ele opta por não expressar isso.
As palavras originais do system card são: “Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures.” e “when it does perform misaligned actions on rare occasions, these can be very concerning.”
Casos de uso do Claude Mythos Preview
Os parceiros estão implantando o Mythos Preview para:
- Varredura proativa de vulnerabilidades em bases de código próprias e open source.
- Análise de binários em caixa-preta e fortalecimento de endpoints.
- Testes de penetração e simulações de red team.
- Desenvolvimento acelerado de patches para infraestrutura crítica (kernels de SO, navegadores, bibliotecas de criptografia etc.).
- Análise em escala diária (por exemplo, a AWS revisando 400 trilhões de fluxos de rede).
Mantenedores de open source ganham ferramentas para corrigir bugs que sobreviveram a décadas de testes tradicionais. O resultado líquido: ciclos mais curtos de divulgação para patch e menos falhas exploráveis em sistemas de produção.
Quem pode acessar o Claude Mythos Preview agora?
O acesso é estritamente limitado aos participantes do Project Glasswing:
- Parceiros de lançamento: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- Organizações adicionais: ~40 outras responsáveis por software crítico e infraestrutura open source.
- Plataformas: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- Preços: US$100M em créditos de uso inicialmente; depois US$25 por milhão de tokens de input / US$125 por milhão de tokens de output.
- Rota OSS: Mantenedores podem se inscrever via programa Claude for Open Source.
Profissionais de segurança poderão, posteriormente, se candidatar a um Cyber Verification Program. O público em geral e usuários comuns não têm acesso no lançamento.
Para que usuários comuns podem usá-lo?
Atualmente, nada — o Claude Mythos Preview não está disponível para usuários individuais, desenvolvedores ou empresas fora do programa restrito. A Anthropic planeja incorporar derivados mais seguros de suas capacidades em futuros modelos Claude públicos (por exemplo, próximas versões do Opus) com salvaguardas aprimoradas. Por ora, usuários comuns continuam usando a família Claude 4 para programação, raciocínio e tarefas gerais, enquanto a indústria aproveita o Mythos Preview de forma defensiva. Claude Opus 4.6 como o modelo mais inteligente amplamente disponível para agentes e programação, e Claude Sonnet 4.6 como a melhor combinação de velocidade e inteligência.
Para o trabalho do dia a dia, isso significa que o Mythos Preview deve ser entendido como um sinal de para onde as capacidades do Claude estão indo, não como uma ferramenta que a maioria das pessoas pode experimentar agora. Para usuários comuns, as aplicações práticas continuam sendo as já conhecidas: ajuda em programação, suporte ao raciocínio, assistência em pesquisa, análise de documentos e automação de fluxos de trabalho por meio dos produtos públicos do Claude. A diferença é que o Mythos Preview mostra até onde a família de modelos pode chegar quando a Anthropic permite que ele opere em um ambiente restrito e focado em segurança.
Claude Opus 4.6 e Sonnet 4.6 têm APIs disponíveis na CometAPI com 20% de desconto.
Tabela de comparação: Claude Mythos Preview vs. Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Why it matters |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | Programação agencial mais forte |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Melhor execução de terminal e ferramentas |
| SWE-bench Multimodal | 59.0% | 27.1% | Melhores fluxos mistos de texto/código/imagem |
| SWE-bench Multilingual | 87.3% | 77.8% | Melhor programação multilíngue |
| SWE-bench Verified | 93.9% | 80.8% | Desempenho superior em correção de software |
| GPQA Diamond | 94.6% | 91.3% | Raciocínio ligeiramente mais forte |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Melhor raciocínio difícil sob restrição |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Melhor raciocínio com ferramentas |
| BrowseComp | 86.9% | 83.7% | Melhor busca agencial |
| OSWorld-Verified | 79.6% | 72.7% | Melhores tarefas de uso de computador |
| CyberGym | 83.1% | 66.6% | Reprodução de vulnerabilidades muito mais forte |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | Salto maior de capacidade de exploração |
Conclusão
Claude Mythos Preview não é apenas mais um modelo incremental — é um sistema que muda o paradigma, redefinindo o que a IA pode alcançar em cibersegurança enquanto levanta questões profundas sobre implantação segura. Ao mantê-lo restrito e direcionar seu poder para o Project Glasswing, a Anthropic adotou uma postura de princípio: as ferramentas mais poderosas devem primeiro proteger os sistemas dos quais todos dependemos. Por enquanto, o Mythos Preview pertence a um pequeno círculo de defensores avaliados; para todos os demais, é um prenúncio da próxima fase de capacidade da IA.
Você pode usar a Claude API na CometAPI para se preparar para a chegada do Claude Mythos. Preparado?
