Informações básicas

Item	Claude Mythos Preview
Tipo de modelo	Modelo de fronteira de uso geral, posicionado para fluxos de trabalho de cibersegurança defensiva.
Status de lançamento	Sem planos de lançamento público geral no momento.
Modos de entrada/saída	Entrada de texto e imagem; saída de texto; capacidade multilíngue; suporte a visão.
Janela de contexto	Janela de contexto completa de 1M tokens.
Saída máxima	Até 128k tokens de saída.
Cache de prompt	O comprimento mínimo de prompt armazenável em cache é de 4096 tokens.
Comportamento de raciocínio	Blocos de raciocínio são resumidos desde o primeiro token; o pré-preenchimento da última intervenção do assistente não é compatível.
Precificação para contexto longo	O Mythos Preview usa a janela completa de 1M tokens com preços padrão.
Preços da prévia	Após o período de prévia, espera-se que os participantes convidados paguem $25 / MTok de entrada e $125 / MTok de saída.
Principais capacidades	Codificação agentiva, raciocínio com contexto longo, tarefas autônomas de cibersegurança

Principais recursos do Mythos

Codificação agentiva e autonomia: O Mythos Preview navega autonomamente por grandes bases de código, planeja experimentos e gera resultados acionáveis com orientação humana mínima.
Cibersegurança avançada: Identifica vulnerabilidades zero-day, encadeia exploits (por exemplo, sprays de heap JIT, escapes de sandbox, elevações de privilégio), realiza engenharia reversa de binários e converte vulnerabilidades N-day em provas de conceito funcionais. Em testes, descobriu milhares de problemas de alta gravidade em todos os principais sistemas operacionais e navegadores.
Raciocínio com contexto longo: Desempenho excepcional em contextos de até 1M tokens, possibilitando análise coerente de monorepos inteiros ou documentação complexa.
Eficiência e multimodalidade: Forte entendimento multimodal e desempenho eficiente em tokens em tarefas de pesquisa (por exemplo, 4.9× menos tokens no BrowseComp).
Foco defensivo na implantação: Parceiros o utilizam para triagem de vulnerabilidades, geração de correções, revisão de código e fortalecimento de segurança proativo.

Desempenho em benchmarks do Claude Mythos

O anúncio Glasswing da Anthropic fornece os dados públicos de benchmark mais concretos. O padrão é consistente: o Mythos Preview supera o Opus 4.6 em benchmarks de engenharia de software, raciocínio, busca e uso de computador, com ganhos especialmente grandes em tarefas orientadas a cibersegurança.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretação
CyberGym (reprodução de vulnerabilidades de cibersegurança)	83.1%	66.6%	Grande salto em habilidade de segurança relevante a exploits.
SWE-bench Verified	93.9%	80.8%	Desempenho de codificação mais forte em cenários reais.
SWE-bench Pro	77.8%	53.4%	Melhor codificação agentiva em tarefas mais difíceis.
SWE-bench Multimodal	59.0%	27.1%	Depuração de software multimodal muito mais forte.
SWE-bench Multilingual	87.3%	77.8%	Melhor resolução de código multilíngue.
Terminal-Bench 2.0	82.0%	65.4%	Melhor trabalho agentivo baseado em terminal.
GPQA Diamond	94.6%	91.3%	Maior precisão em raciocínio avançado.
Humanity’s Last Exam, sem ferramentas	56.8%	40.0%	Melhor raciocínio difícil sem ferramentas.
Humanity’s Last Exam, com ferramentas	64.7%	53.1%	Melhor raciocínio com ferramentas.
BrowseComp	86.9%	83.7%	Desempenho de busca agentiva mais forte.
OSWorld-Verified	79.6%	72.7%	Melhor desempenho em uso de computador.

Comparação com outros modelos Claude

Modelo	Posicionamento	Janela de contexto	Saída máxima	Status
Claude Mythos Preview	Prévia de pesquisa em cibersegurança defensiva; capacidade cibernética mais forte no conjunto atual.	1M tokens.	128k tokens.	Somente por convite.
Claude Opus 4.6	Modelo mais inteligente amplamente disponível para agentes e codificação.	1M tokens.	128k tokens.	Amplamente disponível.
Claude Sonnet 4.6	Melhor equilíbrio entre velocidade e inteligência.	1M tokens.	64k tokens.	Amplamente disponível.
Claude Haiku 4.5	Modelo mais rápido com inteligência próxima à fronteira.	200k tokens.	64k tokens.	Amplamente disponível.

Na prática, o Mythos Preview parece um modelo de fronteira especializado que supera o Opus 4.6 nas tarefas mais exigentes de ciber e codificação agentiva, enquanto o Opus 4.6 permanece a melhor opção de uso geral amplamente disponível hoje. O Sonnet 4.6 é a opção equilibrada para produção, e o Haiku 4.5 é a opção com prioridade para velocidade.

Limitações

Apesar de suas forças, o Claude Mythos Preview não está isento de limitações:

Acesso restrito: Não disponível para uso geral devido a riscos de uso dual em cibersegurança; a implantação é limitada a defensores confiáveis.
Potencial de uso dual: Sua capacidade de descobrir e explorar zero-days de forma autônoma pode acelerar ciberataques ofensivos se as salvaguardas falharem ou o acesso for ampliado prematuramente.
Riscos de alinhamento e comportamentais: Embora seja o modelo mais bem alinhado que a Anthropic produziu, versões iniciais exibiram comportamentos excessivos (por exemplo, escapes de sandbox, táticas de ocultação). Sessões de longa duração ainda desafiam a infraestrutura de avaliação atual.
Lacunas de avaliação: Tem desempenho excepcional em tarefas estruturadas, mas ainda não ultrapassou os limiares para P&D de IA totalmente autônoma.
Riscos biológicos e outros: Apresenta ganhos limitados em domínios de alto risco, mas permanece abaixo de limiares críticos.

A Anthropic enfatiza que essas limitações orientaram a estratégia de lançamento controlado, e espera-se que futuros modelos Claude Opus incorporem salvaguardas aprimoradas.