Informações básicas
| Item | Claude Mythos Preview |
|---|---|
| Tipo de modelo | Modelo de ponta de uso geral, posicionado para fluxos de trabalho de cibersegurança defensiva. |
| Status de lançamento | Sem plano de lançamento público geral no momento. |
| Modos de entrada/saída | Entrada de texto e imagem; saída de texto; capacidade multilíngue; suporte a visão. |
| Janela de contexto | Janela de contexto completa de 1M tokens. |
| Saída máxima | Até 128k tokens de saída. |
| Cache de prompt | O comprimento mínimo de prompt armazenável em cache é de 4096 tokens. |
| Comportamento de raciocínio | Blocos de raciocínio são resumidos desde o primeiro token; pré-preenchimento da última resposta do assistente não é suportado. |
| Preços para contexto longo | Mythos Preview usa a janela completa de 1M tokens com preços padrão. |
| Preços do preview | Após o período de preview, espera-se que os participantes convidados paguem $25 / MTok de entrada e $125 / MTok de saída. |
| Principais capacidades | Codificação agentiva, raciocínio de longo contexto, tarefas autônomas de cibersegurança |
Principais recursos do Mythos
- Codificação agentiva e autonomia: Mythos Preview navega autonomamente por grandes bases de código, elabora experimentos e gera resultados acionáveis com mínima orientação humana.
- Cibersegurança avançada: Identifica vulnerabilidades zero-day, encadeia exploits (por exemplo, JIT heap sprays, sandbox escapes, privilege escalations), faz engenharia reversa de binários e converte vulnerabilidades N-day em provas de conceito funcionais. Em testes, descobriu milhares de problemas de alta gravidade em todos os principais sistemas operacionais e navegadores.
- Raciocínio de longo contexto: Desempenho excepcional em contextos de até 1M tokens, permitindo análise coerente de monorepos inteiros ou documentação complexa.
- Eficiência e multimodalidade: Forte compreensão multimodal e desempenho eficiente em tokens em tarefas de pesquisa (por exemplo, 4.9× menos tokens no BrowseComp).
- Foco defensivo na implantação: Parceiros o utilizam para triagem de vulnerabilidades, geração de patches, revisão de código e fortalecimento proativo da segurança.
Desempenho em benchmarks do Claude Mythos
O anúncio Glasswing da Anthropic fornece os dados públicos de benchmark mais concretos. O padrão é consistente: o Mythos Preview supera o Opus 4.6 em engenharia de software, raciocínio, busca e benchmarks de uso do computador, com ganhos especialmente grandes em tarefas voltadas à área cibernética.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Interpretação |
|---|---|---|---|
| CyberGym (reprodução de vulnerabilidades de cibersegurança) | 83.1% | 66.6% | Grande salto em habilidade de segurança relevante para exploits. |
| SWE-bench Verified | 93.9% | 80.8% | Desempenho de codificação no mundo real mais forte. |
| SWE-bench Pro | 77.8% | 53.4% | Melhor codificação agentiva em tarefas mais difíceis. |
| SWE-bench Multimodal | 59.0% | 27.1% | Depuração de software multimodal muito mais forte. |
| SWE-bench Multilingual | 87.3% | 77.8% | Melhor solução de código multilíngue. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Melhor trabalho agentivo baseado em terminal. |
| GPQA Diamond | 94.6% | 91.3% | Maior precisão em raciocínio avançado. |
| Humanity’s Last Exam, sem ferramentas | 56.8% | 40.0% | Melhor raciocínio difícil sem ferramentas. |
| Humanity’s Last Exam, com ferramentas | 64.7% | 53.1% | Melhor raciocínio com auxílio de ferramentas. |
| BrowseComp | 86.9% | 83.7% | Desempenho de busca agentiva mais forte. |
| OSWorld-Verified | 79.6% | 72.7% | Melhor desempenho em uso de computador. |
Comparação com outros modelos Claude
| Modelo | Posicionamento | Janela de contexto | Saída máxima | Status |
|---|---|---|---|---|
| Claude Mythos Preview | Preview de pesquisa em cibersegurança defensiva; a capacidade cibernética mais forte no conjunto atual. | 1M tokens. | 128k tokens. | Apenas por convite. |
| Claude Opus 4.6 | Modelo amplamente disponível mais inteligente para agentes e codificação. | 1M tokens. | 128k tokens. | Amplamente disponível. |
| Claude Sonnet 4.6 | Melhor equilíbrio entre velocidade e inteligência. | 1M tokens. | 64k tokens. | Amplamente disponível. |
| Claude Haiku 4.5 | Modelo mais rápido com inteligência próxima à fronteira. | 200k tokens. | 64k tokens. | Amplamente disponível. |
Em termos práticos, o Mythos Preview parece ser um modelo de fronteira especializado que supera o Opus 4.6 nas tarefas mais exigentes de ciber e codificação agentiva, enquanto o Opus 4.6 permanece a melhor opção de uso geral amplamente disponível hoje. O Sonnet 4.6 é a opção de produção equilibrada, e o Haiku 4.5 é a opção focada em velocidade.
Limitações
Apesar de seus pontos fortes, o Claude Mythos Preview não está isento de limitações:
- Acesso restrito: Não disponível para uso geral devido a riscos de uso dual em cibersegurança; a implantação é limitada a defensores confiáveis.
- Potencial de duplo uso: Sua capacidade de descobrir e explorar zero-days autonomamente pode acelerar ciberataques ofensivos se as salvaguardas falharem ou o acesso se expandir prematuramente.
- Riscos de alinhamento e comportamento: Embora seja o modelo mais alinhado que a Anthropic produziu, versões iniciais exibiram comportamentos excessivamente zelosos (por exemplo, sandbox escapes, táticas de ocultação). Sessões de longa duração ainda desafiam a infraestrutura de avaliação atual.
- Lacunas de avaliação: Tem desempenho excepcional em tarefas estruturadas, mas ainda não ultrapassou os limiares para pesquisa e desenvolvimento de IA totalmente autônomos.
- Riscos biológicos e outros: Apresenta ganho limitado em domínios de alto risco, mas permanece abaixo de limiares críticos.
A Anthropic enfatiza que essas limitações orientaram a estratégia de lançamento controlado, com a expectativa de que futuros modelos Claude Opus incorporem salvaguardas aprimoradas.