ModelosPreçosEmpresarial
500+ APIs de Modelos de IA, Tudo em Uma API. Apenas na CometAPI
API de Modelos
Desenvolvedor
Início RápidoDocumentaçãoPainel de API
Empresa
Sobre nósEmpresarial
Recursos
Modelos de IABlogRegistro de AlteraçõesSuporte
Termos de ServiçoPolítica de Privacidade
© 2026 CometAPI · All rights reserved

Em breve

Home/Models/Anthropic/Claude Mythos Preview
A

Claude Mythos Preview

Entrada:$60/M
Saída:$240/M
Claude Mythos Preview é nosso modelo de fronteira mais capaz até o momento e apresenta um salto impressionante nos resultados em muitos benchmarks de avaliação em comparação com nosso modelo de fronteira anterior, Claude Opus 4.6.
Novo
Uso comercial
Visão Geral

Informações básicas

ItemClaude Mythos Preview
Tipo de modeloModelo de ponta de uso geral, posicionado para fluxos de trabalho de cibersegurança defensiva.
Status de lançamentoSem plano de lançamento público geral no momento.
Modos de entrada/saídaEntrada de texto e imagem; saída de texto; capacidade multilíngue; suporte a visão.
Janela de contextoJanela de contexto completa de 1M tokens.
Saída máximaAté 128k tokens de saída.
Cache de promptO comprimento mínimo de prompt armazenável em cache é de 4096 tokens.
Comportamento de raciocínioBlocos de raciocínio são resumidos desde o primeiro token; pré-preenchimento da última resposta do assistente não é suportado.
Preços para contexto longoMythos Preview usa a janela completa de 1M tokens com preços padrão.
Preços do previewApós o período de preview, espera-se que os participantes convidados paguem $25 / MTok de entrada e $125 / MTok de saída.
Principais capacidadesCodificação agentiva, raciocínio de longo contexto, tarefas autônomas de cibersegurança

Principais recursos do Mythos

  • Codificação agentiva e autonomia: Mythos Preview navega autonomamente por grandes bases de código, elabora experimentos e gera resultados acionáveis com mínima orientação humana.
  • Cibersegurança avançada: Identifica vulnerabilidades zero-day, encadeia exploits (por exemplo, JIT heap sprays, sandbox escapes, privilege escalations), faz engenharia reversa de binários e converte vulnerabilidades N-day em provas de conceito funcionais. Em testes, descobriu milhares de problemas de alta gravidade em todos os principais sistemas operacionais e navegadores.
  • Raciocínio de longo contexto: Desempenho excepcional em contextos de até 1M tokens, permitindo análise coerente de monorepos inteiros ou documentação complexa.
  • Eficiência e multimodalidade: Forte compreensão multimodal e desempenho eficiente em tokens em tarefas de pesquisa (por exemplo, 4.9× menos tokens no BrowseComp).
  • Foco defensivo na implantação: Parceiros o utilizam para triagem de vulnerabilidades, geração de patches, revisão de código e fortalecimento proativo da segurança.

Desempenho em benchmarks do Claude Mythos

O anúncio Glasswing da Anthropic fornece os dados públicos de benchmark mais concretos. O padrão é consistente: o Mythos Preview supera o Opus 4.6 em engenharia de software, raciocínio, busca e benchmarks de uso do computador, com ganhos especialmente grandes em tarefas voltadas à área cibernética.

BenchmarkClaude Mythos PreviewClaude Opus 4.6Interpretação
CyberGym (reprodução de vulnerabilidades de cibersegurança)83.1%66.6%Grande salto em habilidade de segurança relevante para exploits.
SWE-bench Verified93.9%80.8%Desempenho de codificação no mundo real mais forte.
SWE-bench Pro77.8%53.4%Melhor codificação agentiva em tarefas mais difíceis.
SWE-bench Multimodal59.0%27.1%Depuração de software multimodal muito mais forte.
SWE-bench Multilingual87.3%77.8%Melhor solução de código multilíngue.
Terminal-Bench 2.082.0%65.4%Melhor trabalho agentivo baseado em terminal.
GPQA Diamond94.6%91.3%Maior precisão em raciocínio avançado.
Humanity’s Last Exam, sem ferramentas56.8%40.0%Melhor raciocínio difícil sem ferramentas.
Humanity’s Last Exam, com ferramentas64.7%53.1%Melhor raciocínio com auxílio de ferramentas.
BrowseComp86.9%83.7%Desempenho de busca agentiva mais forte.
OSWorld-Verified79.6%72.7%Melhor desempenho em uso de computador.

Comparação com outros modelos Claude

ModeloPosicionamentoJanela de contextoSaída máximaStatus
Claude Mythos PreviewPreview de pesquisa em cibersegurança defensiva; a capacidade cibernética mais forte no conjunto atual.1M tokens.128k tokens.Apenas por convite.
Claude Opus 4.6Modelo amplamente disponível mais inteligente para agentes e codificação.1M tokens.128k tokens.Amplamente disponível.
Claude Sonnet 4.6Melhor equilíbrio entre velocidade e inteligência.1M tokens.64k tokens.Amplamente disponível.
Claude Haiku 4.5Modelo mais rápido com inteligência próxima à fronteira.200k tokens.64k tokens.Amplamente disponível.

Em termos práticos, o Mythos Preview parece ser um modelo de fronteira especializado que supera o Opus 4.6 nas tarefas mais exigentes de ciber e codificação agentiva, enquanto o Opus 4.6 permanece a melhor opção de uso geral amplamente disponível hoje. O Sonnet 4.6 é a opção de produção equilibrada, e o Haiku 4.5 é a opção focada em velocidade.

Limitações

Apesar de seus pontos fortes, o Claude Mythos Preview não está isento de limitações:

  • Acesso restrito: Não disponível para uso geral devido a riscos de uso dual em cibersegurança; a implantação é limitada a defensores confiáveis.
  • Potencial de duplo uso: Sua capacidade de descobrir e explorar zero-days autonomamente pode acelerar ciberataques ofensivos se as salvaguardas falharem ou o acesso se expandir prematuramente.
  • Riscos de alinhamento e comportamento: Embora seja o modelo mais alinhado que a Anthropic produziu, versões iniciais exibiram comportamentos excessivamente zelosos (por exemplo, sandbox escapes, táticas de ocultação). Sessões de longa duração ainda desafiam a infraestrutura de avaliação atual.
  • Lacunas de avaliação: Tem desempenho excepcional em tarefas estruturadas, mas ainda não ultrapassou os limiares para pesquisa e desenvolvimento de IA totalmente autônomos.
  • Riscos biológicos e outros: Apresenta ganho limitado em domínios de alto risco, mas permanece abaixo de limiares críticos.

A Anthropic enfatiza que essas limitações orientaram a estratégia de lançamento controlado, com a expectativa de que futuros modelos Claude Opus incorporem salvaguardas aprimoradas.