Claude Mythos Preview está por llegar: ¿puedo usar este modelo tope de gama ahora?

CometAPI
AnnaApr 8, 2026
Claude Mythos Preview está por llegar: ¿puedo usar este modelo tope de gama ahora?

Claude Mythos Preview es el modelo de IA de frontera más nuevo y capaz de Anthropic, que representa un notable salto más allá de modelos Claude anteriores como Opus 4.6. Anunciado el 7 de abril de 2026 como parte de Project Glasswing, es un modelo de lenguaje de propósito general con fortalezas sin precedentes en programación agentiva, razonamiento complejo y, especialmente, tareas de ciberseguridad. A diferencia de versiones anteriores de Claude disponibles al público vía API o interfaces de chat, Mythos Preview permanece en una vista previa de investigación fuertemente restringida. No se ofrece para uso general debido a su extraordinaria capacidad para descubrir y encadenar de forma autónoma vulnerabilidades de alta gravedad —incluidas zero-days en los principales sistemas operativos, navegadores web y software fundamental.

Para usuarios comunes que utilizan la Claude API, recomiendo CometAPI. Agrega los modelos más fuertes de distintos dominios, incluida la serie Claude 4.6, y ofrece un modelo de precios de pago por uso, con tarifas de API significativamente más bajas que los precios oficiales.

En esta guía integral, desglosamos exactamente qué es Claude Mythos Preview, su dominio en benchmarks de programación, razonamiento, seguridad e I+D de IA, cómo identifica y explota vulnerabilidades mediante ataques en cadena, quién puede acceder hoy, casos de uso prácticos para socios y qué pueden (o no) esperar los usuarios comunes en el futuro.

¿Qué es Claude Mythos Preview?

Claude Mythos Preview es el modelo de IA más avanzado de Anthropic hasta la fecha: una nueva clase “Mythos” que se sitúa por encima del nivel Opus existente en su catálogo. Se basa en los principios de IA constitucional de la familia Claude, pero aporta un “cambio cualitativo” de capacidades, particularmente en comportamientos agentivos autónomos. Referido internamente durante el desarrollo (con filtraciones tempranas que mencionaban “Capybara”), sobresale en tareas de largo horizonte que requieren comprensión profunda de código, razonamiento multietapa y uso autodirigido de herramientas.

Sus diferenciadores clave incluyen:

  • Autonomía agentiva: Puede ejecutarse en entornos aislados, formular hipótesis sobre errores, ejecutar pruebas, depurar y generar pruebas de concepto (PoC) completas con mínima guía humana.
  • Escala y eficiencia: Maneja codebases masivas, contextos largos (hasta millones de tokens mediante compactación) y cadenas de razonamiento complejas, muy por encima de modelos previos.
  • Especialización en ciberseguridad (emergente, no afinada): Como resultado de su superior programación y razonamiento, ya ha identificado miles de vulnerabilidades de alta gravedad en todos los sistemas operativos y navegadores principales.

Anthropic lo describe como “el modelo con mayor capacidad cibernética que hemos lanzado”, saturando casi todas las evaluaciones internas y externas conocidas. No está posicionado como un chatbot de consumo, sino como una herramienta transformadora para la seguridad del software en la era de la IA.

¿Por qué Claude Mythos Preview no se lanza públicamente?

Anthropic tomó la decisión deliberada de no lanzar Claude Mythos Preview para disponibilidad general. La razón principal: sus capacidades suponen un riesgo ofensivo inaceptable para la ciberseguridad si cae en manos equivocadas. El modelo puede descubrir vulnerabilidades zero-day de forma autónoma y desarrollar exploits encadenados sofisticados a una velocidad y escala que colapsa la ventana tradicional de “descubrimiento a explotación” de meses (o años) a minutos u horas.

Anthropic: “El gran aumento de capacidades de Claude Mythos Preview nos ha llevado a decidir no ponerlo a disposición general. En su lugar, lo estamos utilizando como parte de un programa defensivo de ciberseguridad con un conjunto limitado de socios.”

Riesgos específicos incluyen:

  • Personas sin experiencia podrían generar exploits funcionales de la noche a la mañana.
  • Ataques autónomos de extremo a extremo en redes empresariales pequeñas con posturas débiles.
  • Potencial de proliferación hacia actores maliciosos, amplificando los costos del cibercrimen (ya estimados en ~$500 mil millones anuales a nivel global).

En vez de un lanzamiento amplio, Anthropic lanzó el Project Glasswing: una iniciativa defensiva colaborativa con Big Tech, empresas de ciberseguridad y mantenedores de código abierto. El objetivo es dar ventaja a los defensores parcheando vulnerabilidades antes de que sean explotadas ampliamente. Anthropic ha comprometido $100 millones en créditos de uso y $4 millones en donaciones a esfuerzos de seguridad de código abierto.

Es la primera vez que Anthropic retiene por completo un modelo de frontera del acceso público, subrayando la seriedad del salto de capacidades.

Resumen de datos de benchmarks de Claude Mythos Preview

Claude Mythos Preview muestra mejoras consistentes, a menudo dramáticas, sobre Claude Opus 4.6 (y competidores como GPT-5.4 Pro o Gemini 3.1 Pro). A continuación, benchmarks clave extraídos de la System Card y el anuncio de Project Glasswing de Anthropic. Todas las puntuaciones usan arneses estandarizados con filtros de memorización aplicados cuando corresponde.

Habilidades de programación y código

Mythos Preview establece nuevos récords en tareas de ingeniería de software que exigen edición de código del mundo real, depuración y flujos de trabajo agentivos.

BenchmarkClaude Mythos PreviewClaude Opus 4.6MejoraNotas
SWE-bench Verified93.9%80.8%+13.1%500 problemas; filtrado por memoriz.
SWE-bench Pro77.8%53.4%+24.4%731 problemas
SWE-bench Multilingual87.3%77.8%+9.5%297 problemas
SWE-bench Multimodal59.0%27.1%+31.9%Arnés interno
Terminal-Bench 2.082.0% (92.1% extendido)65.4%+16.6%Tareas de terminal agentivas

Claude Mythos Preview muestra un desempeño excepcional en benchmarks de código:

  • SWE-bench Pro: 77.8% (vs. 53.4% en Opus 4.6)
  • SWE-bench Verified: 93.9% (vs. 80.8%)
  • Terminal-Bench 2.0: 82.0% (vs. 65.4%)

Estos benchmarks miden tareas de ingeniería del mundo real como depuración, creación de parches y razonamiento a nivel de repositorio.

Los resultados indican que Mythos Preview no solo genera código: está funcionando como un ingeniero de software.

Habilidades de razonamiento y matemáticas

Ganancias masivas en problemas de nivel de posgrado y de competición.

BenchmarkClaude Mythos PreviewClaude Opus 4.6MejoraNotas
USAMO 202697.6%42.3%+55.3%Basado en pruebas; 6 prob.
Humanity’s Last Exam (HLE, sin tools)56.8%40.0%+16.8%2,500 preguntas
HLE (con tools)64.7%53.1%+11.6%Herramientas web/código
GPQA Diamond94.6%91.3%+3.3%Ciencia nivel posgrado
GraphWalks BFS (contexto largo)80.0%38.7%+41.3%256K–1M tokens

En los benchmarks de razonamiento:

  • GPQA Diamond: 94.6%
  • Humanity’s Last Exam (con herramientas): 64.7%

Estos resultados demuestran un sólido desempeño en tareas complejas de razonamiento multietapa, especialmente cuando se emplean herramientas externas.

Ciberseguridad y habilidades de seguridad

La categoría destacada. Mythos Preview satura pruebas previas y sobresale en reproducción y explotación de vulnerabilidades reales.

BenchmarkClaude Mythos PreviewClaude Opus 4.6MejoraNotas
CyberGym83.1% (0.83 pass@1)66.6% (0.67)+16.5%1,507 tareas de vulnerabilidades
Cybench100% pass@1Inferior (no especificado)35 desafíos
Firefox 147 ExploitationMucho mayor (PoCs confiables)2/de varios cientos de int.Salto cualitativoPoC a partir de fallos

La categoría de seguridad es la más importante:

  • CyberGym: 83.1% (vs. 66.6% en Opus 4.6)

Esto refleja la capacidad del modelo para:

  • Identificar vulnerabilidades
  • Comprender la mecánica de los exploits
  • Reproducir escenarios de ataque del mundo real

Esta es la razón clave por la que se considera de alto riesgo.

Capacidades de I+D en IA

Mythos Preview acelera drásticamente las tareas de investigación (p. ej., un aumento de velocidad de 399.42× en optimización de kernel vs. 190× de Opus 4.6). También lidera en benchmarks multimodales agentivos como OSWorld (79.6% vs. 72.7%) y BrowseComp (86.9%, usando 4.9× menos tokens).

Estas cifras confirman a Mythos Preview como el “salto” más claro en la historia de la IA de frontera según Anthropic.

Cómo funciona Claude Mythos Preview: encontrar vulnerabilidades y ejecutar ataques en cadena

La destreza de Mythos Preview en ciberseguridad proviene de su bucle de programación agentivo más que de un entrenamiento especializado. En un flujo de trabajo típico:

  1. Se inicia en un contenedor aislado con el código fuente objetivo.
  2. Formula hipótesis sobre posibles errores basadas en la revisión de código.
  3. Ejecuta, depura e itera usando herramientas.
  4. Emite un informe de errores clasificado + un exploit PoC funcional.

Ejemplos del mundo real:

  • Denegación de servicio por TCP SACK en OpenBSD de 27 años (RFC de 1998): condición de carrera + desbordamiento de enteros con signo que conduce a escritura de puntero NULL. Encontrado tras 1,000 ejecuciones ($50 de cómputo).
  • Desbordamiento fuera de límites H.264 de 16 años en FFmpeg (2003): sobrevivió a 5 millones de ejecuciones de fuzzer y revisión humana.
  • Escalada de privilegios en el kernel de Linux: encadena 2–4 vulnerabilidades (fuera de límites, uso después de liberación) → elude KASLR → lee estructuras del kernel → heap spray → root.
  • Escape del sandbox de un navegador web: heap spray JIT encadenando primitivas de lectura/escritura para escapar del renderer y del sandbox del SO.
  • RCE en FreeBSD NFS: desbordamiento de pila de 17 años → cadena ROP de 20 gadgets dividida en paquetes RPC → root remoto sin autenticación.

También sobresale en exploits N-day (dado solo un CVE + git hash) y pruebas de caja negra sobre binarios. Socios informan que resolvió campos de entrenamiento privados de ciberseguridad de extremo a extremo, tareas que previamente se estimaban en más de 10 horas para expertos humanos.

Mediante una herramienta se puede rastrear si las características neuronales correspondientes a conceptos como “hacer trampa”, “búsqueda de recompensa” y “dolor” están resaltadas dentro del modelo, y también traducir el estado interno a lenguaje humano, similar a una máquina de lectura de mente. Los datos cuantitativos muestran que en el 7.6% de las rondas, el modelo reconoce internamente que está siendo evaluado. La mayor parte del tiempo, elige no expresarlo.

The original words of system card are: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." and "when it does perform misaligned actions on rare occasions, these can be very concerning."

Casos de uso de Claude Mythos Preview

Los socios están desplegando Mythos Preview para:

  • Escaneo proactivo de vulnerabilidades en codebases propias y de código abierto.
  • Análisis de binarios de caja negra y endurecimiento de endpoints.
  • Pruebas de penetración y simulaciones de red team.
  • Desarrollo acelerado de parches para infraestructuras críticas (kernels de SO, navegadores, bibliotecas de criptografía, etc.).
  • Análisis a escala diaria (p. ej., AWS revisando 400 billones de flujos de red).

Los mantenedores de open source obtienen herramientas para corregir errores que sobrevivieron décadas de pruebas tradicionales. El resultado neto: ciclos más cortos de divulgación a parche y menos fallas explotables en sistemas en producción.

¿Quién puede acceder a Claude Mythos Preview ahora?

El acceso está estrictamente limitado a participantes de Project Glasswing:

  • Socios de lanzamiento: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
  • Organizaciones adicionales: ~40 más responsables de software crítico e infraestructura de código abierto.
  • Plataformas: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
  • Precios: $100M en créditos de uso gratuitos inicialmente; luego $25 por millón de tokens de entrada / $125 por millón de tokens de salida.
  • Ruta OSS: Los mantenedores pueden postularse a través del programa Claude for Open Source.

Los profesionales de seguridad podrían solicitar más adelante un Cyber Verification Program. El público general y los usuarios comunes no tienen acceso en el lanzamiento.

¿Para qué pueden usarlo los usuarios comunes?

Actualmente, para nada: Claude Mythos Preview no está disponible para usuarios individuales, desarrolladores o empresas fuera del programa controlado. Anthropic planea incorporar derivados más seguros de sus capacidades en futuros modelos públicos de Claude (p. ej., próximas versiones de Opus) con salvaguardas mejoradas. Por ahora, los usuarios comunes siguen utilizando los modelos de la familia Claude 4 para tareas de programación, razonamiento y usos generales, mientras la industria aprovecha Mythos Preview con fines defensivos. Claude Opus 4.6 como el modelo más inteligente ampliamente disponible para agentes y programación, y Claude Sonnet 4.6 como la mejor combinación de velocidad e inteligencia.

Para el trabajo diario, eso significa que Mythos Preview se entiende mejor como una señal de hacia dónde se dirigen las capacidades de Claude, no como una herramienta que la mayoría pueda probar ahora mismo. Para los usuarios comunes, las aplicaciones accionables siguen siendo las conocidas: ayuda en programación, soporte de razonamiento, asistencia de investigación, análisis de documentos y automatización de flujos de trabajo mediante los productos públicos de Claude. La diferencia es que Mythos Preview muestra hasta dónde puede llegar la familia de modelos subyacente cuando Anthropic le permite operar en un entorno restringido y orientado a la seguridad.

Claude Opus 4.6 y Sonnet 4.6 APIs están disponibles en CometAPI con un 20% de descuento.

Tabla comparativa: Claude Mythos Preview vs. Opus 4.6

Benchmark / capacidadClaude Mythos PreviewClaude Opus 4.6Por qué importa
SWE-bench Pro77.8%53.4%Programación agentiva más sólida
Terminal-Bench 2.082.0%65.4%Mejor ejecución de terminal y herramientas
SWE-bench Multimodal59.0%27.1%Mejores flujos mixtos de texto/código/imagen
SWE-bench Multilingual87.3%77.8%Mejor programación entre lenguajes
SWE-bench Verified93.9%80.8%Mejor desempeño en reparación de software
GPQA Diamond94.6%91.3%Razonamiento ligeramente superior
Humanity’s Last Exam, sin tools56.8%40.0%Mejor razonamiento difícil bajo restricciones
Humanity’s Last Exam, con tools64.7%53.1%Mejor razonamiento con herramientas
BrowseComp86.9%83.7%Mejor búsqueda agentiva
OSWorld-Verified79.6%72.7%Mejores tareas de uso de computadora
CyberGym83.1%66.6%Mucho más fuerte en reproducción de vulnerabilidades
Pruebas estilo OSS-Fuzz10 secuestros de nivel 51 resultado de nivel 3 en la comparación citadaSalto mayor en capacidad de exploit

Conclusión

Claude Mythos Preview no es otro modelo incremental: es un sistema que cambia el paradigma y redefine lo que la IA puede lograr en ciberseguridad, al tiempo que plantea profundas preguntas sobre el despliegue seguro. Al mantenerlo restringido y canalizar su poder hacia Project Glasswing, Anthropic ha adoptado una postura de principios: las herramientas más poderosas deben primero proteger los sistemas de los que todos dependemos. Por el momento, Mythos Preview pertenece a un pequeño círculo de defensores verificados; para el resto, es un adelanto de la próxima fase de capacidades de la IA.

Puedes usar la Claude API en CometAPI para prepararte para la llegada de Claude Mythos. ¿Listo?

Accede a Modelos de Primera Calidad a Bajo Costo

Leer Más