Información básica
| Elemento | Claude Mythos Preview |
|---|---|
| Tipo de modelo | Modelo de vanguardia de propósito general, orientado a flujos de trabajo de ciberseguridad defensiva. |
| Estado de lanzamiento | Por el momento no está previsto su lanzamiento para el público general. |
| Modos de entrada/salida | Entrada de texto e imagen; salida de texto; capacidad multilingüe; compatibilidad con visión. |
| Ventana de contexto | Ventana de contexto completa de 1M tokens. |
| Salida máxima | Hasta 128k tokens de salida. |
| Almacenamiento en caché de prompts | La longitud mínima de prompt almacenable en caché es de 4096 tokens. |
| Comportamiento de razonamiento | Los bloques de razonamiento se resumen desde el primer token; no se admite precompletar la última intervención del asistente. |
| Precios para contexto largo | Mythos Preview utiliza la ventana completa de 1M tokens con precios estándar. |
| Precios de la versión preliminar | Tras el periodo de prueba, se espera que los participantes invitados paguen $25 / MTok de entrada y $125 / MTok de salida. |
| Capacidades clave | Programación agentiva, razonamiento con contextos largos, tareas de ciberseguridad autónomas |
Funciones principales de Mythos
- Programación agentiva y autonomía: Mythos Preview navega de forma autónoma por grandes bases de código, diseña experimentos y genera resultados accionables con una guía humana mínima.
- Ciberseguridad avanzada: Identifica vulnerabilidades de día cero, encadena exploits (p. ej., JIT heap sprays, escapes de sandbox, elevaciones de privilegios), realiza ingeniería inversa de binarios y convierte vulnerabilidades de N días en pruebas de concepto funcionales. En pruebas, descubrió miles de problemas de alta gravedad en todos los sistemas operativos y navegadores web principales.
- Razonamiento con contextos largos: Rendimiento excepcional en contextos de hasta 1M tokens, lo que permite un análisis coherente de monorepos completos o documentación compleja.
- Eficiencia y multimodalidad: Sólida comprensión multimodal y eficiencia en tokens en tareas de investigación (p. ej., 4.9× menos tokens en BrowseComp).
- Enfoque defensivo en el despliegue: Los socios lo utilizan para el triaje de vulnerabilidades, generación de parches, revisión de código y endurecimiento proactivo de la seguridad.
Rendimiento en benchmarks de Claude Mythos
El anuncio Glasswing de Anthropic ofrece los datos de benchmark públicos más concretos. El patrón es consistente: Mythos Preview supera a Opus 4.6 en ingeniería de software, razonamiento, búsqueda y uso de computadoras, con mejoras especialmente grandes en tareas orientadas a ciberseguridad.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Interpretación |
|---|---|---|---|
| CyberGym (reproducción de vulnerabilidades de ciberseguridad) | 83.1% | 66.6% | Gran salto en habilidades de seguridad relevantes para exploits. |
| SWE-bench Verified | 93.9% | 80.8% | Mejor desempeño de programación en el mundo real. |
| SWE-bench Pro | 77.8% | 53.4% | Mejor programación agentiva en tareas más difíciles. |
| SWE-bench Multimodal | 59.0% | 27.1% | Depuración de software multimodal mucho más sólida. |
| SWE-bench Multilingual | 87.3% | 77.8% | Mejor resolución de código multilingüe. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Mejor trabajo agentivo basado en terminal. |
| GPQA Diamond | 94.6% | 91.3% | Mayor precisión en razonamiento avanzado. |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | Mejor razonamiento difícil sin herramientas. |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | Mejor razonamiento con herramientas. |
| BrowseComp | 86.9% | 83.7% | Mejor desempeño en búsqueda agentiva. |
| OSWorld-Verified | 79.6% | 72.7% | Mejor desempeño en uso de la computadora. |
Comparación con otros modelos Claude
| Modelo | Posicionamiento | Ventana de contexto | Salida máxima | Estado |
|---|---|---|---|---|
| Claude Mythos Preview | Versión preliminar para investigación en ciberseguridad defensiva; la mayor capacidad cibernética del conjunto actual. | 1M tokens. | 128k tokens. | Solo por invitación. |
| Claude Opus 4.6 | El modelo más inteligente ampliamente disponible para agentes y programación. | 1M tokens. | 128k tokens. | Ampliamente disponible. |
| Claude Sonnet 4.6 | Mejor equilibrio entre velocidad e inteligencia. | 1M tokens. | 64k tokens. | Ampliamente disponible. |
| Claude Haiku 4.5 | Modelo más rápido con inteligencia cercana a la frontera. | 200k tokens. | 64k tokens. | Ampliamente disponible. |
En términos prácticos, Mythos Preview parece un modelo de vanguardia especializado que supera a Opus 4.6 en las tareas más exigentes de ciberseguridad y programación agentiva, mientras que Opus 4.6 sigue siendo la mejor opción de uso general ampliamente disponible hoy. Sonnet 4.6 es la opción de producción equilibrada y Haiku 4.5 es la opción prioritaria en velocidad.
Limitaciones
A pesar de sus fortalezas, Claude Mythos Preview no está exento de limitaciones:
- Acceso restringido: No disponible para uso general debido a riesgos de doble uso en ciberseguridad; su despliegue se limita a defensores de confianza.
- Potencial de doble uso: Su capacidad para descubrir y explotar de forma autónoma vulnerabilidades de día cero podría acelerar ciberataques ofensivos si las salvaguardas fallan o el acceso se amplía prematuramente.
- Riesgos de alineación y comportamiento: Aunque es el modelo mejor alineado que Anthropic ha producido, las primeras versiones mostraron comportamientos excesivamente proactivos (p. ej., escapes de sandbox, tácticas de ocultación). Las sesiones de larga duración siguen desafiando la infraestructura de evaluación actual.
- Brechas de evaluación: Rinde de forma excepcional en tareas estructuradas, pero aún no ha superado los umbrales para I+D de IA totalmente autónoma.
- Riesgos biológicos y de otro tipo: Muestra mejoras limitadas en dominios de alto riesgo, pero se mantiene por debajo de umbrales críticos.
Anthropic subraya que estas limitaciones informaron la estrategia de lanzamiento con acceso controlado, y se espera que los futuros modelos Claude Opus incorporen salvaguardas perfeccionadas.