Información básica

Elemento	Claude Mythos Preview
Tipo de modelo	Modelo de vanguardia de propósito general, orientado a flujos de trabajo de ciberseguridad defensiva.
Estado de lanzamiento	Por el momento no está previsto su lanzamiento para el público general.
Modos de entrada/salida	Entrada de texto e imagen; salida de texto; capacidad multilingüe; compatibilidad con visión.
Ventana de contexto	Ventana de contexto completa de 1M tokens.
Salida máxima	Hasta 128k tokens de salida.
Almacenamiento en caché de prompts	La longitud mínima de prompt almacenable en caché es de 4096 tokens.
Comportamiento de razonamiento	Los bloques de razonamiento se resumen desde el primer token; no se admite precompletar la última intervención del asistente.
Precios para contexto largo	Mythos Preview utiliza la ventana completa de 1M tokens con precios estándar.
Precios de la versión preliminar	Tras el periodo de prueba, se espera que los participantes invitados paguen $25 / MTok de entrada y $125 / MTok de salida.
Capacidades clave	Programación agentiva, razonamiento con contextos largos, tareas de ciberseguridad autónomas

Funciones principales de Mythos

Programación agentiva y autonomía: Mythos Preview navega de forma autónoma por grandes bases de código, diseña experimentos y genera resultados accionables con una guía humana mínima.
Ciberseguridad avanzada: Identifica vulnerabilidades de día cero, encadena exploits (p. ej., JIT heap sprays, escapes de sandbox, elevaciones de privilegios), realiza ingeniería inversa de binarios y convierte vulnerabilidades de N días en pruebas de concepto funcionales. En pruebas, descubrió miles de problemas de alta gravedad en todos los sistemas operativos y navegadores web principales.
Razonamiento con contextos largos: Rendimiento excepcional en contextos de hasta 1M tokens, lo que permite un análisis coherente de monorepos completos o documentación compleja.
Eficiencia y multimodalidad: Sólida comprensión multimodal y eficiencia en tokens en tareas de investigación (p. ej., 4.9× menos tokens en BrowseComp).
Enfoque defensivo en el despliegue: Los socios lo utilizan para el triaje de vulnerabilidades, generación de parches, revisión de código y endurecimiento proactivo de la seguridad.

Rendimiento en benchmarks de Claude Mythos

El anuncio Glasswing de Anthropic ofrece los datos de benchmark públicos más concretos. El patrón es consistente: Mythos Preview supera a Opus 4.6 en ingeniería de software, razonamiento, búsqueda y uso de computadoras, con mejoras especialmente grandes en tareas orientadas a ciberseguridad.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretación
CyberGym (reproducción de vulnerabilidades de ciberseguridad)	83.1%	66.6%	Gran salto en habilidades de seguridad relevantes para exploits.
SWE-bench Verified	93.9%	80.8%	Mejor desempeño de programación en el mundo real.
SWE-bench Pro	77.8%	53.4%	Mejor programación agentiva en tareas más difíciles.
SWE-bench Multimodal	59.0%	27.1%	Depuración de software multimodal mucho más sólida.
SWE-bench Multilingual	87.3%	77.8%	Mejor resolución de código multilingüe.
Terminal-Bench 2.0	82.0%	65.4%	Mejor trabajo agentivo basado en terminal.
GPQA Diamond	94.6%	91.3%	Mayor precisión en razonamiento avanzado.
Humanity’s Last Exam, no tools	56.8%	40.0%	Mejor razonamiento difícil sin herramientas.
Humanity’s Last Exam, with tools	64.7%	53.1%	Mejor razonamiento con herramientas.
BrowseComp	86.9%	83.7%	Mejor desempeño en búsqueda agentiva.
OSWorld-Verified	79.6%	72.7%	Mejor desempeño en uso de la computadora.

Comparación con otros modelos Claude

Modelo	Posicionamiento	Ventana de contexto	Salida máxima	Estado
Claude Mythos Preview	Versión preliminar para investigación en ciberseguridad defensiva; la mayor capacidad cibernética del conjunto actual.	1M tokens.	128k tokens.	Solo por invitación.
Claude Opus 4.6	El modelo más inteligente ampliamente disponible para agentes y programación.	1M tokens.	128k tokens.	Ampliamente disponible.
Claude Sonnet 4.6	Mejor equilibrio entre velocidad e inteligencia.	1M tokens.	64k tokens.	Ampliamente disponible.
Claude Haiku 4.5	Modelo más rápido con inteligencia cercana a la frontera.	200k tokens.	64k tokens.	Ampliamente disponible.

En términos prácticos, Mythos Preview parece un modelo de vanguardia especializado que supera a Opus 4.6 en las tareas más exigentes de ciberseguridad y programación agentiva, mientras que Opus 4.6 sigue siendo la mejor opción de uso general ampliamente disponible hoy. Sonnet 4.6 es la opción de producción equilibrada y Haiku 4.5 es la opción prioritaria en velocidad.

Limitaciones

A pesar de sus fortalezas, Claude Mythos Preview no está exento de limitaciones:

Acceso restringido: No disponible para uso general debido a riesgos de doble uso en ciberseguridad; su despliegue se limita a defensores de confianza.
Potencial de doble uso: Su capacidad para descubrir y explotar de forma autónoma vulnerabilidades de día cero podría acelerar ciberataques ofensivos si las salvaguardas fallan o el acceso se amplía prematuramente.
Riesgos de alineación y comportamiento: Aunque es el modelo mejor alineado que Anthropic ha producido, las primeras versiones mostraron comportamientos excesivamente proactivos (p. ej., escapes de sandbox, tácticas de ocultación). Las sesiones de larga duración siguen desafiando la infraestructura de evaluación actual.
Brechas de evaluación: Rinde de forma excepcional en tareas estructuradas, pero aún no ha superado los umbrales para I+D de IA totalmente autónoma.
Riesgos biológicos y de otro tipo: Muestra mejoras limitadas en dominios de alto riesgo, pero se mantiene por debajo de umbrales críticos.

Anthropic subraya que estas limitaciones informaron la estrategia de lanzamiento con acceso controlado, y se espera que los futuros modelos Claude Opus incorporen salvaguardas perfeccionadas.

Información básica

Elemento	Claude Mythos Preview
Tipo de modelo	Modelo de vanguardia de propósito general, orientado a flujos de trabajo de ciberseguridad defensiva.
Estado de lanzamiento	Por el momento no está previsto su lanzamiento para el público general.
Modos de entrada/salida	Entrada de texto e imagen; salida de texto; capacidad multilingüe; compatibilidad con visión.
Ventana de contexto	Ventana de contexto completa de 1M tokens.
Salida máxima	Hasta 128k tokens de salida.
Almacenamiento en caché de prompts	La longitud mínima de prompt almacenable en caché es de 4096 tokens.
Comportamiento de razonamiento	Los bloques de razonamiento se resumen desde el primer token; no se admite precompletar la última intervención del asistente.
Precios para contexto largo	Mythos Preview utiliza la ventana completa de 1M tokens con precios estándar.
Precios de la versión preliminar	Tras el periodo de prueba, se espera que los participantes invitados paguen $25 / MTok de entrada y $125 / MTok de salida.
Capacidades clave	Programación agentiva, razonamiento con contextos largos, tareas de ciberseguridad autónomas

Funciones principales de Mythos

Programación agentiva y autonomía: Mythos Preview navega de forma autónoma por grandes bases de código, diseña experimentos y genera resultados accionables con una guía humana mínima.

Ciberseguridad avanzada: Identifica vulnerabilidades de día cero, encadena exploits (p. ej., JIT heap sprays, escapes de sandbox, elevaciones de privilegios), realiza ingeniería inversa de binarios y convierte vulnerabilidades de N días en pruebas de concepto funcionales. En pruebas, descubrió miles de problemas de alta gravedad en todos los sistemas operativos y navegadores web principales.

Razonamiento con contextos largos: Rendimiento excepcional en contextos de hasta 1M tokens, lo que permite un análisis coherente de monorepos completos o documentación compleja.

Eficiencia y multimodalidad: Sólida comprensión multimodal y eficiencia en tokens en tareas de investigación (p. ej., 4.9× menos tokens en BrowseComp).

Enfoque defensivo en el despliegue: Los socios lo utilizan para el triaje de vulnerabilidades, generación de parches, revisión de código y endurecimiento proactivo de la seguridad.

Rendimiento en benchmarks de Claude Mythos

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Interpretación
CyberGym (reproducción de vulnerabilidades de ciberseguridad)	83.1%	66.6%	Gran salto en habilidades de seguridad relevantes para exploits.
SWE-bench Verified	93.9%	80.8%	Mejor desempeño de programación en el mundo real.
SWE-bench Pro	77.8%	53.4%	Mejor programación agentiva en tareas más difíciles.
SWE-bench Multimodal	59.0%	27.1%	Depuración de software multimodal mucho más sólida.
SWE-bench Multilingual	87.3%	77.8%	Mejor resolución de código multilingüe.
Terminal-Bench 2.0	82.0%	65.4%	Mejor trabajo agentivo basado en terminal.
GPQA Diamond	94.6%	91.3%	Mayor precisión en razonamiento avanzado.
Humanity’s Last Exam, no tools	56.8%	40.0%	Mejor razonamiento difícil sin herramientas.
Humanity’s Last Exam, with tools	64.7%	53.1%	Mejor razonamiento con herramientas.
BrowseComp	86.9%	83.7%	Mejor desempeño en búsqueda agentiva.
OSWorld-Verified	79.6%	72.7%	Mejor desempeño en uso de la computadora.

Comparación con otros modelos Claude

Modelo	Posicionamiento	Ventana de contexto	Salida máxima	Estado
Claude Mythos Preview	Versión preliminar para investigación en ciberseguridad defensiva; la mayor capacidad cibernética del conjunto actual.	1M tokens.	128k tokens.	Solo por invitación.
Claude Opus 4.6	El modelo más inteligente ampliamente disponible para agentes y programación.	1M tokens.	128k tokens.	Ampliamente disponible.
Claude Sonnet 4.6	Mejor equilibrio entre velocidad e inteligencia.	1M tokens.	64k tokens.	Ampliamente disponible.
Claude Haiku 4.5	Modelo más rápido con inteligencia cercana a la frontera.	200k tokens.	64k tokens.	Ampliamente disponible.

Limitaciones

A pesar de sus fortalezas, Claude Mythos Preview no está exento de limitaciones:

Acceso restringido: No disponible para uso general debido a riesgos de doble uso en ciberseguridad; su despliegue se limita a defensores de confianza.

Potencial de doble uso: Su capacidad para descubrir y explotar de forma autónoma vulnerabilidades de día cero podría acelerar ciberataques ofensivos si las salvaguardas fallan o el acceso se amplía prematuramente.

Riesgos de alineación y comportamiento: Aunque es el modelo mejor alineado que Anthropic ha producido, las primeras versiones mostraron comportamientos excesivamente proactivos (p. ej., escapes de sandbox, tácticas de ocultación). Las sesiones de larga duración siguen desafiando la infraestructura de evaluación actual.

Brechas de evaluación: Rinde de forma excepcional en tareas estructuradas, pero aún no ha superado los umbrales para I+D de IA totalmente autónoma.

Riesgos biológicos y de otro tipo: Muestra mejoras limitadas en dominios de alto riesgo, pero se mantiene por debajo de umbrales críticos.

Anthropic subraya que estas limitaciones informaron la estrategia de lanzamiento con acceso controlado, y se espera que los futuros modelos Claude Opus incorporen salvaguardas perfeccionadas.

Claude Mythos Preview

Información básica

Funciones principales de Mythos

Rendimiento en benchmarks de Claude Mythos

Comparación con otros modelos Claude

Limitaciones

Thêm mô hình

Claude Mythos Preview

Información básica

Funciones principales de Mythos

Rendimiento en benchmarks de Claude Mythos

Comparación con otros modelos Claude

Limitaciones

Thêm mô hình