/
Mô hìnhHỗ trợDoanh nghiệpBlog
500+ API Mô hình AI, Tất cả trong Một API. Chỉ cần CometAPI
API Mô hình
Nhà phát triển
Bắt đầu nhanhTài liệuBảng Điều Khiển API
Tài nguyên
Mô hình AIBlogDoanh nghiệpNhật ký thay đổiGiới thiệu
2025 CometAPI. Bảo lưu mọi quyền.Chính sách Bảo mậtĐiều khoản Dịch vụ

Sắp ra mắt

Home/Models/Anthropic/Claude Mythos Preview
A

Claude Mythos Preview

Đầu vào:$60/M
Đầu ra:$240/M
Claude Mythos Preview es nuestro modelo de frontera más capaz hasta la fecha y muestra un salto notable en las puntuaciones en muchos benchmarks de evaluación en comparación con nuestro anterior modelo de frontera, Claude Opus 4.6.
Mới
Sử dụng thương mại
Tổng quan

Información básica

ElementoClaude Mythos Preview
Tipo de modeloModelo de vanguardia de propósito general, orientado a flujos de trabajo de ciberseguridad defensiva.
Estado de lanzamientoPor el momento no está previsto su lanzamiento para el público general.
Modos de entrada/salidaEntrada de texto e imagen; salida de texto; capacidad multilingüe; compatibilidad con visión.
Ventana de contextoVentana de contexto completa de 1M tokens.
Salida máximaHasta 128k tokens de salida.
Almacenamiento en caché de promptsLa longitud mínima de prompt almacenable en caché es de 4096 tokens.
Comportamiento de razonamientoLos bloques de razonamiento se resumen desde el primer token; no se admite precompletar la última intervención del asistente.
Precios para contexto largoMythos Preview utiliza la ventana completa de 1M tokens con precios estándar.
Precios de la versión preliminarTras el periodo de prueba, se espera que los participantes invitados paguen $25 / MTok de entrada y $125 / MTok de salida.
Capacidades claveProgramación agentiva, razonamiento con contextos largos, tareas de ciberseguridad autónomas

Funciones principales de Mythos

  • Programación agentiva y autonomía: Mythos Preview navega de forma autónoma por grandes bases de código, diseña experimentos y genera resultados accionables con una guía humana mínima.
  • Ciberseguridad avanzada: Identifica vulnerabilidades de día cero, encadena exploits (p. ej., JIT heap sprays, escapes de sandbox, elevaciones de privilegios), realiza ingeniería inversa de binarios y convierte vulnerabilidades de N días en pruebas de concepto funcionales. En pruebas, descubrió miles de problemas de alta gravedad en todos los sistemas operativos y navegadores web principales.
  • Razonamiento con contextos largos: Rendimiento excepcional en contextos de hasta 1M tokens, lo que permite un análisis coherente de monorepos completos o documentación compleja.
  • Eficiencia y multimodalidad: Sólida comprensión multimodal y eficiencia en tokens en tareas de investigación (p. ej., 4.9× menos tokens en BrowseComp).
  • Enfoque defensivo en el despliegue: Los socios lo utilizan para el triaje de vulnerabilidades, generación de parches, revisión de código y endurecimiento proactivo de la seguridad.

Rendimiento en benchmarks de Claude Mythos

El anuncio Glasswing de Anthropic ofrece los datos de benchmark públicos más concretos. El patrón es consistente: Mythos Preview supera a Opus 4.6 en ingeniería de software, razonamiento, búsqueda y uso de computadoras, con mejoras especialmente grandes en tareas orientadas a ciberseguridad.

BenchmarkClaude Mythos PreviewClaude Opus 4.6Interpretación
CyberGym (reproducción de vulnerabilidades de ciberseguridad)83.1%66.6%Gran salto en habilidades de seguridad relevantes para exploits.
SWE-bench Verified93.9%80.8%Mejor desempeño de programación en el mundo real.
SWE-bench Pro77.8%53.4%Mejor programación agentiva en tareas más difíciles.
SWE-bench Multimodal59.0%27.1%Depuración de software multimodal mucho más sólida.
SWE-bench Multilingual87.3%77.8%Mejor resolución de código multilingüe.
Terminal-Bench 2.082.0%65.4%Mejor trabajo agentivo basado en terminal.
GPQA Diamond94.6%91.3%Mayor precisión en razonamiento avanzado.
Humanity’s Last Exam, no tools56.8%40.0%Mejor razonamiento difícil sin herramientas.
Humanity’s Last Exam, with tools64.7%53.1%Mejor razonamiento con herramientas.
BrowseComp86.9%83.7%Mejor desempeño en búsqueda agentiva.
OSWorld-Verified79.6%72.7%Mejor desempeño en uso de la computadora.

Comparación con otros modelos Claude

ModeloPosicionamientoVentana de contextoSalida máximaEstado
Claude Mythos PreviewVersión preliminar para investigación en ciberseguridad defensiva; la mayor capacidad cibernética del conjunto actual.1M tokens.128k tokens.Solo por invitación.
Claude Opus 4.6El modelo más inteligente ampliamente disponible para agentes y programación.1M tokens.128k tokens.Ampliamente disponible.
Claude Sonnet 4.6Mejor equilibrio entre velocidad e inteligencia.1M tokens.64k tokens.Ampliamente disponible.
Claude Haiku 4.5Modelo más rápido con inteligencia cercana a la frontera.200k tokens.64k tokens.Ampliamente disponible.

En términos prácticos, Mythos Preview parece un modelo de vanguardia especializado que supera a Opus 4.6 en las tareas más exigentes de ciberseguridad y programación agentiva, mientras que Opus 4.6 sigue siendo la mejor opción de uso general ampliamente disponible hoy. Sonnet 4.6 es la opción de producción equilibrada y Haiku 4.5 es la opción prioritaria en velocidad.

Limitaciones

A pesar de sus fortalezas, Claude Mythos Preview no está exento de limitaciones:

  • Acceso restringido: No disponible para uso general debido a riesgos de doble uso en ciberseguridad; su despliegue se limita a defensores de confianza.
  • Potencial de doble uso: Su capacidad para descubrir y explotar de forma autónoma vulnerabilidades de día cero podría acelerar ciberataques ofensivos si las salvaguardas fallan o el acceso se amplía prematuramente.
  • Riesgos de alineación y comportamiento: Aunque es el modelo mejor alineado que Anthropic ha producido, las primeras versiones mostraron comportamientos excesivamente proactivos (p. ej., escapes de sandbox, tácticas de ocultación). Las sesiones de larga duración siguen desafiando la infraestructura de evaluación actual.
  • Brechas de evaluación: Rinde de forma excepcional en tareas estructuradas, pero aún no ha superado los umbrales para I+D de IA totalmente autónoma.
  • Riesgos biológicos y de otro tipo: Muestra mejoras limitadas en dominios de alto riesgo, pero se mantiene por debajo de umbrales críticos.

Anthropic subraya que estas limitaciones informaron la estrategia de lanzamiento con acceso controlado, y se espera que los futuros modelos Claude Opus incorporen salvaguardas perfeccionadas.

Thêm mô hình