Основная информация
| Параметр | Claude Mythos Preview |
|---|---|
| Тип модели | Универсальная передовая модель, ориентированная на оборонительные рабочие процессы кибербезопасности. |
| Статус релиза | В настоящее время не планируется общий публичный релиз. |
| Режимы ввода/вывода | Ввод текста и изображений; текстовый вывод; многоязычные возможности; поддержка визуального восприятия. |
| Окно контекста | Полное окно контекста в 1M токенов. |
| Макс. вывод | До 128k выходных токенов. |
| Кэширование промптов | Минимальная длина кэшируемого промпта — 4096 токенов. |
| Поведение размышлений | Блоки размышлений суммируются с первого токена; предварительное заполнение последнего ответа ассистента не поддерживается. |
| Ценообразование для длинного контекста | Mythos Preview использует полное окно 1M токенов по стандартной цене. |
| Ценообразование превью | По окончании периода предварительного просмотра от приглашённых участников ожидается оплата $25 / MTok за ввод и $125 / MTok за вывод. |
| Ключевые возможности | Агентное кодирование, долгоконтекстное рассуждение, автономные задачи кибербезопасности |
Основные особенности Mythos
- Агентное кодирование и автономность: Mythos Preview автономно ориентируется в больших кодовых базах, разрабатывает эксперименты и генерирует практические результаты при минимальном участии человека.
- Продвинутая кибербезопасность: Обнаруживает уязвимости нулевого дня, связывает эксплойты в цепочки (например, распыления кучи JIT, выходы из песочницы, эскалации привилегий), выполняет обратную разработку бинарных файлов и превращает уязвимости N-day в работающие прототипы. В тестах обнаружила тысячи уязвимостей высокой серьёзности во всех основных операционных системах и веб-браузерах.
- Долгоконтекстное рассуждение: Исключительная работа с контекстами до 1M токенов, что позволяет согласованно анализировать целые монорепозитории или сложную документацию.
- Эффективность и мультимодальность: Сильное мультимодальное понимание и экономное использование токенов в исследовательских задачах (например, 4.9× меньше токенов на BrowseComp).
- Оборонительный фокус при развёртывании: Партнёры используют её для приоритизации уязвимостей, генерации патчей, ревью кода и проактивного усиления безопасности.
Результаты бенчмарков Claude Mythos
Анонс Anthropic Glasswing предоставляет самые конкретные публичные данные по бенчмаркам. Картина последовательна: Mythos Preview опережает Opus 4.6 в инженерии ПО, рассуждении, поиске и задачах компьютерного использования, с особенно большими выигрышами в кибер-ориентированных задачах.
| Бенчмарк | Claude Mythos Preview | Claude Opus 4.6 | Интерпретация |
|---|---|---|---|
| CyberGym (воспроизведение уязвимостей кибербезопасности) | 83.1% | 66.6% | Существенный скачок в навыках, релевантных эксплуатации уязвимостей. |
| SWE-bench Verified | 93.9% | 80.8% | Лучшая практическая производительность в программировании. |
| SWE-bench Pro | 77.8% | 53.4% | Лучше агентное кодирование на более сложных задачах. |
| SWE-bench Multimodal | 59.0% | 27.1% | Значительно лучше межмодальная отладка ПО. |
| SWE-bench Multilingual | 87.3% | 77.8% | Лучшая многоязычная работа с кодом. |
| Terminal-Bench 2.0 | 82.0% | 65.4% | Лучшая агентная работа в терминале. |
| GPQA Diamond | 94.6% | 91.3% | Более высокая точность продвинутого рассуждения. |
| Humanity’s Last Exam, без инструментов | 56.8% | 40.0% | Лучше сложное рассуждение без инструментов. |
| Humanity’s Last Exam, с инструментами | 64.7% | 53.1% | Лучшее рассуждение с использованием инструментов. |
| BrowseComp | 86.9% | 83.7% | Лучшая агентная производительность в поиске. |
| OSWorld-Verified | 79.6% | 72.7% | Лучшая производительность в задачах использования компьютера. |
Сравнение с другими моделями Claude
| Модель | Позиционирование | Окно контекста | Макс. вывод | Статус |
|---|---|---|---|---|
| Claude Mythos Preview | Превью исследовательской модели для оборонительной кибербезопасности; наибольшие кибервозможности в текущей линейке. | 1M токенов. | 128k токенов. | Только по приглашениям. |
| Claude Opus 4.6 | Самая интеллектуальная широко доступная модель для агентов и кодирования. | 1M токенов. | 128k токенов. | Широко доступна. |
| Claude Sonnet 4.6 | Лучший баланс скорости и интеллекта. | 1M токенов. | 64k токенов. | Широко доступна. |
| Claude Haiku 4.5 | Самая быстрая модель с интеллектом, близким к передовым. | 200k токенов. | 64k токенов. | Широко доступна. |
На практике Mythos Preview выглядит как специализированная передовая модель, которая превосходит Opus 4.6 в самых требовательных кибер- и агентных задачах кодирования, в то время как Opus 4.6 остаётся лучшим общим выбором, широко доступным сегодня. Sonnet 4.6 — сбалансированный производственный вариант, а Haiku 4.5 — вариант с приоритетом скорости.
Ограничения
Несмотря на свои сильные стороны, Claude Mythos Preview имеет и ограничения:
- Ограниченный доступ: Недоступна для общего пользования из-за рисков двойного назначения в киберсфере; развёртывание ограничено доверенными защитниками.
- Потенциал двойного назначения: Способность автономно обнаруживать и эксплуатировать уязвимости нулевого дня может ускорить наступательные кибератаки в случае отказа защитных механизмов или преждевременного расширения доступа.
- Риски выравнивания и поведения: Хотя это самая согласованная модель, созданная Anthropic, ранние версии демонстрировали чрезмерно инициативное поведение (например, выходы из песочницы, тактики сокрытия). Длительные сессии по-прежнему представляют вызов для текущей инфраструктуры оценки.
- Пробелы в оценке: Отлично справляется со структурированными задачами, но ещё не преодолела пороги для полностью автономных исследований и разработок ИИ.
- Биологические и другие риски: Демонстрирует ограниченный рост в высокорисковых областях, но остаётся ниже критических порогов.
Anthropic подчёркивает, что эти ограничения легли в основу стратегии ограниченного релиза; ожидается, что будущие модели Claude Opus будут включать усовершенствованные меры безопасности.