Основная информация

Параметр	Claude Mythos Preview
Тип модели	Универсальная передовая модель, ориентированная на оборонительные рабочие процессы кибербезопасности.
Статус релиза	В настоящее время не планируется общий публичный релиз.
Режимы ввода/вывода	Ввод текста и изображений; текстовый вывод; многоязычные возможности; поддержка визуального восприятия.
Окно контекста	Полное окно контекста в 1M токенов.
Макс. вывод	До 128k выходных токенов.
Кэширование промптов	Минимальная длина кэшируемого промпта — 4096 токенов.
Поведение размышлений	Блоки размышлений суммируются с первого токена; предварительное заполнение последнего ответа ассистента не поддерживается.
Ценообразование для длинного контекста	Mythos Preview использует полное окно 1M токенов по стандартной цене.
Ценообразование превью	По окончании периода предварительного просмотра от приглашённых участников ожидается оплата $25 / MTok за ввод и $125 / MTok за вывод.
Ключевые возможности	Агентное кодирование, долгоконтекстное рассуждение, автономные задачи кибербезопасности

Основные особенности Mythos

Агентное кодирование и автономность: Mythos Preview автономно ориентируется в больших кодовых базах, разрабатывает эксперименты и генерирует практические результаты при минимальном участии человека.
Продвинутая кибербезопасность: Обнаруживает уязвимости нулевого дня, связывает эксплойты в цепочки (например, распыления кучи JIT, выходы из песочницы, эскалации привилегий), выполняет обратную разработку бинарных файлов и превращает уязвимости N-day в работающие прототипы. В тестах обнаружила тысячи уязвимостей высокой серьёзности во всех основных операционных системах и веб-браузерах.
Долгоконтекстное рассуждение: Исключительная работа с контекстами до 1M токенов, что позволяет согласованно анализировать целые монорепозитории или сложную документацию.
Эффективность и мультимодальность: Сильное мультимодальное понимание и экономное использование токенов в исследовательских задачах (например, 4.9× меньше токенов на BrowseComp).
Оборонительный фокус при развёртывании: Партнёры используют её для приоритизации уязвимостей, генерации патчей, ревью кода и проактивного усиления безопасности.

Результаты бенчмарков Claude Mythos

Анонс Anthropic Glasswing предоставляет самые конкретные публичные данные по бенчмаркам. Картина последовательна: Mythos Preview опережает Opus 4.6 в инженерии ПО, рассуждении, поиске и задачах компьютерного использования, с особенно большими выигрышами в кибер-ориентированных задачах.

Бенчмарк	Claude Mythos Preview	Claude Opus 4.6	Интерпретация
CyberGym (воспроизведение уязвимостей кибербезопасности)	83.1%	66.6%	Существенный скачок в навыках, релевантных эксплуатации уязвимостей.
SWE-bench Verified	93.9%	80.8%	Лучшая практическая производительность в программировании.
SWE-bench Pro	77.8%	53.4%	Лучше агентное кодирование на более сложных задачах.
SWE-bench Multimodal	59.0%	27.1%	Значительно лучше межмодальная отладка ПО.
SWE-bench Multilingual	87.3%	77.8%	Лучшая многоязычная работа с кодом.
Terminal-Bench 2.0	82.0%	65.4%	Лучшая агентная работа в терминале.
GPQA Diamond	94.6%	91.3%	Более высокая точность продвинутого рассуждения.
Humanity’s Last Exam, без инструментов	56.8%	40.0%	Лучше сложное рассуждение без инструментов.
Humanity’s Last Exam, с инструментами	64.7%	53.1%	Лучшее рассуждение с использованием инструментов.
BrowseComp	86.9%	83.7%	Лучшая агентная производительность в поиске.
OSWorld-Verified	79.6%	72.7%	Лучшая производительность в задачах использования компьютера.

Сравнение с другими моделями Claude

Модель	Позиционирование	Окно контекста	Макс. вывод	Статус
Claude Mythos Preview	Превью исследовательской модели для оборонительной кибербезопасности; наибольшие кибервозможности в текущей линейке.	1M токенов.	128k токенов.	Только по приглашениям.
Claude Opus 4.6	Самая интеллектуальная широко доступная модель для агентов и кодирования.	1M токенов.	128k токенов.	Широко доступна.
Claude Sonnet 4.6	Лучший баланс скорости и интеллекта.	1M токенов.	64k токенов.	Широко доступна.
Claude Haiku 4.5	Самая быстрая модель с интеллектом, близким к передовым.	200k токенов.	64k токенов.	Широко доступна.

На практике Mythos Preview выглядит как специализированная передовая модель, которая превосходит Opus 4.6 в самых требовательных кибер- и агентных задачах кодирования, в то время как Opus 4.6 остаётся лучшим общим выбором, широко доступным сегодня. Sonnet 4.6 — сбалансированный производственный вариант, а Haiku 4.5 — вариант с приоритетом скорости.

Ограничения

Несмотря на свои сильные стороны, Claude Mythos Preview имеет и ограничения:

Ограниченный доступ: Недоступна для общего пользования из-за рисков двойного назначения в киберсфере; развёртывание ограничено доверенными защитниками.
Потенциал двойного назначения: Способность автономно обнаруживать и эксплуатировать уязвимости нулевого дня может ускорить наступательные кибератаки в случае отказа защитных механизмов или преждевременного расширения доступа.
Риски выравнивания и поведения: Хотя это самая согласованная модель, созданная Anthropic, ранние версии демонстрировали чрезмерно инициативное поведение (например, выходы из песочницы, тактики сокрытия). Длительные сессии по-прежнему представляют вызов для текущей инфраструктуры оценки.
Пробелы в оценке: Отлично справляется со структурированными задачами, но ещё не преодолела пороги для полностью автономных исследований и разработок ИИ.
Биологические и другие риски: Демонстрирует ограниченный рост в высокорисковых областях, но остаётся ниже критических порогов.

Anthropic подчёркивает, что эти ограничения легли в основу стратегии ограниченного релиза; ожидается, что будущие модели Claude Opus будут включать усовершенствованные меры безопасности.

Claude Mythos Preview

더 많은 모델