Claude Mythos Preview скоро выходит: могу ли я воспользоваться этой флагманской моделью уже сейчас?

Claude Mythos Preview — это новейшая и наиболее мощная передовая модель ИИ от Anthropic, представляющая разительный скачок по сравнению с предыдущими моделями Claude, такими как Opus 4.6. Анонсированная 7 апреля 2026 года в рамках Project Glasswing, это универсальная языковая модель с беспрецедентными сильными сторонами в агентном программировании, сложном рассуждении и особенно в задачах кибербезопасности. В отличие от более ранних выпусков Claude, доступных публике через API или чат-интерфейсы, Mythos Preview остаётся строго ограниченной исследовательской предварительной версией. Она не предлагается для общего использования из‑за её исключительной способности автономно обнаруживать и связывать уязвимости высокой критичности — включая уязвимости нулевого дня в основных операционных системах, веб‑браузерах и базовом программном обеспечении.

Для обычных пользователей, работающих с Claude API, я рекомендую CometAPI. Он агрегирует сильнейшие модели из разных доменов, включая серию Claude 4.6, и предлагает модель оплаты по мере использования, причём цены API значительно ниже официальных.

В этом подробном руководстве мы разберём, что именно такое Claude Mythos Preview, его доминирование в бенчмарках по программированию, рассуждению, безопасности и НИОКР, как он выявляет и использует уязвимости через цепные атаки, кто может получить к нему доступ сегодня, практические варианты применения для партнёров и чего (или чего не) стоит ожидать обычным пользователям в будущем.

What Is Claude Mythos Preview?

Claude Mythos Preview — самая продвинутая на сегодняшний день модель ИИ от Anthropic — новый класс «Mythos», стоящий выше существующего уровня Opus в их линейке. Она опирается на принципы «конституционного ИИ» семейства Claude, но обеспечивает качественный «скачок» возможностей, особенно в автономном агентном поведении. Внутренне упоминавшаяся во время разработки (в ранних утечках фигурировало «Capybara»), она превосходно справляется с задачами на длинных горизонтах, требующими глубокого понимания кода, многошагового рассуждения и самонаправленного использования инструментов.

Ключевые отличия включают:

Агентная автономность: может работать в изолированных средах, выдвигать гипотезы о багах, запускать тесты, отлаживать и выдавать полноценные PoC‑эксплойты с минимальным участием человека.
Масштаб и эффективность: обрабатывает огромные кодовые базы, длинные контексты (до миллионов токенов посредством компакции) и сложные цепочки рассуждений, значительно превосходя предыдущие модели.
Специализация в кибербезопасности (эмерджентная, не дообученная): являясь следствием превосходства в кодинге и рассуждении, уже выявила тысячи уязвимостей высокой критичности во всех основных ОС и браузерах.

Anthropic описывает её как «самую кибер‑способную модель из всех, что мы выпускали», демонстрирующую насыщение практически всех внутренних и известных внешних оценок. Она позиционируется не как потребительский чат‑бот, а как преобразующий инструмент для безопасности ПО в эпоху ИИ.

Why Isn’t Claude Mythos Preview Publicly Released?

Anthropic приняла осознанное решение не выпускать Claude Mythos Preview для общего доступа. Главная причина: её возможности представляют неприемлемый риск с точки зрения наступательной кибербезопасности, если окажутся в неверных руках. Модель способна автономно обнаруживать уязвимости нулевого дня и разрабатывать сложные, сцепленные эксплойты с такой скоростью и масштабом, что традиционное окно между обнаружением и эксплуатацией сокращается с месяцев (или лет) до минут или часов.

Anthropic: «Существенный рост возможностей Claude Mythos Preview привёл нас к решению не делать её общедоступной. Вместо этого мы используем её как часть оборонительной программы кибербезопасности с ограниченным кругом партнёров».

Конкретные риски включают:

Неэксперты могут за одну ночь сгенерировать рабочие эксплойты.
Автономные сквозные атаки на малые корпоративные сети с слабой защитой.
Потенциальное распространение к злоумышленникам, усиливающее издержки киберпреступности (уже оцениваемые примерно в $500 млрд в год по миру).

Вместо широкого релиза Anthropic запустила Project Glasswing — совместную оборонительную инициативу с крупными технологическими компаниями, фирмами кибербезопасности и мейнтейнерами open‑source. Цель — дать защитникам фору, чтобы закрывать уязвимости до того, как они будут широко эксплуатироваться. Anthropic выделила $100 млн в виде кредитов на использование и $4 млн пожертвований на усилия по безопасности open‑source.

Впервые Anthropic полностью удерживает передовую модель от публичного доступа, что подчёркивает серьёзность скачка возможностей.

Claude Mythos Preview Benchmark Data Overview

Claude Mythos Preview демонстрирует стабильные и часто драматические улучшения по сравнению с Claude Opus 4.6 (и конкурентами вроде GPT‑5.4 Pro или Gemini 3.1 Pro). Ниже ключевые бенчмарки, извлечённые из System Card и анонса Project Glasswing от Anthropic. Все оценки используют стандартизированные пайпы, с применением фильтров на заучивание там, где это уместно.

Programming & Coding Skills

Mythos Preview устанавливает новые рекорды в задачах программной инженерии, требующих реального редактирования кода, отладки и агентных рабочих процессов.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
SWE-bench Verified	93.9%	80.8%	+13.1%	500 problems; memorization-filtered
SWE-bench Pro	77.8%	53.4%	+24.4%	731 problems
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 problems
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Internal harness
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Agentic terminal tasks

Claude Mythos Preview показывает исключительные результаты в бенчмарках по кодированию:

SWE-bench Pro: 77.8% (против 53.4% у Opus 4.6)
SWE-bench Verified: 93.9% (против 80.8%)
Terminal-Bench 2.0: 82.0% (против 65.4%)

Эти бенчмарки измеряют реальные инженерные задачи, такие как отладка, разработка патчей и рассуждение на уровне репозитория.

Результаты указывают на то, что Mythos Preview не просто генерирует код — она функционирует как инженер‑программист.

Reasoning & Mathematical Skills

Массивный прирост в задачах уровня магистратуры и соревнований.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
USAMO 2026	97.6%	42.3%	+55.3%	Proof-based; 6 problems
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 questions
HLE (with tools)	64.7%	53.1%	+11.6%	Web/code tools
GPQA Diamond	94.6%	91.3%	+3.3%	Graduate-level science
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M tokens

В бенчмарках на рассуждение:

GPQA Diamond: 94.6%
Humanity’s Last Exam (с инструментами): 64.7%

Эти оценки демонстрируют сильную работу в сложных, многошаговых задачах рассуждения, особенно при использовании внешних инструментов.

Cybersecurity & Security Skills

Самая яркая категория. Mythos Preview насыщает прежние тесты и превосходит в воспроизведении и эксплуатации реальных уязвимостей.

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 targeted vuln tasks
Cybench	100% pass@1	Lower (not specified)	—	35 challenges
Firefox 147 Exploitation	Dramatically higher (reliable PoCs)	2/several hundred attempts	Qualitative leap	Proof-of-concept from crashes

Самая важная категория бенчмарков — безопасность:

CyberGym: 83.1% (против 66.6% у Opus 4.6)

Это отражает способность модели:

Выявлять уязвимости
Понимать механику эксплуатации
Воспроизводить реальные сценарии атак

Именно поэтому модель считается высокорисковой.

AI R&D Capabilities

Mythos Preview радикально ускоряет исследовательские задачи (например, ускорение 399.42× в оптимизации ядра против 190× у Opus 4.6). Она также лидирует в мультимодальных агентных бенчмарках, таких как OSWorld (79.6% против 72.7%) и BrowseComp (86.9%, при этом использует в 4.9× меньше токенов).

Эти цифры подтверждают, что Mythos Preview — самый очевидный «скачок» в истории передовых моделей ИИ по версии Anthropic.

How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks

Сила Mythos Preview в кибербезопасности вытекает из её агентного цикла разработки кода, а не из специализированного обучения. Типичный рабочий процесс:

Запуск в изолированном контейнере с целевым исходным кодом.
Формирование гипотез о потенциальных багах на основе ревью кода.
Запуск, отладка и итерации с использованием инструментов.
Вывод ранжированного отчёта об ошибках + рабочего PoC‑эксплойта.

Примеры из реального мира:

27‑летний OpenBSD TCP SACK DoS (RFC 1998): состояние гонки + переполнение знакового целого, приводящее к записи NULL‑указателя. Найдена примерно после ~~1,000 запусков (~~$50 вычислительных затрат).
16‑летняя уязвимость FFmpeg H.264 out‑of‑bounds write (2003): пережила 5 млн прогонов фаззеров и ручные ревью.
Повышение привилегий в ядре Linux: сцепляет 2–4 уязвимости (out‑of‑bounds, use‑after‑free) → обход KASLR → чтение структур ядра → «распыление» кучи → root.
Выход из изоляции песочницы браузера: JIT‑heap‑spray с объединением примитивов чтения/записи для выхода из песочницы рендерера и ОС.
FreeBSD NFS RCE: 17‑летнее переполнение стека → ROP‑цепочка из 20 гаджетов, разбитая по RPC‑пакетам → удалённый root без аутентификации.

Также превосходно справляется с N‑day‑эксплойтами (получив лишь CVE и git‑хэш) и чёрным‑ящиком тестированием бинарников. Партнёры сообщают, что модель решала частные киберполигоны end‑to‑end — задачи, ранее оценивавшиеся для экспертов‑людей как 10+ часов работы.

С помощью инструмента можно отслеживать, активируются ли нейронные признаки, соответствующие таким концепциям, как «cheating», «reward hacking» и «pain», а также переводить внутреннее состояние в понятный человеку язык, подобно машине для чтения мыслей. Количественные данные показывают, что в 7.6% раундов модель внутренне распознаёт, что её оценивают. В большинстве случаев она предпочитает это не выражать.

Оригинальные слова из system card: «Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures.» и «when it does perform misaligned actions on rare occasions, these can be very concerning.»

Use Cases for Claude Mythos Preview

Партнёры используют Mythos Preview для:

Проактивного сканирования уязвимостей в собственных и open‑source кодовых базах.
Анализа бинарников как «чёрного ящика» и укрепления конечных точек.
Тестирования на проникновение и симуляций red‑team.
Ускоренной разработки патчей для критической инфраструктуры (ядра ОС, браузеры, криптобиблиотеки и т. п.).
Ежедневного массштабного анализа (например, AWS анализирует 400 трлн сетевых потоков).

Мейнтейнеры open‑source получают инструменты для исправления багов, которые пережили десятилетия традиционного тестирования. Итог: более короткие циклы от раскрытия до патча и меньше эксплуатируемых уязвимостей в продакшене.

Who Can Access Claude Mythos Preview Now?

Доступ строго ограничен участниками Project Glasswing:

Партнёры запуска: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
Дополнительные организации: ~ещё 40, отвечающих за критическое ПО и open‑source инфраструктуру.
Платформы: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
Ценообразование: бесплатно $100M кредитов на использование на старте; далее $25 за миллион входных / $125 за миллион выходных токенов.
Маршрут для OSS: мейнтейнеры могут подать заявку через программу Claude for Open Source.

Профессионалы по безопасности позднее смогут подать заявку в Cyber Verification Program. У широкой публики и обычных пользователей нет доступа на старте.

What Can Ordinary Users Use It For?

В настоящий момент — ни для чего: Claude Mythos Preview недоступен индивидуальным пользователям, разработчикам или компаниям вне закрытой программы. Anthropic планирует включать более безопасные производные её возможностей в будущие публичные модели Claude (например, в следующие релизы Opus) с усиленными мерами защиты. Пока что обычные пользователи продолжают использовать семейство Claude 4 для кодирования, рассуждения и общих задач, в то время как индустрия применяет Mythos Preview в оборонительных целях. Claude Opus 4.6 — наиболее интеллектуальная широко доступная модель для агентов и кодирования, а Claude Sonnet 4.6 — лучший компромисс скорости и интеллекта.

В повседневной работе Mythos Preview следует воспринимать скорее как сигнал того, куда движутся возможности Claude, а не как инструмент, доступный большинству уже сейчас. Для обычных пользователей прикладные сценарии остаются привычными: помощь в кодировании, поддержка рассуждения, исследовательская помощь, анализ документов и автоматизация рабочих процессов через публичные продукты Claude. Отличие в том, что Mythos Preview показывает, насколько далеко может зайти базовое семейство моделей, когда Anthropic позволяет ему работать в ограниченной, ориентированной на безопасность среде.

Claude Opus 4.6 и Sonnet 4.6 доступны через API на CometAPI с 20% скидкой.

Comparison table: Claude Mythos Preview vs. Opus 4.6

Benchmark / capability	Claude Mythos Preview	Claude Opus 4.6	Why it matters
SWE-bench Pro	77.8%	53.4%	Stronger agentic coding
Terminal-Bench 2.0	82.0%	65.4%	Better terminal and tool execution
SWE-bench Multimodal	59.0%	27.1%	Better mixed text/code/image workflows
SWE-bench Multilingual	87.3%	77.8%	Better cross-language coding
SWE-bench Verified	93.9%	80.8%	Stronger software repair performance
GPQA Diamond	94.6%	91.3%	Slightly stronger reasoning
Humanity’s Last Exam, no tools	56.8%	40.0%	Better hard reasoning under constraint
Humanity’s Last Exam, with tools	64.7%	53.1%	Better tool-augmented reasoning
BrowseComp	86.9%	83.7%	Better agentic search
OSWorld-Verified	79.6%	72.7%	Better computer-use tasks
CyberGym	83.1%	66.6%	Much stronger security-vulnerability reproduction
OSS-Fuzz-style testing	10 tier-5 hijacks	1 tier-3 result in the cited comparison	Larger exploit capability leap

Conclusion

Claude Mythos Preview — это не очередная инкрементальная модель, а система, меняющая парадигму и переопределяющая возможности ИИ в кибербезопасности, одновременно поднимая серьёзные вопросы о безопасном развёртывании. Удерживая её за «воротами» и направляя мощь в Project Glasswing, Anthropic заняла принципиальную позицию: самые мощные инструменты должны сначала защищать системы, от которых мы все зависим. На данный момент Mythos Preview принадлежит узкому кругу проверенных защитников; для всех остальных это лишь предвосхищение следующего этапа возможностей ИИ.

Вы можете использовать Claude API в CometAPI, чтобы подготовиться к приходу Claude Mythos. Готовы?