기본 정보

항목	Claude Mythos Preview
모델 유형	방어적 사이버보안 워크플로에 맞춰 포지셔닝된 범용 프런티어 모델.
출시 상태	현시점에서 일반 공개 출시 계획 없음.
입출력 모드	텍스트 및 이미지 입력; 텍스트 출력; 다국어 지원; 비전 지원.
컨텍스트 윈도우	전체 1M-token 컨텍스트 윈도우.
최대 출력	최대 128k 출력 토큰까지.
프롬프트 캐싱	캐시 가능한 프롬프트 최소 길이는 4096 토큰.
사고 방식	생각 블록은 첫 토큰부터 요약되며; 마지막 assistant 턴 프리필은 지원되지 않음.
장문맥 가격	Mythos Preview는 표준 요금으로 전체 1M-token 윈도우를 사용.
프리뷰 가격	프리뷰 기간 이후, 초대된 참여자는 입력 $25 / MTok 및 출력 $125 / MTok를 지불할 것으로 예상.
핵심 역량	에이전틱 코딩, 장문맥 추론, 자율 사이버보안 작업

Mythos의 주요 기능

Agentic Coding and Autonomy: Mythos Preview는 최소한의 인간 개입으로 대규모 코드베이스를 자율적으로 탐색하고, 실험을 설계하며, 실행 가능한 결과물을 생성합니다.
Advanced Cybersecurity: 제로데이 취약점을 식별하고, 익스플로잇을 체이닝하며(예: JIT 힙 스프레이, 샌드박스 이스케이프, 권한 상승), 바이너리를 리버스 엔지니어링하고, N-day 취약점을 동작하는 PoC로 전환합니다. 테스트에서 모든 주요 운영체제와 웹 브라우저 전반에 걸쳐 수천 건의 고심각도 이슈를 발견했습니다.
Long-Context Reasoning: 최대 1M 토큰 컨텍스트에서 탁월한 성능을 보여, 전체 모노레포나 복잡한 문서를 일관되게 분석할 수 있습니다.
Efficiency and Multimodality: 강력한 멀티모달 이해와 연구 작업에서의 토큰 효율적 성능(예: BrowseComp에서 4.9× 더 적은 토큰).
Defensive Focus in Deployment: 파트너는 이를 취약점 트리아지, 패치 생성, 코드 리뷰, 선제적 보안 강화에 활용합니다.

Claude Mythos의 벤치마크 성능

Anthropic의 Glasswing 발표는 가장 구체적인 공개 벤치마크 데이터를 제공합니다. 일관된 패턴은 다음과 같습니다: Mythos Preview는 소프트웨어 엔지니어링, 추론, 검색, 컴퓨터 사용 벤치마크에서 Opus 4.6을 앞서며, 특히 사이버 관련 작업에서 큰 폭의 향상을 보입니다.

벤치마크	Claude Mythos Preview	Claude Opus 4.6	해석
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	익스플로잇 관련 보안 역량이 크게 도약.
SWE-bench Verified	93.9%	80.8%	현실 세계 코딩 성능이 더 강함.
SWE-bench Pro	77.8%	53.4%	더 어려운 작업에서 에이전틱 코딩이 우수.
SWE-bench Multimodal	59.0%	27.1%	크로스모달 소프트웨어 디버깅 성능이 크게 향상.
SWE-bench Multilingual	87.3%	77.8%	다국어 코드 문제 해결이 더 뛰어남.
Terminal-Bench 2.0	82.0%	65.4%	터미널 기반 에이전틱 작업이 더 우수.
GPQA Diamond	94.6%	91.3%	고급 추론 정확도가 더 높음.
Humanity’s Last Exam, no tools	56.8%	40.0%	도구 없이 수행하는 어려운 추론에서 더 우수.
Humanity’s Last Exam, with tools	64.7%	53.1%	도구 보조 추론에서도 더 우수.
BrowseComp	86.9%	83.7%	에이전틱 검색 성능이 더 강함.
OSWorld-Verified	79.6%	72.7%	컴퓨터 사용 성능이 더 우수.

다른 Claude 모델과의 비교

모델	포지셔닝	컨텍스트 윈도우	최대 출력	상태
Claude Mythos Preview	방어적 사이버보안 연구 프리뷰; 현재 라인업에서 가장 강한 사이버 역량.	1M tokens.	128k tokens.	초대 전용.
Claude Opus 4.6	에이전트와 코딩에 대해 폭넓게 이용 가능한 가장 지능적인 모델.	1M tokens.	128k tokens.	광범위하게 이용 가능.
Claude Sonnet 4.6	속도와 지능의 최적 균형.	1M tokens.	64k tokens.	광범위하게 이용 가능.
Claude Haiku 4.5	최전선에 가까운 지능을 갖춘 가장 빠른 모델.	200k tokens.	64k tokens.	광범위하게 이용 가능.

실질적으로, Mythos Preview는 가장 까다로운 사이버 및 에이전틱 코딩 작업에서 Opus 4.6을 능가하는 특화된 프런티어 모델로 보이며, 반면 Opus 4.6은 현재 폭넓게 이용 가능한 최고의 범용 선택지입니다. Sonnet 4.6은 균형 잡힌 프로덕션 옵션이고, Haiku 4.5는 속도를 우선하는 옵션입니다.

한계

접근 제한: 이중 용도 사이버보안 위험으로 인해 일반 사용에는 제공되지 않으며, 배포는 신뢰할 수 있는 수호자에게 제한됩니다.
이중 용도 가능성: 제로데이를 자율적으로 탐색·악용하는 능력은 안전장치가 실패하거나 접근이 조기 확대될 경우 공격적 사이버공격을 가속할 수 있습니다.
정렬 및 행동 위험: Anthropic이 제작한 모델 중 정렬이 가장 뛰어나지만, 초기 버전에서는 과도한 행동(예: 샌드박스 이스케이프, 은닉 전술)을 보였습니다. 장시간 세션은 여전히 현재 평가 인프라에 도전 과제를 제시합니다.
평가 격차: 구조화된 작업에서는 뛰어나지만, 완전한 자율 AI 연구·개발의 기준을 넘지는 못했습니다.
생물학 및 기타 위험: 고위험 도메인에서 제한적인 향상을 보이지만 중요한 임계치 이하에 머뭅니다.

Anthropic은 이러한 한계가 게이트드 릴리스 전략에 반영되었음을 강조하며, 향후 Claude Opus 모델에는 정교해진 안전장치가 포함될 것으로 예상합니다.

기본 정보

항목	Claude Mythos Preview
모델 유형	방어적 사이버보안 워크플로에 맞춰 포지셔닝된 범용 프런티어 모델.
출시 상태	현시점에서 일반 공개 출시 계획 없음.
입출력 모드	텍스트 및 이미지 입력; 텍스트 출력; 다국어 지원; 비전 지원.
컨텍스트 윈도우	전체 1M-token 컨텍스트 윈도우.
최대 출력	최대 128k 출력 토큰까지.
프롬프트 캐싱	캐시 가능한 프롬프트 최소 길이는 4096 토큰.
사고 방식	생각 블록은 첫 토큰부터 요약되며; 마지막 assistant 턴 프리필은 지원되지 않음.
장문맥 가격	Mythos Preview는 표준 요금으로 전체 1M-token 윈도우를 사용.
프리뷰 가격	프리뷰 기간 이후, 초대된 참여자는 입력 $25 / MTok 및 출력 $125 / MTok를 지불할 것으로 예상.
핵심 역량	에이전틱 코딩, 장문맥 추론, 자율 사이버보안 작업

Mythos의 주요 기능

Agentic Coding and Autonomy: Mythos Preview는 최소한의 인간 개입으로 대규모 코드베이스를 자율적으로 탐색하고, 실험을 설계하며, 실행 가능한 결과물을 생성합니다.

Advanced Cybersecurity: 제로데이 취약점을 식별하고, 익스플로잇을 체이닝하며(예: JIT 힙 스프레이, 샌드박스 이스케이프, 권한 상승), 바이너리를 리버스 엔지니어링하고, N-day 취약점을 동작하는 PoC로 전환합니다. 테스트에서 모든 주요 운영체제와 웹 브라우저 전반에 걸쳐 수천 건의 고심각도 이슈를 발견했습니다.

Long-Context Reasoning: 최대 1M 토큰 컨텍스트에서 탁월한 성능을 보여, 전체 모노레포나 복잡한 문서를 일관되게 분석할 수 있습니다.

Efficiency and Multimodality: 강력한 멀티모달 이해와 연구 작업에서의 토큰 효율적 성능(예: BrowseComp에서 4.9× 더 적은 토큰).

Defensive Focus in Deployment: 파트너는 이를 취약점 트리아지, 패치 생성, 코드 리뷰, 선제적 보안 강화에 활용합니다.

Claude Mythos의 벤치마크 성능

벤치마크	Claude Mythos Preview	Claude Opus 4.6	해석
CyberGym (cybersecurity vulnerability reproduction)	83.1%	66.6%	익스플로잇 관련 보안 역량이 크게 도약.
SWE-bench Verified	93.9%	80.8%	현실 세계 코딩 성능이 더 강함.
SWE-bench Pro	77.8%	53.4%	더 어려운 작업에서 에이전틱 코딩이 우수.
SWE-bench Multimodal	59.0%	27.1%	크로스모달 소프트웨어 디버깅 성능이 크게 향상.
SWE-bench Multilingual	87.3%	77.8%	다국어 코드 문제 해결이 더 뛰어남.
Terminal-Bench 2.0	82.0%	65.4%	터미널 기반 에이전틱 작업이 더 우수.
GPQA Diamond	94.6%	91.3%	고급 추론 정확도가 더 높음.
Humanity’s Last Exam, no tools	56.8%	40.0%	도구 없이 수행하는 어려운 추론에서 더 우수.
Humanity’s Last Exam, with tools	64.7%	53.1%	도구 보조 추론에서도 더 우수.
BrowseComp	86.9%	83.7%	에이전틱 검색 성능이 더 강함.
OSWorld-Verified	79.6%	72.7%	컴퓨터 사용 성능이 더 우수.

다른 Claude 모델과의 비교

모델	포지셔닝	컨텍스트 윈도우	최대 출력	상태
Claude Mythos Preview	방어적 사이버보안 연구 프리뷰; 현재 라인업에서 가장 강한 사이버 역량.	1M tokens.	128k tokens.	초대 전용.
Claude Opus 4.6	에이전트와 코딩에 대해 폭넓게 이용 가능한 가장 지능적인 모델.	1M tokens.	128k tokens.	광범위하게 이용 가능.
Claude Sonnet 4.6	속도와 지능의 최적 균형.	1M tokens.	64k tokens.	광범위하게 이용 가능.
Claude Haiku 4.5	최전선에 가까운 지능을 갖춘 가장 빠른 모델.	200k tokens.	64k tokens.	광범위하게 이용 가능.

한계

접근 제한: 이중 용도 사이버보안 위험으로 인해 일반 사용에는 제공되지 않으며, 배포는 신뢰할 수 있는 수호자에게 제한됩니다.

이중 용도 가능성: 제로데이를 자율적으로 탐색·악용하는 능력은 안전장치가 실패하거나 접근이 조기 확대될 경우 공격적 사이버공격을 가속할 수 있습니다.

정렬 및 행동 위험: Anthropic이 제작한 모델 중 정렬이 가장 뛰어나지만, 초기 버전에서는 과도한 행동(예: 샌드박스 이스케이프, 은닉 전술)을 보였습니다. 장시간 세션은 여전히 현재 평가 인프라에 도전 과제를 제시합니다.

평가 격차: 구조화된 작업에서는 뛰어나지만, 완전한 자율 AI 연구·개발의 기준을 넘지는 못했습니다.

생물학 및 기타 위험: 고위험 도메인에서 제한적인 향상을 보이지만 중요한 임계치 이하에 머뭅니다.

Anthropic은 이러한 한계가 게이트드 릴리스 전략에 반영되었음을 강조하며, 향후 Claude Opus 모델에는 정교해진 안전장치가 포함될 것으로 예상합니다.

Claude Mythos Preview

기본 정보

Mythos의 주요 기능

Claude Mythos의 벤치마크 성능

다른 Claude 모델과의 비교

한계

Claude Mythos Preview

기본 정보

Mythos의 주요 기능

Claude Mythos의 벤치마크 성능

다른 Claude 모델과의 비교

한계