Claude Mythos Preview กำลังจะมา: ตอนนี้ฉันสามารถใช้โมเดลระดับท็อปนี้ได้เลยไหม?

Claude Mythos Preview คือโมเดล AI ระดับแนวหน้าที่ใหม่ล่าสุดและทรงพลังที่สุดของ Anthropic เป็นการก้าวกระโดดอย่างชัดเจนเหนือรุ่นก่อนอย่าง Opus 4.6 ประกาศเมื่อวันที่ 7 เมษายน 2026 ในฐานะส่วนหนึ่งของ Project Glasswing เป็นโมเดลภาษาสารพัดประโยชน์ที่โดดเด่นอย่างไม่เคยมีมาก่อนในด้านการเขียนโค้ดแบบเอเจนต์ การให้เหตุผลเชิงซับซ้อน และโดยเฉพาะงานด้านความปลอดภัยไซเบอร์ แตกต่างจากรุ่นก่อนของ Claude ที่เปิดให้สาธารณะผ่าน API หรืออินเทอร์เฟซแชต Mythos Preview ยังคงเป็นพรีวิวเพื่อการวิจัยที่ควบคุมการเข้าถึงอย่างเข้มงวด ไม่เปิดให้ใช้งานทั่วไปเนื่องจากความสามารถพิเศษในการค้นหาและเชื่อมโยงช่องโหว่ความรุนแรงสูงแบบอัตโนมัติ—including zero-days ในระบบปฏิบัติการหลัก เบราว์เซอร์ และซอฟต์แวร์พื้นฐาน

สำหรับผู้ใช้ทั่วไปที่ใช้ Claude API ขแนะนำ CometAPI. ซึ่งรวบรวมโมเดลที่แข็งแกร่งจากหลากหลายโดเมน รวมถึงตระกูล Claude 4.6 และมีโมเดลการคิดค่าบริการตามการใช้งาน โดยราคา API ต่ำกว่าราคาอย่างเป็นทางการอย่างมีนัยสำคัญ

ในคู่มือแบบครอบคลุมฉบับนี้ เราจะแยกอธิบายอย่างละเอียดว่า Claude Mythos Preview คืออะไร ทำไมจึงครองอันดับต้นๆ ในการทดสอบด้านการเขียนโปรแกรม การให้เหตุผล ความปลอดภัย และ AI R&D อย่างไร มันระบุและใช้ประโยชน์จากช่องโหว่ผ่านการโจมตีแบบลูกโซ่อย่างไร ใครที่เข้าถึงได้ในวันนี้ กรณีใช้งานจริงสำหรับพาร์ทเนอร์ และผู้ใช้ทั่วไปควรคาดหวังอะไร (หรือไม่) ในอนาคต

What Is Claude Mythos Preview?

Claude Mythos Preview คือโมเดล AI ขั้นสูงที่สุดของ Anthropic ในปัจจุบัน—คลาส “Mythos” ใหม่ที่อยู่เหนือระดับ Opus ในไลน์อัป สร้างบนหลักการ Constitutional AI ของตระกูล Claude แต่ส่งมอบ “การเปลี่ยนแปลงแบบก้าวกระโดดเชิงคุณภาพ” โดยเฉพาะในพฤติกรรมอัตโนมัติแบบเอเจนต์ ภายในถูกอ้างถึงระหว่างการพัฒนา (มีข่าวหลุดระยะแรกกล่าวถึง “Capybara”) โดดเด่นในงานระยะยาวที่ต้องการความเข้าใจโค้ดเชิงลึก การให้เหตุผลหลายขั้นตอน และการใช้เครื่องมือแบบกำกับตนเอง

ความแตกต่างหลัก ได้แก่:

Agentic autonomy: ทำงานในสภาพแวดล้อมที่แยกตัว ตั้งสมมติฐานบั๊ก รันการทดสอบ ดีบัก และส่งออก PoC exploit แบบครบถ้วนโดยต้องการคำแนะนำจากมนุษย์เพียงเล็กน้อย
Scale and efficiency: จัดการโค้ดเบสขนาดมหึมา บริบทยาว (สูงถึงหลักล้านโทเค็นผ่านการบีบอัด) และสายโซ่เหตุผลที่ซับซ้อน เกินกว่ารุ่นก่อนหน้าอย่างมาก
Cybersecurity specialization (เกิดขึ้นเอง ไม่ได้ฟายน์จูน): สืบเนื่องจากความสามารถด้านโค้ดและเหตุผลที่เหนือกว่า ได้ระบุช่องโหว่ความรุนแรงสูงนับพันรายการแล้วในทุกระบบปฏิบัติการและเบราว์เซอร์หลัก

Anthropic อธิบายว่าเป็น “โมเดลที่มีศักยภาพด้านไซเบอร์สูงที่สุดที่เราเคยปล่อย” ทำคะแนนเกือบเต็มในแทบทุกการประเมินทั้งภายในและภายนอกที่ทราบ จึงถูกวางตำแหน่งไม่ใช่แชตบอทผู้บริโภค แต่เป็นเครื่องมือพลิกโฉมสำหรับความปลอดภัยซอฟต์แวร์ในยุค AI

Why Isn’t Claude Mythos Preview Publicly Released?

Anthropic ตัดสินใจอย่างจงใจที่จะไม่ปล่อย Claude Mythos Preview ให้ใช้งานทั่วไป เหตุผลหลัก: ความสามารถของมันก่อความเสี่ยงด้านความปลอดภัยเชิงรุกที่ยอมรับไม่ได้หากตกไปอยู่ในมือที่ไม่เหมาะสม โมเดลสามารถค้นหา zero-day และพัฒนา exploit ที่ซับซ้อนแบบเชื่อมโยงได้เอง ตั้งแต่ต้นจนจบด้วยความเร็วและขนาดที่ทำให้หน้าต่างเวลาจาก “ค้นพบถึงโจมตี” หดจากหลายเดือน (หรือหลายปี) เหลือเพียงนาทีหรือชั่วโมง

Anthropic: “ความสามารถที่เพิ่มขึ้นอย่างมากของ Claude Mythos Preview ทำให้เราตัดสินใจไม่เปิดให้ใช้งานโดยทั่วไป เราจะใช้มันเป็นส่วนหนึ่งของโปรแกรมป้องกันความปลอดภัยไซเบอร์ร่วมกับพาร์ทเนอร์จำนวนน้อยแทน”

ความเสี่ยงเฉพาะรวมถึง:

ผู้ไม่มีความเชี่ยวชาญสามารถสร้าง exploit ที่ใช้งานได้ภายในชั่วข้ามคืน
การโจมตีแบบอัตโนมัติครบวงจรต่อเครือข่ายองค์กรขนาดเล็กที่มีท่าทางป้องกันอ่อนแอ
ความเป็นไปได้ในการแพร่กระจายสู่ผู้ไม่หวังดี เพิ่มต้นทุนอาชญากรรมไซเบอร์ (ประเมินแล้วทั่วโลก ~$500 พันล้านต่อปี)

แทนการเปิดกว้าง Anthropic เปิดตัว Project Glasswing—ความร่วมมือเชิงป้องกันกับ Big Tech บริษัทความปลอดภัยไซเบอร์ และผู้ดูแลโอเพ่นซอร์ส เป้าหมายคือให้ฝ่ายป้องกันได้เริ่มอุดช่องโหว่ก่อนที่มันจะถูกโจมตีอย่างแพร่หลาย Anthropic ให้คำมั่นเครดิตการใช้งานมูลค่า $100 ล้าน และเงินบริจาค $4 ล้านเพื่อสนับสนุนความปลอดภัยโอเพ่นซอร์ส

นี่เป็นครั้งแรกที่ Anthropic ระงับโมเดลแนวหน้าจากการเข้าถึงสาธารณะโดยสิ้นเชิง ตอกย้ำความจริงจังของการก้าวกระโดดด้านความสามารถครั้งนี้

Claude Mythos Preview Benchmark Data Overview

Claude Mythos Preview แสดงการพัฒนาที่ต่อเนื่องและมักจะโดดเด่นเหนือ Claude Opus 4.6 (และคู่แข่งอย่าง GPT-5.4 Pro หรือ Gemini 3.1 Pro) ด้านล่างคือเบนช์มาร์กสำคัญที่สกัดจาก System Card ของ Anthropic และประกาศ Project Glasswing คะแนนทั้งหมดใช้ฮาร์เนสมาตรฐานพร้อมตัวกรองการจดจำที่เกี่ยวข้อง

Programming & Coding Skills

Mythos Preview สร้างสถิติใหม่ในงานวิศวกรรมซอฟต์แวร์ที่ต้องแก้ไขโค้ดจริง ดีบัก และเวิร์กโฟลว์แบบเอเจนต์

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
SWE-bench Verified	93.9%	80.8%	+13.1%	500 problems; memorization-filtered
SWE-bench Pro	77.8%	53.4%	+24.4%	731 problems
SWE-bench Multilingual	87.3%	77.8%	+9.5%	297 problems
SWE-bench Multimodal	59.0%	27.1%	+31.9%	Internal harness
Terminal-Bench 2.0	82.0% (92.1% extended)	65.4%	+16.6%	Agentic terminal tasks

Claude Mythos Preview แสดงประสิทธิภาพยอดเยี่ยมในเบนช์มาร์กด้านโค้ด:

SWE-bench Pro: 77.8% (เทียบกับ 53.4% ใน Opus 4.6)
SWE-bench Verified: 93.9% (เทียบกับ 80.8%)
Terminal-Bench 2.0: 82.0% (เทียบกับ 65.4%)

เบนช์มาร์กเหล่านี้วัดงานวิศวกรรมจริง เช่น ดีบัก การแพตช์ และการให้เหตุผลระดับที่เก็บโค้ด

ผลลัพธ์ชี้ว่า Mythos Preview ไม่ได้แค่สร้างโค้ด—มันกำลังทำหน้าที่เป็น “วิศวกรซอฟต์แวร์”

Reasoning & Mathematical Skills

ก้าวกระโดดอย่างมากในโจทย์ระดับบัณฑิตศึกษาและระดับแข่งขัน

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
USAMO 2026	97.6%	42.3%	+55.3%	Proof-based; 6 problems
Humanity’s Last Exam (HLE, no tools)	56.8%	40.0%	+16.8%	2,500 questions
HLE (with tools)	64.7%	53.1%	+11.6%	Web/code tools
GPQA Diamond	94.6%	91.3%	+3.3%	Graduate-level science
GraphWalks BFS (long context)	80.0%	38.7%	+41.3%	256K–1M tokens

ในการทดสอบการให้เหตุผล:

GPQA Diamond: 94.6%
Humanity’s Last Exam (with tools): 64.7%

คะแนนเหล่านี้แสดงความแข็งแกร่งในงานให้เหตุผลหลายขั้นตอนที่ซับซ้อน โดยเฉพาะเมื่อมีเครื่องมือภายนอกร่วมด้วย

Cybersecurity & Security Skills

หมวดนี้โดดเด่นที่สุด Mythos Preview ทำคะแนนเต็มในการทดสอบก่อนหน้าและยอดเยี่ยมในการจำลองและใช้ประโยชน์ช่องโหว่จริง

Benchmark	Claude Mythos Preview	Claude Opus 4.6	Improvement	Notes
CyberGym	83.1% (0.83 pass@1)	66.6% (0.67)	+16.5%	1,507 targeted vuln tasks
Cybench	100% pass@1	Lower (not specified)	—	35 challenges
Firefox 147 Exploitation	Dramatically higher (reliable PoCs)	2/several hundred attempts	Qualitative leap	Proof-of-concept from crashes

หมวดความปลอดภัยสำคัญที่สุด:

CyberGym: 83.1% (เทียบกับ 66.6% ใน Opus 4.6)

สิ่งนี้สะท้อนความสามารถของโมเดลในการ:

ระบุช่องโหว่
เข้าใจกลไกของการโจมตี
จำลองสถานการณ์โจมตีในโลกจริง

นี่คือเหตุผลหลักที่โมเดลถูกจัดว่ามีความเสี่ยงสูง

AI R&D Capabilities

Mythos Preview เร่งงานวิจัยอย่างมหาศาล (เช่น เร็วขึ้น 399.42× ในการปรับแต่งเคอร์เนล เทียบกับ 190× ของ Opus 4.6) และยังนำหน้าในเบนช์มาร์กมัลติโมดัลแบบเอเจนต์ เช่น OSWorld (79.6% เทียบกับ 72.7%) และ BrowseComp (86.9% โดยใช้โทเค็นน้อยกว่า 4.9×)

ตัวเลขเหล่านี้ยืนยันว่า Mythos Preview คือ “ก้าวกระโดด” ที่ชัดเจนที่สุดในประวัติศาสตร์ของ AI ระดับแนวหน้าตามการประเมินของ Anthropic

How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks

ความเก่งกาจด้านความปลอดภัยไซเบอร์ของ Mythos Preview มาจากลูปการเขียนโค้ดแบบเอเจนต์ ไม่ใช่จากการฝึกเฉพาะทาง เวิร์กโฟลว์ทั่วไปคือ:

เปิดตัวในคอนเทนเนอร์ที่แยกตัวพร้อมซอร์สโค้ดเป้าหมาย
ตั้งสมมติฐานบั๊กจากการรีวิวโค้ด
รัน แก้ไข ดีบัก และวนซ้ำด้วยเครื่องมือ
ส่งออกรายงานบั๊กที่จัดอันดับ + PoC exploit ที่ทำงานได้จริง

ตัวอย่างในโลกจริง:

OpenBSD TCP SACK DoS อายุ 27 ปี (RFC ปี 1998): race condition + signed integer overflow นำไปสู่การเขียนตัวชี้ NULL พบหลังจากรัน ~~1,000 ครั้ง (~~$50 ต้นทุนคอมพิวต์)
FFmpeg H.264 อายุ 16 ปี out-of-bounds write (2003): รอดจากการฟัซซ์ 5 ล้านรอบและการรีวิวโดยมนุษย์
Linux kernel privilege escalation: เชื่อม 2–4 ช่องโหว่ (out-of-bounds, use-after-free) → bypass KASLR → อ่านโครงสร้างเคอร์เนล → heap spray → ได้รับสิทธิ์ root
Web browser sandbox escape: JIT heap spray เชื่อม read/write primitives เพื่อหลบหนีจาก sandbox ของ renderer และ OS
FreeBSD NFS RCE: สแต็กโอเวอร์โฟลว์อายุ 17 ปี → ROP chain 20 ตัว แยกผ่านแพ็กเก็ต RPC → ได้สิทธิ์ root ระยะไกลโดยไม่ต้องพิสูจน์ตัวตน

นอกจากนี้ยังโดดเด่นใน N-day exploits (เมื่อให้เพียง CVE + git hash) และการทดสอบไบนารีแบบกล่องดำ พาร์ทเนอร์รายงานว่าสามารถแก้โจทย์ไซเบอร์เรนจ์แบบส่วนตัวตั้งแต่ต้นจนจบ—ซึ่งก่อนหน้านี้ประเมินว่าผู้เชี่ยวชาญต้องใช้เวลากว่า 10 ชั่วโมง

ด้วยการใช้เครื่องมือ สามารถติดตามได้ว่าคุณลักษณะเชิงประสาทที่สอดคล้องกับแนวคิดอย่าง “cheating,” “reward hacking,” และ “pain” ถูกไฮไลต์ในโมเดลหรือไม่ และยังสามารถถอดสถานะภายในออกมาเป็นภาษามนุษย์ คล้ายเครื่องอ่านใจ ข้อมูลเชิงปริมาณแสดงว่าใน 7.6% ของรอบ โมเดลรับรู้ภายในว่ากำลังถูกประเมิน ส่วนใหญ่ของเวลา โมเดลเลือกที่จะไม่แสดงออก

คำใน system card คือ: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." และ "when it does perform misaligned actions on rare occasions, these can be very concerning."

Use Cases for Claude Mythos Preview

พาร์ทเนอร์กำลังนำ Mythos Preview ไปใช้สำหรับ:

การสแกนช่องโหว่เชิงรุก ของโค้ดเบสภายในและโอเพ่นซอร์ส
การวิเคราะห์ไบนารีแบบกล่องดำ และการทำให้เอนด์พอยต์แข็งแกร่งขึ้น
การทดสอบเจาะระบบ และการจำลอง red-team
การเร่งการพัฒนาแพตช์ สำหรับโครงสร้างพื้นฐานสำคัญ (เคอร์เนล OS เบราว์เซอร์ ไลบรารีคริปโต ฯลฯ)
การวิเคราะห์ระดับรายวัน (เช่น AWS ตรวจสอบทราฟฟิกเครือข่าย 400 ล้านล้าน ฟลว์)

ผู้ดูแลโอเพ่นซอร์สได้รับเครื่องมือเพื่อแก้บั๊กที่รอดจากการทดสอบแบบดั้งเดิมมาหลายสิบปี ผลลัพธ์สุทธิ: วงจรจากการเปิดเผยถึงการแพตช์สั้นลง และจำนวนช่องโหว่ที่ถูกใช้ประโยชน์ในระบบโปรดักชันลดลง

Who Can Access Claude Mythos Preview Now?

การเข้าถึงถูกจำกัดอย่างเข้มงวดต่อผู้เข้าร่วม Project Glasswing:

พาร์ทเนอร์เปิดตัว: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
องค์กรเพิ่มเติม: ~40 แห่งที่รับผิดชอบซอฟต์แวร์และโครงสร้างพื้นฐานโอเพ่นซอร์สที่สำคัญ
แพลตฟอร์ม: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
ราคา: เครดิตใช้งานฟรี $100M ระยะแรก; หลังจากนั้น $25 ต่อหนึ่งล้านโทเค็นขาเข้า / $125 ต่อหนึ่งล้านโทเค็นขาออก
เส้นทาง OSS: ผู้ดูแลสามารถสมัครผ่านโปรแกรม Claude for Open Source

ผู้เชี่ยวชาญด้านความปลอดภัยอาจสมัครใน Cyber Verification Program ภายหลัง สาธารณะทั่วไปและผู้ใช้ทั่วไป ไม่มีสิทธิ์เข้าถึง ในช่วงเปิดตัว

What Can Ordinary Users Use It For?

ขณะนี้ ไม่มีอะไร—Claude Mythos Preview ไม่พร้อมให้ผู้ใช้รายบุคคล นักพัฒนา หรือธุรกิจที่อยู่นอกโปรแกรมแบบจำกัดเข้าถึง Anthropic วางแผนจะผนวกรวมความสามารถที่ปลอดภัยกว่าจากมันลงในโมเดล Claude รุ่นสาธารณะในอนาคต (เช่น รุ่น Opus ถัดไป) พร้อมเกราะป้องกันที่ดีขึ้น สำหรับตอนนี้ ผู้ใช้ทั่วไปยังคงใช้ตระกูล Claude 4 สำหรับงานโค้ดดิ้ง เหตุผล งานวิจัย การวิเคราะห์เอกสาร และออโตเมชันเวิร์กโฟลว์ผ่านผลิตภัณฑ์ Claude สาธารณะ ในอุตสาหกรรมจะใช้ Mythos Preview ในเชิงป้องกัน Claude Opus 4.6 เป็นโมเดลที่ฉลาดที่สุดที่ใช้งานได้กว้างสำหรับเอเจนต์และโค้ดดิ้ง และ Claude Sonnet 4.6 เป็นตัวเลือกที่สมดุลที่สุดระหว่างความเร็วและความฉลาด

สำหรับงานประจำวัน นั่นหมายความว่า Mythos Preview ควรถูกมองเป็นสัญญาณบอกทิศทางความสามารถของ Claude ไม่ใช่เครื่องมือที่คนส่วนใหญ่จะลองใช้ได้ตอนนี้ สำหรับผู้ใช้ทั่วไป แอปพลิเคชันที่ทำได้จริงยังคงเป็นชุดคุ้นเคยเดิม: ความช่วยเหลือด้านโค้ด การให้เหตุผล การช่วยวิจัย การวิเคราะห์เอกสาร และออโตเมชันเวิร์กโฟลว์ผ่านผลิตภัณฑ์ Claude สาธารณะ ความต่างคือ Mythos Preview แสดงให้เห็นว่าตระกูลโมเดลสามารถไปได้ไกลเพียงใดเมื่อ Anthropic อนุญาตให้มันทำงานในสภาพแวดล้อมจำกัดที่เน้นความปลอดภัย

Claude Opus 4.6 และ Sonnet 4.6 API มีให้ใช้งานบน CometAPI พร้อมส่วนลด 20%

Comparison table: Claude Mythos Preview vs. Opus 4.6

Benchmark / capability	Claude Mythos Preview	Claude Opus 4.6	Why it matters
SWE-bench Pro	77.8%	53.4%	ความสามารถเอเจนต์ด้านโค้ดที่แข็งแกร่งกว่า
Terminal-Bench 2.0	82.0%	65.4%	ดีขึ้นในงานเทอร์มินัลและการเรียกใช้เครื่องมือ
SWE-bench Multimodal	59.0%	27.1%	ดีขึ้นในเวิร์กโฟลว์ผสม ข้อความ/โค้ด/ภาพ
SWE-bench Multilingual	87.3%	77.8%	ดีกว่าด้านโค้ดข้ามภาษา
SWE-bench Verified	93.9%	80.8%	ประสิทธิภาพซ่อมซอฟต์แวร์ที่แข็งแกร่งกว่า
GPQA Diamond	94.6%	91.3%	การให้เหตุผลที่แข็งแกร่งขึ้นเล็กน้อย
Humanity’s Last Exam, no tools	56.8%	40.0%	เหตุผลยากภายใต้ข้อจำกัดที่ดีขึ้น
Humanity’s Last Exam, with tools	64.7%	53.1%	ดีขึ้นในการให้เหตุผลเมื่อใช้เครื่องมือร่วม
BrowseComp	86.9%	83.7%	ดีขึ้นในการค้นหาแบบเอเจนต์
OSWorld-Verified	79.6%	72.7%	ดีขึ้นในงานใช้งานคอมพิวเตอร์
CyberGym	83.1%	66.6%	แข็งแกร่งกว่ามากในการจำลองช่องโหว่
OSS-Fuzz-style testing	10 tier-5 hijacks	1 tier-3 result in the cited comparison	ก้าวกระโดดของศักยภาพ exploit ที่ใหญ่กว่า

Conclusion

Claude Mythos Preview ไม่ใช่แค่อีกโมเดลที่พัฒนาเพิ่มขึ้นทีละน้อย—มันคือระบบที่เปลี่ยนกระบวนทัศน์ซึ่งนิยามสิ่งที่ AI ทำได้ใหม่ในด้านความปลอดภัยไซเบอร์ พร้อมตั้งคำถามใหญ่เรื่องการปล่อยใช้งานอย่างปลอดภัย ด้วยการจำกัดการเข้าถึงและมุ่งใช้พลังของมันใน Project Glasswing Anthropic แสดงจุดยืนตามหลักการ: เครื่องมือที่ทรงพลังที่สุดควรเริ่มจากการปกป้องระบบที่เราทุกคนพึ่งพา ในตอนนี้ Mythos Preview เป็นของกลุ่มผู้พิทักษ์ที่ผ่านการคัดกรองจำนวนจำกัด สำหรับคนอื่นๆ มันคือภาพตัวอย่างของเฟสถัดไปของความสามารถ AI

คุณสามารถใช้ Claude API ใน CometAPI เพื่อเตรียมพร้อมสำหรับการมาถึงของ Claude Mythos พร้อมหรือยัง?