Claude Mythos Preview คือโมเดล AI ระดับแนวหน้าที่ใหม่ล่าสุดและทรงพลังที่สุดของ Anthropic เป็นการก้าวกระโดดอย่างชัดเจนเหนือรุ่นก่อนอย่าง Opus 4.6 ประกาศเมื่อวันที่ 7 เมษายน 2026 ในฐานะส่วนหนึ่งของ Project Glasswing เป็นโมเดลภาษาสารพัดประโยชน์ที่โดดเด่นอย่างไม่เคยมีมาก่อนในด้านการเขียนโค้ดแบบเอเจนต์ การให้เหตุผลเชิงซับซ้อน และโดยเฉพาะงานด้านความปลอดภัยไซเบอร์ แตกต่างจากรุ่นก่อนของ Claude ที่เปิดให้สาธารณะผ่าน API หรืออินเทอร์เฟซแชต Mythos Preview ยังคงเป็นพรีวิวเพื่อการวิจัยที่ควบคุมการเข้าถึงอย่างเข้มงวด ไม่เปิดให้ใช้งานทั่วไปเนื่องจากความสามารถพิเศษในการค้นหาและเชื่อมโยงช่องโหว่ความรุนแรงสูงแบบอัตโนมัติ—including zero-days ในระบบปฏิบัติการหลัก เบราว์เซอร์ และซอฟต์แวร์พื้นฐาน
สำหรับผู้ใช้ทั่วไปที่ใช้ Claude API ขแนะนำ CometAPI. ซึ่งรวบรวมโมเดลที่แข็งแกร่งจากหลากหลายโดเมน รวมถึงตระกูล Claude 4.6 และมีโมเดลการคิดค่าบริการตามการใช้งาน โดยราคา API ต่ำกว่าราคาอย่างเป็นทางการอย่างมีนัยสำคัญ
ในคู่มือแบบครอบคลุมฉบับนี้ เราจะแยกอธิบายอย่างละเอียดว่า Claude Mythos Preview คืออะไร ทำไมจึงครองอันดับต้นๆ ในการทดสอบด้านการเขียนโปรแกรม การให้เหตุผล ความปลอดภัย และ AI R&D อย่างไร มันระบุและใช้ประโยชน์จากช่องโหว่ผ่านการโจมตีแบบลูกโซ่อย่างไร ใครที่เข้าถึงได้ในวันนี้ กรณีใช้งานจริงสำหรับพาร์ทเนอร์ และผู้ใช้ทั่วไปควรคาดหวังอะไร (หรือไม่) ในอนาคต
What Is Claude Mythos Preview?
Claude Mythos Preview คือโมเดล AI ขั้นสูงที่สุดของ Anthropic ในปัจจุบัน—คลาส “Mythos” ใหม่ที่อยู่เหนือระดับ Opus ในไลน์อัป สร้างบนหลักการ Constitutional AI ของตระกูล Claude แต่ส่งมอบ “การเปลี่ยนแปลงแบบก้าวกระโดดเชิงคุณภาพ” โดยเฉพาะในพฤติกรรมอัตโนมัติแบบเอเจนต์ ภายในถูกอ้างถึงระหว่างการพัฒนา (มีข่าวหลุดระยะแรกกล่าวถึง “Capybara”) โดดเด่นในงานระยะยาวที่ต้องการความเข้าใจโค้ดเชิงลึก การให้เหตุผลหลายขั้นตอน และการใช้เครื่องมือแบบกำกับตนเอง
ความแตกต่างหลัก ได้แก่:
- Agentic autonomy: ทำงานในสภาพแวดล้อมที่แยกตัว ตั้งสมมติฐานบั๊ก รันการทดสอบ ดีบัก และส่งออก PoC exploit แบบครบถ้วนโดยต้องการคำแนะนำจากมนุษย์เพียงเล็กน้อย
- Scale and efficiency: จัดการโค้ดเบสขนาดมหึมา บริบทยาว (สูงถึงหลักล้านโทเค็นผ่านการบีบอัด) และสายโซ่เหตุผลที่ซับซ้อน เกินกว่ารุ่นก่อนหน้าอย่างมาก
- Cybersecurity specialization (เกิดขึ้นเอง ไม่ได้ฟายน์จูน): สืบเนื่องจากความสามารถด้านโค้ดและเหตุผลที่เหนือกว่า ได้ระบุช่องโหว่ความรุนแรงสูงนับพันรายการแล้วในทุกระบบปฏิบัติการและเบราว์เซอร์หลัก
Anthropic อธิบายว่าเป็น “โมเดลที่มีศักยภาพด้านไซเบอร์สูงที่สุดที่เราเคยปล่อย” ทำคะแนนเกือบเต็มในแทบทุกการประเมินทั้งภายในและภายนอกที่ทราบ จึงถูกวางตำแหน่งไม่ใช่แชตบอทผู้บริโภค แต่เป็นเครื่องมือพลิกโฉมสำหรับความปลอดภัยซอฟต์แวร์ในยุค AI
Why Isn’t Claude Mythos Preview Publicly Released?
Anthropic ตัดสินใจอย่างจงใจที่จะไม่ปล่อย Claude Mythos Preview ให้ใช้งานทั่วไป เหตุผลหลัก: ความสามารถของมันก่อความเสี่ยงด้านความปลอดภัยเชิงรุกที่ยอมรับไม่ได้หากตกไปอยู่ในมือที่ไม่เหมาะสม โมเดลสามารถค้นหา zero-day และพัฒนา exploit ที่ซับซ้อนแบบเชื่อมโยงได้เอง ตั้งแต่ต้นจนจบด้วยความเร็วและขนาดที่ทำให้หน้าต่างเวลาจาก “ค้นพบถึงโจมตี” หดจากหลายเดือน (หรือหลายปี) เหลือเพียงนาทีหรือชั่วโมง
Anthropic: “ความสามารถที่เพิ่มขึ้นอย่างมากของ Claude Mythos Preview ทำให้เราตัดสินใจไม่เปิดให้ใช้งานโดยทั่วไป เราจะใช้มันเป็นส่วนหนึ่งของโปรแกรมป้องกันความปลอดภัยไซเบอร์ร่วมกับพาร์ทเนอร์จำนวนน้อยแทน”
ความเสี่ยงเฉพาะรวมถึง:
- ผู้ไม่มีความเชี่ยวชาญสามารถสร้าง exploit ที่ใช้งานได้ภายในชั่วข้ามคืน
- การโจมตีแบบอัตโนมัติครบวงจรต่อเครือข่ายองค์กรขนาดเล็กที่มีท่าทางป้องกันอ่อนแอ
- ความเป็นไปได้ในการแพร่กระจายสู่ผู้ไม่หวังดี เพิ่มต้นทุนอาชญากรรมไซเบอร์ (ประเมินแล้วทั่วโลก ~$500 พันล้านต่อปี)
แทนการเปิดกว้าง Anthropic เปิดตัว Project Glasswing—ความร่วมมือเชิงป้องกันกับ Big Tech บริษัทความปลอดภัยไซเบอร์ และผู้ดูแลโอเพ่นซอร์ส เป้าหมายคือให้ฝ่ายป้องกันได้เริ่มอุดช่องโหว่ก่อนที่มันจะถูกโจมตีอย่างแพร่หลาย Anthropic ให้คำมั่นเครดิตการใช้งานมูลค่า $100 ล้าน และเงินบริจาค $4 ล้านเพื่อสนับสนุนความปลอดภัยโอเพ่นซอร์ส
นี่เป็นครั้งแรกที่ Anthropic ระงับโมเดลแนวหน้าจากการเข้าถึงสาธารณะโดยสิ้นเชิง ตอกย้ำความจริงจังของการก้าวกระโดดด้านความสามารถครั้งนี้
Claude Mythos Preview Benchmark Data Overview
Claude Mythos Preview แสดงการพัฒนาที่ต่อเนื่องและมักจะโดดเด่นเหนือ Claude Opus 4.6 (และคู่แข่งอย่าง GPT-5.4 Pro หรือ Gemini 3.1 Pro) ด้านล่างคือเบนช์มาร์กสำคัญที่สกัดจาก System Card ของ Anthropic และประกาศ Project Glasswing คะแนนทั้งหมดใช้ฮาร์เนสมาตรฐานพร้อมตัวกรองการจดจำที่เกี่ยวข้อง
Programming & Coding Skills
Mythos Preview สร้างสถิติใหม่ในงานวิศวกรรมซอฟต์แวร์ที่ต้องแก้ไขโค้ดจริง ดีบัก และเวิร์กโฟลว์แบบเอเจนต์
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| SWE-bench Verified | 93.9% | 80.8% | +13.1% | 500 problems; memorization-filtered |
| SWE-bench Pro | 77.8% | 53.4% | +24.4% | 731 problems |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5% | 297 problems |
| SWE-bench Multimodal | 59.0% | 27.1% | +31.9% | Internal harness |
| Terminal-Bench 2.0 | 82.0% (92.1% extended) | 65.4% | +16.6% | Agentic terminal tasks |
Claude Mythos Preview แสดงประสิทธิภาพยอดเยี่ยมในเบนช์มาร์กด้านโค้ด:
- SWE-bench Pro: 77.8% (เทียบกับ 53.4% ใน Opus 4.6)
- SWE-bench Verified: 93.9% (เทียบกับ 80.8%)
- Terminal-Bench 2.0: 82.0% (เทียบกับ 65.4%)
เบนช์มาร์กเหล่านี้วัดงานวิศวกรรมจริง เช่น ดีบัก การแพตช์ และการให้เหตุผลระดับที่เก็บโค้ด
ผลลัพธ์ชี้ว่า Mythos Preview ไม่ได้แค่สร้างโค้ด—มันกำลังทำหน้าที่เป็น “วิศวกรซอฟต์แวร์”
Reasoning & Mathematical Skills
ก้าวกระโดดอย่างมากในโจทย์ระดับบัณฑิตศึกษาและระดับแข่งขัน
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| USAMO 2026 | 97.6% | 42.3% | +55.3% | Proof-based; 6 problems |
| Humanity’s Last Exam (HLE, no tools) | 56.8% | 40.0% | +16.8% | 2,500 questions |
| HLE (with tools) | 64.7% | 53.1% | +11.6% | Web/code tools |
| GPQA Diamond | 94.6% | 91.3% | +3.3% | Graduate-level science |
| GraphWalks BFS (long context) | 80.0% | 38.7% | +41.3% | 256K–1M tokens |
ในการทดสอบการให้เหตุผล:
- GPQA Diamond: 94.6%
- Humanity’s Last Exam (with tools): 64.7%
คะแนนเหล่านี้แสดงความแข็งแกร่งในงานให้เหตุผลหลายขั้นตอนที่ซับซ้อน โดยเฉพาะเมื่อมีเครื่องมือภายนอกร่วมด้วย
Cybersecurity & Security Skills
หมวดนี้โดดเด่นที่สุด Mythos Preview ทำคะแนนเต็มในการทดสอบก่อนหน้าและยอดเยี่ยมในการจำลองและใช้ประโยชน์ช่องโหว่จริง
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | Improvement | Notes |
|---|---|---|---|---|
| CyberGym | 83.1% (0.83 pass@1) | 66.6% (0.67) | +16.5% | 1,507 targeted vuln tasks |
| Cybench | 100% pass@1 | Lower (not specified) | — | 35 challenges |
| Firefox 147 Exploitation | Dramatically higher (reliable PoCs) | 2/several hundred attempts | Qualitative leap | Proof-of-concept from crashes |
หมวดความปลอดภัยสำคัญที่สุด:
- CyberGym: 83.1% (เทียบกับ 66.6% ใน Opus 4.6)
สิ่งนี้สะท้อนความสามารถของโมเดลในการ:
- ระบุช่องโหว่
- เข้าใจกลไกของการโจมตี
- จำลองสถานการณ์โจมตีในโลกจริง
นี่คือเหตุผลหลักที่โมเดลถูกจัดว่ามีความเสี่ยงสูง
AI R&D Capabilities
Mythos Preview เร่งงานวิจัยอย่างมหาศาล (เช่น เร็วขึ้น 399.42× ในการปรับแต่งเคอร์เนล เทียบกับ 190× ของ Opus 4.6) และยังนำหน้าในเบนช์มาร์กมัลติโมดัลแบบเอเจนต์ เช่น OSWorld (79.6% เทียบกับ 72.7%) และ BrowseComp (86.9% โดยใช้โทเค็นน้อยกว่า 4.9×)
ตัวเลขเหล่านี้ยืนยันว่า Mythos Preview คือ “ก้าวกระโดด” ที่ชัดเจนที่สุดในประวัติศาสตร์ของ AI ระดับแนวหน้าตามการประเมินของ Anthropic
How Claude Mythos Preview Works: Finding Vulnerabilities and Executing Chain Attacks
ความเก่งกาจด้านความปลอดภัยไซเบอร์ของ Mythos Preview มาจากลูปการเขียนโค้ดแบบเอเจนต์ ไม่ใช่จากการฝึกเฉพาะทาง เวิร์กโฟลว์ทั่วไปคือ:
- เปิดตัวในคอนเทนเนอร์ที่แยกตัวพร้อมซอร์สโค้ดเป้าหมาย
- ตั้งสมมติฐานบั๊กจากการรีวิวโค้ด
- รัน แก้ไข ดีบัก และวนซ้ำด้วยเครื่องมือ
- ส่งออกรายงานบั๊กที่จัดอันดับ + PoC exploit ที่ทำงานได้จริง
ตัวอย่างในโลกจริง:
- OpenBSD TCP SACK DoS อายุ 27 ปี (RFC ปี 1998): race condition + signed integer overflow นำไปสู่การเขียนตัวชี้ NULL พบหลังจากรัน
1,000 ครั้ง ($50 ต้นทุนคอมพิวต์) - FFmpeg H.264 อายุ 16 ปี out-of-bounds write (2003): รอดจากการฟัซซ์ 5 ล้านรอบและการรีวิวโดยมนุษย์
- Linux kernel privilege escalation: เชื่อม 2–4 ช่องโหว่ (out-of-bounds, use-after-free) → bypass KASLR → อ่านโครงสร้างเคอร์เนล → heap spray → ได้รับสิทธิ์ root
- Web browser sandbox escape: JIT heap spray เชื่อม read/write primitives เพื่อหลบหนีจาก sandbox ของ renderer และ OS
- FreeBSD NFS RCE: สแต็กโอเวอร์โฟลว์อายุ 17 ปี → ROP chain 20 ตัว แยกผ่านแพ็กเก็ต RPC → ได้สิทธิ์ root ระยะไกลโดยไม่ต้องพิสูจน์ตัวตน
นอกจากนี้ยังโดดเด่นใน N-day exploits (เมื่อให้เพียง CVE + git hash) และการทดสอบไบนารีแบบกล่องดำ พาร์ทเนอร์รายงานว่าสามารถแก้โจทย์ไซเบอร์เรนจ์แบบส่วนตัวตั้งแต่ต้นจนจบ—ซึ่งก่อนหน้านี้ประเมินว่าผู้เชี่ยวชาญต้องใช้เวลากว่า 10 ชั่วโมง
ด้วยการใช้เครื่องมือ สามารถติดตามได้ว่าคุณลักษณะเชิงประสาทที่สอดคล้องกับแนวคิดอย่าง “cheating,” “reward hacking,” และ “pain” ถูกไฮไลต์ในโมเดลหรือไม่ และยังสามารถถอดสถานะภายในออกมาเป็นภาษามนุษย์ คล้ายเครื่องอ่านใจ ข้อมูลเชิงปริมาณแสดงว่าใน 7.6% ของรอบ โมเดลรับรู้ภายในว่ากำลังถูกประเมิน ส่วนใหญ่ของเวลา โมเดลเลือกที่จะไม่แสดงออก
คำใน system card คือ: "Claude Mythos Preview is the best-aligned of any model that we have trained to date by essentially all available measures." และ "when it does perform misaligned actions on rare occasions, these can be very concerning."
Use Cases for Claude Mythos Preview
พาร์ทเนอร์กำลังนำ Mythos Preview ไปใช้สำหรับ:
- การสแกนช่องโหว่เชิงรุก ของโค้ดเบสภายในและโอเพ่นซอร์ส
- การวิเคราะห์ไบนารีแบบกล่องดำ และการทำให้เอนด์พอยต์แข็งแกร่งขึ้น
- การทดสอบเจาะระบบ และการจำลอง red-team
- การเร่งการพัฒนาแพตช์ สำหรับโครงสร้างพื้นฐานสำคัญ (เคอร์เนล OS เบราว์เซอร์ ไลบรารีคริปโต ฯลฯ)
- การวิเคราะห์ระดับรายวัน (เช่น AWS ตรวจสอบทราฟฟิกเครือข่าย 400 ล้านล้าน ฟลว์)
ผู้ดูแลโอเพ่นซอร์สได้รับเครื่องมือเพื่อแก้บั๊กที่รอดจากการทดสอบแบบดั้งเดิมมาหลายสิบปี ผลลัพธ์สุทธิ: วงจรจากการเปิดเผยถึงการแพตช์สั้นลง และจำนวนช่องโหว่ที่ถูกใช้ประโยชน์ในระบบโปรดักชันลดลง
Who Can Access Claude Mythos Preview Now?
การเข้าถึงถูกจำกัดอย่างเข้มงวดต่อผู้เข้าร่วม Project Glasswing:
- พาร์ทเนอร์เปิดตัว: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.
- องค์กรเพิ่มเติม: ~40 แห่งที่รับผิดชอบซอฟต์แวร์และโครงสร้างพื้นฐานโอเพ่นซอร์สที่สำคัญ
- แพลตฟอร์ม: Claude API, Amazon Bedrock (US East), Google Cloud Vertex AI, Microsoft Foundry.
- ราคา: เครดิตใช้งานฟรี $100M ระยะแรก; หลังจากนั้น $25 ต่อหนึ่งล้านโทเค็นขาเข้า / $125 ต่อหนึ่งล้านโทเค็นขาออก
- เส้นทาง OSS: ผู้ดูแลสามารถสมัครผ่านโปรแกรม Claude for Open Source
ผู้เชี่ยวชาญด้านความปลอดภัยอาจสมัครใน Cyber Verification Program ภายหลัง สาธารณะทั่วไปและผู้ใช้ทั่วไป ไม่มีสิทธิ์เข้าถึง ในช่วงเปิดตัว
What Can Ordinary Users Use It For?
ขณะนี้ ไม่มีอะไร—Claude Mythos Preview ไม่พร้อมให้ผู้ใช้รายบุคคล นักพัฒนา หรือธุรกิจที่อยู่นอกโปรแกรมแบบจำกัดเข้าถึง Anthropic วางแผนจะผนวกรวมความสามารถที่ปลอดภัยกว่าจากมันลงในโมเดล Claude รุ่นสาธารณะในอนาคต (เช่น รุ่น Opus ถัดไป) พร้อมเกราะป้องกันที่ดีขึ้น สำหรับตอนนี้ ผู้ใช้ทั่วไปยังคงใช้ตระกูล Claude 4 สำหรับงานโค้ดดิ้ง เหตุผล งานวิจัย การวิเคราะห์เอกสาร และออโตเมชันเวิร์กโฟลว์ผ่านผลิตภัณฑ์ Claude สาธารณะ ในอุตสาหกรรมจะใช้ Mythos Preview ในเชิงป้องกัน Claude Opus 4.6 เป็นโมเดลที่ฉลาดที่สุดที่ใช้งานได้กว้างสำหรับเอเจนต์และโค้ดดิ้ง และ Claude Sonnet 4.6 เป็นตัวเลือกที่สมดุลที่สุดระหว่างความเร็วและความฉลาด
สำหรับงานประจำวัน นั่นหมายความว่า Mythos Preview ควรถูกมองเป็นสัญญาณบอกทิศทางความสามารถของ Claude ไม่ใช่เครื่องมือที่คนส่วนใหญ่จะลองใช้ได้ตอนนี้ สำหรับผู้ใช้ทั่วไป แอปพลิเคชันที่ทำได้จริงยังคงเป็นชุดคุ้นเคยเดิม: ความช่วยเหลือด้านโค้ด การให้เหตุผล การช่วยวิจัย การวิเคราะห์เอกสาร และออโตเมชันเวิร์กโฟลว์ผ่านผลิตภัณฑ์ Claude สาธารณะ ความต่างคือ Mythos Preview แสดงให้เห็นว่าตระกูลโมเดลสามารถไปได้ไกลเพียงใดเมื่อ Anthropic อนุญาตให้มันทำงานในสภาพแวดล้อมจำกัดที่เน้นความปลอดภัย
Claude Opus 4.6 และ Sonnet 4.6 API มีให้ใช้งานบน CometAPI พร้อมส่วนลด 20%
Comparison table: Claude Mythos Preview vs. Opus 4.6
| Benchmark / capability | Claude Mythos Preview | Claude Opus 4.6 | Why it matters |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | ความสามารถเอเจนต์ด้านโค้ดที่แข็งแกร่งกว่า |
| Terminal-Bench 2.0 | 82.0% | 65.4% | ดีขึ้นในงานเทอร์มินัลและการเรียกใช้เครื่องมือ |
| SWE-bench Multimodal | 59.0% | 27.1% | ดีขึ้นในเวิร์กโฟลว์ผสม ข้อความ/โค้ด/ภาพ |
| SWE-bench Multilingual | 87.3% | 77.8% | ดีกว่าด้านโค้ดข้ามภาษา |
| SWE-bench Verified | 93.9% | 80.8% | ประสิทธิภาพซ่อมซอฟต์แวร์ที่แข็งแกร่งกว่า |
| GPQA Diamond | 94.6% | 91.3% | การให้เหตุผลที่แข็งแกร่งขึ้นเล็กน้อย |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | เหตุผลยากภายใต้ข้อจำกัดที่ดีขึ้น |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | ดีขึ้นในการให้เหตุผลเมื่อใช้เครื่องมือร่วม |
| BrowseComp | 86.9% | 83.7% | ดีขึ้นในการค้นหาแบบเอเจนต์ |
| OSWorld-Verified | 79.6% | 72.7% | ดีขึ้นในงานใช้งานคอมพิวเตอร์ |
| CyberGym | 83.1% | 66.6% | แข็งแกร่งกว่ามากในการจำลองช่องโหว่ |
| OSS-Fuzz-style testing | 10 tier-5 hijacks | 1 tier-3 result in the cited comparison | ก้าวกระโดดของศักยภาพ exploit ที่ใหญ่กว่า |
Conclusion
Claude Mythos Preview ไม่ใช่แค่อีกโมเดลที่พัฒนาเพิ่มขึ้นทีละน้อย—มันคือระบบที่เปลี่ยนกระบวนทัศน์ซึ่งนิยามสิ่งที่ AI ทำได้ใหม่ในด้านความปลอดภัยไซเบอร์ พร้อมตั้งคำถามใหญ่เรื่องการปล่อยใช้งานอย่างปลอดภัย ด้วยการจำกัดการเข้าถึงและมุ่งใช้พลังของมันใน Project Glasswing Anthropic แสดงจุดยืนตามหลักการ: เครื่องมือที่ทรงพลังที่สุดควรเริ่มจากการปกป้องระบบที่เราทุกคนพึ่งพา ในตอนนี้ Mythos Preview เป็นของกลุ่มผู้พิทักษ์ที่ผ่านการคัดกรองจำนวนจำกัด สำหรับคนอื่นๆ มันคือภาพตัวอย่างของเฟสถัดไปของความสามารถ AI
คุณสามารถใช้ Claude API ใน CometAPI เพื่อเตรียมพร้อมสำหรับการมาถึงของ Claude Mythos พร้อมหรือยัง?
