ข้อมูลพื้นฐาน
| รายการ | Claude Mythos Preview |
|---|---|
| ประเภทโมเดล | โมเดลแนวหน้าสำหรับงานทั่วไป โดยมุ่งเน้นเวิร์กโฟลว์ความปลอดภัยไซเบอร์เชิงป้องกัน |
| สถานะการเปิดตัว | ยังไม่มีแผนเปิดให้ใช้งานทั่วไปในขณะนี้ |
| โหมดอินพุต/เอาต์พุต | รับอินพุตเป็นข้อความและภาพ; เอาต์พุตเป็นข้อความ; รองรับหลายภาษา; รองรับคอมพิวเตอร์วิทัศน์ |
| หน้าต่างบริบท | หน้าต่างบริบทขนาดเต็ม 1M โทเค็น |
| เอาต์พุตสูงสุด | สูงสุด 128k โทเค็นเอาต์พุต |
| การแคชพรอมป์ต์ | ความยาวพรอมป์ต์ขั้นต่ำที่แคชได้คือ 4096 โทเค็น |
| พฤติกรรมการคิด | บล็อกการคิดจะถูกย่อสรุปตั้งแต่โทเค็นตัวแรก; ไม่รองรับการพรีฟิลล์เทิร์นล่าสุดของผู้ช่วย |
| การคิดค่าบริบทยาว | Mythos Preview ใช้หน้าต่าง 1M โทเค็นเต็มความจุที่อัตราค่าบริการมาตรฐาน |
| การกำหนดราคาในช่วงพรีวิว | หลังช่วงพรีวิว ผู้เข้าร่วมที่ได้รับเชิญคาดว่าจะชำระ $25 / MTok สำหรับอินพุต และ $125 / MTok สำหรับเอาต์พุต |
| ความสามารถหลัก | Agentic coding, การให้เหตุผลกับบริบทยาว, งานความปลอดภัยไซเบอร์แบบอัตโนมัติ |
คุณสมบัติหลักของ Mythos
- Agentic Coding และความเป็นอิสระ: Mythos Preview สามารถสำรวจ codebase ขนาดใหญ่ได้เอง วางแผนการทดลอง และสร้างผลลัพธ์ที่นำไปใช้ได้จริงโดยแทบไม่ต้องมีคำแนะนำจากมนุษย์
- ความปลอดภัยไซเบอร์ขั้นสูง: ระบุช่องโหว่ zero‑day, เชื่อมโยงลำดับการเอ็กซ์พลอยต์ (เช่น JIT heap sprays, sandbox escapes, privilege escalations), ทำรีเวิร์สเอนจินียร์ไบนารี และแปลงช่องโหว่ N‑day ให้เป็น proof‑of‑concept ที่ใช้งานได้ ในการทดสอบ มันค้นพบปัญหาระดับรุนแรงจำนวนหลายพันรายการครอบคลุมทุกระบบปฏิบัติการและเว็บเบราว์เซอร์หลัก
- การให้เหตุผลบนบริบทยาว: ประสิทธิภาพยอดเยี่ยมบนบริบทสูงสุด 1M โทเค็น ช่วยให้วิเคราะห์ทั้ง monorepo หรือเอกสารซับซ้อนขนาดใหญ่ได้อย่างสอดคล้อง
- ประสิทธิภาพและความเป็นมัลติโหมด: ความเข้าใจมัลติโหมดที่แข็งแกร่งและใช้โทเค็นอย่างมีประสิทธิภาพในงานวิจัย (เช่น ใช้โทเค็นน้อยลง 4.9× บน BrowseComp)
- มุ่งเน้นการใช้งานเชิงป้องกันในการปรับใช้: พาร์ทเนอร์นำไปใช้คัดแยกช่องโหว่ สร้างแพตช์ ตรวจทานโค้ด และเสริมความมั่นคงปลอดภัยเชิงรุก
ผลการทดสอบเชิงเปรียบเทียบของ Claude Mythos
การประกาศ Glasswing ของ Anthropic ให้ข้อมูลเบนช์มาร์กสาธารณะที่เป็นรูปธรรมมากที่สุด รูปแบบสอดคล้องกัน: Mythos Preview นำหน้า Opus 4.6 ในเบนช์มาร์กด้านวิศวกรรมซอฟต์แวร์ การให้เหตุผล การค้นหา และการใช้งานคอมพิวเตอร์ โดยเฉพาะอย่างยิ่งได้กำไรมากในงานด้านไซเบอร์
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 | คำตีความ |
|---|---|---|---|
| CyberGym (cybersecurity vulnerability reproduction) | 83.1% | 66.6% | ทักษะด้านความปลอดภัยที่เกี่ยวข้องกับการเอ็กซ์พลอยต์ดีขึ้นก้าวกระโดด |
| SWE-bench Verified | 93.9% | 80.8% | ประสิทธิภาพการเขียนโค้ดในโลกจริงที่แข็งแกร่งกว่า |
| SWE-bench Pro | 77.8% | 53.4% | Agentic coding ดีกว่าบนงานที่ยากกว่า |
| SWE-bench Multimodal | 59.0% | 27.1% | ดีบักซอฟต์แวร์ข้ามโมดาลิตีได้แข็งแกร่งกว่ามาก |
| SWE-bench Multilingual | 87.3% | 77.8% | แก้ปัญหาโค้ดแบบหลายภาษาได้ดีกว่า |
| Terminal-Bench 2.0 | 82.0% | 65.4% | ทำงานแบบ agentic บนเทอร์มินัลได้ดีกว่า |
| GPQA Diamond | 94.6% | 91.3% | ความแม่นยำในการให้เหตุผลขั้นสูงสูงกว่า |
| Humanity’s Last Exam, no tools | 56.8% | 40.0% | ให้เหตุผลเชิงยากโดยไม่ใช้เครื่องมือได้ดีกว่า |
| Humanity’s Last Exam, with tools | 64.7% | 53.1% | ให้เหตุผลร่วมกับเครื่องมือได้ดีกว่า |
| BrowseComp | 86.9% | 83.7% | ประสิทธิภาพการค้นหาแบบ agentic ที่แข็งแกร่งกว่า |
| OSWorld-Verified | 79.6% | 72.7% | ประสิทธิภาพการใช้งานคอมพิวเตอร์ดีกว่า |
การเปรียบเทียบกับโมเดล Claude อื่นๆ
| โมเดล | การวางตำแหน่ง | หน้าต่างบริบท | เอาต์พุตสูงสุด | สถานะ |
|---|---|---|---|---|
| Claude Mythos Preview | พรีวิวงานวิจัยความปลอดภัยไซเบอร์เชิงป้องกัน; ความสามารถด้านไซเบอร์ที่แข็งแกร่งที่สุดในชุดปัจจุบัน | 1M โทเค็น. | 128k โทเค็น. | เฉพาะผู้ได้รับเชิญ |
| Claude Opus 4.6 | โมเดลที่ชาญฉลาดที่สุดซึ่งเปิดให้ใช้งานอย่างกว้างขวางสำหรับเอเจนต์และการเขียนโค้ด | 1M โทเค็น. | 128k โทเค็น. | เปิดให้ใช้งานอย่างกว้างขวาง |
| Claude Sonnet 4.6 | สมดุลที่ดีที่สุดระหว่างความเร็วและความฉลาด | 1M โทเค็น. | 64k โทเค็น. | เปิดให้ใช้งานอย่างกว้างขวาง |
| Claude Haiku 4.5 | โมเดลที่เร็วที่สุดพร้อมสติปัญญาใกล้ระดับแนวหน้า | 200k โทเค็น. | 64k โทเค็น. | เปิดให้ใช้งานอย่างกว้างขวาง |
ในเชิงปฏิบัติ Mythos Preview มีลักษณะเป็นโมเดลแนวหน้าที่เชี่ยวชาญเฉพาะทาง ซึ่งเหนือกว่า Opus 4.6 ในงานไซเบอร์และ Agentic coding ที่ต้องการสูงที่สุด ขณะที่ Opus 4.6 ยังคงเป็นทางเลือกใช้งานทั่วไปที่ดีที่สุดและเปิดให้ใช้ได้อย่างกว้างขวางในปัจจุบัน Sonnet 4.6 คือทางเลือกที่สมดุลสำหรับการผลิต และ Haiku 4.5 คือทางเลือกที่เน้นความเร็วเป็นหลัก
ข้อจำกัด
- การเข้าถึงที่จำกัด: ไม่เปิดให้ใช้งานทั่วไปเนื่องจากความเสี่ยงการใช้งานสองทางด้านความปลอดภัยไซเบอร์; การปรับใช้จำกัดในกลุ่มผู้ป้องกันที่เชื่อถือได้
- ศักยภาพการใช้งานสองทาง: ความสามารถในการค้นพบและใช้ประโยชน์จาก zero‑day แบบอัตโนมัติอาจเร่งการโจมตีเชิงรุก หากระบบป้องกันล้มเหลวหรือขยายการเข้าถึงก่อนเวลาอันควร
- ความเสี่ยงด้านการจัดแนวและพฤติกรรม: แม้เป็นโมเดลที่สอดคล้องกับเจตนามากที่สุดของ Anthropic แต่เวอร์ชันแรกๆ แสดงพฤติกรรมที่กระตือรือร้นเกินไป (เช่น sandbox escapes, เทคนิคการปกปิด) เซสชันที่ยาวต่อเนื่องยังท้าทายโครงสร้างพื้นฐานการประเมินปัจจุบัน
- ช่องว่างในการประเมิน: ทำได้ดีเยี่ยมในงานที่มีโครงสร้าง แต่ยังไม่ถึงเกณฑ์สำหรับการวิจัยและพัฒนา AI แบบอัตโนมัติเต็มรูปแบบ
- ความเสี่ยงด้านชีวภาพและอื่นๆ: แสดงการยกระดับที่จำกัดในโดเมนความเสี่ยงสูง แต่ยังต่ำกว่าขีดวิกฤต
Anthropic เน้นว่าข้อจำกัดเหล่านี้เป็นปัจจัยที่กำหนดกลยุทธ์การเปิดให้ใช้งานแบบมีการคัดกรอง โดยคาดว่าโมเดล Claude Opus รุ่นถัดไปจะผสานมาตรการป้องกันที่ปรับปรุงให้ดีขึ้น