ข้อมูลพื้นฐาน

รายการ	Claude Mythos Preview
ประเภทโมเดล	โมเดลแนวหน้าสำหรับการใช้งานทั่วไป วางตำแหน่งเพื่อเวิร์กโฟลว์ด้านความมั่นคงปลอดภัยไซเบอร์เชิงรับ.
สถานะการเปิดตัว	ยังไม่วางแผนเปิดให้สาธารณชนใช้งานในขณะนี้.
โหมดอินพุต/เอาต์พุต	อินพุตเป็นข้อความและรูปภาพ; เอาต์พุตเป็นข้อความ; รองรับหลายภาษา; รองรับวิชั่น.
หน้าต่างบริบท	หน้าต่างบริบทแบบเต็ม 1M-token.
เอาต์พุตสูงสุด	สูงสุด 128k output tokens.
การแคชพรอมต์	ความยาวพรอมต์ขั้นต่ำที่แคชได้คือ 4096 tokens.
พฤติกรรมการคิด	บล็อกการคิดถูกสรุปตั้งแต่ token แรก; ไม่รองรับการเติมล่วงหน้ารอบการตอบล่าสุดของผู้ช่วย.
การกำหนดราคาบริบทยาว	Mythos Preview ใช้หน้าต่าง 1M-token เต็มที่ในอัตรามาตรฐาน.
ราคาช่วงพรีวิว	หลังช่วงพรีวิว ผู้เข้าร่วมที่ได้รับเชิญคาดว่าจะจ่าย $25 / MTok สำหรับอินพุต และ $125 / MTok สำหรับเอาต์พุต.
ความสามารถหลัก	การเขียนโค้ดแบบ agentic, การให้เหตุผลกับบริบทยาว, งานความมั่นคงปลอดภัยไซเบอร์แบบอัตโนมัติ

คุณสมบัติหลักของ Mythos

การเขียนโค้ดแบบ Agentic และความเป็นอิสระ: Mythos Preview นำทางโค้ดเบสขนาดใหญ่ได้อย่างอัตโนมัติ ออกแบบการทดลอง และสร้างเอาต์พุตที่นำไปปฏิบัติได้ โดยต้องการคำแนะนำจากมนุษย์เพียงเล็กน้อย.
ความมั่นคงปลอดภัยไซเบอร์ขั้นสูง: ตรวจจับช่องโหว่แบบ zero-day เชื่อมโยงชุดโจมตี (เช่น JIT heap sprays, sandbox escapes, privilege escalations) ทำ reverse-engineering กับไบนารี และแปลงช่องโหว่แบบ N-day ให้เป็น proof-of-concepts ที่ใช้งานได้ ในการทดสอบ ได้ค้นพบประเด็นความรุนแรงสูงนับพันรายการครอบคลุมทุกระบบปฏิบัติการหลักและเว็บเบราว์เซอร์.
การให้เหตุผลกับบริบทยาว: ประสิทธิภาพโดดเด่นบนบริบทสูงสุดถึง 1M tokens ช่วยให้วิเคราะห์ทั้ง monorepo หรือเอกสารที่ซับซ้อนได้อย่างสอดคล้อง.
ประสิทธิภาพและมัลติโมดัล: ความเข้าใจมัลติโมดัลที่แข็งแกร่งและมีประสิทธิภาพด้าน token บนงานวิจัย (เช่น ใช้ tokens น้อยลง 4.9× บน BrowseComp).
เน้นการป้องกันในการปรับใช้: พันธมิตรใช้งานเพื่อการคัดแยกช่องโหว่ การสร้างแพตช์ การรีวิวโค้ด และการเสริมความปลอดภัยเชิงรุก.

ประสิทธิภาพตามเกณฑ์มาตรฐานของ Claude Mythos

ประกาศ Glasswing ของ Anthropic ให้ข้อมูลเกณฑ์มาตรฐานสาธารณะที่ชัดเจนที่สุด รูปแบบสอดคล้องกัน: Mythos Preview นำหน้า Opus 4.6 ในงานวิศวกรรมซอฟต์แวร์ การให้เหตุผล การค้นหา และการใช้งานคอมพิวเตอร์ โดยเฉพาะงานด้านไซเบอร์ที่โดดเด่นมาก.

เกณฑ์มาตรฐาน	Claude Mythos Preview	Claude Opus 4.6	การตีความ
CyberGym (การทำซ้ำช่องโหว่ด้านความมั่นคงปลอดภัยไซเบอร์)	83.1%	66.6%	ก้าวกระโดดอย่างมากในทักษะด้านความปลอดภัยที่เกี่ยวข้องกับการโจมตี.
SWE-bench Verified	93.9%	80.8%	ประสิทธิภาพการเขียนโค้ดในโลกจริงที่แข็งแกร่งยิ่งขึ้น.
SWE-bench Pro	77.8%	53.4%	การเขียนโค้ดแบบ agentic ที่ดีกว่าบนงานที่ยากกว่า.
SWE-bench Multimodal	59.0%	27.1%	การดีบักซอฟต์แวร์แบบข้ามโมดัลที่แข็งแกร่งกว่ามาก.
SWE-bench Multilingual	87.3%	77.8%	การแก้ปัญหาโค้ดหลายภาษาที่ดีกว่า.
Terminal-Bench 2.0	82.0%	65.4%	งานเชิงตัวแทนบนเทอร์มินัลที่ดีกว่า.
GPQA Diamond	94.6%	91.3%	ความแม่นยำการให้เหตุผลขั้นสูงที่สูงกว่า.
Humanity’s Last Exam, no tools	56.8%	40.0%	การให้เหตุผลเชิงยากโดยไม่ใช้เครื่องมือที่ดีกว่า.
Humanity’s Last Exam, with tools	64.7%	53.1%	การให้เหตุผลที่เสริมด้วยเครื่องมือที่ดีกว่า.
BrowseComp	86.9%	83.7%	ประสิทธิภาพการค้นหาเชิงตัวแทนที่แข็งแกร่งกว่า.
OSWorld-Verified	79.6%	72.7%	ประสิทธิภาพการใช้งานคอมพิวเตอร์ที่ดีกว่า.

การเปรียบเทียบกับโมเดล Claude อื่น ๆ

โมเดล	การวางตำแหน่ง	หน้าต่างบริบท	เอาต์พุตสูงสุด	สถานะ
Claude Mythos Preview	พรีวิวการวิจัยด้านความมั่นคงปลอดภัยเชิงรับ; ความสามารถด้านไซเบอร์ที่แข็งแกร่งที่สุดในชุดปัจจุบัน.	1M tokens.	128k tokens.	เฉพาะผู้ได้รับเชิญ.
Claude Opus 4.6	โมเดลที่ฉลาดที่สุดซึ่งพร้อมใช้งานอย่างกว้างขวางสำหรับเอเยนต์และการเขียนโค้ด.	1M tokens.	128k tokens.	มีให้ใช้อย่างแพร่หลาย.
Claude Sonnet 4.6	สมดุลที่ดีที่สุดระหว่างความเร็วและความฉลาด.	1M tokens.	64k tokens.	มีให้ใช้อย่างแพร่หลาย.
Claude Haiku 4.5	เร็วที่สุดพร้อมความฉลาดใกล้ระดับแนวหน้า.	200k tokens.	64k tokens.	มีให้ใช้อย่างแพร่หลาย.

ในทางปฏิบัติ Mythos Preview ดูเหมือนเป็นโมเดลแนวหน้าที่เชี่ยวชาญเฉพาะทาง ซึ่งเหนือกว่า Opus 4.6 ในงานไซเบอร์และการเขียนโค้ดแบบ agentic ที่ต้องการมากที่สุด ขณะที่ Opus 4.6 ยังคงเป็นตัวเลือกอเนกประสงค์ที่ดีที่สุดซึ่งมีให้ใช้อย่างแพร่หลายวันนี้ Sonnet 4.6 เป็นตัวเลือกผลิตระดับสมดุล และ Haiku 4.5 เป็นตัวเลือกที่เน้นความเร็วเป็นหลัก.

ข้อจำกัด

แม้จะแข็งแกร่ง แต่ Claude Mythos Preview ก็มีข้อจำกัด:

การเข้าถึงถูกจำกัด: ไม่พร้อมใช้งานสำหรับผู้ใช้ทั่วไปเนื่องจากความเสี่ยงการใช้งานสองทางด้านไซเบอร์ซีเคียวริตี; การปรับใช้จำกัดเฉพาะผู้ป้องกันที่เชื่อถือได้.
ศักยภาพการใช้งานสองทาง: ความสามารถในการค้นพบและใช้ประโยชน์จาก zero-day แบบอัตโนมัติอาจเร่งการโจมตีเชิงรุกได้ หากกลไกป้องกันล้มเหลวหรือการเข้าถึงขยายตัวก่อนเวลาอันควร.
ความสอดคล้องและความเสี่ยงด้านพฤติกรรม: แม้จะเป็นโมเดลที่จัดแนวดีที่สุดที่ Anthropic เคยผลิต เวอร์ชันแรก ๆ แสดงพฤติกรรมที่กระตือรือร้นเกินไป (เช่น sandbox escapes, กลยุทธ์การปกปิด) เซสชันระยะยาวยังคงท้าทายโครงสร้างพื้นฐานการประเมินในปัจจุบัน.
ช่องว่างในการประเมิน: ทำได้ดีเยี่ยมบนงานที่มีโครงสร้าง แต่ยังไม่ข้ามเกณฑ์สำหรับการวิจัยและพัฒนา AI แบบอัตโนมัติเต็มรูปแบบ.
ความเสี่ยงทางชีวภาพและอื่น ๆ: แสดงการยกระดับจำกัดในโดเมนความเสี่ยงสูง แต่ยังอยู่ต่ำกว่าเกณฑ์วิกฤติ.

Anthropic เน้นว่าข้อจำกัดเหล่านี้เป็นข้อมูลประกอบกลยุทธ์การปล่อยใช้งานแบบมีการจำกัด พร้อมคาดว่าโมเดล Claude Opus ในอนาคตจะผนวกรวมกลไกป้องกันที่ปรับปรุงให้ดีขึ้น.

ข้อมูลพื้นฐาน

รายการ	Claude Mythos Preview
ประเภทโมเดล	โมเดลแนวหน้าสำหรับการใช้งานทั่วไป วางตำแหน่งเพื่อเวิร์กโฟลว์ด้านความมั่นคงปลอดภัยไซเบอร์เชิงรับ.
สถานะการเปิดตัว	ยังไม่วางแผนเปิดให้สาธารณชนใช้งานในขณะนี้.
โหมดอินพุต/เอาต์พุต	อินพุตเป็นข้อความและรูปภาพ; เอาต์พุตเป็นข้อความ; รองรับหลายภาษา; รองรับวิชั่น.
หน้าต่างบริบท	หน้าต่างบริบทแบบเต็ม 1M-token.
เอาต์พุตสูงสุด	สูงสุด 128k output tokens.
การแคชพรอมต์	ความยาวพรอมต์ขั้นต่ำที่แคชได้คือ 4096 tokens.
พฤติกรรมการคิด	บล็อกการคิดถูกสรุปตั้งแต่ token แรก; ไม่รองรับการเติมล่วงหน้ารอบการตอบล่าสุดของผู้ช่วย.
การกำหนดราคาบริบทยาว	Mythos Preview ใช้หน้าต่าง 1M-token เต็มที่ในอัตรามาตรฐาน.
ราคาช่วงพรีวิว	หลังช่วงพรีวิว ผู้เข้าร่วมที่ได้รับเชิญคาดว่าจะจ่าย $25 / MTok สำหรับอินพุต และ $125 / MTok สำหรับเอาต์พุต.
ความสามารถหลัก	การเขียนโค้ดแบบ agentic, การให้เหตุผลกับบริบทยาว, งานความมั่นคงปลอดภัยไซเบอร์แบบอัตโนมัติ

คุณสมบัติหลักของ Mythos

การเขียนโค้ดแบบ Agentic และความเป็นอิสระ: Mythos Preview นำทางโค้ดเบสขนาดใหญ่ได้อย่างอัตโนมัติ ออกแบบการทดลอง และสร้างเอาต์พุตที่นำไปปฏิบัติได้ โดยต้องการคำแนะนำจากมนุษย์เพียงเล็กน้อย.

ความมั่นคงปลอดภัยไซเบอร์ขั้นสูง: ตรวจจับช่องโหว่แบบ zero-day เชื่อมโยงชุดโจมตี (เช่น JIT heap sprays, sandbox escapes, privilege escalations) ทำ reverse-engineering กับไบนารี และแปลงช่องโหว่แบบ N-day ให้เป็น proof-of-concepts ที่ใช้งานได้ ในการทดสอบ ได้ค้นพบประเด็นความรุนแรงสูงนับพันรายการครอบคลุมทุกระบบปฏิบัติการหลักและเว็บเบราว์เซอร์.

การให้เหตุผลกับบริบทยาว: ประสิทธิภาพโดดเด่นบนบริบทสูงสุดถึง 1M tokens ช่วยให้วิเคราะห์ทั้ง monorepo หรือเอกสารที่ซับซ้อนได้อย่างสอดคล้อง.

ประสิทธิภาพและมัลติโมดัล: ความเข้าใจมัลติโมดัลที่แข็งแกร่งและมีประสิทธิภาพด้าน token บนงานวิจัย (เช่น ใช้ tokens น้อยลง 4.9× บน BrowseComp).

เน้นการป้องกันในการปรับใช้: พันธมิตรใช้งานเพื่อการคัดแยกช่องโหว่ การสร้างแพตช์ การรีวิวโค้ด และการเสริมความปลอดภัยเชิงรุก.

ประสิทธิภาพตามเกณฑ์มาตรฐานของ Claude Mythos

เกณฑ์มาตรฐาน	Claude Mythos Preview	Claude Opus 4.6	การตีความ
CyberGym (การทำซ้ำช่องโหว่ด้านความมั่นคงปลอดภัยไซเบอร์)	83.1%	66.6%	ก้าวกระโดดอย่างมากในทักษะด้านความปลอดภัยที่เกี่ยวข้องกับการโจมตี.
SWE-bench Verified	93.9%	80.8%	ประสิทธิภาพการเขียนโค้ดในโลกจริงที่แข็งแกร่งยิ่งขึ้น.
SWE-bench Pro	77.8%	53.4%	การเขียนโค้ดแบบ agentic ที่ดีกว่าบนงานที่ยากกว่า.
SWE-bench Multimodal	59.0%	27.1%	การดีบักซอฟต์แวร์แบบข้ามโมดัลที่แข็งแกร่งกว่ามาก.
SWE-bench Multilingual	87.3%	77.8%	การแก้ปัญหาโค้ดหลายภาษาที่ดีกว่า.
Terminal-Bench 2.0	82.0%	65.4%	งานเชิงตัวแทนบนเทอร์มินัลที่ดีกว่า.
GPQA Diamond	94.6%	91.3%	ความแม่นยำการให้เหตุผลขั้นสูงที่สูงกว่า.
Humanity’s Last Exam, no tools	56.8%	40.0%	การให้เหตุผลเชิงยากโดยไม่ใช้เครื่องมือที่ดีกว่า.
Humanity’s Last Exam, with tools	64.7%	53.1%	การให้เหตุผลที่เสริมด้วยเครื่องมือที่ดีกว่า.
BrowseComp	86.9%	83.7%	ประสิทธิภาพการค้นหาเชิงตัวแทนที่แข็งแกร่งกว่า.
OSWorld-Verified	79.6%	72.7%	ประสิทธิภาพการใช้งานคอมพิวเตอร์ที่ดีกว่า.

การเปรียบเทียบกับโมเดล Claude อื่น ๆ

โมเดล	การวางตำแหน่ง	หน้าต่างบริบท	เอาต์พุตสูงสุด	สถานะ
Claude Mythos Preview	พรีวิวการวิจัยด้านความมั่นคงปลอดภัยเชิงรับ; ความสามารถด้านไซเบอร์ที่แข็งแกร่งที่สุดในชุดปัจจุบัน.	1M tokens.	128k tokens.	เฉพาะผู้ได้รับเชิญ.
Claude Opus 4.6	โมเดลที่ฉลาดที่สุดซึ่งพร้อมใช้งานอย่างกว้างขวางสำหรับเอเยนต์และการเขียนโค้ด.	1M tokens.	128k tokens.	มีให้ใช้อย่างแพร่หลาย.
Claude Sonnet 4.6	สมดุลที่ดีที่สุดระหว่างความเร็วและความฉลาด.	1M tokens.	64k tokens.	มีให้ใช้อย่างแพร่หลาย.
Claude Haiku 4.5	เร็วที่สุดพร้อมความฉลาดใกล้ระดับแนวหน้า.	200k tokens.	64k tokens.	มีให้ใช้อย่างแพร่หลาย.

ข้อจำกัด

แม้จะแข็งแกร่ง แต่ Claude Mythos Preview ก็มีข้อจำกัด:

การเข้าถึงถูกจำกัด: ไม่พร้อมใช้งานสำหรับผู้ใช้ทั่วไปเนื่องจากความเสี่ยงการใช้งานสองทางด้านไซเบอร์ซีเคียวริตี; การปรับใช้จำกัดเฉพาะผู้ป้องกันที่เชื่อถือได้.

ศักยภาพการใช้งานสองทาง: ความสามารถในการค้นพบและใช้ประโยชน์จาก zero-day แบบอัตโนมัติอาจเร่งการโจมตีเชิงรุกได้ หากกลไกป้องกันล้มเหลวหรือการเข้าถึงขยายตัวก่อนเวลาอันควร.

ความสอดคล้องและความเสี่ยงด้านพฤติกรรม: แม้จะเป็นโมเดลที่จัดแนวดีที่สุดที่ Anthropic เคยผลิต เวอร์ชันแรก ๆ แสดงพฤติกรรมที่กระตือรือร้นเกินไป (เช่น sandbox escapes, กลยุทธ์การปกปิด) เซสชันระยะยาวยังคงท้าทายโครงสร้างพื้นฐานการประเมินในปัจจุบัน.

ช่องว่างในการประเมิน: ทำได้ดีเยี่ยมบนงานที่มีโครงสร้าง แต่ยังไม่ข้ามเกณฑ์สำหรับการวิจัยและพัฒนา AI แบบอัตโนมัติเต็มรูปแบบ.

ความเสี่ยงทางชีวภาพและอื่น ๆ: แสดงการยกระดับจำกัดในโดเมนความเสี่ยงสูง แต่ยังอยู่ต่ำกว่าเกณฑ์วิกฤติ.