ข้อมูลจำเพาะทาง技术的ของ Qwen3.5-397B-A17B
| Item | Qwen3.5-397B-A17B (open-weight หลังการฝึกเพิ่มเติม) |
|---|---|
| Model family | Qwen3.5 (ซีรีส์ Tongyi Qwen, Alibaba) |
| Architecture | Hybrid Mixture-of-Experts (MoE) + Gated DeltaNet; การฝึกแบบมัลติโมดัลชนิด early-fusion |
| Total parameters | ~397 พันล้าน (รวมทั้งหมด) |
| Active parameters (A17B) | ~17 พันล้านที่ใช้งานต่อโทเค็น (sparse routing) |
| Input types | ข้อความ, รูปภาพ, วิดีโอ (มัลติโมดัลแบบ early-fusion) |
| Output types | ข้อความ (แชต, โค้ด, เอาต์พุต RAG), ภาพเป็นข้อความ, การตอบสนองแบบมัลติโมดัล |
| Native context window | 262,144 โทเค็น (native ISL) |
| Extensible context | สูงสุด ~1,010,000 โทเค็น ผ่านการปรับสเกล YaRN/ RoPE (ขึ้นกับแพลตฟอร์ม) |
| Max output tokens | ขึ้นกับเฟรมเวิร์ก/การให้บริการ (ตัวอย่างในคู่มือแสดง 81,920–131,072) |
| Languages | มากกว่า 200 ภาษาและภาษาถิ่น |
| Release date | 16 กุมภาพันธ์ 2026 (การเปิดเผยแบบ open-weight) |
| License | Apache‑2.0 (เผยน้ำหนักบน Hugging Face / ModelScope) |
Qwen3.5-397B-A17B คืออะไร
Qwen3.5-397B-A17B คือการเปิดเผย open‑weight ครั้งแรกในตระกูล Qwen3.5 ของ Alibaba: โมเดลฐานขนาดใหญ่แบบมัลติโมดัลสไตล์ Mixture‑of‑Experts ที่ฝึกด้วยวัตถุประสงค์ด้านการมองเห็น–ภาษาแบบ early‑fusion และปรับให้เหมาะกับเวิร์กโฟลว์แบบ agentic โมเดลนี้เผยศักยภาพเต็มรูปแบบของสถาปัตยกรรม 397B พารามิเตอร์ โดยใช้การส่งผ่านแบบ sparse routing (ส่วนต่อท้าย “A17B”) ทำให้มีเพียง ~17B พารามิเตอร์ที่ทำงานต่อโทเค็น—ให้สมดุลระหว่างความจุความรู้กับประสิทธิภาพการอนุมาน
การเปิดเผยนี้มุ่งสำหรับนักวิจัยและทีมวิศวกรรมที่ต้องการโมเดลฐานแบบเปิด นำไปใช้งานได้ และรองรับมัลติโมดัล ซึ่งสามารถให้เหตุผลบริบทยาว เข้าใจภาพ และรองรับแอปพลิเคชันแบบ retrieval‑augmented/agentic
คุณสมบัติหลักของ Qwen3.5-397B-A17B
- Sparse MoE พร้อมประสิทธิภาพการใช้พารามิเตอร์ที่แอคทีฟ: ความจุระดับโลกขนาดใหญ่ (397B) โดยมีกำลังทำงานต่อโทเค็นเทียบเท่าโมเดล dense 17B ลด FLOPS ต่อโทเค็นขณะคงความหลากหลายของความรู้
- มัลติโมดัลแบบเนทีฟ (early fusion): ฝึกให้รองรับข้อความ รูปภาพ และวิดีโอผ่านโทเคไนเซชันและตัวเข้ารหัสแบบรวม เพื่อการให้เหตุผลข้ามโมดัล
- รองรับบริบทยาวมาก: ความยาวอินพุตตามค่าเนทีฟ 262K โทเค็น และมีแนวทางเอกสารสำหรับขยายถึง ~1M+ โทเค็นด้วยการสเกล RoPE/YARN เพื่อใช้ในการค้นคืนและไปป์ไลน์เอกสารยาว
- โหมดคิด & เครื่องมือเอเจนต์: รองรับร่องรอยการให้เหตุผลภายในและรูปแบบการทำงานของเอเจนต์; มีตัวอย่างการเปิดใช้การเรียกเครื่องมือและการผสานตัวตีความโค้ด
- น้ำหนักเปิด & ความเข้ากันได้กว้าง: เผยภายใต้ Apache‑2.0 บน Hugging Face และ ModelScope พร้อมคู่มือผสานการทำงานแบบ first‑party สำหรับ Transformers, vLLM, SGLang และเฟรมเวิร์กชุมชน
- ครอบคลุมภาษาระดับองค์กร: การฝึกที่ครอบคลุมหลายภาษา (200+ ภาษา) พร้อมคำสั่งและสูตรสำหรับการปรับใช้ในสเกลองค์กร
Qwen3.5-397B-A17B เทียบกับโมเดลที่เลือก
| Model | Context window (native) | Strength | Typical trade-offs |
|---|---|---|---|
| Qwen3.5-397B-A17B | 262K (native) | มัลติโมดัล MoE, น้ำหนักเปิด, ความจุ 397B พร้อม 17B ที่แอคทีฟ | ไฟล์โมเดลขนาดใหญ่ ต้องการโฮสต์แบบกระจายเพื่อประสิทธิภาพเต็มที่ |
| GPT-5.2 (representative closed) | ~400K (reported for some variants) | ความแม่นยำการให้เหตุผลของโมเดลเดี่ยวแบบ dense สูง | น้ำหนักปิด, ต้นทุนการอนุมานสูงขึ้นเมื่อสเกล |
| LLaMA‑style dense 70B | ~128K (varies) | สแตกการอนุมานที่ง่ายกว่า ใช้ VRAM น้อยกว่าสำหรับรันไทม์แบบ dense | ความจุพารามิเตอร์น้อยกว่าเมื่อเทียบกับความรู้รวมระดับโลกของ MoE |
ข้อจำกัดที่ทราบ & ข้อพิจารณาเชิงปฏิบัติการ
- การใช้หน่วยความจำ: แม้เป็น MoE แบบ sparse ก็ยังต้องจัดเก็บไฟล์น้ำหนักขนาดใหญ่; การโฮสต์ต้องใช้พื้นที่จัดเก็บและหน่วยความจำอุปกรณ์มากเมื่อเทียบกับโมเดล dense 17B ที่คล้ายกัน
- ความซับซ้อนด้านวิศวกรรม: เพื่อให้ได้ปริมาณงานที่เหมาะสมต้องปรับการขนาน (tensor/pipeline) และใช้เฟรมเวิร์กอย่าง vLLM หรือ SGLang; การโฮสต์บน GPU เดียวแบบไร้การปรับแต่งไม่เหมาะปฏิบัติ
- เศรษฐศาสตร์ของโทเค็น: แม้การคำนวณต่อโทเค็นจะลดลง แต่บริบทที่ยาวมากยังเพิ่ม I/O ขนาด KV cache และค่าใช้บริการสำหรับผู้ให้บริการแบบจัดการ
- ความปลอดภัย & การป้องกัน: น้ำหนักเปิดเพิ่มความยืดหยุ่นแต่ถ่ายโอนความรับผิดชอบในการกรองความปลอดภัย การมอนิเตอร์ และการตั้งการ์ดเรลในการปรับใช้ไปยังผู้ปฏิบัติการ
กรณีการใช้งานตัวอย่าง
- วิจัย & วิเคราะห์โมเดล: น้ำหนักเปิดช่วยให้วิจัยที่ทำซ้ำได้และการประเมินโดยชุมชน
- บริการมัลติโมดัลแบบ on‑premise: องค์กรที่ต้องการ data residency สามารถปรับใช้และรันงานภาพ+ข้อความในสถานที่ได้
- RAG และไปป์ไลน์เอกสารยาว: การรองรับบริบทยาวแบบเนทีฟช่วยให้ให้เหตุผลแบบรอบเดียวเหนือคอร์ปัสขนาดใหญ่
- อินเทลลิเจนซ์โค้ด & เครื่องมือเอเจนต์: วิเคราะห์โมโนรีโพ สร้างแพตช์ และรันลูปการเรียกใช้เครื่องมือของเอเจนต์ในสภาพแวดล้อมที่ควบคุมได้
- แอปพลิเคชันหลายภาษา: การครอบคลุมภาษากว้างสำหรับผลิตภัณฑ์ระดับโลก
วิธีเข้าถึงและผสาน Qwen3.5-397B-A17B
Step 1: Sign Up for API Key
เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ โปรดลงทะเบียนก่อน เข้าสู่ CometAPI console ของคุณ รับ API key สำหรับสิทธิ์การเข้าถึงอินเทอร์เฟซ คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่ง
Step 2: Send Requests to Qwen3.5-397B-A17B API
เลือกเอ็นด์พอยต์ “Qwen3.5-397B-A17B” เพื่อส่งคำขอ API และกำหนด request body วิธีการเรียกและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมีการทดสอบผ่าน Apifox เพื่อความสะดวก แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ Where to call it: Chat รูปแบบ
ใส่คำถามหรือคำขอของคุณในช่อง content—โมเดลจะตอบกลับสิ่งนี้ ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น
Step 3: Retrieve and Verify Results
ประมวลผลการตอบสนองของ API เพื่อรับคำตอบที่สร้างขึ้น หลังจากประมวลผลแล้ว API จะตอบกลับด้วยสถานะงานและข้อมูลเอาต์พุต