Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

ใช่ น้ำหนักโมเดล Qwen3.5-397B-A17B เผยแพร่ภายใต้ Apache-2.0 บน Hugging Face และ ModelScope และโปรเจ็กต์มีแนวทางการให้บริการสำหรับ Transformers, vLLM และ SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B ระบุว่า การออกแบบการกำหนดเส้นทางแบบเบาบางของโมเดลใช้พารามิเตอร์ที่ใช้งานต่อโทเค็นประมาณ 17 พันล้านตัว (active experts) ขณะที่ความจุรวมของโมเดลอยู่ที่ ~397 พันล้านพารามิเตอร์.

What is the native context window and can I extend it for very long documents?

โมเดลมาพร้อมความยาวลำดับอินพุตโดยกำเนิด 262,144 โทเค็น และมีวิธีที่มีเอกสารกำกับเพื่อขยายคอนเท็กซ์ได้ถึง ~1,010,000 โทเค็น ผ่านการสเกล YaRN/RoPE โดยขึ้นอยู่กับเฟรมเวิร์กการให้บริการ.

Which input modalities does Qwen3.5-397B-A17B support?

เป็นโมเดลภาพ-ภาษาที่รวมเป็นหนึ่งเดียว ฝึกด้วยแนวทาง early-fusion; อินพุตที่รองรับได้แก่ ข้อความ รูปภาพ และโทเค็นวิดีโอ สำหรับการให้เหตุผลและการสร้างแบบมัลติโมดัล.

How does inference efficiency compare to a 17B dense model?

การคำนวณสำหรับการอนุมานต่อโทเค็นมีความใกล้เคียงกับโมเดลแบบ dense ขนาด 17B เนื่องจากการกำหนดเส้นทาง MoE แบบเบาบาง แต่ไฟล์อาร์ติแฟกต์ของโมเดลและความต้องการหน่วยความจำจะมากกว่า เพราะต้องจัดเก็บและกระจายน้ำหนักทั้งหมดข้ามอุปกรณ์.

API qwen3.5-397b-a17b ราคาประหยัด | text-to-text

ข้อมูลจำเพาะทาง技术ของ Qwen3.5-397B-A17B

Item	Qwen3.5-397B-A17B (รุ่น open‑weight ที่ผ่านการฝึกเพิ่มเติม)
Model family	Qwen3.5 (ซีรีส์ Tongyi Qwen, Alibaba)
Architecture	Mixture‑of‑Experts (MoE) แบบไฮบริด + Gated DeltaNet; การฝึกมัลติโหมดแบบ early‑fusion
Total parameters	~397 พันล้าน (ทั้งหมด)
Active parameters (A17B)	~17 พันล้านที่ทำงานต่อโทเคน (การกำหนดเส้นทางแบบ sparse)
Input types	ข้อความ, รูปภาพ, วิดีโอ (มัลติโหมดแบบ early‑fusion)
Output types	ข้อความ (แชต, โค้ด, ผลลัพธ์ RAG), image‑to‑text, การตอบสนองแบบมัลติโหมด
Native context window	262,144 โทเคน (native ISL)
Extensible context	ได้สูงสุด ~1,010,000 โทเคน ผ่านการสเกลแบบ YaRN/ RoPE (ขึ้นอยู่กับแพลตฟอร์ม)
Max output tokens	ขึ้นอยู่กับเฟรมเวิร์ก/การให้บริการ (ตัวอย่างในคู่มือแสดง 81,920–131,072)
Languages	มากกว่า 200 ภาษาและภาษาถิ่น
Release date	16 กุมภาพันธ์ 2026 (เผยแพร่แบบ open‑weight)
License	Apache‑2.0 (เผยแพร่น้ำหนักบน Hugging Face / ModelScope)

Qwen3.5-397B-A17B คืออะไร

Qwen3.5-397B-A17B เป็นรุ่น open‑weight แรกในตระกูล Qwen3.5 ของ Alibaba: โมเดลพื้นฐานแบบ Mixture‑of‑Experts ขนาดใหญ่และมัลติโหมด ที่ฝึกด้วยวัตถุประสงค์วิสันทัศน์–ภาษาแบบ early‑fusion และปรับแต่งสำหรับเวิร์กโฟลว์เชิงเอเจนต์ โมเดลนี้เปิดศักยภาพเต็มของสถาปัตยกรรม 397B พารามิเตอร์ พร้อมใช้การกำหนดเส้นทางแบบ sparse (ส่วนต่อท้าย “A17B”) ทำให้มีเพียงประมาณ 17B พารามิเตอร์ที่ทำงานต่อโทเคน—สร้างสมดุลระหว่างความจุความรู้กับประสิทธิภาพการอนุมาน

รุ่นนี้มุ่งสำหรับนักวิจัยและทีมวิศวกรรมที่ต้องการโมเดลพื้นฐานแบบมัลติโหมดที่เปิด นำไปใช้งานได้ และรองรับบริบทยาว ซึ่งสามารถให้เหตุผลจากภาพได้ และเหมาะกับแอปพลิเคชันแบบ retrieval‑augmented/เชิงเอเจนต์

คุณสมบัติหลักของ Qwen3.5-397B-A17B

MoE แบบ sparse พร้อมประสิทธิภาพพารามิเตอร์ที่ทำงาน: ความจุรวมขนาดใหญ่ (397B) กับพารามิเตอร์ที่ทำงานต่อโทเคนเทียบได้กับโมเดล dense 17B ช่วยลด FLOPS ต่อโทเคนขณะยังคงความหลากหลายของความรู้
มัลติโหมดแบบ native (early‑fusion): ฝึกให้รองรับข้อความ ภาพ และวิดีโอ ผ่านการโทเคไนซ์และกลยุทธ์เอนโค้ดเดอร์แบบหนึ่งเดียว เพื่อการให้เหตุผลข้ามโมดาล
รองรับบริบทยาวมาก: ขนาดลำดับอินพุตแบบ native ที่ 262K โทเคน และมีแนวทางเอกสารสำหรับขยายถึง ~1M+ โทเคนด้วยการสเกล RoPE/YARN เพื่อการดึงคืนข้อมูลและไปป์ไลน์เอกสารยาว
โหมดการคิดและเครื่องมือเอเจนต์: รองรับร่องรอยการให้เหตุผลภายในและรูปแบบการทำงานแบบเอเจนต์; ตัวอย่างรวมถึงการเปิดใช้งานการเรียกเครื่องมือและการผสาน Code Interpreter
Open‑weight และความเข้ากันได้กว้าง: เผยแพร่ภายใต้ Apache‑2.0 บน Hugging Face และ ModelScope พร้อมคู่มือการผสานจากผู้พัฒนาหลักสำหรับ Transformers, vLLM, SGLang และเฟรมเวิร์กจากชุมชน
ครอบคลุมภาษาที่เป็นมิตรต่อองค์กร: การฝึกหลายภาษาอย่างครอบคลุม (200+ ภาษา) พร้อมคำแนะนำและแนวทางสำหรับการปรับใช้ในสเกลองค์กร

Qwen3.5-397B-A17B เทียบกับโมเดลที่เลือก

Model	Context window (native)	จุดเด่น	ข้อแลกเปลี่ยนทั่วไป
Qwen3.5-397B-A17B	262K (native)	มัลติโหมดแบบ MoE, open weights, ความจุ 397B กับ 17B ที่ทำงาน	อาร์ติแฟกต์โมเดลขนาดใหญ่ ต้องการโฮสต์แบบกระจายเพื่อให้ได้ประสิทธิภาพเต็มที่
GPT-5.2 (representative closed)	~400K (มีรายงานสำหรับบางรุ่น)	ความแม่นยำการให้เหตุผลของโมเดลเดี่ยวแบบ dense สูง	น้ำหนักปิด ต้นทุนการอนุมานสูงขึ้นเมื่อสเกล
LLaMA‑style dense 70B	~128K (แตกต่างกัน)	สแตกการอนุมานที่ง่ายกว่า ใช้ VRAM ต่ำกว่าสำหรับรันไทม์แบบ dense	ความจุพารามิเตอร์น้อยกว่าเมื่อเทียบกับความรู้รวมของ MoE

ข้อจำกัดที่ทราบและข้อพิจารณาเชิงปฏิบัติการ

การใช้หน่วยความจำ: แม้ MoE แบบ sparse ก็ยังต้องเก็บไฟล์น้ำหนักขนาดใหญ่; การโฮสต์ต้องใช้พื้นที่จัดเก็บและหน่วยความจำอุปกรณ์มาก เมื่อเทียบกับโคลน dense 17B
ความซับซ้อนทางวิศวกรรม: อัตราผ่านที่เหมาะสมต้องอาศัยการขนาน (tensor/pipeline) ที่รอบคอบและเฟรมเวิร์กอย่าง vLLM หรือ SGLang; การโฮสต์แบบ GPU เดียวอย่างง่ายไม่เหมาะใช้งานจริง
เศรษฐศาสตร์โทเคน: แม้คอมพิวต์ต่อโทเคนจะลดลง แต่บริบทที่ยาวมากยังเพิ่ม I/O ขนาด KV cache และค่าบริการสำหรับผู้ให้บริการแบบจัดการ
ความปลอดภัยและรั้วกั้น: น้ำหนักแบบเปิดเพิ่มความยืดหยุ่น แต่ถ่ายโอนความรับผิดชอบเรื่องการกรองความปลอดภัย การมอนิเตอร์ และรั้วกั้นการปรับใช้ไปยังผู้ปฏิบัติการ

กรณีใช้งานที่เป็นตัวแทน

วิจัยและวิเคราะห์โมเดล: น้ำหนักแบบเปิดช่วยให้การวิจัยทำซ้ำได้และการประเมินโดยชุมชน
บริการมัลติโหมดแบบ On‑premise: องค์กรที่ต้องการ data residency สามารถปรับใช้และรันงานภาพ+ข้อความภายในสถานที่
RAG และไปป์ไลน์เอกสารยาว: การรองรับบริบทยาวแบบ native ช่วยการให้เหตุผลแบบ single‑pass กับคลังข้อมูลขนาดใหญ่
โค้ดอินเทลลิเจนซ์และเครื่องมือเอเจนต์: วิเคราะห์ monorepo สร้างแพตช์ และรันลูปการเรียกเครื่องมือของเอเจนต์ในสภาพแวดล้อมควบคุม
แอปหลายภาษา: รองรับภาษาครอบคลุมสำหรับผลิตภัณฑ์ระดับโลก

วิธีเข้าถึงและผสานรวม Qwen3.5-397B-A17B

ขั้นตอนที่ 1: สมัครเพื่อรับ API Key

เข้าสู่ระบบที่ cometapi.com หากคุณยังไม่เป็นผู้ใช้ของเรา โปรดลงทะเบียนก่อน เข้าสู่ CometAPI console รับ API key สิทธิ์การเข้าถึงของอินเทอร์เฟซ คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx และส่ง

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ Qwen3.5-397B-A17B

เลือกปลายทาง “Qwen3.5-397B-A17B” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการและ request body สามารถดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ของเรายังมี Apifox สำหรับทดสอบเพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วย CometAPI key จริงจากบัญชีของคุณ จุดที่เรียกใช้งาน: รูปแบบ Chat

ใส่คำถามหรือคำขอของคุณลงในช่อง content—ซึ่งเป็นสิ่งที่โมเดลจะตอบสนอง ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับ API เพื่อรับคำตอบที่สร้างขึ้น หลังการประมวลผล API จะตอบกลับด้วยสถานะงานและข้อมูลผลลัพธ์

qwen3.5-397b-a17b