Home/Models/Aliyun/qwen3.5-397b-a17b
Q

qwen3.5-397b-a17b

อินพุต:$0.48/M
เอาต์พุต:$2.88/M
โมเดลวิสชัน-ภาษาแบบเนทีฟ Qwen3.5 series 397B-A17B สร้างขึ้นบนสถาปัตยกรรมแบบไฮบริดที่ผสานกลไกความสนใจแบบเชิงเส้นเข้ากับโมเดล Mixture-of-Experts แบบ Sparse ช่วยให้ได้ประสิทธิภาพในการอนุมานที่สูงขึ้น
ใหม่
ใช้งานเชิงพาณิชย์
Playground
ภาพรวม
คุณสมบัติ
ราคา
API

ข้อมูลจำเพาะทางเทคนิคของ Qwen3.5-397B-A17B

รายการQwen3.5-397B-A17B (รุ่นน้ำหนักเปิดที่ผ่านการฝึกเพิ่มเติม)
ตระกูลโมเดลQwen3.5 (Tongyi Qwen series, Alibaba)
สถาปัตยกรรมMixture‑of‑Experts (MoE) แบบไฮบริด + Gated DeltaNet; การฝึกมัลติโหมดแบบ early‑fusion
จำนวนพารามิเตอร์ทั้งหมด~397 พันล้าน (รวม)
พารามิเตอร์ที่ทำงาน (A17B)~17 พันล้านที่ทำงานต่อโทเคน (routing แบบ sparse)
ชนิดอินพุตข้อความ, รูปภาพ, วิดีโอ (มัลติโหมดแบบ early‑fusion)
ชนิดเอาต์พุตข้อความ (แชต, โค้ด, ผลลัพธ์ RAG), image‑to‑text, คำตอบแบบมัลติโหมด
หน้าต่างบริบทแบบเนทีฟ262,144 โทเคน (ISL แบบเนทีฟ)
บริบทที่ขยายได้ได้สูงสุด ~1,010,000 โทเคน ผ่านการสเกล YaRN/ RoPE (ขึ้นกับแพลตฟอร์ม)
โทเคนเอาต์พุตสูงสุดขึ้นกับเฟรมเวิร์ก/การให้บริการ (ตัวอย่างในคู่มือระบุ 81,920–131,072)
ภาษามากกว่า 200 ภาษาและภาษาถิ่น
วันที่เปิดตัว16 กุมภาพันธ์ 2026 (ปล่อยรุ่นน้ำหนักเปิด)
สัญญาอนุญาตApache‑2.0 (น้ำหนักเปิดบน Hugging Face / ModelScope)

Qwen3.5-397B-A17B คืออะไร

Qwen3.5-397B-A17B เป็นการปล่อยรุ่นน้ำหนักเปิดตัวแรกในตระกูล Qwen3.5 ของ Alibaba: โมเดลรากฐานขนาดใหญ่แบบมัลติโหมดชนิด mixture‑of‑experts ที่ฝึกด้วยวัตถุประสงค์ภาพ–ภาษาแบบหลอมรวมล่วงหน้า (early‑fusion) และปรับให้เหมาะกับเวิร์กโฟลว์แบบเอเจนต์ โมเดลนี้เปิดศักยภาพเต็มของสถาปัตยกรรม 397B พารามิเตอร์ พร้อมใช้การกำหนดเส้นทางแบบเบาบาง (sparse routing; ส่วนต่อท้าย “A17B”) ทำให้มีพารามิเตอร์ที่ทำงานต่อโทเคนเพียง ~17B ซึ่งสร้างสมดุลระหว่างความจุความรู้และประสิทธิภาพการอนุมาน

รุ่นนี้มุ่งสำหรับนักวิจัยและทีมวิศวกรรมที่ต้องการโมเดลรากฐานแบบเปิด ติดตั้งได้ และรองรับมัลติโหมดซึ่งสามารถให้เหตุผลบริบทยาว ความเข้าใจเชิงภาพ และแอปพลิเคชันแบบ RAG/agentic


คุณสมบัติหลักของ Qwen3.5-397B-A17B

  • ประสิทธิภาพ MoE แบบ sparse ด้วยพารามิเตอร์ที่ทำงาน: ความจุรวมขนาดใหญ่ (397B) โดยมีกิจกรรมต่อโทเคนใกล้เคียงโมเดล dense 17B ลด FLOPS ต่อโทเคนขณะคงความหลากหลายของความรู้
  • มัลติโหมดแบบเนทีฟ (early fusion): ฝึกให้รองรับข้อความ ภาพ และวิดีโอด้วยกลยุทธ์การโทเคนไนซ์และเอนโค้ดเดอร์แบบเอกภาพเพื่อการให้เหตุผลข้ามโมดาล
  • รองรับบริบทยาวมาก: ความยาวลำดับอินพุตแบบเนทีฟ 262K โทเคน และมีแนวทางการขยายถึง ~1M+ โทเคนด้วยการสเกล RoPE/YARN เพื่อการค้นคืนและไปป์ไลน์เอกสารยาว
  • โหมดคิดและเครื่องมือสำหรับเอเจนต์: รองรับร่องรอยการให้เหตุผลภายในและรูปแบบการทำงานแบบ agentic; ตัวอย่างเช่น การเรียกใช้เครื่องมือและการเชื่อมต่อ code interpreter
  • น้ำหนักเปิดและความเข้ากันได้กว้าง: ปล่อยภายใต้ Apache‑2.0 บน Hugging Face และ ModelScope พร้อมคู่มือการผสานการทำงานโดยผู้พัฒนาโดยตรงสำหรับ Transformers, vLLM, SGLang และเฟรมเวิร์กจากชุมชน
  • ครอบคลุมภาษาระดับองค์กร: ผ่านการฝึกหลายภาษาครอบคลุม (มากกว่า 200 ภาษา) พร้อมคำแนะนำและสูตรปฏิบัติสำหรับการปรับใช้ในขนาดใหญ่

Qwen3.5-397B-A17B เทียบกับโมเดลที่คัดเลือก

โมเดลหน้าต่างบริบท (เนทีฟ)จุดแข็งการแลกเปลี่ยนที่พบบ่อย
Qwen3.5-397B-A17B262K (เนทีฟ)มัลติโหมด MoE, น้ำหนักเปิด, ความจุ 397B พร้อม 17B ที่ทำงานไฟล์โมเดลขนาดใหญ่ ต้องการการโฮสต์แบบกระจายเพื่อประสิทธิภาพเต็มที่
GPT-5.2 (แบบปิดตัวแทน)~400K (มีรายงานสำหรับบางรุ่น)ความแม่นยำการให้เหตุผลสูงในโมเดล dense เดียวน้ำหนักแบบปิด ต้นทุนการอนุมานสูงเมื่อขยายขนาด
LLaMA‑style dense 70B~128K (แปรผัน)สแต็กการอนุมานที่เรียบง่ายกว่า ใช้ VRAM ต่ำกว่าสำหรับ denseความจุพารามิเตอร์น้อยกว่าเทียบกับองค์ความรู้รวมของ MoE

ข้อจำกัดที่ทราบและข้อพิจารณาการปฏิบัติการ

  • การใช้หน่วยความจำ: MoE แบบ sparse ยังต้องเก็บไฟล์น้ำหนักขนาดใหญ่; การโฮสต์ต้องการพื้นที่จัดเก็บและหน่วยความจำอุปกรณ์จำนวนมากเมื่อเทียบกับรุ่น dense 17B เทียบเท่า
  • ความซับซ้อนด้านวิศวกรรม: อัตราผ่านสูงสุดต้องอาศัยการทำงานขนาน (tensor/pipeline) อย่างเหมาะสมและเฟรมเวิร์กอย่าง vLLM หรือ SGLang; การโฮสต์ด้วย GPU เดียวแบบง่ายๆ ใช้ไม่ได้จริง
  • ต้นทุนโทเคน: แม้คอมพิวต์ต่อโทเคนจะลดลง แต่บริบทยาวมากยังเพิ่ม I/O, ขนาด KV cache และค่าใช้จ่ายสำหรับผู้ให้บริการแบบจัดการ
  • ความปลอดภัยและมาตรการป้องกัน: น้ำหนักเปิดเพิ่มความยืดหยุ่นแต่ย้ายความรับผิดชอบด้านการกรองความปลอดภัย การมอนิเตอร์ และรั้วกั้นการปรับใช้ไปยังผู้ดำเนินการ

กรณีการใช้งานที่เป็นตัวแทน

  1. การวิจัยและการวิเคราะห์โมเดล: น้ำหนักเปิดช่วยให้วิจัยทำซ้ำและการประเมินโดยชุมชน
  2. บริการมัลติโหมดในสถานที่ (on‑premise): องค์กรที่ต้องการ data residency สามารถปรับใช้และรันงานภาพ+ข้อความภายในระบบของตน
  3. RAG และไปป์ไลน์เอกสารยาว: การรองรับบริบทยาวช่วยให้ให้เหตุผลแบบครั้งเดียวเหนือคลังข้อมูลขนาดใหญ่
  4. ความฉลาดด้านโค้ดและเครื่องมือเอเจนต์: วิเคราะห์ monorepo, สร้างแพตช์ และรันลูปเรียกใช้เครื่องมือแบบ agentic ในสภาพแวดล้อมที่ควบคุมได้
  5. แอปพลิเคชันหลายภาษา: การครอบคลุมภาษากว้างสำหรับผลิตภัณฑ์ระดับโลก

วิธีเข้าถึงและผสาน Qwen3.5-397B-A17B

ขั้นตอนที่ 1: สมัครเพื่อรับคีย์ API

เข้าสู่ระบบที่ cometapi.com. หากคุณยังไม่เป็นผู้ใช้ โปรดลงทะเบียนก่อน ลงชื่อเข้าใช้ CometAPI console. รับคีย์รับรองความถูกต้องสำหรับการเข้าถึง API คลิก “Add Token” ที่ API token ในศูนย์ส่วนบุคคล รับ token key: sk-xxxxx แล้วส่ง

ขั้นตอนที่ 2: ส่งคำขอไปยัง API ของ Qwen3.5-397B-A17B

เลือกปลายทาง “Qwen3.5-397B-A17B” เพื่อส่งคำขอ API และตั้งค่า request body วิธีการร้องขอและ request body ดูได้จากเอกสาร API บนเว็บไซต์ของเรา เว็บไซต์ยังมีการทดสอบด้วย Apifox เพื่อความสะดวกของคุณ แทนที่ <YOUR_API_KEY> ด้วยคีย์ CometAPI จริงจากบัญชีของคุณ ตำแหน่งที่เรียกใช้: Chat รูปแบบ

ใส่คำถามหรือคำขอของคุณลงในฟิลด์ content — นี่คือสิ่งที่โมเดลจะตอบกลับ ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้างขึ้น

ขั้นตอนที่ 3: ดึงและตรวจสอบผลลัพธ์

ประมวลผลการตอบกลับของ API เพื่อรับคำตอบที่สร้าง หลังการประมวลผล API จะตอบกลับสถานะงานและข้อมูลผลลัพธ์

คำถามที่พบบ่อย

Is Qwen3.5-397B-A17B available as open weights for local hosting and research?

Yes. The Qwen3.5-397B-A17B weights are released under Apache-2.0 on Hugging Face and ModelScope, and the project provides serving recipes for Transformers, vLLM, and SGLang.

What does the "A17B" suffix mean in Qwen3.5-397B-A17B?

A17B indicates the model's sparse routing design uses roughly 17 billion active parameters per token (active experts), while the global model capacity is ~397 billion parameters.

What is the native context window and can I extend it for very long documents?

The model ships with a native input sequence length of 262,144 tokens and includes documented methods to extend context to ~1,010,000 tokens via YaRN/RoPE scaling, depending on serving framework.

Which input modalities does Qwen3.5-397B-A17B support?

It is a unified vision-language model trained with early-fusion; supported inputs include text, images, and video tokens for multimodal reasoning and generation.

How does inference efficiency compare to a 17B dense model?

Per-token inference compute is similar to 17B dense-class models thanks to sparse MoE routing, but model artifacts and memory requirements are larger because full weights must be stored and distributed across devices.

คุณสมบัติสำหรับ qwen3.5-397b-a17b

สำรวจคุณสมบัติหลักของ qwen3.5-397b-a17b ที่ออกแบบมาเพื่อเพิ่มประสิทธิภาพและความสะดวกในการใช้งาน ค้นพบว่าความสามารถเหล่านี้สามารถเป็นประโยชน์ต่อโครงการของคุณและปรับปรุงประสบการณ์ของผู้ใช้ได้อย่างไร

ราคาสำหรับ qwen3.5-397b-a17b

สำรวจราคาที่แข่งขันได้สำหรับ qwen3.5-397b-a17b ที่ออกแบบมาให้เหมาะสมกับงบประมาณและความต้องการการใช้งานที่หลากหลาย แผนการบริการที่ยืดหยุ่นของเรารับประกันว่าคุณจะจ่ายเฉพาะสิ่งที่คุณใช้เท่านั้น ทำให้สามารถขยายขนาดได้ง่ายเมื่อความต้องการของคุณเพิ่มขึ้น ค้นพบว่า qwen3.5-397b-a17b สามารถยกระดับโปรเจกต์ของคุณได้อย่างไรในขณะที่ควบคุมต้นทุนให้อยู่ในระดับที่จัดการได้
ราคา Comet (USD / M Tokens)ราคาทางการ (USD / M Tokens)ส่วนลด
อินพุต:$0.48/M
เอาต์พุต:$2.88/M
อินพุต:$0.6/M
เอาต์พุต:$3.6/M
-20%

โค้ดตัวอย่างและ API สำหรับ qwen3.5-397b-a17b

เข้าถึงโค้ดตัวอย่างที่ครอบคลุมและทรัพยากร API สำหรับ qwen3.5-397b-a17b เพื่อปรับปรุงกระบวนการผสานรวมของคุณ เอกสารประกอบที่มีรายละเอียดของเราให้คำแนะนำทีละขั้นตอน ช่วยให้คุณใช้ประโยชน์จากศักยภาพเต็มรูปแบบของ qwen3.5-397b-a17b ในโครงการของคุณ
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="qwen3.5-397b-a17b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

โมเดลเพิ่มเติม