Alibaba Cloud เปิดตัวโมเดลมัลติโหมด Qwen‑VLo อัปเกรดความสามารถด้านภาพ

แผนก AI ของ Alibaba Cloud เปิดตัวอย่างเป็นทางการแล้ว คเวน-วีโลซึ่งเป็นรุ่นล่าสุดในซีรีส์โมเดลมัลติโหมด Qwen ซึ่งถือเป็นความก้าวหน้าครั้งสำคัญในด้านความสามารถด้านการมองเห็นและภาษาที่เป็นหนึ่งเดียว Qwen‑VLo ซึ่งประกาศเปิดตัวเมื่อวันที่ 28 มิถุนายน 2025 นำเสนอทั้งฟังก์ชันการทำความเข้าใจและการสร้าง ซึ่งขยายขอบเขตไปไกลกว่ารุ่นก่อนๆ อย่างมาก รวมไปถึงการสร้างและแก้ไขภาพความละเอียดสูงที่ขับเคลื่อนด้วยคำแนะนำภาษาธรรมชาติและอินพุตภาพ

Qwen‑VLo สร้างขึ้นจากรุ่นก่อนหน้า เช่น Qwen‑VL และ Qwen2.5‑VL โดย Alibaba อธิบายว่าเป็น "การอัปเกรดที่ครอบคลุม" ใน AI หลายโหมด ในขณะที่ Qwen‑VL มุ่งเน้นไปที่การตีความข้อมูลภาพเป็นหลัก และ Qwen2.5‑VL ช่วยเพิ่มความเข้าใจในบริบทระยะยาว Qwen‑VLo ได้ผสานจุดแข็งเหล่านี้เข้าไว้ในกรอบงานเดียวที่สามารถทำงานภาษาภาพแบบสองทิศทางได้ โดยรองรับคำสั่งแบบปลายเปิด รองรับหลายภาษา รวมถึงภาษาจีนและภาษาอังกฤษ และปรับแต่งเอาต์พุตให้เทียบเท่ากับผลงานของศิลปิน

Key Features

การสร้างภาพแบบก้าวหน้า

Qwen‑VLo สร้างภาพแบบเป็นขั้นตอน ตั้งแต่ซ้ายไปขวา และบนลงล่าง โดยปรับแต่งเนื้อหาที่คาดการณ์ไว้ซ้ำๆ เพื่อให้แน่ใจว่ามีความสอดคล้องและกลมกลืนกัน กลไกนี้ช่วยเพิ่มประสิทธิภาพในการสร้างและควบคุมกระบวนการสร้างสรรค์ของผู้ใช้

รองรับความละเอียดแบบไดนามิก

โดยใช้การฝึกความละเอียดแบบไดนามิก โมเดลนี้สามารถจัดการความละเอียดอินพุต/เอาต์พุตและอัตราส่วนภาพตามต้องการได้ ผู้ใช้สามารถสร้างเนื้อหาที่ปรับแต่งให้เหมาะกับสถานการณ์ต่างๆ ได้ เช่น แบนเนอร์เว็บ ปกโซเชียลมีเดีย หรือโปสเตอร์ความละเอียดสูง โดยไม่ถูกจำกัดด้วยรูปแบบคงที่

การแก้ไขคำสั่งแบบเปิด

ด้วยคำแนะนำภาษาธรรมชาติ Qwen VLo สามารถแก้ไขขั้นสูง เช่น การถ่ายโอนสไตล์ ("ใช้สไตล์แวนโก๊ะ") การแปลงแบบผสม ("เพิ่มท้องฟ้าสดใส") และการแก้ไขหลายแง่มุมในคำแนะนำเดียว นอกจากนี้ยังรองรับการแยกและแก้ไขสัญญาณภาพแบบดั้งเดิม เช่น แผนที่ความลึก มาสก์การแบ่งส่วน และโครงร่างขอบ

การโต้ตอบหลายภาษา

โมเดลนี้ยอมรับคำสั่งในหลายภาษา ซึ่งปัจจุบันรองรับภาษาจีนและภาษาอังกฤษ จึงตอบสนองฐานผู้ใช้ทั่วโลก และทำลายอุปสรรคด้านภาษาในเวิร์กโฟลว์เชิงสร้างสรรค์

ความพร้อมใช้งานและการเข้าถึง

Qwen‑VLo มีจำหน่ายแล้วในปัจจุบัน ภาพตัวอย่าง ผ่านทางแพลตฟอร์ม Qwen Chat ที่ แชท.คเวน.เอไอAlibaba Cloud ระบุว่าในการเปิดตัวเวอร์ชันตัวอย่าง ผู้ใช้จะพบกับความไม่สอดคล้องกันเป็นครั้งคราวหรือข้อมูลที่ไม่ถูกต้องระหว่างการสร้าง ทีมพัฒนากำลังดำเนินการแก้ไขข้อจำกัดเหล่านี้อย่างแข็งขันก่อนเปิดตัวในวงกว้าง

วิศวกร AI ของ Alibaba ได้ปรับแต่ง Qwen‑VLo ให้เหมาะสมสำหรับการใช้งานทั้งบนคลาวด์และสภาพแวดล้อมแบบเอจด์ โดยใช้การวัดปริมาณความแม่นยำแบบผสมและเทคนิคปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพแบบใหม่ ทำให้โมเดลนี้ยังคงประสิทธิภาพสูงบนพื้นที่การประมวลผลที่กะทัดรัด นอกจากนี้ Alibaba ยังได้บูรณาการไปป์ไลน์การอนุมานแบบปรับได้เพื่อสร้างสมดุลระหว่างเวลาแฝงและคุณภาพ เพื่อให้แน่ใจว่า Qwen‑VLo สามารถให้บริการแอปพลิเคชันที่ไวต่อเวลาแฝง เช่น เครื่องมือออกแบบเชิงโต้ตอบ ในขณะที่ปรับขนาดให้เหมาะกับเวิร์กโหลดระดับองค์กรบน Alibaba Cloud

เปรียบเทียบกับ คเว่น-วีแอล-พลัส/แม็กซ์

มิติฟังก์ชั่น	คเว่น-วีแอล-พลัส/แม็กซ์	คเวน วีโล
ความเข้าใจเกี่ยวกับภาพ	การจำแนกประเภทพื้นฐาน คำอธิบาย	การจดจำโครงสร้างหลายมิติ ช่วยเพิ่มความเข้าใจบริบท
การสร้างภาพ	รองรับรูปแบบจำกัด	ความแม่นยำสูง, การสร้างที่ก้าวหน้า, ความสามารถในการควบคุมสไตล์ที่แข็งแกร่ง
ความสามารถในการทำงานหลายอย่างพร้อมกัน	จำเป็นต้องมีการป้อนข้อมูลเฉพาะงาน	การทำงานมัลติทาสกิ้งแบบรวมศูนย์ รองรับคำสั่งภาษาที่ซับซ้อน
การโต้ตอบหลายภาษา	การสนับสนุนที่ จำกัด	รองรับภาษาจีนและอังกฤษโดยเจ้าของภาษา ควบคุมภาษาธรรมชาติได้ราบรื่นยิ่งขึ้น
ความสามารถในการรักษารายละเอียด	อาจสูญเสียรายละเอียดในการสร้าง	การระบุและสร้างโครงสร้างและความหมายที่สำคัญอย่างแม่นยำ

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว

API การรวม Qwen‑VLo ล่าสุดจะปรากฏบน CometAPI เร็วๆ นี้ โปรดติดตาม! ในขณะที่เรากำลังสรุปการอัปโหลดโมเดล Qwen‑VLo ให้ลองสำรวจโมเดลอื่นๆ ของเราใน หน้าโมเดล หรือลองพวกเขาใน เอไอ เพลย์กราวด์. โมเดลล่าสุดของ Qwen ใน CometAPI คือ คิวเวน 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b) and qwen-vl-plus-latest.