Alibaba Cloud เปิดตัว Qwen‑TTS: โมเดลการสังเคราะห์เสียงพูดแบบสตรีมมิ่งคุณภาพสูง

CometAPI
AnnaJun 30, 2025
Alibaba Cloud เปิดตัว Qwen‑TTS: โมเดลการสังเคราะห์เสียงพูดแบบสตรีมมิ่งคุณภาพสูง

On มิถุนายน 26, 2025อาลีบาบาคลาวด์เปิดตัวแล้ว คเวน-ทีทีเอสซึ่งเป็นส่วนเสริมล่าสุดของตระกูล Tongyi Qianwen (Qwen) ซึ่งเป็นโมเดล AI ขนาดใหญ่ Qwen‑TTS ได้รับการออกแบบสำหรับการใช้งานการแปลงข้อความเป็นเสียงคุณภาพสูงที่หลากหลาย โดยรองรับการป้อนข้อมูลภาษาจีน อังกฤษ และภาษาผสม และยังมีเอาต์พุตเสียงทั้งแบบแบตช์และแบบสตรีม ซึ่งรองรับกรณีการใช้งานที่หลากหลาย ตั้งแต่ผู้ช่วยเสียงอัจฉริยะไปจนถึงการผลิตเนื้อหามัลติมีเดีย

คุณสมบัติทางเทคนิคที่สำคัญ

  • การป้อนข้อมูลหลายภาษา:ประมวลผลภาษาจีนล้วน ภาษาอังกฤษล้วน หรือข้อความภาษาจีน-อังกฤษที่สลับรหัส ช่วยให้สังเคราะห์เสียงได้อย่างราบรื่นในแอปพลิเคชันทั่วโลก นอกจากนี้ รุ่นยังมีโปรไฟล์เสียงภาษาจีน-อังกฤษสองภาษาเจ็ดรายการ (เช่น เชอร์รี่ อีธาน เชลซี เซเรน่า) อำนวยความสะดวกในแอปพลิเคชันข้ามภาษาได้อย่างราบรื่น เช่น การสนับสนุนลูกค้าทั่วโลก การสอนพิเศษทางการศึกษา และเนื้อหามัลติมีเดียที่มุ่งเป้าไปที่ผู้ชมต่างประเทศ
  • เอาท์พุทสตรีมมิ่ง:ส่งมอบเสียงแบบเรียลไทม์ผ่านเซ็กเมนต์ที่เข้ารหัส Base64 โดยแพ็คเกจสุดท้ายจะมอบ URL เสียงเต็มรูปแบบ ซึ่งเหมาะสำหรับสถานการณ์โต้ตอบที่มีความล่าช้าต่ำ
  • การเข้ารหัสเสียงแบบโทเค็น:ทำการแมปเสียงภายในทุกๆ 1 วินาทีกับโทเค็น 50 โทเค็น (โดยปัดเศษวินาทีที่เหลือขึ้น) เพื่อให้มั่นใจถึงประสิทธิภาพและรายละเอียดที่คาดเดาได้สำหรับนักพัฒนา
  • สไตล์เสียงหลายแบบ:นำเสนอจานสีของเสียงที่ตั้งไว้ล่วงหน้า—เชอร์รี่, เซรีน่า, อีธาน, เชลซีเช่นเดียวกับ ดีแลน จาด้า ซันนี่—ช่วยให้สามารถปรับแต่งโทนอารมณ์และความสม่ำเสมอของแบรนด์ได้
  • ปริมาณงานสูงและความหน่วงต่ำ:Qwen‑TTS ได้รับการปรับให้เหมาะสมสำหรับการสตรีมแบบเรียลไทม์ โดยสามารถสร้างเอาต์พุตเสียงที่มีค่าหน่วงเวลาแบบ end-to-end ต่ำกว่า 100 มิลลิวินาทีบนอินสแตนซ์ GPU มาตรฐาน จึงเหมาะอย่างยิ่งสำหรับผู้ช่วยเสียงแบบโต้ตอบและการถ่ายทอดสด

การบูรณาการแบบไร้รอยต่อผ่าน DashScope SDK

สามารถเข้าถึง Qwen‑TTS ได้ทันทีผ่าน Model Studio ของ Alibaba Cloud และปลายทาง API ของ Qwen นักพัฒนาสามารถใช้งานโมเดลผ่าน PAI‑EAS เพียงไม่กี่คลิก รวมเข้ากับเวิร์กโฟลว์ผ่าน SDK และการเรียกที่เข้ากันได้กับ OpenAPI หรือปรับแต่งโดยใช้ชุดข้อมูลเสียงที่เป็นกรรมสิทธิ์ซึ่งโฮสต์บน Alibaba Cloud สถาปัตยกรรมที่ปรับขนาดได้รองรับการสร้างเสียงแบบแบตช์ รวมถึงการสังเคราะห์แบบทันทีในศูนย์บริการเสมือนจริงและแพลตฟอร์ม AI เชิงสนทนา

Alibaba Cloud ให้ความสำคัญกับความสะดวกในการบูรณาการสำหรับ Qwen‑TTS โดยนำเสนอ API RESTful ที่ตรงไปตรงมา และ SDK ในหลายภาษา ตัวอย่างโค้ด Python แสดงให้เห็นว่าการกำหนดค่าขั้นต่ำ—เพียงแค่ตั้งค่าตัวแปรสภาพแวดล้อมสำหรับคีย์ API—ช่วยให้ผู้พัฒนาสามารถเรียกใช้ Qwen‑TTS ด้วยการเรียกใช้ฟังก์ชันเพียงครั้งเดียว ตัวอย่างเช่น:

pythonimport os
from qwen_sdk import SpeechSynthesizer

# Configure API key

os.environ = "your-api-key"

# Synthesize Beijing dialect speech

synthesizer = SpeechSynthesizer(model="qwen-tts-latest", voice="Dylan")
audio_url = synthesizer.synthesize(text="你好,欢迎使用 Qwen‑TTS!")
print(f"Audio available at: {audio_url}")

ความเรียบง่ายนี้ช่วยเร่งระยะเวลาในการนำแอปพลิเคชันออกสู่ตลาดในด้านการศึกษา การผลิตสื่อ อุปกรณ์อัจฉริยะ และอื่นๆ

กรณีการใช้งานและผลกระทบต่ออุตสาหกรรม

  • ระบบบริการลูกค้าอัตโนมัติ:บริษัทต่างๆ สามารถใช้ตัวแทนเสียงที่มีสำเนียงพูดเข้าใจง่ายและมีทักษะเฉพาะในแต่ละภูมิภาคเพื่อรองรับสายเรียกเข้าจำนวนมาก ช่วยลดต้นทุนแรงงานและเพิ่มความพึงพอใจของผู้ใช้
  • การสร้างเนื้อหาและสื่อ:ผู้จัดพิมพ์และผู้แพร่ภาพกระจายเสียงสามารถสร้างหนังสือเสียงหลายภาษา พอดแคสต์ และประกาศตามต้องการด้วยคุณภาพระดับมืออาชีพ
  • การเข้าถึง:แพลตฟอร์มด้านการศึกษาและอุปกรณ์ช่วยเหลือได้รับประโยชน์จากเอาต์พุตเสียงที่ชัดเจนและน่าดึงดูดสำหรับผู้เรียนและผู้ใช้ที่มีความบกพร่องทางสายตา
  • อุปกรณ์อัจฉริยะและ IoT:OEM สามารถฝัง Qwen‑TTS ไว้ในอุปกรณ์สวมใส่ ผู้ช่วยในบ้าน และระบบอินโฟเทนเมนต์ในรถยนต์ เพื่อมอบการโต้ตอบด้วยเสียงที่รับรู้บริบทและเป็นส่วนตัว

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว

การบูรณาการล่าสุด คเวน-ทีทีเอส API จะปรากฏบน CometAPI เร็วๆ นี้ โปรดติดตาม! ในขณะที่เรากำลังสรุปการอัปโหลดโมเดล Qwen‑VLo ให้ลองสำรวจโมเดลอื่นๆ ของเราใน หน้าโมเดล หรือลองพวกเขาใน เอไอ เพลย์กราวด์. โมเดลล่าสุดของ Qwen ใน CometAPI คือ คิวเวน 3 API(qwen3-235b-a22b;qwen3-30b-a3b;qwen3-8b)

อ่านเพิ่มเติม

500+ โมเดลใน API เดียว

ลดราคาสูงสุด 20%