MiniMax เปิดตัว MiniMax Speech 2.6 — เจาะลึกโมเดล Speech ใหม่ - CometAPI

มินิแม็กซ์ประกาศ มินิแม็กซ์ สปีช 2.6ซึ่งเป็นเครื่องมือแปลงข้อความเป็นเสียง (TTS) / แปลงข้อความเป็นเสียงใหม่ล่าสุดของบริษัท ซึ่งได้รับการปรับแต่งให้เหมาะสมสำหรับตัวแทนเสียงแบบเรียลไทม์ การโคลนเสียง และการบรรยายคุณภาพสูง การอัปเดตนี้มุ่งเน้นไปที่ความหน่วงต่ำเป็นพิเศษ การจัดการรูปแบบทางเทคนิคที่ชาญฉลาดยิ่งขึ้น (URL หมายเลขโทรศัพท์ วันที่ และจำนวนเงิน) และไปป์ไลน์ “Fluent LoRA” ใหม่ เพื่อให้เสียงที่โคลนฟังดูเป็นธรรมชาติและลื่นไหลในทุกภาษา โมเดลนี้มีให้เลือกใช้งานทั้งแบบหน่วงต่ำ กังหัน ตัวแปรและความเที่ยงตรงสูง HD รูปแบบต่างๆ สามารถเข้าถึงได้ผ่านแพลตฟอร์มของ MiniMax และผ่านตลาดโมเดลของบุคคลที่สาม

MiniMax Speech 2.6 คืออะไร และเหตุใดอุตสาหกรรมจึงต้องใส่ใจ?

MiniMax ได้ก้าวไปอีกขั้นในการแข่งขันทางการค้าอย่างเงียบๆ — และอย่างเงียบๆ — เพื่อทำให้เสียงสังเคราะห์ไม่สามารถแยกแยะจากคำพูดของมนุษย์ได้ ผลิตภัณฑ์ใหม่ล่าสุดของบริษัท มินิแม็กซ์ สปีช 2.6คือตระกูลการแปลงข้อความเป็นเสียง (TTS) รุ่นใหม่ที่ออกแบบมาโดยเฉพาะสำหรับสถานการณ์การสนทนาที่มีความหน่วงต่ำและเป็นธรรมชาติสูง เช่น เจ้าหน้าที่เสียง ฝ่ายบริการลูกค้าแบบสด และอุปกรณ์แบบอินเทอร์แอคทีฟ จากการประกาศผลิตภัณฑ์ของ MiniMax และรายงานจากบุคคลที่สามหลายฉบับ Speech 2.6 ได้รวมการปรับปรุงประสิทธิภาพแบบเรียลไทม์ (ความหน่วงแบบ end-to-end ต่ำกว่า 250 มิลลิวินาที) เสียงพูดที่ลื่นไหลยิ่งขึ้น และการโคลนเสียงที่เร็วขึ้นและมีคุณภาพสูงกว่าเวอร์ชันก่อนหน้า

พูดอย่างง่ายๆ: ในขณะที่ระบบ TTS ก่อนหน้านี้เน้นความเที่ยงตรงแบบออฟไลน์สำหรับการบรรยายและการผลิตเสียง Speech 2.6 มุ่งเป้าไปที่ การโต้ตอบแบบเรียลไทม์ — การพูดที่รวดเร็วเพียงพอและเป็นธรรมชาติเพียงพอที่จะใช้ในการสนทนาสดโดยไม่มีการหยุดชะงักที่น่าอึดอัดหรือจังหวะที่เหมือนหุ่นยนต์

ฟีเจอร์หลักของ Speech 2.6 มีอะไรบ้าง?

ความหน่วงต่ำพิเศษ: ต่ำกว่า 250 มิลลิวินาที

ข้อเรียกร้องที่โดดเด่นประการหนึ่งจาก MiniMax คือความล่าช้าแบบ end-to-end ที่ต่ำกว่า 250 มิลลิวินาที สำหรับรุ่น Turbo ตัวเลขดังกล่าวมีวัตถุประสงค์เพื่อทำให้การสร้างเสียงนั้นแทบจะมองไม่เห็นในสถานการณ์การสนทนาแบบเรียลไทม์หลายสถานการณ์ (เช่น ตัวแทนเสียงแบบอินเทอร์แอคทีฟ การช่วยเหลือแบบเรียลไทม์ภายในแอป ฯลฯ) และบริษัทระบุว่าประสบความสำเร็จได้ด้วยการปรับปรุงกระบวนการทำงานและวิศวกรรมโมเดลที่มุ่งเน้นไปที่การสตรีมและการถอดรหัสแบบเพิ่มหน่วย หากผลิตภัณฑ์ของคุณต้องการความรู้สึกถึงการตอบกลับทันทีจากตัวแทนเสียง ตัวเลขที่ต่ำกว่า 250 มิลลิวินาทีคือตัวชี้วัดหลักที่ต้องประเมิน

การจัดการรูปแบบเฉพาะ: อ่านหมายเลขโทรศัพท์และ URL อย่างถูกต้อง

Speech 2.6 ได้เพิ่มการจัดการ "รูปแบบเฉพาะ" อย่างชาญฉลาดยิ่งขึ้นอย่างชัดเจน ได้แก่ หมายเลขโทรศัพท์ ที่อยู่ IP URL ที่อยู่อีเมล วันที่ และจำนวนเงิน แทนที่จะบังคับให้ผู้รวมระบบทำการปรับมาตรฐานล่วงหน้าหรือแทนที่โทเค็นเหล่านี้ ตัวแบบจำลองเองจะจดจำและออกเสียงโทเค็นเหล่านี้ด้วยวิธีที่เหมาะสมและเป็นมิตรกับมนุษย์ (เช่น การตีความ) $1,234.56 เช่น "หนึ่งพันสองร้อยสามสิบสี่ดอลลาร์และห้าสิบหกเซ็นต์" แทนที่จะสะกดออกมาเป็นทุกตัวอักษร ซึ่งจะช่วยลดค่าใช้จ่ายในการประมวลผลล่วงหน้าและปรับปรุงความชัดเจนของตัวแทนเสียงสำหรับสถานการณ์การทำธุรกรรมและการสนับสนุน

LoRA ที่คล่องแคล่วและการโคลนเสียงที่ได้รับการปรับปรุง

Speech 2.6 แนะนำสิ่งที่ MiniMax เรียกว่า LoRA ที่คล่องแคล่ว—การปรับปรุงการดัดแปลงแบบ LoRA ที่ใช้สำหรับการโคลนเสียง ประโยชน์ที่ระบุไว้คือ แม้แต่เสียงต้นฉบับที่มีสำเนียง เสียงไม่ชัด หรือคุณภาพต่ำกว่า ก็สามารถแปลงเป็นเสียงโคลนที่ลื่นไหลและถูกต้องตามระดับเสียงได้ MiniMax กล่าวว่า Fluent LoRA รองรับการเพิ่มประสิทธิภาพความลื่นไหลด้วยการคลิกเพียงครั้งเดียวในกว่า 40 ภาษาช่วยให้สามารถโคลนเสียงที่สอดคล้องและ "พูด" ได้อย่างชัดเจนในภาษาเป้าหมายและตามเสียงพูด นี่เป็นก้าวสำคัญสำหรับบริษัทที่ต้องการโคลนเสียงที่ถูกต้องและถูกต้องตามกฎหมายสำหรับลูกค้าทั่วโลก

สายผลิตภัณฑ์หลายรุ่น: Turbo เทียบกับ HD

MiniMax นำเสนอ Speech 2.6 อย่างน้อยสองรูปแบบหลัก:

กังหัน — ปรับให้เหมาะสมสำหรับแอปพลิเคชันที่มีความหน่วงต่ำและแบบเรียลไทม์ (ตัวแทนแบบอินเทอร์แอคทีฟ บอทแบบสด) เน้นความเร็วและความคุ้มค่า ขณะเดียวกันก็ยังคงรองรับหลายภาษาและควบคุมอารมณ์ได้ดี
HD — เอาต์พุตระดับสตูดิโอที่ปรับแต่งมาสำหรับการบรรยาย หนังสือเสียง การพากย์เสียงเพื่อการตลาด และการใช้งานใดๆ ที่ต้องการความเที่ยงตรงสูงสุดและความคมชัดในการแสดงออก (ลมหายใจ วลี คิวเสียงโปรโซดิกที่ละเอียดอ่อน) HD ยังเพิ่มคุณสมบัติต่างๆ เช่น การส่งออกคำบรรยายและการควบคุมอารมณ์ที่สมบูรณ์ยิ่งขึ้น

การแสดงออกและการควบคุมเสียง

Speech 2.6 นำเสนอปุ่มควบคุมการแสดงออก (อารมณ์ รูปแบบการพูด ความเร็ว ระดับเสียง) และโมเดลเสียงพูดที่ได้รับการปรับปรุงให้ดีขึ้น เรียกว่า “Fluent” (อารมณ์) ในเวอร์ชัน HD ผลลัพธ์ — จากเดโมและตัวอย่างแพลตฟอร์ม — คือการเปลี่ยนผ่านประโยคที่ราบรื่นขึ้น และจังหวะที่เป็นธรรมชาติมากขึ้นในการเปล่งเสียงหลายประโยค ทำให้ Speech 2.6 เหมาะกับงานที่เสียงต้อง “แสดงออก” (เช่น ความเห็นอกเห็นใจในฝ่ายบริการลูกค้า การเรียนรู้แบบมีไกด์) มากกว่าการอ่านเนื้อหาแบบโทนเดียว

กรณีการใช้งานจริงใดบ้างที่ได้รับประโยชน์สูงสุดจาก Speech 2.6?

ตัวแทนเสียงและการสนับสนุนลูกค้า

การผสมผสานระหว่างความหน่วงต่ำ เสียงธรรมชาติ และการอ่านเอนทิตีที่แม่นยำทำให้ Speech 2.6 เหมาะเป็นอย่างยิ่ง ตัวแทนเสียงสนทนา ลองนึกถึงระบบตอบรับอัตโนมัติ (IVR) แบบอินเทอร์แอคทีฟ บริการลูกค้าอัตโนมัติ และผู้ช่วยเสมือนที่ต้องตอบสนองแบบเรียลไทม์และอ่านเนื้อหาแบบไดนามิก (หมายเลขคำสั่งซื้อ วันที่ ยอดคงเหลือในบัญชี) ได้อย่างแม่นยำโดยไม่เกิดข้อผิดพลาด ความหน่วงที่ลดลงช่วยลดความล่าช้าระหว่างการใช้งานและการตอบกลับของเจ้าหน้าที่ ซึ่งช่วยปรับปรุงการตอบสนองที่รับรู้ได้

อุปกรณ์อัจฉริยะและสถานการณ์ฝังตัว

สำหรับอุปกรณ์สำหรับผู้บริโภค (ลำโพงอัจฉริยะ, ระบบช่วยเหลือในรถยนต์, อุปกรณ์ IoT) โปรไฟล์การตอบสนองที่รวดเร็วของรุ่น Turbo ช่วยให้ตอบสนองได้เกือบเรียลไทม์ แม้ในยามที่งบประมาณการประมวลผลมีจำกัด ผู้ผลิตสามารถใช้รุ่นย่อยหรือการสังเคราะห์เสียงแบบเซิร์ฟเวอร์ช่วย เพื่อรักษาคุณภาพและการตอบสนองที่รวดเร็ว

สื่อ การบรรยาย และการแปล

รูปแบบ HD มุ่งเน้นไปที่การบรรยายหนังสือเสียง สกินเสียงพอดแคสต์ และการสร้างเนื้อหาหลายภาษา ซึ่งความละเอียดอ่อนในการแสดงออกเป็นสิ่งสำคัญ การโคลนเสียงที่ลื่นไหลช่วยลดระยะเวลาในการดำเนินการสำหรับการบรรยายเฉพาะบุคคลหรือการสร้างเสียงที่ปลอดภัยต่อแบรนด์สำหรับตลาดระดับภูมิภาค

การศึกษา การเข้าถึง และประสบการณ์ส่วนบุคคล

เนื่องจากโมเดลนี้รองรับการโคลนอย่างรวดเร็วและการควบคุมการแสดงออก จึงสามารถใช้เสียงการเรียนรู้ส่วนบุคคล (ตัวตนของผู้สอน) เครื่องมือช่วยการเข้าถึงการอ่านออกเสียงที่มีระดับเสียงที่เป็นมนุษย์มากขึ้น และสำเนียงที่เหมาะสมตามภูมิภาค ซึ่งจะช่วยปรับปรุงความเข้าใจและการมีส่วนร่วม

ข้อสรุปสุดท้าย:

MiniMax Speech 2.6 คือการผลักดันที่เน้นนักพัฒนาและเน้นการใช้งานจริงไปสู่ตัวแทนเสียงแบบเรียลไทม์ที่เหมือนมนุษย์ ด้วยการมุ่งเน้นไปที่ความหน่วง การแยกวิเคราะห์อัจฉริยะ และการโคลนนิ่งที่มีประสิทธิภาพ MintMax ได้แก้ไขจุดเสียดทานที่สำคัญที่สุดสองประการใน TTS สมัยใหม่: ระยะเวลา (เพื่อให้เสียงสามารถร่วมสนทนาได้) และ ความถูกต้องตามบริบท (เพื่อให้ตัวเลข ลิงก์ และข้อมูลสามารถอ่านได้อย่างเป็นธรรมชาติ) การผสมผสานนี้ทำให้ Speech 2.6 เป็นตัวเลือกที่น่าสนใจสำหรับบริษัทต่างๆ ที่กำลังสร้าง UI เสียง ตัวแทนสด และประสบการณ์เสียงเฉพาะพื้นที่

เริ่มต้นใช้งาน

CometAPI เป็นแพลตฟอร์ม API แบบรวมที่รวบรวมโมเดล AI มากกว่า 500 โมเดลจากผู้ให้บริการชั้นนำ เช่น ซีรีส์ GPT ของ OpenAI, Gemini ของ Google, Claude ของ Anthropic, Midjourney, Suno และอื่นๆ ไว้ในอินเทอร์เฟซเดียวที่เป็นมิตรกับนักพัฒนา ด้วยการนำเสนอการตรวจสอบสิทธิ์ การจัดรูปแบบคำขอ และการจัดการการตอบสนองที่สอดคล้องกัน CometAPI จึงทำให้การรวมความสามารถของ AI เข้ากับแอปพลิเคชันของคุณง่ายขึ้นอย่างมาก ไม่ว่าคุณจะกำลังสร้างแชทบ็อต เครื่องกำเนิดภาพ นักแต่งเพลง หรือไพพ์ไลน์การวิเคราะห์ที่ขับเคลื่อนด้วยข้อมูล CometAPI ช่วยให้คุณทำซ้ำได้เร็วขึ้น ควบคุมต้นทุน และไม่ขึ้นอยู่กับผู้จำหน่าย ทั้งหมดนี้ในขณะที่ใช้ประโยชน์จากความก้าวหน้าล่าสุดในระบบนิเวศ AI

ปัจจุบันโมเดล MiniMax Speech 2.6 ยังอยู่ระหว่างการผสานรวม นักพัฒนาสามารถเข้าถึงโมเดล tts อื่นๆ เช่น gpt-4o-audio-preview-2025-06-03 ผ่าน CometAPI รุ่นใหม่ล่าสุด ได้รับการอัปเดตอยู่เสมอจากเว็บไซต์อย่างเป็นทางการ เริ่มต้นด้วยการสำรวจความสามารถของโมเดลใน สนามเด็กเล่น และปรึกษา คู่มือ API สำหรับคำแนะนำโดยละเอียด ก่อนเข้าใช้งาน โปรดตรวจสอบให้แน่ใจว่าคุณได้เข้าสู่ระบบ CometAPI และได้รับรหัส API แล้ว โคเมทเอพีไอ เสนอราคาที่ต่ำกว่าราคาอย่างเป็นทางการมากเพื่อช่วยคุณบูรณาการ

พร้อมไปหรือยัง?→ ลงทะเบียน CometAPI วันนี้ !

หากคุณต้องการทราบเคล็ดลับ คำแนะนำ และข่าวสารเกี่ยวกับ AI เพิ่มเติม โปรดติดตามเราที่ VK, X และ ไม่ลงรอยกัน!

MiniMax เปิดตัว MiniMax Speech 2.6 — เจาะลึกโมเดล Speech ใหม่