MiniMax đã được công bố MiniMax Speech 2.6, công cụ chuyển văn bản thành giọng nói (TTS) / văn bản thành âm thanh mới nhất của công ty, được tối ưu hóa cho các tác nhân giọng nói thời gian thực, sao chép giọng nói và tường thuật độ trung thực cao. Bản cập nhật tập trung vào độ trễ cực thấp, xử lý thông minh hơn các định dạng kỹ thuật (URL, số điện thoại, ngày tháng, số tiền) và quy trình "Fluent LoRA" mới để làm cho giọng nói được sao chép nghe tự nhiên và trôi chảy trên nhiều ngôn ngữ. Mô hình này có sẵn ở cả hai phiên bản độ trễ thấp Turbo biến thể và độ trung thực cao HD biến thể; có thể truy cập thông qua nền tảng của MiniMax và thông qua các thị trường mô hình của bên thứ ba.
MiniMax Speech 2.6 là gì và tại sao ngành công nghiệp lại quan tâm?
MiniMax đã âm thầm — và rồi lại âm thầm — tiến thêm một bước nữa trong cuộc đua thương mại nhằm tạo ra những giọng nói tổng hợp không thể phân biệt được với giọng nói thật của con người. Phiên bản mới nhất của công ty, MiniMax Speech 2.6, là một hệ thống chuyển văn bản thành giọng nói (TTS) thế hệ tiếp theo được thiết kế đặc biệt cho các tình huống hội thoại có độ trễ thấp, tự nhiên như tổng đài viên giọng nói, hỗ trợ khách hàng trực tiếp và các thiết bị tương tác. Theo thông báo sản phẩm của MiniMax và nhiều bài viết của bên thứ ba, Speech 2.6 kết hợp những cải tiến về hiệu suất thời gian thực (độ trễ đầu cuối dưới 250 mili giây), ngữ điệu trôi chảy hơn và khả năng sao chép giọng nói nhanh hơn, chất lượng cao hơn so với các phiên bản trước.
Nói một cách đơn giản: trong khi các hệ thống TTS trước đây nhấn mạnh vào độ trung thực ngoại tuyến cho việc tường thuật và sản xuất âm thanh, thì Speech 2.6 nhắm mục tiêu tương tác thời gian thực — phát âm đủ nhanh và tự nhiên để có thể sử dụng trong các cuộc trò chuyện trực tiếp mà không bị ngắt quãng một cách gượng gạo hay có nhịp điệu máy móc.
Những tính năng nổi bật của Speech 2.6 là gì?
Độ trễ cực thấp: dưới 250 ms
Một trong những tuyên bố nổi bật từ MiniMax là độ trễ đầu cuối dưới 250 mili giây đối với phiên bản Turbo. Con số này nhằm mục đích làm cho việc tạo âm thanh trở nên vô hình trong nhiều tình huống hội thoại thời gian thực (trợ lý giọng nói tương tác, hỗ trợ trực tiếp trong ứng dụng, v.v.), và công ty cho biết họ đã đạt được điều này thông qua tối ưu hóa đường truyền và kỹ thuật mô hình tập trung vào giải mã luồng và gia tăng. Nếu sản phẩm của bạn yêu cầu cảm giác nhận được phản hồi ngay lập tức từ trợ lý giọng nói, thì con số dưới 250 ms là thước đo chính cần đánh giá.
Xử lý định dạng chuyên biệt: đọc số điện thoại và URL chính xác
Speech 2.6 bổ sung khả năng xử lý thông minh hơn các "định dạng chuyên biệt": số điện thoại, địa chỉ IP, URL, địa chỉ email, ngày tháng và số tiền. Thay vì buộc các nhà tích hợp phải chuẩn hóa trước hoặc thay thế các mã thông báo này, mô hình tự nhận dạng và diễn đạt chúng theo những cách phù hợp, thân thiện với con người (ví dụ: diễn giải $1,234.56 (ví dụ như “một nghìn hai trăm ba mươi bốn đô la và năm mươi sáu xu” thay vì viết ra từng ký tự). Điều này làm giảm chi phí xử lý trước và cải thiện độ rõ ràng của tác nhân giọng nói cho các tình huống giao dịch và hỗ trợ.
Fluent LoRA và cải thiện khả năng sao chép giọng nói
Bài phát biểu 2.6 giới thiệu những gì MiniMax gọi là LoRA trôi chảy—một cải tiến của công nghệ chuyển đổi theo phong cách LoRA được sử dụng để sao chép giọng nói. Lợi ích được nêu rõ là ngay cả các bản ghi âm gốc có giọng điệu, giọng nói không trôi chảy hoặc chất lượng thấp hơn cũng có thể được chuyển đổi thành giọng nói sao chép trôi chảy, trung thực về âm sắc. MiniMax cho biết Fluent LoRA hỗ trợ tối ưu hóa độ trôi chảy chỉ bằng một cú nhấp chuột trên hơn 40 ngôn ngữ, cho phép các giọng nói được sao chép nhất quán, "nói" rõ ràng bằng ngôn ngữ và ngữ điệu đích. Đây là một bước quan trọng đối với các công ty muốn sao chép giọng nói chính xác, tuân thủ pháp luật cho khách hàng toàn cầu.
Dòng sản phẩm đa dạng: Turbo so với HD
MiniMax cung cấp ít nhất hai biến thể chính của Speech 2.6:
- Turbo — được tối ưu hóa cho các ứng dụng có độ trễ thấp và thời gian thực (tác nhân tương tác, bot trực tiếp). Giải pháp này nhấn mạnh vào tốc độ và hiệu quả chi phí, đồng thời vẫn duy trì phạm vi phủ sóng đa ngôn ngữ mạnh mẽ và khả năng kiểm soát cảm xúc.
- HD — đầu ra chất lượng phòng thu được tinh chỉnh cho thuyết minh, sách nói, lồng tiếng tiếp thị và bất kỳ mục đích sử dụng nào cần độ trung thực và sắc thái biểu cảm tối đa (hơi thở, cách diễn đạt, tín hiệu âm điệu tinh tế). HD cũng bổ sung các tính năng như xuất phụ đề và kiểm soát cảm xúc phong phú hơn.
Kiểm soát khả năng biểu đạt và ngữ điệu
Speech 2.6 giới thiệu các nút điều chỉnh biểu cảm mới (cảm xúc, phong cách nói, tốc độ, cao độ) và một mô hình ngữ điệu được cải tiến mang tên "Fluent" (cảm xúc trôi chảy) trong phiên bản HD. Kết quả — theo các bản demo và ví dụ nền tảng — là sự chuyển tiếp mượt mà hơn giữa các câu và nhịp điệu giống người hơn trong các câu phát âm nhiều câu. Điều này giúp Speech 2.6 phù hợp hơn với các tác vụ đòi hỏi giọng nói phải "hành động" (ví dụ: hỗ trợ khách hàng, đồng cảm, học tập có hướng dẫn) thay vì chỉ đọc nội dung đều đều.
Những trường hợp sử dụng thực tế nào được hưởng lợi nhiều nhất từ Speech 2.6?
Nhân viên hỗ trợ giọng nói và khách hàng
Sự kết hợp giữa độ trễ thấp, ngữ điệu tự nhiên và khả năng đọc thực thể chính xác khiến Speech 2.6 đặc biệt phù hợp với tác nhân giọng nói đàm thoại — hãy nghĩ đến IVR tương tác, dịch vụ khách hàng tự động và trợ lý ảo phải phản hồi trực tiếp và đọc nội dung động (số đơn hàng, ngày tháng, số dư tài khoản) mà không bị sai sót. Độ trễ thấp hơn giúp giảm thiểu khoảng lặng giữa lượt người dùng và phản hồi của nhân viên, cải thiện khả năng phản hồi.
Thiết bị thông minh và kịch bản nhúng
Đối với các thiết bị tiêu dùng (loa thông minh, trợ lý trên xe hơi, thiết bị IoT), cấu hình phản hồi nhanh của phiên bản Turbo giúp cung cấp phản hồi gần như theo thời gian thực ngay cả khi ngân sách tính toán hạn chế. Các nhà sản xuất có thể sử dụng các phiên bản mini hoặc tổng hợp hỗ trợ máy chủ để duy trì chất lượng trong khi vẫn đảm bảo tương tác nhanh chóng.
Phương tiện truyền thông, tường thuật và bản địa hóa
Các biến thể HD nhắm đến việc thuyết minh sách nói, giao diện giọng nói podcast và tạo nội dung đa ngôn ngữ, nơi mà sắc thái biểu cảm được coi trọng. Việc sao chép giọng nói lưu loát giúp rút ngắn thời gian xử lý cho việc thuyết minh riêng hoặc tạo giọng nói an toàn cho thương hiệu tại các thị trường khu vực.
Giáo dục, khả năng tiếp cận và trải nghiệm cá nhân hóa
Vì mô hình này hỗ trợ sao chép nhanh và kiểm soát khả năng biểu đạt nên có thể hỗ trợ giọng nói học tập được cá nhân hóa (nhân vật gia sư), các công cụ trợ năng đọc to với ngữ điệu giống người hơn và giọng điệu phù hợp với từng vùng miền giúp cải thiện khả năng hiểu và tương tác.
Những điều rút ra cuối cùng:
MiniMax Speech 2.6 là một bước tiến thực dụng, hướng đến nhà phát triển, hướng đến các tác nhân giọng nói thời gian thực, giống người. Bằng cách tập trung vào độ trễ, phân tích cú pháp thông minh và sao chép mạnh mẽ, MintMax đang giải quyết hai điểm yếu lớn nhất trong TTS hiện đại: thời gian (để giọng nói có thể tham gia vào cuộc trò chuyện) và tính chính xác theo ngữ cảnh (để các số liệu, liên kết và dữ liệu được đọc một cách tự nhiên). Sự kết hợp này khiến Speech 2.6 trở thành một lựa chọn hấp dẫn cho các công ty xây dựng giao diện người dùng giọng nói, nhân viên trực tiếp và trải nghiệm âm thanh bản địa hóa.
Bắt đầu
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Mô hình MiniMax Speech 2.6 hiện vẫn đang trong quá trình tích hợp. Giờ đây, các nhà phát triển có thể truy cập các mô hình tts khác như gpt-4o-audio-preview-2025-06-03 thông qua CometAPI. phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
