MiniMax, công ty khởi nghiệp AI của Trung Quốc, đã công khai phát hành các trọng số và công cụ cho MiniMax M2, mô hình ngôn ngữ lớn mới nhất của hãng được thiết kế đặc biệt cho quy trình làm việc mã hóa và sử dụng công cụ tác nhân. Công ty cho biết M2 được xây dựng theo thiết kế kết hợp chuyên gia (MoE) hiệu quả, mang lại hiệu suất mã hóa và tác nhân hàng đầu với chi phí chỉ bằng một phần nhỏ so với các mô hình độc quyền tương đương. Tôi sẽ giải thích tại sao MiniMax M2 lại là vua về hiệu quả chi phí, xét trên các tính năng, hiệu suất chuẩn, kiến trúc và chi phí.
MiniMax M2 là gì?
MiniMax M2 là mô hình ngôn ngữ lớn nguồn mở mới nhất của MiniMax chủ yếu dành cho mã hóa, quy trình làm việc của tác nhân nhiều bước và gọi công cụ. Mô hình sử dụng kiến trúc Hỗn hợp chuyên gia: nó có một Tổng số dấu chân tham số, nhưng chỉ có một số lượng khiêm tốn các tham số là kích hoạt trên mỗi mã thông báo trong quá trình suy luận — một thiết kế giúp giảm chi phí suy luận và độ trễ trong khi vẫn duy trì khả năng lập luận và mã hóa mạnh mẽ.
Những con số tiêu đề chính (khi phát hành)
- Tổng ngân sách tham số: ~230 tỷ (tổng cộng).
- Tham số được kích hoạt/có hiệu lực trên mỗi mã thông báo: ~10 tỷ (đã kích hoạt).
- Cửa sổ ngữ cảnh (đã báo cáo): lên đến ~204,800 mã thông báo
- Giấy phép: MIT (trọng số nguồn mở).
- Yêu cầu về chi phí và tốc độ: Chi phí cho mỗi mã thông báo chỉ bằng 8% so với Anthropic Claude Sonnet và tốc độ nhanh gấp khoảng hai lần.
Những tính năng nổi bật của MiniMax M2 là gì?
Hành vi hướng đến tác nhân/công cụ
MiniMax M2 Các gói tích hợp hỗ trợ rõ ràng cho việc gọi công cụ, lời nhắc có cấu trúc và các mẫu suy luận xen kẽ → hành động → xác minh, giúp việc xây dựng các tác nhân tự động gọi API bên ngoài, chạy mã hoặc vận hành thiết bị đầu cuối trở nên dễ dàng. Một số công thức tích hợp nhắm mục tiêu đến thời gian chạy tác nhân và ngăn xếp vLLM/accelerate.
Được tối ưu hóa cho các tác vụ mã hóa và nhiều tệp
Các điểm chuẩn được báo cáo trên Hugging Face và các phân tích của bên thứ ba cho thấy hiệu suất mạnh mẽ trên các bộ kiểm thử hướng đến nhà phát triển (kiểm thử đơn vị, mô phỏng thiết bị đầu cuối, tổng hợp đa tệp), trong đó M2 đạt điểm cao so với các mô hình mở và đóng khác. Điều này phù hợp với trọng tâm sản phẩm đã được MiniMax nêu rõ là tập trung vào công cụ phát triển và trợ lý mã hóa.
Hiệu quả của hỗn hợp chuyên gia thưa thớt (MoE)
Thay vì một tập hợp tham số dày đặc duy nhất, MiniMax M2 sử dụng hỗn hợp chuyên gia thưa thớt Chiến lược định tuyến này cho phép chỉ một tập hợp con của toàn bộ ngân hàng tham số được kích hoạt trên mỗi mã thông báo. Điều này mang lại tổng số tham số lớn nhưng nhỏ hơn nhiều. kích hoạt dấu chân tham số trong quá trình suy luận — cải thiện hiệu quả về chi phí và độ trễ cho nhiều khối lượng công việc.
MiniMax M2 hoạt động bên trong như thế nào?
Kiến trúc cấp cao
Theo thông tin kỹ thuật và báo cáo độc lập của MiniMax, MiniMax M2 được thực hiện như một máy biến áp MoE thưa thớt với các quyết định thiết kế sau đây được báo cáo rộng rãi:
- Rất lớn Tổng số số lượng tham số (được báo chí đưa tin là vào khoảng hàng trăm tỷ), với chỉ một nhóm chuyên gia được kích hoạt trên mỗi mã thông báo (báo chí đề cập đến các ví dụ như tổng cộng 230 tỷ với ~10 tỷ hoạt động cho mỗi suy luận trong các báo cáo ban đầu). Đây là sự đánh đổi kinh điển của MoE: mở rộng năng lực mà không cần chi phí suy luận tuyến tính.
- Định tuyến: định tuyến chuyên gia top-k (Top-2 hoặc Top-K) gửi từng mã thông báo đến một số lượng nhỏ chuyên gia để khối lượng tính toán thưa thớt và có thể dự đoán được.
- Mã hóa sự chú ý & vị trí: các mô hình chú ý lai (ví dụ: kết hợp các hạt nhân chú ý dày đặc và hiệu quả) và mã hóa vị trí kiểu quay hiện đại hoặc kiểu RoPE được đề cập trong tài liệu mô hình cộng đồng và thẻ mô hình Hugging Face. Những lựa chọn này cải thiện hành vi ngữ cảnh dài, vốn quan trọng đối với mã hóa đa tệp và bộ nhớ tác nhân.
Tại sao MoE thưa thớt lại giúp ích cho quy trình làm việc của tác nhân
Quy trình làm việc của Agentic thường đòi hỏi sự kết hợp giữa lập luận, tạo mã, điều phối công cụ và lập kế hoạch trạng thái. Với MoE, MiniMax M2 có thể cung cấp nhiều mô-đun con chuyên gia chuyên biệt (ví dụ: chuyên gia giỏi mã hóa, chuyên gia được điều chỉnh để định dạng công cụ, chuyên gia để truy xuất dữ liệu thực tế) trong khi chỉ kích hoạt các chuyên gia cần thiết cho mỗi mã thông báo. Sự chuyên biệt hóa này cải thiện cả thông lượng và độ chính xác cho các tác vụ phức hợp, đồng thời giảm chi phí suy luận so với một mô hình mật độ lớn đồng đều.
Ghi chú đào tạo và tinh chỉnh (những gì MiniMax đã xuất bản)
MiniMax trích dẫn sự kết hợp giữa mã, điều chỉnh hướng dẫn, văn bản web và tập dữ liệu vòng lặp tác nhân để tạo nên sự thành thạo trong hướng dẫn và công cụ của M2.
Tại sao cần MoE cho tác nhân và mã?
MoE cho phép bạn mở rộng dung lượng mô hình (để có khả năng suy luận và đa phương thức tốt hơn) mà không cần tăng tuyến tính FLOP suy luận cho mỗi mã thông báo. Đối với các tác nhân và trợ lý mã hóa — những người thường xuyên thực hiện nhiều truy vấn tương tác ngắn và gọi các công cụ bên ngoài — tính năng kích hoạt có chọn lọc của MoE giúp duy trì độ trễ và chi phí đám mây ở mức hợp lý, đồng thời vẫn giữ được lợi ích về dung lượng của một mô hình rất lớn.
Hiệu suất chuẩn
Theo đánh giá độc lập của Artificial Analysis, một tổ chức nghiên cứu và chuẩn mực mô hình AI tạo ra của bên thứ ba, M2 hiện đang xếp hạng nhất trong số tất cả các hệ thống có trọng số nguồn mở trên toàn cầu về "Chỉ số thông minh", một thước đo toàn diện về hiệu suất lập luận, mã hóa và thực hiện tác vụ.

Thẻ mô hình của MiniMax hiển thị kết quả so sánh trên mã hóa / tác nhân bộ chuẩn (SWE-bench, Terminal-Bench, BrowseComp, GAIA, τ²-Bench, v.v.). Trong các bảng đã công bố, M2 cho thấy điểm số cao về mã hóa và các tác vụ công cụ nhiều bước, và MiniMax làm nổi bật điểm số tổng hợp về trí tuệ cạnh tranh/tác nhân so với các mô hình mở khác.
Những điểm số này đưa nó ngang bằng hoặc gần ngang bằng với các hệ thống độc quyền hàng đầu như GPT-5 (suy nghĩ) và Claude Sonnet 4.5, khiến MiniMax-M2 trở thành mô hình mở có hiệu suất cao nhất cho đến nay đối với các tác vụ gọi công cụ và tác nhân thực tế.

MiniMax-M2 đạt hiệu suất cao nhất hoặc gần cao nhất ở nhiều hạng mục:
- SWE-bench đã xác minh: 69.4 — gần với 74.9 của GPT-5
- ArtifactsBench: 66.8 — cao hơn Claude Sonnet 4.5 và DeepSeek-V3.2
- τ²-Bench: 77.2 — gần bằng 80.1 của GPT-5
- GAIA (chỉ văn bản): 75.7 — vượt qua DeepSeek-V3.2
- BrowseComp: 44.0 — mạnh hơn đáng kể so với các mô hình mở khác
- FinSearchComp-global: 65.5 — tốt nhất trong số các hệ thống trọng số mở đã được thử nghiệm
Chi phí và giá cả
MiniMax công khai niêm yết giá API rất cạnh tranh 0.30 đô la cho mỗi 1,000,000 mã thông báo đầu vào và 1.20 đô la cho mỗi 1,000,000 mã thông báo đầu ra. Công ty cũng báo cáo số liệu thông lượng suy luận (TPS) trên điểm cuối được lưu trữ của mình ~100 mã thông báo/giây (và tuyên bố họ đang cải thiện nó). CometAPI giảm giá 20% so với giá chính thức khi truy cập MiniMax M2 API.
Giải thích nhanh
- Giá token đầu vào cực kỳ rẻ so với nhiều mô hình thương mại; giá token đầu ra đắt hơn nhưng vẫn thấp so với nhiều giải pháp thay thế đóng khác.
- Thông lượng (token/giây) và độ trễ sẽ phụ thuộc rất nhiều vào lựa chọn triển khai (lưu trữ so với tự lưu trữ, loại GPU, xử lý hàng loạt, lượng tử hóa). Chỉ sử dụng TPS đã công bố làm cơ sở cho việc lập kế hoạch API lưu trữ.
Những trường hợp sử dụng tốt nhất cho MiniMax M2 là gì?
1) Trợ lý phát triển toàn diện (viết mã → chạy → sửa → xác minh)
MiniMax M2 được thiết kế chuyên dụng cho việc chỉnh sửa nhiều tệp, vòng lặp biên dịch/chạy/sửa lỗi và tự động hóa CI/IDE—trong đó mô hình phải ghi nhớ các cơ sở mã lớn hoặc các bản ghi terminal dài và điều phối các lệnh gọi công cụ (build, test, lint, git). Các điểm chuẩn và thử nghiệm cộng đồng ban đầu đã đưa nó lên vị trí cao trong số các bộ mã hóa/agent.
Dòng chảy điển hình: lấy kho lưu trữ → chạy thử nghiệm bên trong hộp cát → phân tích lỗi → tạo bản vá → chạy thử nghiệm lại → mở PR nếu màu xanh lá cây.
2) Các tác nhân nhiều bước và RPA (công cụ + bộ nhớ)
Các ứng dụng Agentic cần lập kế hoạch, gọi công cụ và phục hồi (duyệt web, thiết bị đầu cuối, cơ sở dữ liệu, API tùy chỉnh) được hưởng lợi từ ngữ cảnh dài và chức năng/công cụ có cấu trúc. Khả năng ngữ cảnh dài của M2 cho phép bạn lưu trữ kế hoạch, nhật ký và trạng thái trong bộ nhớ mà không cần truy xuất dữ liệu bên ngoài.
3) Lý luận dài dòng và hỗ trợ khách hàng (sổ tay hướng dẫn, tài liệu hướng dẫn)
Vì M2 hỗ trợ ngữ cảnh rất lớn nên bạn có thể cung cấp toàn bộ hướng dẫn sử dụng sản phẩm, sổ tay hướng dẫn hoặc lịch sử hội thoại dài của người dùng mà không cần phân đoạn nhiều — lý tưởng cho tự động hóa hỗ trợ ngữ cảnh phong phú, lập luận chính sách và kiểm tra tính tuân thủ.
4) Nghiên cứu và thử nghiệm (trọng lượng mở, sử dụng cho phép)
Với trọng số mở trên Hugging Face, bạn có thể chạy thử nghiệm (tinh chỉnh tùy chỉnh, nghiên cứu MoE, chiến lược định tuyến mới hoặc cơ chế an toàn) cục bộ hoặc trên các cụm riêng. Điều này khiến M2 trở nên hấp dẫn đối với các phòng thí nghiệm và nhóm muốn kiểm soát toàn diện.
Khuyến nghị thực tế cho các kỹ sư và nhóm sản phẩm
Nếu bạn muốn thử nghiệm nhanh: Sử dụng API đám mây MiniMax (tương thích với Anthropic/OpenAI). API này loại bỏ rào cản hạ tầng cục bộ và cho phép bạn truy cập ngay vào các tính năng gọi công cụ và ngữ cảnh dài.
Nếu bạn cần kiểm soát và tối ưu hóa chi phí: Tải xuống các trọng số từ Hugging Face và sử dụng với vLLM hoặc SGLang. Dự kiến sẽ đầu tư vào kỹ thuật cho phân mảnh MoE và tinh chỉnh suy luận cẩn thận. Kiểm tra bộ nhớ, chi phí và độ trễ so với khối lượng công việc thực tế của bạn (các tác nhân nhiều lượt và các tác vụ mã hóa nhiều tệp).
Kiểm tra và an toàn: Tự mình thực hiện các bài kiểm tra nhóm đỏ, bộ lọc an toàn và xác thực công cụ. Trọng số mở giúp đẩy nhanh quá trình nghiên cứu nhưng cũng đồng nghĩa với việc kẻ xấu có thể lặp lại hành vi nhanh chóng; hãy xây dựng các bộ phát hiện và kiểm tra vòng lặp con người khi cần thiết.
Kết luận
MiniMax M2 đại diện cho một bước ngoặt đáng chú ý trong hệ sinh thái LLM nguồn mở: một mô hình lớn, lấy tác nhân làm trung tâm, được cấp phép rộng rãi, ưu tiên việc mã hóa và sử dụng công cụ, đồng thời hướng đến việc duy trì chi phí suy luận ở mức khả thi thông qua định tuyến MoE thưa thớt. Đối với các tổ chức đang xây dựng công cụ dành cho nhà phát triển, tác nhân tự động hoặc nhóm nghiên cứu cần truy cập vào trọng số để tinh chỉnh, M2 cung cấp một lựa chọn hấp dẫn, có thể sử dụng ngay lập tức — miễn là nhóm được chuẩn bị để quản lý sự phức tạp của việc triển khai MoE.
Cách truy cập API MiniMax M2
CometAPI là một nền tảng API hợp nhất tổng hợp hơn 500 mô hình AI từ các nhà cung cấp hàng đầu—chẳng hạn như dòng GPT của OpenAI, Gemini của Google, Claude của Anthropic, Midjourney, Suno, v.v.—thành một giao diện duy nhất thân thiện với nhà phát triển. Bằng cách cung cấp xác thực nhất quán, định dạng yêu cầu và xử lý phản hồi, CometAPI đơn giản hóa đáng kể việc tích hợp các khả năng AI vào ứng dụng của bạn. Cho dù bạn đang xây dựng chatbot, trình tạo hình ảnh, nhà soạn nhạc hay đường ống phân tích dựa trên dữ liệu, CometAPI cho phép bạn lặp lại nhanh hơn, kiểm soát chi phí và không phụ thuộc vào nhà cung cấp—tất cả trong khi khai thác những đột phá mới nhất trên toàn bộ hệ sinh thái AI.
Các nhà phát triển có thể truy cập API Minimax M2 thông qua CometAPI, phiên bản mẫu mới nhất luôn được cập nhật trên trang web chính thức. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Sân chơi và tham khảo ý kiến Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập vào CometAPI và lấy được khóa API. Sao chổiAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.
Sẵn sàng chưa?→ Đăng ký CometAPI ngay hôm nay !
Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!
