MiniMax M2.5: Điểm chuẩn lập trình, Bảng giá và Hướng dẫn sử dụng

MiniMax đã công bố MiniMax M2.5, một mô hình mục đích chung được nâng cấp toàn diện, được định vị là mô hình được xây dựng đặc biệt cho các quy trình tác tử (agent), sinh mã và “năng suất trong thế giới thực”. Công ty mô tả M2.5 là kết quả của quá trình huấn luyện tăng cường rộng rãi trong hàng trăm nghìn môi trường phức tạp, mang lại những cải thiện lớn trong các điểm chuẩn mã hóa, sử dụng công cụ và suy luận ngữ cảnh dài, đồng thời thúc đẩy hiệu quả suy luận và hiệu quả chi phí.

Bạn đã có thể thấy MiniMax M2.5 trên CometAPI. Giá của nó là 20% so với giá chính thức trong CometAPI.

MiniMax M2.5 là gì và vì sao quan trọng?

MiniMax M2.5 là bản phát hành lớn mới nhất từ MiniMax, một dòng mô hình được định vị xoay quanh thông lượng cao, các quy trình tác tử và — trên hết — năng suất mã hóa. Được công bố vào giữa tháng 2 năm 2026, M2.5 mở rộng công trình M-series trước đó của công ty với cửa sổ ngữ cảnh lớn hơn, các nguyên thủy tích hợp công cụ chặt chẽ hơn, và nhấn mạnh huấn luyện vào “không gian làm việc thuần AI” nơi mô hình chủ động điều phối tìm kiếm trình duyệt, gọi API và các bước thực thi mã thay vì chỉ trả về văn bản. Thông điệp ra mắt định vị M2.5 không chỉ là nâng cấp hội thoại tổng quát, mà là một bước đi cấp nền tảng: nhằm tăng tốc năng suất nhà phát triển, tự động hóa các tác vụ kỹ thuật lặp lại, và đóng vai trò động cơ cho các sản phẩm do tác tử điều khiển.

Lý do điều này quan trọng hiện nay có hai khía cạnh. Thứ nhất, mô hình đạt một tập các điểm chuẩn thực tiễn và mục tiêu thông lượng khiến nó hấp dẫn cho hệ thống sản xuất (không chỉ là demo nghiên cứu). Thứ hai, bản phát hành cho thấy các nhà cung cấp đang ưu tiên tích hợp công cụ và hiệu quả token: M2.5 được tinh chỉnh rõ ràng để giảm số vòng gọi công cụ và tiêu hao token trong các tác vụ nhiều bước, điều này chuyển hóa trực tiếp thành chi phí và độ trễ thấp hơn trong triển khai thực tế.

MiniMax M2.5 thể hiện thế nào trên các điểm chuẩn mã hóa?

Tổng quan về hiệu năng mã hóa

MiniMax M2.5 nhanh chóng thu hút chú ý nhờ hiệu năng trên các bộ điểm chuẩn mã hóa tiêu chuẩn được dùng rộng rãi trong ngành AI để đánh giá khả năng sinh mã và suy luận thực tiễn:

Bộ tiêu chuẩn đánh giá	Kết quả M2.5	Giải thích
SWE-Bench Verified	80.2%	Đo lường khả năng sửa lỗi GitHub thực; gần mức hiệu năng dẫn đầu.
Multi-SWE-Bench	51.3%	Đánh giá độ tin cậy mã hóa đa tệp, xuyên kho lưu trữ.
SWE-Bench Pro	55.4%	Bài kiểm tra mã hóa khó sát thực tế hơn.

Dữ liệu benchmark cho thấy khả năng mã hóa của M2.5 sánh ngang với các mô hình độc quyền xếp hạng cao như Claude Opus 4.6 của Anthropic và GPT-5.2 của OpenAI, đặt M2.5 vào nhóm ứng viên hàng đầu cho các tác vụ kỹ nghệ phần mềm sản xuất. Điểm trên 80% ở bộ điểm chuẩn này cho thấy M2.5 có khả năng hỗ trợ kỹ nghệ phần mềm thực tiễn, không chỉ sinh mã mang tính lý thuyết. Điều này khiến nó đặc biệt giá trị cho các quy trình doanh nghiệp, nơi tính đúng đắn, độ tin cậy và khả năng bảo trì là ưu tiên hàng đầu.

Những con số này cho thấy M2.5 hoạt động ở mức dẫn đầu ngành mà không phải gánh mức giá cực cao điển hình của nhiều hệ thống độc quyền đóng — điều này thách thức trực tiếp nhận thức gần đây trong ngành rằng hiệu năng cao nhất thiết đi kèm chi phí cao.

M2.5 ứng xử ra sao trong các quy trình kỹ thuật thực?

Vượt ngoài điểm số thô, điều đáng chú ý là M2.5 được kiến trúc cho các pipeline tác tử. Mô hình bao gồm các nguyên thủy cho tư duy đan xen (cân nhắc nội bộ giữa các lần gọi công cụ), suy luận mã đa lượt mạnh hơn, và chiến lược quản lý ngữ cảnh cho codebase lớn. Trong các thử nghiệm ban đầu, người đánh giá ghi nhận M2.5 tạo ra tỷ lệ lớn mã sẵn sàng commit cho một số lớp tác vụ và cần ít sửa chữa của con người hơn so với các phiên bản MiniMax trước đó. Sự kết hợp — độ đúng ngay lần đầu mạnh hơn và ít vòng qua lại hơn — khiến M2.5 hấp dẫn cho vai trò trợ lý mã và tự động hóa CI.

Tìm kiếm và Gọi công cụ của MiniMax M2.5

Dù hiệu năng mã hóa thường là thước đo trung tâm cho LLM hướng nhà phát triển, M2.5 được thiết kế cho năng suất rộng hơn:

Loại tác vụ	Bộ đánh giá	Điểm M2.5
Web Search & Context	BrowseComp	76.3%
Tool-Use Reasoning	BFCL Multi-Turn	76.8%
Workflow Orchestration	MEWC (Multi-Expert)	74.4%
Office Productivity	VIBE-Pro Suite	54.2%

Các chỉ số này nhấn mạnh năng lực của M2.5 mở rộng sang suy luận dày đặc nhiều bước, tìm kiếm hiệu quả trong ngữ cảnh đã lưu trữ, và tương tác công cụ dài hạn — những năng lực then chốt cho trợ lý và tác tử AI đa phương thức vững chắc.

Nó có thể tìm và sử dụng công cụ hiệu quả không?

Một trong những cải tiến nổi bật của M2.5 là tích hợp công cụ. Khả năng “tư duy đan xen” nội tại cho phép nó tự phản tỉnh trước và sau mỗi lần gọi công cụ, quyết định có cần tìm kiếm khác hay công cụ khác, và tổng hợp các đầu ra công cụ rời rạc thành bước tiếp theo mạch lạc. Trên thực tế, điều này giảm số vòng gọi công cụ cần thiết để giải quyết một tác vụ nhiều bước (tìm kiếm → lấy → phân tích → hành động). Tài liệu nền tảng và đánh giá thực tế báo cáo giảm khoảng 20% số vòng gọi công cụ và tăng đáng kể “mức độ trưởng thành trong quyết định”, nghĩa là mô hình ít gọi công cụ thừa hoặc sớm.

Các điểm chuẩn tập trung vào duyệt web và quy trình công cụ (BrowseComp, BFCL) đặt M2.5 gần top cho các tác vụ tác tử. Điểm BrowseComp ở khoảng giữa 70 được báo cáo, và các bài test gọi công cụ kiểu BFCL cho thấy độ chính xác cao trong điều phối công cụ nhiều bước. Những kết quả đó quan trọng cho bất kỳ sản phẩm nào kỳ vọng mô hình tổng hợp dữ liệu web trực tiếp, gọi API theo miền, hoặc chủ động thao tác tệp và mã thay cho người dùng.

Điều này có ý nghĩa gì cho tích hợp?

Với kỹ sư xây dựng trợ lý, bot, hoặc pipeline tự động hóa, kết luận là M2.5 không chỉ “tìm kiếm tốt hơn” — mà còn quyết định về việc tìm kiếm tốt hơn. Điều đó nghĩa là ít lượt khứ hồi hơn, ít lãng phí token hơn, và mã điều phối đơn giản hơn trong nhiều trường hợp.

Đặc tính hiệu suất và tốc độ của MiniMax M2.5 là gì?

Một thuộc tính nổi bật của M2.5 là tốc độ và hiệu quả suy luận — yếu tố then chốt cho sử dụng thực tế, nơi thông lượng ảnh hưởng cả chi phí lẫn độ trễ.

Các chỉ số hiệu quả

Chỉ số	Giá trị
Cải thiện tốc độ vs M2.1	+37%
Tốc độ xuất tiêu chuẩn	50 tokens/second
Tốc độ xuất Lightning	100 tokens/second
Token điển hình/mỗi tác vụ	~3.52M tokens cho tác vụ phức tạp

Biến thể Lightning đạt thông lượng tương đương các mô hình như Claude Opus 4.6 — nhưng quan trọng là với một phần chi phí. Điều này cho phép M2.5 hỗ trợ các quy trình tác tử liên tục mà không tốn kém token quá mức trong các phiên dài hoặc khối lượng vận hành cao.

Hệ quả kỹ thuật

Thông lượng cao hơn tương quan trực tiếp với tương tác thời gian thực nhanh hơn trong vòng lặp phát triển và quy trình tự động.
Hiệu quả token tốt hơn giảm tổng chi phí trong các tác vụ dài nhiều giai đoạn như tạo tài liệu, gỡ lỗi và tích hợp liên hệ thống.
Kết hợp với các điểm chuẩn suy luận cao của M2.5, hiệu quả này mang lại kết quả tốt hơn với tổng thời gian chạy thấp hơn so với các mô hình tuyến đầu cạnh tranh.

MiniMax M2.5 có giá bao nhiêu? — Phân tích giá

Một trong những khía cạnh mang tính đột phá của M2.5 là mức giá — được định vị như một lựa chọn tiết kiệm chi phí thay thế cho các LLM độc quyền. MiniMax cung cấp các lựa chọn định giá nào?

MiniMax cung cấp một số tùy chọn tiêu thụ và thuê bao nhắm tới nhà phát triển và doanh nghiệp. Tài liệu công khai của công ty phác thảo hai cách tính phí cho mô hình văn bản trong sản xuất: gói thuê bao Coding Plan (nhắm tới nhà phát triển chạy đều đặn khối lượng prompt liên quan tới mã) và Pay-As-You-Go cho sử dụng linh hoạt, tính theo lưu lượng. Gói Coding Plan được thiết kế rõ ràng để đưa ra tùy chọn hàng tháng rẻ cho đội ngũ dev, trong khi trả theo mức dùng tính theo token hoặc theo cấu hình thông lượng đã chọn.

Gói Coding hoạt động như thế nào?

Gói Coding được giới thiệu như thuê bao hàng tháng gói một số lượng “prompts” hoặc phiên cố định theo lát thời gian (ví dụ trong tài liệu gồm các bậc starter/plus/max với hạn mức prompt mỗi 5 giờ). Lý do nêu ra là cung cấp cấu trúc chi phí dự đoán được, thân thiện với nhà phát triển cho các đội dựa vào nhiều phiên trợ lý mã ngắn, thường xuyên hơn là các yêu cầu đơn lẻ khối lượng lớn.

	Starter	Plus	Max
Giá	$10 /tháng	$20 /tháng	$50 /tháng
Lượt nhắc	100 prompts / 5 giờ	300 prompts / 5 giờ	1000 prompts / 5 giờ

	Starter	Plus	Max
Giá	$100 /năm 120	$200 /năm 240	$500 /năm 600
Lượt nhắc	100 prompts / 5 giờ	300 prompts / 5 giờ	1000 prompts / 5 giờ

Cấu trúc định giá theo token

Biến thể	Giá đầu vào	Giá đầu ra	TPS (Tokens/sec)	Ghi chú
M2.5-Standard	$0.15/M	$1.20/M	50	Biến thể tối ưu chi phí.
M2.5-Lightning	$0.30/M	$2.40/M	100	Biến thể tối ưu tốc độ.

Các mức giá theo token này về thực chất đang dân chủ hóa kinh tế của tác tử AI, cho phép mô hình chạy liên tục ở quy mô doanh nghiệp mà không gặp rào cản chi phí như nhiều hệ thống độc quyền định giá token đầu ra cao gấp 10×–30×.

Chi phí vận hành theo giờ

Dùng biến thể Lightning (100 TPS), đầu ra liên tục ổn định dẫn đến xấp xỉ:

360,000 token được tạo mỗi giờ
Chi phí đầu ra = 360,000/1M × $2.40 ≈ $0.86
Chi phí đầu vào cộng thêm một phần nhỏ cho ~$1/giờ tổng chi phí xuất liên tục

Đây là mức rẻ hơn nhiều bậc so với các mô hình tuyến đầu điển hình, khiến vận hành tác tử luôn bật khả thi về mặt kinh tế cho doanh nghiệp.

Tìm cách rẻ hơn để dùng M2.5

Hưởng mức giảm giá của Minimax-M2.5 khi dùng CometAPI:

Giá Comet (USD / M Tokens)	Giá chính thức (USD / M Tokens)	Giảm giá
Input:$0.24/M; Output:$0.96/M	Input:$0.3/M; Output:$1.2/M	-20%

Bắt đầu với MiniMax M2.5 như thế nào

Nhà phát triển có thể truy cập mô hình ở đâu?

MiniMax xuất bản tài liệu và hướng dẫn nền tảng để tích hợp M2.5 qua API của họ (tài liệu nền tảng gồm hướng dẫn cho văn bản, mã hóa và luồng điều khiển bằng công cụ). Mô hình cũng có mặt trong một số thư viện và đăng ký mô hình của bên thứ ba (ví dụ, nhiều thư viện nền tảng đã đưa các biến thể M2.5 cho sử dụng đám mây và thử nghiệm cục bộ). Điều đó nghĩa là nhà phát triển có thể gọi M2.5 qua endpoint API chính thức của MiniMax hoặc dùng công cụ bên thứ ba được hỗ trợ khi có.

Mẫu tích hợp phổ biến

Trợ lý IDE/Editor — móc M2.5 vào plugin IDE để cung cấp hoàn thành mã, giải thích và sinh test-case. Dùng gói ‘Coding Plan’ nếu bạn kỳ vọng nhiều phiên dev ngắn.
Điều phối tác tử — nhúng M2.5 làm bộ não ra quyết định trong hệ thống điều phối đa công cụ; dựa vào hành vi gọi công cụ mạnh để quản lý hành động bên ngoài (API, truy vấn cơ sở dữ liệu, trình chạy kiểm thử). Đảm bảo hợp đồng lược đồ (schema) rõ ràng cho payload API để giảm ảo giác.
Tìm kiếm + bổ trợ truy xuất — kết hợp một lớp truy xuất nhỏ (kho vector + reranker) để hạn chế token ngữ cảnh trong khi vẫn giữ liên quan cho truy vấn tài liệu dài. Điểm mạnh tìm kiếm của M2.5 khiến nó phù hợp tự nhiên cho RAG.
Chuyển đổi mã hàng loạt — tận dụng mô hình cho tái cấu trúc lớn hoặc sinh kiểm thử tự động bằng cách chạy job theo lô, nơi chi phí theo giờ và cài đặt thông lượng đặc biệt quan trọng cho kinh tế mô hình.

Mẹo thực tế để có kết quả tốt hơn

Dùng ví dụ few-shot phản chiếu luồng làm việc của dev (đầu vào, dạng đầu ra mong muốn, trường hợp lỗi) để cải thiện độ đúng cho sinh mã hoặc lời gọi công cụ.
Khóa chặt giao diện công cụ bằng xác thực lược đồ để khi M2.5 phát hành lệnh gọi API, hệ thống chỉ chấp nhận payload đã được xác thực.
Theo dõi mức sử dụng token và đặt biện pháp bảo vệ (giới hạn cứng token mỗi lần gọi) để tránh hóa đơn tăng vọt.
Đo lường tỷ lệ thành công (ví dụ, tỷ lệ bài kiểm thử vượt qua cho mã đã sinh) thay vì chỉ dựa vào cảm nhận chất lượng.

Kết luận

MiniMax M2.5 đại diện cho một bước tiến thực dụng trong phân khúc “tác tử + mã hóa” của các mô hình lớn: kết hợp điểm chuẩn mã hóa mạnh, hỗ trợ rõ ràng cho sử dụng công cụ đan xen, và các cải tiến vận hành nhằm giảm chi phí token và thời gian trong quy trình thực. Với các đội tập trung vào tự động hóa năng suất nhà phát triển, sinh mã, và điều phối đa công cụ, M2.5 đáng để thử nghiệm — đặc biệt khi hiệu quả chi phí là ưu tiên. Với các đội đòi hỏi mức tiên tiến tuyệt đối ở mọi điểm chuẩn ngách bất kể chi phí, các sản phẩm cao cấp có thể vẫn nhỉnh hơn đôi chút; nhưng cân bằng chi phí/hiệu năng khiến M2.5 thuyết phục cho triển khai sản xuất trong nhiều kịch bản thực tế.

Nhà phát triển có thể truy cập MInimax-M2.5 qua CometAPI ngay bây giờ.Để bắt đầu, hãy khám phá các khả năng của mô hình trong Playground và tham khảo hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Đăng ký glm-5 ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!