Can MiniMax M3 process a full software repository in a single context window?

Có. MiniMax M3 hỗ trợ cửa sổ ngữ cảnh lên đến 1,000,000-token, cho phép các kho mã lớn, bộ tài liệu và các phiên tác tử kéo dài được phân tích trong một cuộc trò chuyện duy nhất.

How does MiniMax M3 compare to Claude Opus 4.7 for coding tasks?

M3 tiệm cận Claude Opus 4.7 trên một số điểm chuẩn về lập trình và tác tử, đồng thời cung cấp cửa sổ ngữ cảnh 1M-token và tính sẵn có open-weight theo kế hoạch. Các so sánh độc lập từ bên thứ ba vẫn đang dần xuất hiện.

What makes MiniMax M3 different from previous MiniMax models?

MiniMax M3 giới thiệu kiến trúc MiniMax Sparse Attention (MSA), huấn luyện đa phương thức gốc, khả năng tác tử mạnh hơn và hỗ trợ ngữ cảnh lớn hơn đáng kể so với các mẫu thuộc dòng M2 trước đây.

Does the MiniMax M3 API support multimodal inputs?

Có. MiniMax M3 là đa phương thức nguyên sinh và hỗ trợ hiểu hình ảnh và video ngoài các đầu vào dựa trên văn bản.

What benchmark scores has MiniMax M3 achieved?

MiniMax báo cáo 59.0% trên SWE-Bench Pro, 66.0% trên Terminal-Bench 2.1, 74.2% trên MCP Atlas và 83.5 trên BrowseComp, đưa M3 vào nhóm các mô hình hàng đầu tập trung vào lập trình và tác tử.

Is MiniMax M3 suitable for autonomous AI agents?

Có. Mô hình được tối ưu hóa chuyên biệt cho các quy trình tác tử dài hạn, bao gồm lập kế hoạch, sử dụng công cụ, phân rã nhiệm vụ, thực thi trên terminal và giải quyết vấn đề nhiều bước.

When should developers choose MiniMax M3 instead of Gemini 3.1 Pro?

MiniMax M3 đặc biệt hấp dẫn khi cửa sổ ngữ cảnh cực dài, quy trình làm việc nặng về lập trình hoặc các tùy chọn triển khai open-weight là ưu tiên. Gemini 3.1 Pro có thể vẫn phù hợp hơn với các nhóm đã tiêu chuẩn hóa trên hệ sinh thái của Google.

API MiniMax-M3 Giá Phải Chăng | text-to-text

Playground cho MiniMax-M3

Khám phá Playground của MiniMax-M3 — môi trường tương tác để kiểm tra mô hình và chạy truy vấn theo thời gian thực. Thử prompts, điều chỉnh tham số và lặp lại ngay lập tức để tăng tốc phát triển và xác thực các trường hợp sử dụng.

Thông số kỹ thuật của MiniMax M3

Hạng mục	MiniMax M3
Họ mô hình	MiniMax M3 frontier foundation model
Nhà cung cấp	MiniMax
Kiến trúc	MiniMax Sparse Attention (MSA)
Loại đầu vào	Văn bản, Hình ảnh, Video
Loại đầu ra	Văn bản
Cửa sổ ngữ cảnh	Lên đến 1,000,000 token (đảm bảo tối thiểu 512K)
Thế mạnh chính	Lập trình, quy trình tác tử, suy luận đa phương thức, xử lý ngữ cảnh dài
Chế độ suy luận	Các chế độ Thinking bật/tắt
Sử dụng công cụ	Quy trình tác tử, gọi công cụ, thực thi tác vụ terminal
Triển khai	API, MiniMax Code, Token Plan, bản phát hành trọng số mở sắp ra mắt
Hỗ trợ đa phương thức	Huấn luyện đa phương thức gốc từ bước đầu tiên
Ngày phát hành	Tháng 6 năm 2026

MiniMax M3 là gì?

MiniMax M3 là một mô hình AI cấp độ tiên phong được thiết kế xoay quanh ba năng lực vốn trước đây chủ yếu xuất hiện trong các hệ thống nguồn đóng: hiệu năng lập trình nâng cao, xử lý ngữ cảnh hàng triệu token, và hiểu đa phương thức gốc. Khác với các mô hình bổ sung năng lực thị giác về sau, M3 được huấn luyện đa phương thức ngay từ đầu, cho phép sự liên kết sâu hơn giữa suy luận thị giác và văn bản.

Mô hình được xây dựng trên MiniMax Sparse Attention (MSA), một kiến trúc chú ý thưa được thiết kế để khiến ngữ cảnh hàng triệu token khả thi về tính toán, đồng thời vẫn duy trì hiệu năng trên các tác vụ lập trình, suy luận và tác tử.

Các tính năng chính của MiniMax M3

Cửa sổ ngữ cảnh 1M token: Hỗ trợ kho mã cực lớn, tập tài liệu nghiên cứu dài, phân tích đa tài liệu và các phiên tác tử kéo dài.
Kiến trúc định hướng tác tử: Thiết kế cho việc phân rã nhiệm vụ tự động, gọi công cụ, lập kế hoạch lặp và thực thi nhiều bước.
Đa phương thức gốc: Xử lý văn bản, hình ảnh, sơ đồ, ảnh chụp màn hình và video mà không dựa vào một ngăn xếp thị giác tách biệt.
Năng lực lập trình nâng cao: Hiệu năng mạnh trên các benchmark kỹ thuật phần mềm gồm SWE-Bench Pro, Terminal-Bench và KernelBench.
Thực thi tầm dài: Đã chứng minh các quy trình tự động kéo dài nhiều giờ, bao gồm tái lập nghiên cứu và các dự án tối ưu hóa CUDA.
Suy luận có thể cấu hình: Chế độ Thinking có thể bật cho khối lượng công việc suy luận sâu hơn hoặc tắt để tương tác độ trễ thấp.

Hiệu năng benchmark của MiniMax M3

MiniMax báo cáo kết quả ở mức frontier trên các tác vụ lập trình, thực thi tác tử và đánh giá đa phương thức. Các kết quả được báo cáo bao gồm:

Benchmark	Điểm
SWE-Bench Pro	59.0%
Terminal-Bench 2.1	66.0%
SWE-fficiency	34.8%
KernelBench Hard	28.8%
MCP Atlas	74.2%
BrowseComp	83.5
PostTrainBench	37.1

Công ty cũng cho biết M3 vượt GPT-5.5 và Gemini 3.1 Pro trên một số benchmark hướng lập trình, đồng thời tiến gần hiệu năng của Claude Opus 4.7 trong một số đánh giá đã chọn. Những tuyên bố này xuất phát từ công bố benchmark nội bộ của MiniMax và nên được diễn giải cùng với kiểm thử độc lập từ bên thứ ba khi có sẵn.

Kiến trúc ngữ cảnh dài và MSA

MiniMax Sparse Attention (MSA) là đổi mới kiến trúc phía sau khả năng ngữ cảnh hàng triệu token của M3. Thay vì áp dụng chú ý bậc hai đầy đủ trên toàn bộ chuỗi, MSA thực hiện định tuyến cấp khối và chú ý thưa trên các vùng ngữ cảnh được chọn.

Theo MiniMax, điều này giảm đáng kể yêu cầu tính toán ở độ dài ngữ cảnh lớn và mang lại:

Tốc độ prefill nhanh hơn hơn 9× ở độ dài ngữ cảnh 1M
Tốc độ giải mã nhanh hơn hơn 15×
Khoảng 1/20 chi phí tính toán mỗi token so với thế hệ trước ở quy mô ngữ cảnh 1M

Những cải tiến này nhằm khiến việc lập trình ở quy mô kho mã và các quy trình tác tử tầm dài trở nên khả thi.

MiniMax M3 so với Claude Opus 4.7 và Gemini 3.1 Pro

Năng lực	MiniMax M3	Claude Opus 4.7	Gemini 3.1 Pro
Cửa sổ ngữ cảnh	Tối đa 1M	Các mức ngữ cảnh công khai nhỏ hơn	Đa phương thức ngữ cảnh lớn
Huấn luyện đa phương thức gốc	Có	Có	Có
Trọng tâm lập trình tác tử	Rất mạnh	Rất mạnh	Mạnh
SWE-Bench Pro	59.0%	Cao hơn theo báo cáo của MiniMax	Thấp hơn theo báo cáo của MiniMax
Khả dụng trọng số mở	Có kế hoạch	Không	Không
Quy trình tác tử tầm dài	Trọng tâm thiết kế chính	Mạnh	Mạnh

Hạn chế đã biết

Hầu hết công bố benchmark hiện do MiniMax cung cấp chứ không phải từ các phòng thí nghiệm đánh giá độc lập.
Tệp trọng số mở và báo cáo kỹ thuật đầy đủ đã được công bố nhưng chưa phát hành rộng rãi tại thời điểm ra mắt.
Độ tin cậy trong môi trường sản xuất thực tế vẫn đang được cộng đồng nhà phát triển kiểm chứng.
Tác vụ ngữ cảnh hàng triệu token có thể phát sinh chi phí vận hành và độ trễ cao hơn so với suy luận tiêu chuẩn.

Trường hợp sử dụng tiêu biểu

Kỹ thuật phần mềm quy mô kho mã

Phân tích kho mã lớn, thực hiện tái cấu trúc đa tệp, tạo bản vá, rà soát pull request và duy trì ngữ cảnh phát triển dài hạn.

Tác tử nghiên cứu tự động

Hỗ trợ tổng quan tài liệu, tổng hợp tài liệu, phân tích benchmark và các quy trình nghiên cứu kéo dài yêu cầu hàng trăm nghìn token.

Phân tích kỹ thuật đa phương thức

Diễn giải ảnh chụp màn hình, sơ đồ kiến trúc, biểu đồ, tài liệu kỹ thuật và nội dung video trong cùng một quy trình suy luận.

Tự động hóa Terminal và DevOps

Thực thi các quy trình kỹ thuật phức tạp liên quan đến kiểm thử, điều phối triển khai, quản lý phụ thuộc và gỡ lỗi lặp.

Hệ thống tri thức doanh nghiệp

Tìm kiếm và suy luận trên tập hợp lớn chính sách, hợp đồng, tài liệu kỹ thuật và kho tri thức nội bộ.

Phiên bản mô hình và khả dụng

MiniMax M3 được giới thiệu chính thức vào tháng 6 năm 2026 với tư cách là mẫu kế nhiệm hàng đầu trong dòng mô hình MiniMax. Mô hình khả dụng thông qua hệ sinh thái API của MiniMax và CometAPI.

Câu Hỏi Thường Gặp

Giá cả cho MiniMax-M3

Khám phá mức giá cạnh tranh cho MiniMax-M3, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách MiniMax-M3 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.

Giá Comet (USD / M Tokens)	Giá Chính Thức (USD / M Tokens)	Giảm giá
Đầu vào:$0.48/M Đầu ra:$1.92/M	Đầu vào:$0.6/M Đầu ra:$2.4/M	-20%

Mã mẫu và API cho MiniMax-M3

Truy cập mã mẫu toàn diện và tài nguyên API cho MiniMax-M3 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của MiniMax-M3 trong các dự án của mình.

POST

/v1/chat/completions

from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="minimax-m3",
    messages=[
        {
            "role": "system",
            "content": (
                "You are a senior backend reviewer focused on correctness, "
                "reliability, and maintainability."
            ),
        },
        {
            "role": "user",
            "content": (
                "Task: review the API migration plan and identify the "
                "highest-impact improvements.

"
                "Context: the team is moving a customer support workflow from "
                "blocking chat calls to an async job queue. Prioritize data "
                "safety, retry behavior, observability, and rollback.

"
                "Output format:
"
                "Return a table with columns: Area, Risk, Recommendation, "
                "Priority. Keep each recommendation actionable and under 40 words."
            ),
        },
    ],
    max_completion_tokens=800,
    extra_body={"reasoning_split": True},
)

if not completion.choices:
    print(completion.model_dump_json(indent=2))
    raise SystemExit

message = completion.choices[0].message

reasoning_details = getattr(message, "reasoning_details", None)
if reasoning_details:
    print("Thinking:")
    print(reasoning_details[0]["text"])
    print()

print("Response:")
print(message.content)

Python Code Example

from openai import OpenAI
import os

# Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="minimax-m3",
    messages=[
        {
            "role": "system",
            "content": (
                "You are a senior backend reviewer focused on correctness, "
                "reliability, and maintainability."
            ),
        },
        {
            "role": "user",
            "content": (
                "Task: review the API migration plan and identify the "
                "highest-impact improvements.\n\n"
                "Context: the team is moving a customer support workflow from "
                "blocking chat calls to an async job queue. Prioritize data "
                "safety, retry behavior, observability, and rollback.\n\n"
                "Output format:\n"
                "Return a table with columns: Area, Risk, Recommendation, "
                "Priority. Keep each recommendation actionable and under 40 words."
            ),
        },
    ],
    max_completion_tokens=800,
    extra_body={"reasoning_split": True},
)

if not completion.choices:
    print(completion.model_dump_json(indent=2))
    raise SystemExit

message = completion.choices[0].message

reasoning_details = getattr(message, "reasoning_details", None)
if reasoning_details:
    print("Thinking:")
    print(reasoning_details[0]["text"])
    print()

print("Response:")
print(message.content)

JavaScript Code Example

import OpenAI from "openai";

// Get your CometAPI key from https://www.cometapi.com/console/token, and paste it here
const api_key = process.env.COMETAPI_KEY || "<YOUR_COMETAPI_KEY>";
const base_url = "https://api.cometapi.com/v1";

const openai = new OpenAI({
  apiKey: api_key,
  baseURL: base_url,
});

const completion = await openai.chat.completions.create({
  model: "minimax-m3",
  messages: [
    {
      role: "system",
      content:
        "You are a senior backend reviewer focused on correctness, reliability, and maintainability.",
    },
    {
      role: "user",
      content:
        "Task: review the API migration plan and identify the highest-impact improvements.\n\n" +
        "Context: the team is moving a customer support workflow from blocking chat calls " +
        "to an async job queue. Prioritize data safety, retry behavior, observability, and rollback.\n\n" +
        "Output format:\n" +
        "Return a table with columns: Area, Risk, Recommendation, Priority. " +
        "Keep each recommendation actionable and under 40 words.",
    },
  ],
  max_completion_tokens: 800,
  reasoning_split: true,
});

if (!completion.choices?.length) {
  console.log(JSON.stringify(completion, null, 2));
  process.exit(0);
}

const message = completion.choices[0].message;

if (message.reasoning_details?.length) {
  console.log("Thinking:");
  console.log(message.reasoning_details[0].text);
  console.log();
}

console.log("Response:");
console.log(message.content);

Curl Code Example

# Get your CometAPI key from https://www.cometapi.com/console/token
# Export it as: export COMETAPI_KEY="your-key-here"
curl https://api.cometapi.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $COMETAPI_KEY" \
  -d '{
    "model": "minimax-m3",
    "messages": [
      {
        "role": "system",
        "content": "You are a senior backend reviewer focused on correctness, reliability, and maintainability."
      },
      {
        "role": "user",
        "content": "Task: review the API migration plan and identify the highest-impact improvements.\n\nContext: the team is moving a customer support workflow from blocking chat calls to an async job queue. Prioritize data safety, retry behavior, observability, and rollback.\n\nOutput format:\nReturn a table with columns: Area, Risk, Recommendation, Priority. Keep each recommendation actionable and under 40 words."
      }
    ],
    "max_completion_tokens": 800,
    "reasoning_split": true
  }'

Uptime

Tỷ lệ thành công của yêu cầu trong 30 ngày qua, phản ánh độ tin cậy của từng nhà cung cấp mô hình. CometAPI giám sát tất cả các nhà cung cấp được kết nối theo thời gian thực, 24/7.

RespondLIVE

769msAvg. Response

UptimeLIVE

100.0%Avg. Uptime

Các phiên bản của MiniMax-M3

Lý do MiniMax-M3 có nhiều snapshot có thể bao gồm các yếu tố tiềm năng như: sự thay đổi đầu ra sau các bản cập nhật cần các snapshot cũ để đảm bảo tính nhất quán, cung cấp cho nhà phát triển thời gian chuyển tiếp để thích ứng và di chuyển, cũng như các snapshot khác nhau tương ứng với các endpoint toàn cầu hoặc khu vực nhằm tối ưu hóa trải nghiệm người dùng. Để biết chi tiết về sự khác biệt giữa các phiên bản, vui lòng tham khảo tài liệu chính thức.

version
minimax-m3