Thông số kỹ thuật của Kimi k2.5
| Hạng mục | Giá trị / ghi chú |
|---|---|
| Tên mô hình / nhà cung cấp | Kimi-K2.5 (v1.0) — Moonshot AI (trọng số mở). |
| Họ kiến trúc | Mô hình lý luận lai Mixture-of-Experts (MoE) (MoE kiểu DeepSeek). |
| Tham số (tổng / hoạt động) | ≈ 1 nghìn tỷ tham số tổng; ~32B hoạt động mỗi token (384 chuyên gia, báo cáo chọn 8 mỗi token). |
| Dạng thức (đầu vào / đầu ra) | Đầu vào: văn bản, hình ảnh, video (đa phương thức). Đầu ra: chủ yếu là văn bản (dấu vết lập luận phong phú), tùy chọn gọi công cụ có cấu trúc / đầu ra nhiều bước. |
| Cửa sổ ngữ cảnh | 256k tokens |
| Dữ liệu huấn luyện | Tiếp tục tiền huấn luyện trên ~15 nghìn tỷ token hình ảnh + văn bản kết hợp (theo báo cáo của nhà cung cấp). Nhãn huấn luyện/thành phần tập dữ liệu: không tiết lộ. |
| Chế độ | Chế độ Thinking (trả về dấu vết lập luận nội bộ; khuyến nghị temp=1.0) và chế độ Instant (không có dấu vết lập luận; khuyến nghị temp=0.6). |
| Tính năng tác nhân | Agent Swarm / tác nhân con song song: bộ điều phối có thể tạo tối đa 100 tác nhân con và thực thi số lượng lớn các lần gọi công cụ (nhà cung cấp tuyên bố lên đến ~1.500 lần gọi công cụ; thực thi song song giảm thời gian chạy). |
Kimi K2.5 là gì?
Kimi K2.5 là mô hình ngôn ngữ lớn đầu bảng với trọng số mở của Moonshot AI, được thiết kế như một hệ thống đa phương thức bản địa và định hướng tác nhân chứ không phải LLM chỉ văn bản với các thành phần bổ sung. Nó tích hợp lập luận ngôn ngữ, hiểu thị giác và xử lý ngữ cảnh dài trong một kiến trúc duy nhất, cho phép thực hiện các tác vụ nhiều bước phức tạp liên quan đến tài liệu, hình ảnh, video, công cụ và tác nhân.
Mô hình được thiết kế cho các quy trình làm việc dài hạn, tăng cường công cụ (lập trình, tìm kiếm nhiều bước, hiểu tài liệu/video) và đi kèm hai chế độ tương tác (Thinking và Instant) cùng lượng tử hóa INT4 bản địa để suy luận hiệu quả.
Tính năng cốt lõi của Kimi K2.5
- Lập luận đa phương thức bản địa
Thị giác và ngôn ngữ được huấn luyện chung ngay từ giai đoạn tiền huấn luyện. Kimi K2.5 có thể lập luận trên hình ảnh, ảnh chụp màn hình, sơ đồ và khung hình video mà không phụ thuộc vào adapter thị giác bên ngoài. - Cửa sổ ngữ cảnh siêu dài (256K tokens)
Cho phép lập luận liên tục trên toàn bộ codebase, các bài báo nghiên cứu dài, tài liệu pháp lý, hoặc các cuộc hội thoại nhiều giờ mà không bị cắt ngữ cảnh. - Mô hình thực thi Agent Swarm
Hỗ trợ tạo và phối hợp động tới ~100 tác nhân con chuyên biệt, cho phép lập kế hoạch song song, sử dụng công cụ và phân rã nhiệm vụ cho các quy trình phức tạp. - Nhiều chế độ suy luận
- Instant mode cho phản hồi độ trễ thấp
- Thinking mode cho lập luận đa bước sâu
- Agent / Swarm mode cho thực thi và điều phối tác vụ tự động
- Khả năng chuyển thị giác thành mã nguồn mạnh
Có thể chuyển mockup UI, ảnh chụp màn hình hoặc minh họa video thành mã front-end hoạt động, và gỡ lỗi phần mềm bằng ngữ cảnh thị giác. - Khả năng mở rộng MoE hiệu quả
Kiến trúc MoE chỉ kích hoạt một phần tập chuyên gia cho mỗi token, cho phép dung lượng tới hàng nghìn tỷ tham số với chi phí suy luận có thể kiểm soát so với mô hình đặc.
Hiệu năng trên các benchmark của Kimi K2.5
Kết quả benchmark được công bố công khai (chủ yếu trong thiết lập tập trung vào lập luận):
Benchmark về Lập luận & Kiến thức
| Benchmark | Kimi K2.5 | GPT-5.2 (xhigh) | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| HLE-Full (với công cụ) | 50.2 | 45.5 | 43.2 | 45.8 |
| AIME 2025 | 96.1 | 100 | 92.8 | 95.0 |
| GPQA-Diamond | 87.6 | 92.4 | 87.0 | 91.9 |
| IMO-AnswerBench | 81.8 | 86.3 | 78.5 | 83.1 |
Benchmark về Thị giác & Video
| Benchmark | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU-Pro | 78.5 | 79.5* | 74.0 | 81.0 |
| MathVista (Mini) | 90.1 | 82.8* | 80.2* | 89.8* |
| VideoMMMU | 87.4 | 86.0 | — | 88.4 |
Các điểm có dấu * phản ánh khác biệt trong thiết lập đánh giá do nguồn gốc báo cáo.
Nhìn chung, Kimi K2.5 thể hiện khả năng cạnh tranh mạnh trong lập luận đa phương thức, tác vụ ngữ cảnh dài và các quy trình kiểu tác nhân, đặc biệt khi đánh giá vượt ra ngoài hỏi đáp ngắn.
Kimi K2.5 so với các mô hình tiên tiến khác
| Khía cạnh | Kimi K2.5 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| Đa phương thức | Bản địa (thị giác + văn bản) | Mô-đun tích hợp | Mô-đun tích hợp |
| Độ dài ngữ cảnh | 256K tokens | Dài (giới hạn chính xác không công bố) | Dài (<256K điển hình) |
| Điều phối tác nhân | Bầy đa tác nhân | Tập trung đơn tác nhân | Tập trung đơn tác nhân |
| Truy cập mô hình | Trọng số mở | Độc quyền | Độc quyền |
| Triển khai | Cục bộ / đám mây / tùy chỉnh | Chỉ API | Chỉ API |
Hướng dẫn chọn mô hình:
- Chọn Kimi K2.5 cho triển khai trọng số mở, nghiên cứu, lập luận ngữ cảnh dài hoặc quy trình tác nhân phức tạp.
- Chọn GPT-5.2 cho trí tuệ tổng quát cấp sản xuất với hệ sinh thái công cụ mạnh.
- Chọn Gemini 3 Pro để tích hợp sâu với bộ sản phẩm năng suất và tìm kiếm của Google.
Các trường hợp sử dụng tiêu biểu
- Phân tích tài liệu và mã nguồn quy mô lớn
Xử lý toàn bộ kho mã, tập hợp tài liệu pháp lý, hoặc kho lưu trữ nghiên cứu trong một cửa sổ ngữ cảnh duy nhất. - Quy trình kỹ thuật phần mềm dựa trên thị giác
Sinh, tái cấu trúc hoặc gỡ lỗi mã bằng ảnh chụp màn hình, thiết kế UI hoặc các tương tác đã ghi lại. - Chuỗi tác nhân tự động
Thực thi quy trình đầu-cuối gồm lập kế hoạch, truy xuất, gọi công cụ và tổng hợp thông qua bầy tác nhân. - Tự động hóa tri thức doanh nghiệp
Phân tích tài liệu nội bộ, bảng tính, PDF và bài thuyết trình để tạo báo cáo có cấu trúc và insight. - Nghiên cứu và tùy biến mô hình
Tinh chỉnh, nghiên cứu căn chỉnh và thử nghiệm được hỗ trợ bởi trọng số mô hình mở.
Hạn chế và Lưu ý
- Yêu cầu phần cứng cao: Triển khai độ chính xác đầy đủ cần bộ nhớ GPU lớn; sử dụng sản xuất thường dựa vào lượng tử hóa (ví dụ, INT4).
- Mức độ trưởng thành của Agent Swarm: Hành vi đa tác nhân nâng cao vẫn đang phát triển và có thể cần thiết kế điều phối cẩn thận.
- Độ phức tạp suy luận: Hiệu năng tối ưu phụ thuộc vào engine suy luận, chiến lược lượng tử hóa và cấu hình định tuyến.
Cách truy cập API Kimi k2.5 qua CometAPI
Bước 1: Đăng ký lấy API Key
Đăng nhập cometapi.com. Nếu bạn chưa là người dùng, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy API key thông tin truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, nhận khóa token: sk-xxxxx và gửi.

Bước 2: Gửi yêu cầu tới API Kimi k2.5
Chọn endpoint “kimi-k2.5” để gửi yêu cầu API và thiết lập request body. Phương thức và request body được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để bạn thử nghiệm. Thay thế bằng CometAPI key thực tế từ tài khoản của bạn. base url là Chat Completions.
Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung — đây là thứ mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.
Bước 3: Lấy và xác minh kết quả
Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API trả về trạng thái tác vụ và dữ liệu đầu ra.