Thông số kỹ thuật của Kimi k2.5

Mục	Giá trị / ghi chú
Tên mô hình / nhà cung cấp	Kimi-K2.5 (v1.0) — Moonshot AI (trọng số mở).
Họ kiến trúc	Mô hình suy luận lai Mixture-of-Experts (MoE) (MoE kiểu DeepSeek).
Tham số (tổng / hoạt động)	≈ 1 trillion tổng tham số; ~32B hoạt động mỗi token (384 chuyên gia, báo cáo chọn 8 mỗi token).
Phương thức (đầu vào / đầu ra)	Đầu vào: văn bản, hình ảnh, video (đa phương thức). Đầu ra: chủ yếu văn bản (dấu vết suy luận phong phú), tùy chọn lời gọi công cụ có cấu trúc / đầu ra nhiều bước.
Cửa sổ ngữ cảnh	256k tokens
Dữ liệu huấn luyện	Tiền huấn luyện liên tục trên ~15 trillion token thị giác + văn bản hỗn hợp (theo nhà cung cấp). Nhãn huấn luyện/thành phần tập dữ liệu: không công bố.
Chế độ	Thinking mode (trả về dấu vết suy luận nội bộ; khuyến nghị temp=1.0) và Instant mode (không có dấu vết suy luận; khuyến nghị temp=0.6).
Tính năng tác nhân	Agent Swarm / các tác nhân song song: bộ điều phối có thể tạo tối đa 100 tác nhân phụ và thực hiện số lượng lớn lời gọi công cụ (nhà cung cấp tuyên bố tới ~1,500 lời gọi công cụ; thực thi song song giảm thời gian chạy).

Kimi K2.5 là gì?

Kimi K2.5 là mô hình ngôn ngữ trọng số mở chủ lực của Moonshot AI, được thiết kế như một hệ thống đa phương thức bản địa và hướng tác nhân, thay vì một LLM chỉ văn bản với các thành phần bổ sung. Nó tích hợp suy luận ngôn ngữ, hiểu thị giác và xử lý ngữ cảnh dài vào một kiến trúc duy nhất, cho phép các tác vụ nhiều bước phức tạp liên quan đến tài liệu, hình ảnh, video, công cụ và tác nhân.

Mô hình được thiết kế cho các quy trình công việc dài hạn, tăng cường công cụ (lập trình, tìm kiếm nhiều bước, hiểu tài liệu/video) và đi kèm lượng tử hóa INT4 bản địa để suy luận hiệu quả.

Tính năng cốt lõi của Kimi K2.5

Suy luận đa phương thức bản địa
Thị giác và ngôn ngữ được huấn luyện chung ngay từ giai đoạn tiền huấn luyện. Kimi K2.5 có thể suy luận trên hình ảnh, ảnh chụp màn hình, sơ đồ và khung hình video mà không dựa vào bộ chuyển đổi thị giác bên ngoài.
Cửa sổ ngữ cảnh siêu dài (256K tokens)
Cho phép suy luận bền bỉ trên toàn bộ mã nguồn, bài nghiên cứu dài, tài liệu pháp lý, hoặc các cuộc hội thoại nhiều giờ mà không bị cắt ngữ cảnh.
Mô hình thực thi Agent Swarm
Hỗ trợ tạo và phối hợp động tới ~100 tác nhân phụ chuyên biệt, cho phép lập kế hoạch song song, sử dụng công cụ và phân rã nhiệm vụ cho các quy trình phức tạp.
Nhiều chế độ suy luận
- Instant mode cho phản hồi độ trễ thấp
- Thinking mode cho suy luận nhiều bước chuyên sâu
- Agent / Swarm mode cho thực thi và điều phối tác vụ tự chủ
Khả năng chuyển thị giác sang mã mạnh
Có thể chuyển mockup UI, ảnh chụp màn hình hoặc minh họa video thành mã front-end hoạt động, và gỡ lỗi phần mềm bằng ngữ cảnh thị giác.
Mở rộng MoE hiệu quả
Kiến trúc MoE chỉ kích hoạt một tập chuyên gia cho mỗi token, cho phép dung lượng hàng nghìn tỷ tham số với chi phí suy luận có thể quản lý so với mô hình đặc.

Hiệu năng benchmark của Kimi K2.5

Kết quả benchmark công bố (chủ yếu trong bối cảnh tập trung suy luận):

Benchmark về suy luận & kiến thức

Benchmark	Kimi K2.5	GPT-5.2 (xhigh)	Claude Opus 4.5	Gemini 3 Pro
HLE-Full (có công cụ)	50.2	45.5	43.2	45.8
AIME 2025	96.1	100	92.8	95.0
GPQA-Diamond	87.6	92.4	87.0	91.9
IMO-AnswerBench	81.8	86.3	78.5	83.1

Benchmark Thị giác & Video

Benchmark	Kimi K2.5	GPT-5.2	Claude Opus 4.5	Gemini 3 Pro
MMMU-Pro	78.5	79.5*	74.0	81.0
MathVista (Mini)	90.1	82.8*	80.2*	89.8*
VideoMMMU	87.4	86.0	—	88.4

Các điểm được đánh dấu bằng * phản ánh sự khác biệt trong thiết lập đánh giá do nguồn gốc ban đầu báo cáo.

Nhìn chung, Kimi K2.5 thể hiện sức cạnh tranh mạnh trong suy luận đa phương thức, tác vụ ngữ cảnh dài và quy trình kiểu agent, đặc biệt khi đánh giá vượt ra ngoài dạng Hỏi-Đáp ngắn.

Kimi K2.5 so với các mô hình tiên phong khác

Khía cạnh	Kimi K2.5	GPT-5.2	Gemini 3 Pro
Đa phương thức	Bản địa (thị giác + văn bản)	Mô-đun tích hợp	Mô-đun tích hợp
Độ dài ngữ cảnh	256K tokens	Dài (giới hạn chính xác không công bố)	Dài (<256K điển hình)
Điều phối agent	Swarm nhiều tác nhân	Tập trung một tác nhân	Tập trung một tác nhân
Truy cập mô hình	Trọng số mở	Độc quyền	Độc quyền
Triển khai	Cục bộ / đám mây / tùy chỉnh	Chỉ API	Chỉ API

Hướng dẫn lựa chọn mô hình:

Chọn Kimi K2.5 cho triển khai trọng số mở, nghiên cứu, suy luận ngữ cảnh dài hoặc quy trình agent phức tạp.
Chọn GPT-5.2 cho trí tuệ tổng quát cấp sản xuất với hệ sinh thái công cụ mạnh.
Chọn Gemini 3 Pro cho tích hợp sâu với bộ công cụ năng suất và tìm kiếm của Google.

Trường hợp sử dụng tiêu biểu

Phân tích tài liệu và mã quy mô lớn
Xử lý toàn bộ kho mã, tập hợp pháp lý hoặc lưu trữ nghiên cứu trong một cửa sổ ngữ cảnh.
Quy trình kỹ thuật phần mềm dựa trên thị giác
Tạo, tái cấu trúc hoặc gỡ lỗi mã bằng ảnh chụp màn hình, thiết kế UI hoặc tương tác đã ghi.
Pipeline tác nhân tự chủ
Thực thi quy trình end-to-end gồm lập kế hoạch, truy xuất, lời gọi công cụ và tổng hợp qua agent swarm.
Tự động hóa tri thức doanh nghiệp
Phân tích tài liệu nội bộ, bảng tính, PDF và bản trình bày để tạo báo cáo cấu trúc và insights.
Nghiên cứu và tùy biến mô hình
Fine-tuning, nghiên cứu căn chỉnh và thử nghiệm được hỗ trợ bởi trọng số mô hình mở.

Hạn chế và lưu ý

Yêu cầu phần cứng cao: Triển khai độ chính xác đầy đủ cần bộ nhớ GPU lớn; sử dụng sản xuất thường dựa vào lượng tử hóa (ví dụ, INT4).
Mức độ trưởng thành của Agent Swarm: Hành vi đa tác nhân nâng cao vẫn đang phát triển và có thể cần thiết kế điều phối cẩn thận.
Độ phức tạp suy luận: Hiệu năng tối ưu phụ thuộc vào engine suy luận, chiến lược lượng tử hóa và cấu hình định tuyến.

Cách truy cập API Kimi k2.5 qua CometAPI

Bước 1: Đăng ký khóa API

Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước. Đăng nhập vào bảng điều khiển CometAPI. Lấy khóa API thông tin xác thực truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.

cometapi-key

Bước 2: Gửi yêu cầu tới API Kimi k2.5

Chọn endpoint “kimi-k2.5” để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức yêu cầu và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp kiểm thử Apifox để tiện cho bạn. Thay thế bằng khóa CometAPI thực tế từ tài khoản của bạn. URL cơ sở là Chat Completions.

Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Truy xuất và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API phản hồi trạng thái tác vụ và dữ liệu đầu ra.