Home/Models/Moonshot AI/Kimi K2.5
M

Kimi K2.5

Đầu vào:$0.48/M
Đầu ra:$2.4/M
Kimi K2.5 là mô hình thông minh nhất của Kimi tính đến nay, đạt hiệu năng SoTA nguồn mở trong Agent, lập trình, hiểu thị giác và một loạt các tác vụ trí tuệ tổng quát. Kimi K2.5 cũng là mô hình đa dụng nhất của Kimi tính đến nay, sở hữu kiến trúc đa phương thức gốc hỗ trợ cả đầu vào hình ảnh và văn bản, chế độ tư duy và không tư duy, và các nhiệm vụ đối thoại và Agent.
Mới
Sử dụng thương mại
Playground
Tổng quan
Tính năng
Giá cả
API

Thông số kỹ thuật của Kimi k2.5

Hạng mụcGiá trị / ghi chú
Tên mô hình / nhà cung cấpKimi-K2.5 (v1.0) — Moonshot AI (trọng số mở).
Họ kiến trúcMô hình lý luận lai Mixture-of-Experts (MoE) (MoE kiểu DeepSeek).
Tham số (tổng / hoạt động)≈ 1 nghìn tỷ tham số tổng; ~32B hoạt động mỗi token (384 chuyên gia, báo cáo chọn 8 mỗi token).
Dạng thức (đầu vào / đầu ra)Đầu vào: văn bản, hình ảnh, video (đa phương thức). Đầu ra: chủ yếu là văn bản (dấu vết lập luận phong phú), tùy chọn gọi công cụ có cấu trúc / đầu ra nhiều bước.
Cửa sổ ngữ cảnh256k tokens
Dữ liệu huấn luyệnTiếp tục tiền huấn luyện trên ~15 nghìn tỷ token hình ảnh + văn bản kết hợp (theo báo cáo của nhà cung cấp). Nhãn huấn luyện/thành phần tập dữ liệu: không tiết lộ.
Chế độChế độ Thinking (trả về dấu vết lập luận nội bộ; khuyến nghị temp=1.0) và chế độ Instant (không có dấu vết lập luận; khuyến nghị temp=0.6).
Tính năng tác nhânAgent Swarm / tác nhân con song song: bộ điều phối có thể tạo tối đa 100 tác nhân con và thực thi số lượng lớn các lần gọi công cụ (nhà cung cấp tuyên bố lên đến ~1.500 lần gọi công cụ; thực thi song song giảm thời gian chạy).

Kimi K2.5 là gì?

Kimi K2.5 là mô hình ngôn ngữ lớn đầu bảng với trọng số mở của Moonshot AI, được thiết kế như một hệ thống đa phương thức bản địa và định hướng tác nhân chứ không phải LLM chỉ văn bản với các thành phần bổ sung. Nó tích hợp lập luận ngôn ngữ, hiểu thị giác và xử lý ngữ cảnh dài trong một kiến trúc duy nhất, cho phép thực hiện các tác vụ nhiều bước phức tạp liên quan đến tài liệu, hình ảnh, video, công cụ và tác nhân.

Mô hình được thiết kế cho các quy trình làm việc dài hạn, tăng cường công cụ (lập trình, tìm kiếm nhiều bước, hiểu tài liệu/video) và đi kèm hai chế độ tương tác (Thinking và Instant) cùng lượng tử hóa INT4 bản địa để suy luận hiệu quả.


Tính năng cốt lõi của Kimi K2.5

  1. Lập luận đa phương thức bản địa
    Thị giác và ngôn ngữ được huấn luyện chung ngay từ giai đoạn tiền huấn luyện. Kimi K2.5 có thể lập luận trên hình ảnh, ảnh chụp màn hình, sơ đồ và khung hình video mà không phụ thuộc vào adapter thị giác bên ngoài.
  2. Cửa sổ ngữ cảnh siêu dài (256K tokens)
    Cho phép lập luận liên tục trên toàn bộ codebase, các bài báo nghiên cứu dài, tài liệu pháp lý, hoặc các cuộc hội thoại nhiều giờ mà không bị cắt ngữ cảnh.
  3. Mô hình thực thi Agent Swarm
    Hỗ trợ tạo và phối hợp động tới ~100 tác nhân con chuyên biệt, cho phép lập kế hoạch song song, sử dụng công cụ và phân rã nhiệm vụ cho các quy trình phức tạp.
  4. Nhiều chế độ suy luận
    • Instant mode cho phản hồi độ trễ thấp
    • Thinking mode cho lập luận đa bước sâu
    • Agent / Swarm mode cho thực thi và điều phối tác vụ tự động
  5. Khả năng chuyển thị giác thành mã nguồn mạnh
    Có thể chuyển mockup UI, ảnh chụp màn hình hoặc minh họa video thành mã front-end hoạt động, và gỡ lỗi phần mềm bằng ngữ cảnh thị giác.
  6. Khả năng mở rộng MoE hiệu quả
    Kiến trúc MoE chỉ kích hoạt một phần tập chuyên gia cho mỗi token, cho phép dung lượng tới hàng nghìn tỷ tham số với chi phí suy luận có thể kiểm soát so với mô hình đặc.

Hiệu năng trên các benchmark của Kimi K2.5

Kết quả benchmark được công bố công khai (chủ yếu trong thiết lập tập trung vào lập luận):

Benchmark về Lập luận & Kiến thức

BenchmarkKimi K2.5GPT-5.2 (xhigh)Claude Opus 4.5Gemini 3 Pro
HLE-Full (với công cụ)50.245.543.245.8
AIME 202596.110092.895.0
GPQA-Diamond87.692.487.091.9
IMO-AnswerBench81.886.378.583.1

Benchmark về Thị giác & Video

BenchmarkKimi K2.5GPT-5.2Claude Opus 4.5Gemini 3 Pro
MMMU-Pro78.579.5*74.081.0
MathVista (Mini)90.182.8*80.2*89.8*
VideoMMMU87.486.0—88.4

Các điểm có dấu * phản ánh khác biệt trong thiết lập đánh giá do nguồn gốc báo cáo.

Nhìn chung, Kimi K2.5 thể hiện khả năng cạnh tranh mạnh trong lập luận đa phương thức, tác vụ ngữ cảnh dài và các quy trình kiểu tác nhân, đặc biệt khi đánh giá vượt ra ngoài hỏi đáp ngắn.


Kimi K2.5 so với các mô hình tiên tiến khác

Khía cạnhKimi K2.5GPT-5.2Gemini 3 Pro
Đa phương thứcBản địa (thị giác + văn bản)Mô-đun tích hợpMô-đun tích hợp
Độ dài ngữ cảnh256K tokensDài (giới hạn chính xác không công bố)Dài (<256K điển hình)
Điều phối tác nhânBầy đa tác nhânTập trung đơn tác nhânTập trung đơn tác nhân
Truy cập mô hìnhTrọng số mởĐộc quyềnĐộc quyền
Triển khaiCục bộ / đám mây / tùy chỉnhChỉ APIChỉ API

Hướng dẫn chọn mô hình:

  • Chọn Kimi K2.5 cho triển khai trọng số mở, nghiên cứu, lập luận ngữ cảnh dài hoặc quy trình tác nhân phức tạp.
  • Chọn GPT-5.2 cho trí tuệ tổng quát cấp sản xuất với hệ sinh thái công cụ mạnh.
  • Chọn Gemini 3 Pro để tích hợp sâu với bộ sản phẩm năng suất và tìm kiếm của Google.

Các trường hợp sử dụng tiêu biểu

  1. Phân tích tài liệu và mã nguồn quy mô lớn
    Xử lý toàn bộ kho mã, tập hợp tài liệu pháp lý, hoặc kho lưu trữ nghiên cứu trong một cửa sổ ngữ cảnh duy nhất.
  2. Quy trình kỹ thuật phần mềm dựa trên thị giác
    Sinh, tái cấu trúc hoặc gỡ lỗi mã bằng ảnh chụp màn hình, thiết kế UI hoặc các tương tác đã ghi lại.
  3. Chuỗi tác nhân tự động
    Thực thi quy trình đầu-cuối gồm lập kế hoạch, truy xuất, gọi công cụ và tổng hợp thông qua bầy tác nhân.
  4. Tự động hóa tri thức doanh nghiệp
    Phân tích tài liệu nội bộ, bảng tính, PDF và bài thuyết trình để tạo báo cáo có cấu trúc và insight.
  5. Nghiên cứu và tùy biến mô hình
    Tinh chỉnh, nghiên cứu căn chỉnh và thử nghiệm được hỗ trợ bởi trọng số mô hình mở.

Hạn chế và Lưu ý

  • Yêu cầu phần cứng cao: Triển khai độ chính xác đầy đủ cần bộ nhớ GPU lớn; sử dụng sản xuất thường dựa vào lượng tử hóa (ví dụ, INT4).
  • Mức độ trưởng thành của Agent Swarm: Hành vi đa tác nhân nâng cao vẫn đang phát triển và có thể cần thiết kế điều phối cẩn thận.
  • Độ phức tạp suy luận: Hiệu năng tối ưu phụ thuộc vào engine suy luận, chiến lược lượng tử hóa và cấu hình định tuyến.

Cách truy cập API Kimi k2.5 qua CometAPI

Bước 1: Đăng ký lấy API Key

Đăng nhập cometapi.com. Nếu bạn chưa là người dùng, vui lòng đăng ký trước. Đăng nhập vào CometAPI console. Lấy API key thông tin truy cập của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, nhận khóa token: sk-xxxxx và gửi.

cometapi-key

Bước 2: Gửi yêu cầu tới API Kimi k2.5

Chọn endpoint “kimi-k2.5” để gửi yêu cầu API và thiết lập request body. Phương thức và request body được lấy từ tài liệu API trên website của chúng tôi. Website cũng cung cấp Apifox để bạn thử nghiệm. Thay thế bằng CometAPI key thực tế từ tài khoản của bạn. base url là Chat Completions.

Chèn câu hỏi hoặc yêu cầu của bạn vào trường nội dung — đây là thứ mà mô hình sẽ phản hồi. Xử lý phản hồi API để lấy câu trả lời được tạo.

Bước 3: Lấy và xác minh kết quả

Xử lý phản hồi API để lấy câu trả lời được tạo. Sau khi xử lý, API trả về trạng thái tác vụ và dữ liệu đầu ra.

Câu hỏi thường gặp

Kimi K2.5 có bao nhiêu tham số và sử dụng kiến trúc nào?

Kimi K2.5 sử dụng kiến trúc Mixture-of-Experts (MoE) với tổng cộng khoảng 1 nghìn tỷ tham số, trong đó khoảng 32 tỷ tham số được kích hoạt trên mỗi token trong quá trình suy luận. :contentReference[oaicite:1]{index=1}

Kimi K2.5 có thể xử lý những loại đầu vào nào?

Kimi K2.5 là một mô hình đa phương thức gốc, xử lý cả đầu vào ngôn ngữ và hình ảnh (ảnh và video) mà không cần mô-đun bổ sung, sử dụng bộ mã hóa thị giác MoonViT tích hợp sẵn. :contentReference[oaicite:2]{index=2}

Kích thước cửa sổ ngữ cảnh của Kimi K2.5 là bao nhiêu và tại sao điều đó quan trọng?

Kimi K2.5 hỗ trợ cửa sổ ngữ cảnh mở rộng lên đến 256.000 token, cho phép duy trì ngữ cảnh trên các tài liệu lớn, cơ sở mã nguồn mở rộng hoặc các cuộc trò chuyện dài. :contentReference[oaicite:3]{index=3}

Các chế độ hoạt động chính của Kimi K2.5 là gì?

Mô hình hỗ trợ nhiều chế độ, bao gồm Instant (phản hồi nhanh), Thinking (suy luận sâu) và các chế độ Agent/Agent Swarm để điều phối các tác vụ phức tạp nhiều bước. :contentReference[oaicite:4]{index=4}

Tính năng Agent Swarm cải thiện hiệu suất như thế nào?

Agent Swarm cho phép Kimi K2.5 tạo động và điều phối tới khoảng 100 tác tử con chuyên biệt để làm việc song song trên các mục tiêu phức tạp, giúp giảm thời gian chạy đầu-cuối trong các quy trình làm việc nhiều bước. :contentReference[oaicite:5]{index=5}

Kimi K2.5 có phù hợp cho các tác vụ lập trình liên quan đến đặc tả trực quan không?

Có — Kimi K2.5 có thể tạo hoặc gỡ lỗi mã từ đầu vào trực quan như bản mô phỏng UI hoặc ảnh chụp màn hình vì khả năng suy luận thị giác và ngôn ngữ của nó được tích hợp ở mức cốt lõi. :contentReference[oaicite:6]{index=6}

Những hạn chế thực tế nào cần cân nhắc với Kimi K2.5?

Do kích thước của nó (1T tham số), việc triển khai cục bộ với đầy đủ trọng số đòi hỏi phần cứng đáng kể (hàng trăm GB RAM/VRAM), và các khả năng tiên tiến nhất của nó (như Agent Swarm) có thể vẫn đang trong giai đoạn thử nghiệm hoặc beta. :contentReference[oaicite:7]{index=7}

Tính năng cho Kimi K2.5

Khám phá các tính năng chính của Kimi K2.5, được thiết kế để nâng cao hiệu suất và khả năng sử dụng. Tìm hiểu cách các khả năng này có thể mang lại lợi ích cho dự án của bạn và cải thiện trải nghiệm người dùng.

Giá cả cho Kimi K2.5

Khám phá mức giá cạnh tranh cho Kimi K2.5, được thiết kế để phù hợp với nhiều ngân sách và nhu cầu sử dụng khác nhau. Các gói linh hoạt của chúng tôi đảm bảo bạn chỉ trả tiền cho những gì bạn sử dụng, giúp dễ dàng mở rộng quy mô khi yêu cầu của bạn tăng lên. Khám phá cách Kimi K2.5 có thể nâng cao các dự án của bạn trong khi vẫn kiểm soát được chi phí.
Giá Comet (USD / M Tokens)Giá Chính Thức (USD / M Tokens)Giảm giá
Đầu vào:$0.48/M
Đầu ra:$2.4/M
Đầu vào:$0.6/M
Đầu ra:$3/M
-20%

Mã mẫu và API cho Kimi K2.5

Truy cập mã mẫu toàn diện và tài nguyên API cho Kimi K2.5 để tối ưu hóa quy trình tích hợp của bạn. Tài liệu chi tiết của chúng tôi cung cấp hướng dẫn từng bước, giúp bạn khai thác toàn bộ tiềm năng của Kimi K2.5 trong các dự án của mình.
Python
JavaScript
Curl
from openai import OpenAI
import os

# Get your CometAPI key from https://api.cometapi.com/console/token, and paste it here
COMETAPI_KEY = os.environ.get("COMETAPI_KEY") or "<YOUR_COMETAPI_KEY>"
BASE_URL = "https://api.cometapi.com/v1"

client = OpenAI(base_url=BASE_URL, api_key=COMETAPI_KEY)

completion = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello!"},
    ],
)

print(completion.choices[0].message.content)

Thêm mô hình