Thông tin cơ bản & tính năng chính
GPT-5 mini là thành viên tối ưu về chi phí và độ trễ trong gia đình GPT-5, nhằm mang lại phần lớn sức mạnh đa phương thức và khả năng tuân thủ hướng dẫn của GPT-5 với chi phí thấp hơn đáng kể cho các trường hợp triển khai quy mô lớn. Mục tiêu là các môi trường nơi thông lượng, mức giá theo mỗi token có thể dự đoán, và phản hồi nhanh là các ràng buộc chính, đồng thời vẫn cung cấp năng lực đa dụng mạnh mẽ.
- Tên mô hình:
gpt-5-mini - Cửa sổ ngữ cảnh: 400 000 tokens
- Số token đầu ra tối đa: 128 000
- Tính năng chính: tốc độ, thông lượng, hiệu quả chi phí, đầu ra mang tính xác định cho các prompt ngắn gọn
gpt-5-mini hoạt động như thế nào?
Đường dẫn suy luận & triển khai được tối ưu. Tốc độ thực tế được cải thiện nhờ hợp nhất kernel, song song hóa tensor được tinh chỉnh cho đồ thị nhỏ hơn, và thời gian chạy suy luận ưu tiên các vòng lặp “suy nghĩ” nội bộ ngắn hơn trừ khi nhà phát triển yêu cầu suy luận sâu hơn. Đó là lý do mini đạt mức tính toán mỗi lần gọi thấp hơn rõ rệt và độ trễ có thể dự đoán cho lưu lượng lớn. Đây là đánh đổi có chủ đích: tính toán mỗi lần lan truyền tiến thấp hơn → chi phí thấp hơn và độ trễ trung bình thấp hơn.
Tùy chọn dành cho nhà phát triển. GPT-5 mini cung cấp các tham số như verbosity (kiểm soát mức độ chi tiết/độ dài) và reasoning_effort (đánh đổi tốc độ so với chiều sâu), cùng hỗ trợ tool-calling mạnh mẽ (gọi hàm, chuỗi công cụ song song và xử lý lỗi có cấu trúc), cho phép các hệ thống sản xuất tinh chỉnh chính xác độ chính xác so với chi phí.
Hiệu năng benchmark — các con số nổi bật và diễn giải
GPT-5 mini thường nằm trong khoảng ~85–95% so với GPT-5 high trên các benchmark tổng quát, đồng thời cải thiện đáng kể độ trễ/giá. Tài liệu ra mắt nền tảng cho thấy điểm tuyệt đối rất cao cho GPT-5 high (AIME ≈ 94.6% được báo cáo cho biến thể hàng đầu), còn mini thấp hơn đôi chút nhưng vẫn dẫn đầu ngành trong tầm giá.
Trên nhiều benchmark chuẩn hóa và nội bộ, GPT-5 mini đạt được:
- Trí tuệ (AIME ’25): 91.1% (so với 94.6% của GPT-5 high)
- Đa phương thức (MMMU): 81.6% (so với 84.2% của GPT-5 high)
- Lập trình (SWE-bench Verified): 71.0% (so với 74.9% của GPT-5 high)
- Tuân thủ hướng dẫn (Scale MultiChallenge): 62.3% (so với 69.6%)
- Gọi hàm (τ²-bench telecom): 74.1% (so với 96.7%)
- Tỷ lệ ảo giác (LongFact-Concepts): 0.7% (càng thấp càng tốt)([OpenAI][4])
Các kết quả này cho thấy những đánh đổi vững vàng của GPT-5 mini giữa hiệu năng, chi phí và tốc độ.
Hạn chế
Hạn chế đã biết: GPT-5 mini giảm khả năng suy luận sâu so với GPT-5 đầy đủ, nhạy cảm hơn với prompt mơ hồ, và vẫn còn rủi ro ảo giác.
- Giảm suy luận sâu: Với các tác vụ suy luận nhiều bước, tầm nhìn dài, mô hình suy luận đầy đủ hoặc biến thể “suy nghĩ” vượt trội hơn mini.
- Ảo giác & quá tự tin: Mini giảm ảo giác so với các mô hình rất nhỏ nhưng không loại bỏ hoàn toàn; đầu ra cần được xác thực trong các quy trình rủi ro cao (pháp lý, y khoa, tuân thủ).
- Nhạy cảm ngữ cảnh: Các chuỗi ngữ cảnh rất dài, phụ thuộc lẫn nhau cao sẽ phù hợp hơn với các biến thể GPT-5 đầy đủ có cửa sổ ngữ cảnh lớn hơn hoặc mô hình “suy nghĩ”.
- Giới hạn an toàn & chính sách: Cùng hàng rào an toàn và giới hạn tốc độ/sử dụng như các mô hình GPT-5 khác áp dụng cho mini; tác vụ nhạy cảm cần có giám sát của con người.
gpt-5-mini làm gì?
- Tác nhân hội thoại lưu lượng lớn: độ trễ thấp, chi phí có thể dự đoán.
- Tóm tắt tài liệu & đa phương thức: tóm tắt ngữ cảnh dài, báo cáo hình ảnh + văn bản.
- Công cụ cho nhà phát triển ở quy mô: kiểm tra mã CI, đánh giá tự động, sinh mã nhẹ.
- Điều phối agent: gọi công cụ với các chuỗi song song khi không cần suy luận sâu.
Tôi bắt đầu sử dụng API gpt-5-mini như thế nào?
Các bước bắt buộc
- Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước
- Lấy khóa API (thông tin xác thực) của giao diện. Nhấp “Add Token” tại mục API token trong trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
- Lấy url của site này: https://api.cometapi.com/
Cách sử dụng
- Chọn endpoint “
gpt-5-mini“ / "gpt-5-mini-2025-08-07" để gửi yêu cầu API và thiết lập request body. Phương thức request và request body được lấy từ tài liệu API trên trang web của chúng tôi. Trang web cũng cung cấp Apifox để bạn tiện thử nghiệm. - Thay thế <YOUR_API_KEY> bằng CometAPI key thực của bạn từ tài khoản.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường content — đó là nội dung mà mô hình sẽ phản hồi.
- Xử lý phản hồi API để lấy câu trả lời được tạo.
CometAPI cung cấp REST API tương thích hoàn toàn — cho việc di trú liền mạch. Chi tiết chính xem tại API doc:
- Tham số cốt lõi:
prompt,max_tokens_to_sample,temperature,stop_sequences - Endpoint: https://api.cometapi.com/v1/chat/completions
- Tham số Model: “
gpt-5-mini“ / "gpt-5-mini-2025-08-07" - Xác thực:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.
Hướng dẫn gọi API: gpt-5-chat-latest nên được gọi bằng chuẩn /v1/chat/completions format. Với các mô hình khác (gpt-5, gpt-5-mini, gpt-5-nano và các phiên bản có ngày), sử dụng the /v1/responses format được khuyến nghị. Hiện có hai chế độ khả dụng.