Thông tin cơ bản & các tính năng chính
GPT-5 mini là thành viên của dòng GPT-5 của OpenAI được tối ưu về chi phí và độ trễ, nhằm mang lại phần lớn sức mạnh đa phương thức và khả năng tuân theo chỉ dẫn của GPT-5 với chi phí thấp hơn đáng kể cho việc sử dụng sản xuất ở quy mô lớn. Mô hình này hướng đến các môi trường mà thông lượng, mức giá trên mỗi token có thể dự đoán được, và phản hồi nhanh là các ràng buộc chính, trong khi vẫn cung cấp năng lực đa dụng mạnh mẽ.
- Tên mô hình:
gpt-5-mini - Cửa sổ ngữ cảnh: 400 000 token
- Số token đầu ra tối đa: 128 000
- Các tính năng chính: tốc độ, thông lượng, hiệu quả chi phí, đầu ra mang tính xác định đối với các lời nhắc ngắn gọn
gpt-5-mini hoạt động như thế nào?
Đường suy luận và triển khai được tối ưu hóa. Những cải thiện tốc độ trong thực tế đến từ kernel fusion, tensor parallelism được tinh chỉnh cho một đồ thị nhỏ hơn, và một môi trường chạy suy luận ưu tiên các vòng “suy nghĩ” nội bộ ngắn hơn trừ khi nhà phát triển yêu cầu suy luận sâu hơn. Đó là lý do mini đạt được mức tính toán trên mỗi lượt gọi thấp hơn đáng kể và độ trễ có thể dự đoán được cho lưu lượng lớn. Sự đánh đổi này là có chủ đích: ít tính toán hơn trên mỗi lần forward pass → chi phí thấp hơn và độ trễ trung bình thấp hơn.
Điều khiển cho nhà phát triển. GPT-5 mini cung cấp các tham số như verbosity (kiểm soát mức độ chi tiết/độ dài) và reasoning_effort (đánh đổi giữa tốc độ và độ sâu), cùng với hỗ trợ mạnh mẽ cho tool-calling (gọi hàm, chuỗi công cụ song song, và xử lý lỗi có cấu trúc), giúp các hệ thống sản xuất điều chỉnh chính xác giữa độ chính xác và chi phí.
Hiệu năng benchmark — các con số nổi bật và cách diễn giải
GPT-5 mini thường đạt khoảng ~85–95% hiệu năng của GPT-5 high trên các benchmark tổng quát, đồng thời cải thiện đáng kể về độ trễ/giá. Tài liệu ra mắt nền tảng cho thấy điểm số tuyệt đối rất cao của GPT-5 high (AIME ≈ 94.6% được báo cáo cho biến thể cao cấp nhất), trong khi mini thấp hơn đôi chút nhưng vẫn dẫn đầu ngành ở phân khúc giá của nó.
Trên nhiều benchmark tiêu chuẩn hóa và benchmark nội bộ, GPT-5 mini đạt được:
- Trí tuệ (AIME ’25): 91.1% (so với 94.6% của GPT-5 high)
- Đa phương thức (MMMU): 81.6% (so với 84.2% của GPT-5 high)
- Lập trình (SWE-bench Verified): 71.0% (so với 74.9% của GPT-5 high)
- Tuân theo chỉ dẫn (Scale MultiChallenge): 62.3% (so với 69.6%)
- Gọi hàm (τ²-bench telecom): 74.1% (so với 96.7%)
- Tỷ lệ ảo giác (LongFact-Concepts): 0.7% (càng thấp càng tốt)([OpenAI][4])
Những kết quả này cho thấy các đánh đổi vững chắc của GPT-5 mini giữa hiệu năng, chi phí và tốc độ.
Hạn chế
Các hạn chế đã biết: GPT-5 mini giảm năng lực suy luận sâu so với GPT-5 đầy đủ, nhạy cảm hơn với các lời nhắc mơ hồ, và vẫn còn rủi ro ảo giác.
- Suy luận sâu bị giảm: Với các tác vụ suy luận nhiều bước, dài hạn, mô hình suy luận đầy đủ hoặc các biến thể “thinking” vượt trội hơn mini.
- Ảo giác & quá tự tin: Mini giảm ảo giác so với các mô hình rất nhỏ nhưng không loại bỏ hoàn toàn; đầu ra cần được xác thực trong các quy trình có mức độ rủi ro cao (pháp lý, lâm sàng, tuân thủ).
- Độ nhạy theo ngữ cảnh: Các chuỗi ngữ cảnh rất dài, phụ thuộc lẫn nhau cao sẽ phù hợp hơn với các biến thể GPT-5 đầy đủ có cửa sổ ngữ cảnh lớn hơn hoặc mô hình “thinking”.
- Giới hạn an toàn & chính sách: Các hàng rào an toàn và giới hạn tốc độ/mức sử dụng áp dụng cho các mô hình GPT-5 khác cũng áp dụng cho mini; các tác vụ nhạy cảm cần có sự giám sát của con người.
gpt-5-mini làm được gì?
- Tác nhân hội thoại lưu lượng lớn: độ trễ thấp, chi phí có thể dự đoán.
- Tóm tắt tài liệu & đa phương thức: tóm tắt ngữ cảnh dài, báo cáo hình ảnh + văn bản.
- Công cụ cho nhà phát triển ở quy mô lớn: kiểm tra mã CI, tự động review, sinh mã nhẹ.
- Điều phối tác nhân: tool-calling với các chuỗi song song khi không cần suy luận sâu.
Tôi bắt đầu sử dụng API gpt-5-mini như thế nào?
Các bước bắt buộc
- Đăng nhập vào cometapi.com. Nếu bạn chưa là người dùng của chúng tôi, vui lòng đăng ký trước
- Lấy khóa API truy cập của giao diện. Nhấp vào “Add Token” trong mục API token ở trung tâm cá nhân, lấy khóa token: sk-xxxxx và gửi.
- Lấy url của trang này: https://api.cometapi.com/
Cách sử dụng
- Chọn endpoint “
gpt-5-mini“ / "gpt-5-mini-2025-08-07" để gửi yêu cầu API và thiết lập phần thân yêu cầu. Phương thức yêu cầu và phần thân yêu cầu được lấy từ tài liệu API trên website của chúng tôi. Website của chúng tôi cũng cung cấp bài kiểm tra Apifox để bạn thuận tiện sử dụng. - Thay thế <YOUR_API_KEY> bằng khóa CometAPI thực tế từ tài khoản của bạn.
- Chèn câu hỏi hoặc yêu cầu của bạn vào trường content—đây là nội dung mà mô hình sẽ phản hồi.
- . Xử lý phản hồi API để lấy câu trả lời được tạo.
CometAPI cung cấp REST API hoàn toàn tương thích—để di chuyển liền mạch. Các chi tiết chính xem tại API doc:
- Các tham số cốt lõi:
prompt,max_tokens_to_sample,temperature,stop_sequences - Endpoint: https://api.cometapi.com/v1/chat/completions
- Tham số model: “
gpt-5-mini“ / "gpt-5-mini-2025-08-07" - Xác thực:
Bearer YOUR_CometAPI_API_KEY - Content-Type:
application/json.
Hướng dẫn gọi API: gpt-5-chat-latest nên được gọi bằng định dạng chuẩn /v1/chat/completions format. Với các mô hình khác (gpt-5, gpt-5-mini, gpt-5-nano, và các phiên bản có ngày của chúng), khuyến nghị sử dụng the /v1/responses format is recommended. Hiện tại có hai chế độ khả dụng.