OpenAI phát hành dòng GPT-5.4: những thay đổi của GPT-5.4

Bản phát hành mới nhất của OpenAI, GPT-5.4, ra mắt như một dòng mô hình “công việc chuyên nghiệp” nhắm mục tiêu với hai biến thể chính — GPT-5.4 Thinking và GPT-5.4 Pro — và nhấn mạnh mạnh mẽ vào công việc tài liệu ngữ cảnh dài, khả năng sử dụng máy tính gốc (agent) và độ chính xác thông tin cùng hiệu suất tác vụ được cải thiện trên các quy trình văn phòng, pháp lý và tài chính. Bản phát hành này tiếp nối các cập nhật trước đó trong dòng GPT-5 (đáng chú ý là GPT-5.3 Instant và GPT-5.3-Codex) và mang lại những cải thiện đo lường được trên các benchmark nội bộ và công khai, tích hợp công cụ sâu hơn (bao gồm plug-in ChatGPT cho Excel), và ngữ cảnh được hỗ trợ lớn hơn (trích dẫn tới 1 triệu token).

Hiện CometAPI hỗ trợ GPT-5.4 (https://www.cometapi.com/models/openai/gpt-5-4/) và GPT-5.4 Pro (https://www.cometapi.com/models/openai/gpt-5-4-pro/), và áp dụng ưu đãi giảm giá khi sử dụng chúng.

GPT-5.4 là gì?

Định vị và biến thể

GPT-5.4 được OpenAI giới thiệu là mô hình mạnh nhất trong dòng GPT-5, được tinh chỉnh cho các quy trình công việc mang tính chuyên nghiệp, nặng về tài liệu và tác tử. Mô hình được cung cấp với ít nhất hai phiên bản công khai:

GPT-5.4 Thinking — biến thể tập trung vào suy luận, hiển thị nhiều hơn quá trình suy nghĩ của mô hình và được tối ưu cho suy luận nhiều bước và các tác vụ mang tính tác tử (có trong ChatGPT với chế độ “Thinking”).
GPT-5.4 Pro — tầng suy luận ưu tiên/công suất cao cho khối lượng công việc doanh nghiệp có thông lượng lớn hoặc nhạy về độ trễ, với giá API cao hơn (phản ánh lượng tính toán bổ sung).

OpenAI nhấn mạnh khả năng sử dụng máy tính gốc của GPT-5.4 — cho phép mô hình vận hành phần mềm thông qua các hành động chuột/bàn phím có lập trình và điều phối chuỗi công cụ — được định vị như một bước thay đổi để xây dựng các agent hoàn thành công việc thực sự.

Các khả năng mới và được nhấn mạnh

Hỗ trợ ngữ cảnh dài: GPT-5.4 được cho là hỗ trợ ngữ cảnh rất lớn (hỗ trợ tới 1.000.000 token trong ngữ cảnh ChatGPT và Codex), cho phép mô hình “giữ trong bộ nhớ” các dự án khổng lồ, sách, codebase hoặc dataset trong suốt một phiên làm việc. Điều này mang tính bước ngoặt cho việc rà soát tài liệu, hợp đồng pháp lý và các dự án kỹ thuật đa tệp.
Sử dụng máy tính gốc / tác tử: GPT-5.4 là mô hình mục đích chung đầu tiên của OpenAI có khả năng sử dụng máy tính gốc — có thể tạo chuỗi hành động UI và mã để vận hành phần mềm (ví dụ thông qua Playwright hoặc bằng cách phát lệnh chuột/bàn phím dựa trên ảnh chụp màn hình). Khả năng này được thiết kế để giúp nhà phát triển xây dựng các agent hoàn thành tác vụ trên web và ứng dụng desktop.
Cải thiện kỹ năng văn phòng: Nhấn mạnh đáng kể vào bảng tính, trình chiếu và tài liệu — các benchmark nội bộ cho thấy mức tăng lớn trong mô hình hóa bảng tính, tính thẩm mỹ của trình chiếu và chất lượng soạn thảo tài liệu.
Tính xác thực và giảm ảo tưởng (hallucination): OpenAI báo cáo mức giảm lỗi thực tế so với các mô hình trước trên các bộ đánh giá nội bộ (xem benchmark bên dưới).

So với các mô hình trước như GPT-5.2 Thinking và GPT-5.3 Codex, GPT-5.4 hợp nhất các khả năng này thành một mô hình duy nhất được thiết kế để xử lý các tác vụ dài hạn và quy trình phức tạp với can thiệp tối thiểu từ người dùng.

Tính năng chính và điểm nhấn kỹ thuật của GPT-5.4

1) Cửa sổ ngữ cảnh cực lớn (tối đa 1.000.000 token)

Khả năng dễ thấy nhất là hỗ trợ cửa sổ ngữ cảnh lên đến 1.000.000 token qua API. Điều này mở rộng những gì một phiên mô hình đơn có thể chứa: toàn bộ sách, codebase dài, hoặc cả tập hồ sơ đa tài liệu mà không cần chia nhỏ qua nhiều lần gọi. Với các quy trình doanh nghiệp đòi hỏi kiến thức chuyên sâu (khai phá pháp lý, tổng hợp nghiên cứu, phân tích mã quy mô lớn), khả năng duy trì ngữ cảnh một triệu token giúp giảm “keo dán” kỹ thuật và cải thiện tính mạch lạc.

Hàm ý: các quy trình trước đây cần phối hợp (truy xuất, chia đoạn, bộ nhớ ngoài) giờ có thể giữ nhiều ngữ cảnh thô hơn trong “bộ nhớ làm việc” của mô hình — đơn giản hóa pipeline và giảm đánh đổi giữa độ trễ/tính nhất quán.

2. Sử dụng máy tính và công cụ gốc

OpenAI nhấn mạnh khả năng vận hành công cụ phần mềm và connector (ví dụ: bảng tính, trình soạn thảo tài liệu, môi trường thực thi mã) mạnh hơn so với các mô hình trước. GPT-5.4 mở rộng công trình “sử dụng công cụ” trước đó với:

Lựa chọn công cụ và tham số hóa công cụ tốt hơn.
Lập kế hoạch chuỗi thao tác đáng tin cậy hơn khi gọi API bên ngoài hoặc bước qua các hành động kiểu UI.
Giảm chi phí token cho quy trình tác tử thông qua kiến trúc gọi công cụ thông minh hơn.

Khả năng tác tử và cho nhà phát triển:

Tự động hóa desktop và web: Với hỗ trợ rõ ràng cho việc phát hành hành động chuột và bàn phím dựa trên ảnh chụp màn hình, GPT-5.4 có thể được nhúng vào các agent vận hành quy trình phần mềm thực (ví dụ điền form, điều hướng dashboard, hoặc chạy quy trình nhiều bước). OpenAI báo cáo kết quả hàng đầu trên các benchmark kiểu hệ điều hành.
Giao diện công cụ và khả năng định hướng: GPT-5.4 dễ điều khiển hơn thông qua thông điệp nhà phát triển và có thể quyết định tốt hơn khi nào và cách gọi các công cụ, connector và API bên ngoài — năng lực then chốt để xây dựng agent đa công cụ đáng tin cậy, giảm hành động không cần thiết hoặc rủi ro.

Tác động thực tiễn: Các tác vụ tự động hóa (ví dụ “mở bảng tính này, tính các pivot, tạo ghi chú slide”) cần ít vòng thất bại/thử lại hơn và giảm giám sát của con người.

3) Năm mức độ nỗ lực suy luận, chế độ cực trị

OpenAI cho biết có nhiều mức nỗ lực suy luận — cho phép người dùng đánh đổi độ trễ/chi phí để có tính toán chuỗi suy nghĩ nội bộ sâu hơn (các chế độ đôi khi được gọi không chính thức là xhigh hoặc extreme reasoning). Chúng được dùng cho các vấn đề mà việc cân nhắc nội bộ sâu hơn cải thiện đáng kể tính đúng đắn (chứng minh phức tạp, chuyển đổi mã dài, phân tích tài chính nhiều bước). Giá API và logic tính phí phản ánh lượng công việc bổ sung khi dùng các chế độ này.

Tác động thực tiễn: Sự tách bạch này cho phép khách hàng chọn đánh đổi phù hợp với khối lượng công việc thay vì yêu cầu một mô hình “làm mọi thứ”.

4) Năng suất và soạn thảo nội dung

Mô hình hóa bảng tính: GPT-5.4 cho thấy cải thiện mạnh trên các tác vụ bảng tính thường dùng trong kiểm toán, tài chính và phân tích. OpenAI báo cáo điểm trung bình 87,3% trên các tác vụ phong cách “mô hình hóa ngân hàng đầu tư” cho GPT-5.4 so với 68,4% cho GPT-5.2. Đây là mức nâng đáng kể về độ chính xác ở cấp tác vụ cho mô hình số và xây dựng công thức.
Bài thuyết trình và đầu ra trực quan: Người chấm ưa thích các bài thuyết trình do GPT-5.4 tạo ra 68,0% thời gian so với GPT-5.2 nhờ thẩm mỹ tốt hơn, đa dạng hơn và tích hợp tạo ảnh. Điều này phản ánh cả cải thiện nội dung lẫn hình thức khi tạo slide.
Soạn thảo tài liệu và viết dài: GPT-5.4 được tối ưu để duy trì tính nhất quán trên tài liệu dài, hành vi trích dẫn tốt hơn và ít mâu thuẫn nội bộ hơn khi xử lý ngữ cảnh lớn, nhờ cửa sổ ngữ cảnh mở rộng và tinh chỉnh suy luận chuyên biệt.

5) An toàn, biện pháp giảm thiểu và cân nhắc an ninh mạng

Giảm ảo tưởng: OpenAI báo cáo rằng trên một tập nhắc lệnh đã khử định danh nơi người dùng gắn cờ lỗi thực tế, các mệnh đề riêng lẻ từ GPT-5.4 ít có khả năng sai sự thật hơn 33%, và phản hồi đầy đủ ít có khả năng chứa bất kỳ lỗi nào hơn 18%, so với GPT-5.2 — là chỉ số then chốt cho doanh nghiệp nơi độ chính xác quan trọng.
Biện pháp giảm thiểu an ninh mạng (biến thể Thinking): GPT-5.4 Thinking nhấn mạnh bộ biện pháp giảm thiểu rủi ro mạng mở rộng, kế thừa các biện pháp bảo vệ dùng cho các mô hình Codex/5.3 trước đó. GPT-5.4 Thinking được thiết kế với rào chắn bổ sung cho các kịch bản lạm dụng năng lực cao.

Benchmark hiệu năng — những con số nói gì

OpenAI và một số nguồn đã công bố kết quả benchmark sớm trong đợt ra mắt. Vì các benchmark khác nhau kiểm tra các năng lực khác nhau (điều hướng web vs. tri thức theo lĩnh vực vs. an toàn), việc tổng hợp các con số chính và ý nghĩa của chúng là hữu ích.

OpenAI phát hành dòng GPT-5.4: những thay đổi của GPT-5.4

Các kết quả được báo cáo cho thấy cải thiện đáng kể so với các thành viên GPT-5.x trước đó và cạnh tranh sát sao với các mô hình hàng đầu khác.

Benchmark tương tác web và desktop

WebArena-Verified (bài kiểm tra sử dụng trình duyệt): GPT-5.4 đạt tỷ lệ thành công 67,3% khi dùng cả tín hiệu DOM và ảnh chụp màn hình, so với 65,4% của GPT-5.2 — mức nâng nhìn thấy được nhưng không quá lớn. Chỉ số này đo các tác vụ mô hình phải tương tác với trang web sống và phần tử UI.
Online-Mind2Web (tác vụ trình duyệt dựa trên ảnh chụp màn hình): GPT-5.4 đạt 92,8% thành công chỉ với quan sát ảnh chụp màn hình — cải thiện đặc biệt mạnh so với các baseline kiểu agent trước đó (OpenAI so sánh với hiệu năng Agent Mode của ChatGPT Atlas).
OSWorld-Verified (điều hướng desktop): báo cáo độc lập cho biết GPT-5.4 đạt 75,0% trên benchmark đánh giá điều hướng môi trường desktop và hoàn thành tác vụ. Kết quả đó đặt 5.4 vượt lên trên nhiều baseline công khai cho tác vụ tự động hóa đầu-cuối.

Kết luận: Cải thiện của 5.4 rõ rệt nhất ở nơi hiểu ngữ cảnh trực quan, affordance UI và chuỗi hành động dài quan trọng — tức là quy trình tác tử.

Benchmark sức khỏe, an toàn và tri thức

Báo cáo an toàn triển khai của OpenAI cho thấy tín hiệu trái chiều:

HealthBench: GPT-5.4 đạt 62,6% trên HealthBench (giảm nhẹ từ 63,3% của GPT-5.2), cho thấy những đánh đổi tinh tế giữa năng lực và các chỉ số sức khỏe trong các bài kiểm tra ảnh chụp nhanh mà OpenAI báo cáo.
Hard: GPT-5.4 đạt 40,1% trên bộ đánh giá “Hard” (giảm nhẹ từ 42,0%).
Consensus: GPT-5.4 đạt 96,6% trên “Consensus”, một chỉ số phản ánh mức độ đồng thuận với đáp án đã được tuyển chọn (tăng khoảng 2,1 điểm).

OpenAI cũng lưu ý thay đổi độ dài phản hồi trung bình trên các đánh giá sức khỏe (GPT-5.4 trung bình ~3.311 ký tự so với 2.676 của GPT-5.2), điều này có thể ảnh hưởng cách mô hình trình bày chủ đề nhạy cảm.

Diễn giải: Các chỉ số an toàn và sức khỏe cho thấy 5.4 nhìn chung tăng mức độ phù hợp với đồng thuận và thay đổi độ dài câu trả lời, dù một số điểm sức khỏe hẹp giảm nhẹ. Mẫu hình này thường phản ánh việc cân bằng lại mục tiêu mô hình — câu trả lời dài hơn, quyết đoán hơn có thể giúp ích cho tính hữu dụng và đồng thuận trong khi cần giám sát cẩn trọng ở các lĩnh vực nhạy cảm.

Ví dụ và tuyên bố theo lĩnh vực

Thử nghiệm sớm cung cấp các tuyên bố cụ thể theo miền (OpenAI và nguồn bên thứ ba):

Legal reasoning benchmark (BigLaw Bench) — GPT-5.4 đạt khoảng 91% trên các lát cắt suy luận pháp lý trong thử nghiệm sớm, tín hiệu mạnh cho tác vụ phân tích tài liệu; lưu ý đây là các con số sớm, chưa được bình duyệt.
Giảm ảo tưởng: Phản hồi của GPT-5.4 ít có khả năng chứa mệnh đề sai lệch khoảng 33% và ít có khả năng chứa lỗi thực tế khoảng 18% so với một số baseline trước. Các tỷ lệ phần trăm này được nhấn mạnh trong báo cáo thứ cấp và truyền thông của công ty; như mọi tuyên bố tương tự, chúng phụ thuộc vào bộ benchmark và phương pháp lấy mẫu.

Cách truy cập và thanh toán cho GPT-5.4

Các gói ChatGPT và quyền truy cập doanh nghiệp

Theo OpenAI và các báo cáo sản phẩm:

Người dùng ChatGPT Plus / Team / Pro là nhóm nhận GPT-5.4 Thinking trong sản phẩm ngay lập tức. Quản trị viên Enterprise và Education có thể bật quyền truy cập sớm thông qua điều khiển quản trị. Người dùng Free/Go không được đảm bảo truy cập ngay. Nhà phát triển có thể gọi các endpoint gpt-5.4 và gpt-5.4-pro qua API.

Ảnh chụp giá API (giá cho nhà phát triển được công bố)

Bảng giá cho nhà phát triển của OpenAI liệt kê GPT-5.4 là mô hình tuyến đầu với phí theo token. Như được công bố trên trang giá công khai tại thời điểm thông báo, mức giá mẫu cho GPT-5.4 xấp xỉ:

Mô hình	Đầu vào	Đầu vào được lưu cache	Đầu ra
gpt-5.4 (<272K độ dài ngữ cảnh)	$2.50	$0.25	$15.00
gpt-5.4 (>272K độ dài ngữ cảnh)	$5.00	$0.50	$22.50
gpt-5.4-pro (<272K độ dài ngữ cảnh)	$30.00		$180.00
gpt-5.4-pro (>272K độ dài ngữ cảnh)	$60.00		$270.00

In CometAPI(a one-stop aggregation platform for large model APIs):

Mô hình	Giá Comet (USD / M token)	Giá chính thức (USD / M token)	Giảm giá
gpt-5.4	Đầu vào:$2/M; Đầu ra:$16/M	Đầu vào:$2.5/M; Đầu ra:$20/M	-20%
gpt-5.4-pro	Đầu vào:$24/MĐầu ra:$192/M	Đầu vào:$30/MĐầu ra:$240/M	-20%

Vì vậy, tôi rất khuyến nghị CometAPI, vì nó có thể giảm đáng kể chi phí API.

Cân nhắc quản lý chi phí

Nếu bạn dự định sử dụng mô hình ở quy mô lớn, đặc biệt trong bối cảnh tài liệu dài hoặc thông lượng cao, bạn nên cân nhắc:

Bộ nhớ đệm và khử trùng lặp đầu vào (để dùng mức giá đầu vào được cache khi có thể).
Kỹ thuật prompt để nén ngữ cảnh và tránh token dư thừa.
Chiến lược gộp lô và hậu xử lý nhằm giảm thiểu việc tạo đầu ra đắt đỏ.
Giám sát việc sử dụng chế độ suy luận, vì các chế độ suy luận sâu hơn có thể mang chi phí tính toán cao hơn.

So sánh: GPT-5.4 vs GPT-5.3

Nơi GPT-5.4 cải thiện so với GPT-5.3

Độ sâu suy luận và điều phối công cụ: 5.4 Thinking được tinh chỉnh rõ ràng để vượt 5.3 ở suy luận nhiều bước và kịch bản tác tử. Điều này thể hiện trong benchmark tương tác web/desktop và các chỉ số thành công của agent.
Dung lượng ngữ cảnh: Cung cấp 1M token của 5.4 là bước tiến kỹ thuật rõ ràng vượt quá những gì 5.3 cung cấp phổ biến qua API, mở ra lớp tác vụ phiên đơn mới.
Cải thiện hiệu năng theo lĩnh vực: Các con số sớm từ OpenAI và bên thứ ba cho thấy nâng cấp trên một số benchmark pháp lý và tài liệu, nơi ngữ cảnh dài hơn và tinh chỉnh chuyên biệt của 5.4 phát huy tác dụng.

Đánh đổi và khi nào 5.3 vẫn có thể phù hợp hơn

Sử dụng hội thoại nhẹ: GPT-5.3 Instant (https://www.cometapi.com/models/openai/gpt-5-3-chat-latest/) vẫn được tối ưu cho luồng hội thoại nhanh, kinh tế; các tổ chức cần độ trễ/chi phí thấp nhất cho tương tác chat ngắn có thể ưa chuộng nó.
Độ ổn định của chỉ số an toàn: một số điểm sức khỏe và “hard” giảm nhẹ ở 5.4 so với 5.2 trong ảnh chụp của OpenAI; doanh nghiệp ở lĩnh vực nhạy cảm có quy định nên tự thẩm định mô hình trên bộ đánh giá riêng trước khi triển khai đầy đủ.

Trường hợp sử dụng và hàm ý ngành

Sự kết hợp giữa suy luận sâu, bộ nhớ ngữ cảnh dài và khả năng dùng công cụ của GPT-5.4 mở ra nhiều cơ hội thực tiễn và chiến lược.

1. Dịch vụ chuyên nghiệp và tư vấn

Các công ty tạo ra sản phẩm bàn giao dài (ví dụ: bản bào chữa pháp lý, báo cáo tư vấn nhiều chương, bộ tài liệu thẩm định M&A) có thể giữ toàn bộ tài liệu và dataset trong ngữ cảnh, cho phép tổng hợp xuyên tài liệu mạch lạc, QA tự động và tạo tóm tắt điều hành mà không cần ghép thủ công. Các chiến thắng benchmark trên APEX-Agents phù hợp với định vị này.

2. Kỹ nghệ phần mềm và suy luận trên mã nguồn

Ngữ cảnh dài hơn nghĩa là một lần gọi mô hình có thể bao gồm cả kho mã hoặc chuỗi log dài. Cải thiện trên benchmark SWE của GPT-5.4 cho thấy hiệu năng tốt hơn cho gỡ lỗi, tái cấu trúc và quy trình review mã — đặc biệt khi kết hợp với Pro cho tải liên tục.

3. Tác tử tự động và tự động hóa doanh nghiệp

Hệ thống tác tử vận hành qua công cụ (bảng tính, hệ thống ticket, giao diện web) hưởng lợi từ lựa chọn công cụ tốt hơn, giảm chi phí token cho quy trình tác tử và cải thiện bảo toàn trạng thái dài hạn. Điều này khiến GPT-5.4 hấp dẫn cho pipeline tự động hóa doanh nghiệp và “trợ lý biết hành động” trên nhiều hệ thống.

Tóm lại — GPT-5.4 thay đổi điều gì

GPT-5.4 đại diện cho một bước tiến thực dụng và hướng năng lực tới các mô hình có thể xử lý suy luận dài, đa tài liệu, thực thi quy trình tác tử đáng tin cậy hơn, và có thể mở rộng vào pipeline chuyên nghiệp qua hợp đồng Pro. Đối với các tổ chức có quy trình dài hạn và phụ thuộc công cụ, GPT-5.4 là bước thay đổi về tiềm năng năng suất.

Nhà phát triển có thể truy cập GPT-5.4, GPT-5.4-pro, and GPT 5.3 Chat qua CometAPI ngay bây giờ. Để bắt đầu, hãy khám phá các khả năng của mô hình trong Playground và tham khảo API guide để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và lấy API key. CometAPI cung cấp mức giá thấp hơn rất nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng chưa?→ Đăng ký GPT-5.4 ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!