Cách sử dụng API GPT-5.4: Hướng dẫn sử dụng các tham số và công cụ

Trong các ngày 5–7 tháng 3 năm 2026, OpenAI đã công bố rộng rãi GPT-5.4, một mô hình tiên phong được tinh chỉnh rõ ràng cho các quy trình công việc chuyên nghiệp, nặng tài liệu và dạng tác nhân (agentic). Bản phát hành nhấn mạnh ba tiến bộ hội tụ: (1) cửa sổ ngữ cảnh lớn hơn đáng kể (≈1,050,000 token), (2) khả năng “reasoning” mới cho phép nhà phát triển kiểm soát mức độ nỗ lực lập luận nội bộ, và (3) khả năng hạng nhất về sử dụng máy tính / điều phối công cụ cùng hiểu biết đa phương thức được cải thiện (văn bản + hình ảnh + ảnh chụp màn hình). Những tính năng này khiến GPT-5.4 đặc biệt phù hợp với các nhiệm vụ như mô hình hoá bảng tính, rà soát hợp đồng, tạo slide, quy trình dạng tác nhân nhiều bước và viết mã vận hành hệ thống trực tiếp.

Bạn có thể trải nghiệm GPT-5.4 trên CometAPI. Một biến thể tính toán cao hơn — GPT-5.4 Pro — khả dụng cho các tác vụ đòi hỏi lập luận khó nhất và nhiều lượt tương tác.

GPT-5.4 là gì (bao gồm các biến thể Thinking và Pro)

Tổng quan về họ mô hình

GPT-5.4 được định vị là mô hình GPT-5 “tiên phong” cho công việc chuyên nghiệp phức tạp: tài liệu dài, viết mã, lập luận nhiều bước và quy trình dạng tác nhân. Bản phát hành này hợp nhất các năng lực trước đây tách rời giữa Codex (viết mã) và dòng GPT — vì vậy bạn có một mô hình duy nhất có thể viết mã, lập luận, sử dụng công cụ và quản lý ngữ cảnh dài. Hướng dẫn chính thức liệt kê gpt-5.4 là mặc định cho hầu hết công việc và gpt-5.4-pro cho những bài toán khó nhất.

Thông số chính (chính thức):

Cửa sổ ngữ cảnh: ~1,050,000 token (≈ 700–800 nghìn từ tiếng Anh), cho phép nhập vào rất lớn như toàn bộ bản thảo sách, codebase nhiều tệp, hoặc các tài liệu pháp lý dài.
Số token đầu ra tối đa: các báo cáo cho thấy hỗ trợ đầu ra rất lớn (ví dụ, lên đến 128,000 token ở một số cấu hình Pro).
Biến thể: gpt-5.4 (mặc định), gpt-5.4-pro (nhiều tính toán hơn, suy nghĩ lâu hơn), và các bản nhẹ/mini cho nhu cầu chi phí nhạy cảm.

Giải thích “Thinking” và “Pro”

GPT-5.4 Thinking: một chế độ được tinh chỉnh cho lập luận tương tác. Chế độ này nhấn mạnh quy trình lập kế hoạch trước — mô hình có thể trình bày một kế hoạch ban đầu (“upfront plan”) trước khi tạo kết quả đầy đủ, cho phép điều hướng giữa quá trình tạo và giảm lãng phí token khi đi sai hướng. Chế độ này cải thiện mức độ hiển thị về các bước dự định và khiến các nhiệm vụ dài an toàn, dễ kiểm soát hơn.
GPT-5.4 Pro: người anh em tính toán cao cho các bài toán khó nhất — chuỗi lập luận sâu hơn, ngân sách tính toán nội bộ lớn hơn, và kết quả quyết định/ổn định hơn trên các thước đo khó. Nó được cung cấp trong Responses API và dành cho các tác vụ nhiều lượt, lập luận nặng (kỳ vọng độ trễ và chi phí cao hơn).

Cải tiến chính & tính năng mới trong GPT-5.4

Cửa sổ ngữ cảnh khổng lồ (≈1,050,000 token)

Đây là một trong những điểm nổi bật: mô hình có thể tiếp nhận và lập luận trên cả cuốn sách, codebase nhiều tệp, hoặc bộ tài liệu doanh nghiệp mà không cần chia nhỏ luồng. Trên thực tế, điều đó đơn giản hóa các tác vụ như rà soát hợp đồng từ đầu đến cuối, tóm tắt toàn văn bản và hỏi-đáp đa tài liệu. Trường hợp sử dụng: thẩm định pháp lý, kiểm toán kỹ thuật và nhật ký tác nhân.

Lưu ý thực tế: cửa sổ ngữ cảnh lớn hơn làm thay đổi thiết kế hệ thống — thay vì chia nhỏ mạnh tay, giờ bạn có thể giữ nhiều trạng thái “toàn cục” hơn trong ngữ cảnh, nhưng vẫn nên dùng kỹ thuật rút gọn/nén (xem Kiểm soát Tham số) để giữ chi phí hợp lý.

Sử dụng máy tính gốc & tích hợp công cụ

GPT-5.4 là mô hình mục đích chung đầu tiên có khả năng sử dụng máy tính nguyên bản: tạo chuỗi hành động trình duyệt hoặc hệ điều hành (script Playwright, sự kiện bàn phím/chuột), đọc ảnh chụp màn hình, tương tác với giao diện web và điều phối quy trình đa công cụ. Đây là bước lớn hướng tới xây dựng các tác nhân tự động có thể thực hiện nhiệm vụ từ đầu đến cuối.

GPT-5.4 bao gồm sử dụng máy tính tích hợp: mô hình có thể tương tác với tác nhân phần mềm cục bộ/từ xa, gọi connector, thao tác bảng tính, chụp ảnh màn hình và tự động hóa quy trình nhiều bước khi được phép. Điều này giảm “mã keo”: thay vì xây dựng các bộ hướng dẫn mong manh, mô hình có thể vận hành theo vòng lặp build-run-verify-fix (hành vi dạng tác nhân) bằng cách dùng API công cụ được tài liệu hóa. Đây là bước tiến lớn hướng tới tác nhân tự động an toàn, thực tiễn.

Chế độ lập luận & `reasoning.effort`

Một tham số reasoning.effort có thể điều chỉnh cho phép bạn kiểm soát mức tính toán nội bộ mà mô hình đầu tư vào chuỗi lập luận và tìm kiếm lời giải (tùy chọn: none, low, medium, high, xhigh). Mức nỗ lực cao cho câu trả lời tốt hơn với bài toán phức tạp nhưng chi phí cao hơn và tăng độ trễ — lý tưởng cho gpt-5.4-pro.

Lập kế hoạch trước / kế hoạch tương tác

“Kế hoạch ban đầu” cho phép mô hình xuất ra một kế hoạch ngắn trước khi thực thi một lượt tạo dài. Kế hoạch này có thể được kiểm tra và chỉnh sửa bởi nhà phát triển hoặc người dùng, giảm tối đa đầu ra lãng phí và cho phép điều chỉnh hướng đi giữa nhiệm vụ (tuyệt vời cho tạo tài liệu dài hoặc phân tích nhiều bước).

Khả năng đa phương thức/tài liệu tốt hơn

Các thước đo và đánh giá nội bộ phát hành cùng mô hình cho thấy mức tăng lớn ở tác vụ bảng tính (ví dụ đánh giá nội bộ bảng tính: GPT-5.4 trung bình 87,3% so với GPT-5.2 68,4%) và ưu tiên của con người với đầu ra thuyết trình (bản trình bày từ GPT-5.4 được ưu tiên 68% so với GPT-5.2 trong thử nghiệm). Công ty cũng báo cáo giảm sai lệch thực tế (tỷ lệ sai của từng mệnh đề giảm ~33%, tỷ lệ lỗi toàn câu trả lời giảm ~18% so với GPT-5.2).

Cách sử dụng API GPT-5.4 (Responses API / Chat API )

GPT-5.4 pro chỉ hỗ trợ truy cập response. GPT-5.4 (thinking) hỗ trợ chat và response. CometAPI (nền tảng tổng hợp API mô hình lớn một cửa với mức giá ưu đãi) cung cấp dòng GPT-5.4, hai phương thức truy cập và playground tương thích, hữu ích.

Lưu ý: Responses API là tích hợp được khuyến nghị cho các mô hình GPT-5.x vì nó hỗ trợ trực tiếp tham số lập luận, đăng ký công cụ và kích thước ngữ cảnh lớn hơn.

Python — Responses API (minh họa)

# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os

api_key = os.environ.get("OPENAI_API_KEY")  # or set env var
client = OpenAI(api_key=api_key)

resp = client.responses.create(
     model="gpt-5.4-pro-2026-03-05",
    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
    reasoning={"effort": "high"},          # hidden internal reasoning tokens used
    max_output_tokens=4096,               # keep below max output limit for your use case
    temperature=0.0,                      # deterministic for legal/technical tasks
    tools=[                                # optionally register tools the model can call
        {
            "name": "file_search",
            "type": "file_search",
            "config": {"root": "/mnt/data/contracts"}
        }
    ],
    response_format={"type":"json", "json_schema":{
        "name":"redlines",
        "schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
    }}
)

print(resp.output_text)  # final model answer

Ghi chú: reasoning là một đối tượng kiểm soát mức nỗ lực nội bộ; tools đăng ký các giao diện công cụ sẵn cho mô hình gọi; response_format ép buộc đầu ra có cấu trúc. Các giá trị nhãn reasoning.effort khả dụng trải từ none (nhanh nhất) đến xhigh (nỗ lực tối đa) tùy theo SDK và nhà cung cấp. Dùng nỗ lực thấp cho tóm tắt đơn giản; tăng lên với tác vụ phức tạp, nhiều bước.

Crul— chat API (minh họa)

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-5.2\4",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello!"
    }
  ]
}'

Sử dụng công cụ với GPT-5.4 (Sử dụng máy tính, connector và tác nhân)

Bước nhảy thực tiễn nhất của GPT-5.4 là hành vi dạng tác nhân, nhận biết công cụ: nó có thể khám phá và gọi công cụ phù hợp, thao tác trên bảng tính và giao diện người dùng khi được phép, và lập luận về các hành động sẽ thực hiện.

GPT-5.4 được thiết kế để làm việc với công cụ. Có ba lớp công cụ chính cần cân nhắc:

Công cụ được lưu trữ (ví dụ, web_search, file_search) — mô hình có thể gọi như một phần vòng lặp phản hồi. Tuyệt vời cho truy xuất thông tin cập nhật hoặc tra cứu vector DB.
Công cụ tùy chỉnh / gọi hàm — endpoint máy chủ riêng hoặc schema hàm của bạn. Khai báo các hàm (schema) để mô hình trả về đầu ra có cấu trúc mà mã của bạn thực thi.
Sử dụng máy tính — mô hình phát ra hành động GUI và mong một bộ khung thực thi chúng (nhấp, nhập, chụp ảnh màn hình). Mạnh mẽ nhưng rủi ro cao.

Khi bạn có hàng chục/hàng trăm công cụ, truyền tool_search và để mô hình khám phá schema công cụ liên quan theo thời gian chạy. Điều này giảm sử dụng token và cải thiện hiệu năng cache qua các triển khai.

Cách tích hợp công cụ hoạt động (khái niệm)

Khám phá công cụ: mô hình tìm connector khả dụng (ví dụ, Google Sheets, Salesforce, DB nội bộ) dựa trên danh mục.
Kế hoạch & cấp phép: mô hình xuất kế hoạch ban đầu mô tả công cụ sẽ gọi và lý do; kế hoạch được xem xét và phê duyệt.
Gọi & kiểm chứng: mô hình gọi công cụ (qua connector hoặc action API), đọc kết quả và chạy kiểm tra xác minh (hoặc xin xác nhận con người).
Vòng sửa lỗi: khi thất bại, mô hình cố gắng sửa hoặc xin hướng dẫn.

Mẫu này giảm điều phối tùy chỉnh mong manh và tập trung hóa logic trong mô hình, nhưng yêu cầu kiểm soát truy cập nghiêm ngặt và nhật ký kiểm toán.

Gọi với tools (web_search / file_search / sử dụng máy tính)

Responses API hỗ trợ truyền một mảng tools. Mô hình có thể chọn công cụ (các công cụ được lưu trữ như web_search, file_search), hoặc bạn có thể khai báo trước và hạn chế công cụ. Ví dụ: yêu cầu mô hình dùng tìm kiếm web.

response = client.responses.create(    model="gpt-5.4",    input="What are the three most-cited 2025 papers on federated learning?",    tools=[{"type": "web_search", "name": "web_search"}],    tool_search={"enabled": True})

Nếu bạn truyền nhiều định nghĩa công cụ, tool_search cho phép GPT-5.4 hoãn tải phần lớn công cụ và chỉ tải những cái liên quan — tối quan trọng với hệ sinh thái công cụ lớn.

Hướng dẫn tương thích và kiểm soát tham số GPT-5.4

Các tham số LLM truyền thống vẫn tồn tại nhưng bị hạn chế tùy theo chế độ lập luận.

Tham số cốt lõi của API GPT-5.4

reasoning.effort: Các tham số sau được hỗ trợ đầy đủ và khuyến nghị khi gọi GPT-5.4. Kiểm soát lượng lập luận nội bộ mà mô hình thực hiện trước khi tạo đầu ra cuối.

Giá trị hỗ trợ:

nonelowmediumhighxhigh

Ví dụ:

response = client.responses.create(    model="gpt-5.4",    reasoning={"effort": "high"},    input="Explain the Nash equilibrium in game theory.")

Tác động:

Giá trị	Hành vi
none	Phản hồi nhanh nhất
low	Lập luận nhẹ
medium	Cân bằng mặc định
high	Lập luận mạnh
xhigh	Độ sâu lập luận tối đa

Mức nỗ lực lập luận cao hơn thường làm tăng:

độ chính xác câu trả lời
token lập luận
độ trễ
chi phí

Mức mặc định thường là medium.

Tools

Định nghĩa các công cụ mô hình có thể gọi. tools + tool_search

tool_search hoãn tải định nghĩa công cụ để hiệu quả hơn; bật với bộ công cụ lớn.
tools khai báo định nghĩa công cụ (web_search, file_search, RPC tùy chỉnh).

Các công cụ dựng sẵn được hỗ trợ bao gồm:

tìm kiếm web
tìm kiếm tệp
trình thông dịch mã
tạo ảnh

Ví dụ:

tools=[{
   "name":"get_weather",
   "description":"Get current weather",
   "parameters":{
      "type":"object",
      "properties":{
         "city":{"type":"string"}
      }
   }
}

Tham số lấy mẫu (Kiểm soát ngẫu nhiên)

Quy tắc tương thích quan trọng: Khi reasoning.effort ≠ none, một số tham số lấy mẫu có thể không được hỗ trợ. Nếu reasoning.effort là high, yêu cầu có thể thất bại hoặc bỏ qua temperature.

Các mô hình GPT-5.4 vô hiệu hóa các tham số như:

temperature
top_p
logprobs

vì các mô hình lập luận kiểm soát việc lấy mẫu nội bộ.

temperature Kiểm soát ngẫu nhiên trong lấy mẫu token.

Giá trị	Tác động
0.0	quyết định
0.2–0.4	ổn định
0.7	cân bằng
1.0	giàu sáng tạo

Ví dụ:

{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}

Nếu reasoning.effort là high, yêu cầu có thể thất bại hoặc bỏ qua temperature.

2. top_p: Tham số nucleus sampling.

Giá trị	Ý nghĩa
0.9	xét top 90% token xác suất
0.5	tạo sinh thận trọng
1.0	toàn bộ phân phối

3. stop: Dừng tạo khi gặp các token cụ thể.

Hữu ích cho:

tạo mã
pipeline công cụ
phân định chat

Verbosity: Kiểm soát độ dài phản hồi.

Một số tham số mới xuất hiện bắt đầu từ dòng GPT-5, bao gồm GPT-5.4.

Giá trị:

lowmediumhigh

Ví dụ:

verbosity="high"

Trường hợp sử dụng:

Giá trị	Hành vi
low	trả lời súc tích
medium	cân bằng
high	giải thích dài

Tham số này giúp kiểm soát độ dài đầu ra mà không cần thao túng giới hạn token.

Khác biệt tham số của GPT-5.4

Dưới đây là bảng tương thích giản lược.

Tham số	reasoning:none	reasoning:low+
temperature	✓	✗ / bỏ qua
top_p	✓	✗
logprobs	✓	✗
max_output_tokens	✓	✓
tools	✓	✓
tool_choice	✓	✓
verbosity	✓	✓
reasoning.effort	✓	✓

So sánh tham số và khả năng giữa GPT-5.4 và GPT-5.4-Pro

Tính năng	GPT-5.4	GPT-5.4-Pro
Linh hoạt lập luận	Đủ dải từ none → xhigh	Chỉ medium → xhigh
Độ trễ	Thấp hơn	Cao hơn (tác vụ phức tạp có thể mất phút)
Chi phí	Thấp hơn	Cao hơn do tính toán bổ sung
Khuyến nghị chạy nền	Tùy chọn	Khuyến nghị cho tác vụ dài
Mức lập luận hỗ trợ	none, low, medium, high, xhigh	medium, high, xhigh

Thực tiễn tốt khi áp dụng GPT-5.4 vào sản xuất

1) Bắt đầu nhỏ, rồi tăng mức lập luận

Bắt đầu với reasoning.effort=none/low + text.verbosity=low cho endpoint nhạy độ trễ.
Với luồng phức tạp, chuyển dần sang medium rồi high sau khi A/B test chi phí so với độ chính xác.

2) Ưu tiên đầu ra có cấu trúc cho tác vụ lập trình

Dùng schema hàm hoặc Pydantic/JSON schema để mô hình trả về đầu ra có thể phân tích máy; giảm lỗi phân tích downstream.

3) Giữ con người trong vòng lặp cho quyết định tác động cao

Bất kỳ quy trình liên quan tới tiền, kết quả pháp lý hoặc dữ liệu cá nhân nên yêu cầu phê duyệt của con người trước khi gây tác động ra bên ngoài.

4) Hạn chế năng lực được phơi bày

Dùng danh sách allowed_tools (mặc định từ chối) và quyền công cụ chi tiết. Với sử dụng máy tính, áp dụng danh sách trắng hành động nghiêm ngặt.

5) Ngân sách hóa chi phí & token

Dùng max_output_tokens và text.verbosity để chi phí dự đoán được. Với ngữ cảnh rất lớn, phân trang hoặc nén nội dung khi phù hợp — ngay cả với 1M token, chiến lược rút gọn/lựa chọn vẫn giúp giảm chi phí.

Ghi chú kết — di trú và bước tiếp theo

GPT-5.4 đại diện cho một bước tiến ý nghĩa trong việc xây dựng hệ thống AI có thể nghĩ nhiều hơn, làm việc xuyên phần mềm, và xử lý ngữ cảnh rất lớn. Với hầu hết đội ngũ, lộ trình di trú khuyến nghị là:

Nguyên mẫu với một tập nhỏ quy trình (ví dụ, rà soát hợp đồng, tạo slide) dùng alias gpt-5.4 trong sandbox.
Đo lường độ chính xác nhiệm vụ, số token, độ trễ và chi phí so với mô hình trước.
Củng cố bằng cách thêm đầu ra có cấu trúc, chốt bảo vệ công cụ và phê duyệt của con người cho luồng rủi ro.
Các ưu đãi giá API của CometAPI có thể giải quyết nếu yêu cầu chi phí hoặc độ trễ buộc bạn cân nhắc.

Nhà phát triển có thể truy cập GPT-5.4, GPT-5.4-pro, API qua CometAPI ngay bây giờ. Để bắt đầu, khám phá khả năng của mô hình trong Playground và tham khảo Hướng dẫn API để biết hướng dẫn chi tiết. Trước khi truy cập, vui lòng đảm bảo bạn đã đăng nhập CometAPI và nhận khóa API. CometAPI cung cấp mức giá thấp hơn nhiều so với giá chính thức để giúp bạn tích hợp.

Sẵn sàng bắt đầu?→ Đăng ký GPT-5.4 ngay hôm nay !

Nếu bạn muốn biết thêm mẹo, hướng dẫn và tin tức về AI, hãy theo dõi chúng tôi trên VK, X và Discord!

GPT-5.4 là gì (bao gồm các biến thể Thinking và Pro)

Tổng quan về họ mô hình

Giải thích “Thinking” và “Pro”

Cải tiến chính & tính năng mới trong GPT-5.4

Cửa sổ ngữ cảnh khổng lồ (≈1,050,000 token)

Sử dụng máy tính gốc & tích hợp công cụ

Chế độ lập luận & `reasoning.effort`

Lập kế hoạch trước / kế hoạch tương tác

Khả năng đa phương thức/tài liệu tốt hơn

Cách sử dụng API GPT-5.4 (Responses API / Chat API )

Python — Responses API (minh họa)

Crul— chat API (minh họa)

Sử dụng công cụ với GPT-5.4 (Sử dụng máy tính, connector và tác nhân)

Cách tích hợp công cụ hoạt động (khái niệm)

Gọi với tools (web_search / file_search / sử dụng máy tính)

Hướng dẫn tương thích và kiểm soát tham số GPT-5.4

Tham số cốt lõi của API GPT-5.4

Tools

Tham số lấy mẫu (Kiểm soát ngẫu nhiên)

Verbosity: Kiểm soát độ dài phản hồi.

Khác biệt tham số của GPT-5.4

So sánh tham số và khả năng giữa GPT-5.4 và GPT-5.4-Pro

Thực tiễn tốt khi áp dụng GPT-5.4 vào sản xuất

1) Bắt đầu nhỏ, rồi tăng mức lập luận

2) Ưu tiên đầu ra có cấu trúc cho tác vụ lập trình

3) Giữ con người trong vòng lặp cho quyết định tác động cao

4) Hạn chế năng lực được phơi bày

5) Ngân sách hóa chi phí & token

Ghi chú kết — di trú và bước tiếp theo

Truy cập các Mô hình Hàng đầu với Chi phí Thấp

Đọc thêm

Cách sử dụng API GPT-5.4: Hướng dẫn sử dụng các tham số và công cụ

GPT-5.4 là gì (bao gồm các biến thể Thinking và Pro)

Tổng quan về họ mô hình

Giải thích “Thinking” và “Pro”

Cải tiến chính & tính năng mới trong GPT-5.4

Cửa sổ ngữ cảnh khổng lồ (≈1,050,000 token)

Sử dụng máy tính gốc & tích hợp công cụ

Chế độ lập luận & reasoning.effort

Lập kế hoạch trước / kế hoạch tương tác

Khả năng đa phương thức/tài liệu tốt hơn

Cách sử dụng API GPT-5.4 (Responses API / Chat API )

Python — Responses API (minh họa)

Crul— chat API (minh họa)

Sử dụng công cụ với GPT-5.4 (Sử dụng máy tính, connector và tác nhân)

Cách tích hợp công cụ hoạt động (khái niệm)

Gọi với tools (web_search / file_search / sử dụng máy tính)

Hướng dẫn tương thích và kiểm soát tham số GPT-5.4

Tham số cốt lõi của API GPT-5.4

Tools

Tham số lấy mẫu (Kiểm soát ngẫu nhiên)

Verbosity: Kiểm soát độ dài phản hồi.

Khác biệt tham số của GPT-5.4

So sánh tham số và khả năng giữa GPT-5.4 và GPT-5.4-Pro

Thực tiễn tốt khi áp dụng GPT-5.4 vào sản xuất

1) Bắt đầu nhỏ, rồi tăng mức lập luận

2) Ưu tiên đầu ra có cấu trúc cho tác vụ lập trình

3) Giữ con người trong vòng lặp cho quyết định tác động cao

4) Hạn chế năng lực được phơi bày

5) Ngân sách hóa chi phí & token

Ghi chú kết — di trú và bước tiếp theo

Truy cập các Mô hình Hàng đầu với Chi phí Thấp

Đọc thêm

Chế độ lập luận & `reasoning.effort`