GPT-5.4 API 사용 방법: 매개변수 및 도구 사용 가이드

CometAPI
AnnaMar 7, 2026
GPT-5.4 API 사용 방법: 매개변수 및 도구 사용 가이드

2026년 3월 5~7일, OpenAI는 전문적이고 문서 중심이며 에이전트형 워크플로에 맞게 조정된 최전선 모델인 GPT-5.4를 공개 출시했습니다. 이번 릴리스는 세 가지 수렴하는 발전을 강조합니다: (1) 대폭 확장된 컨텍스트 윈도우(≈1,050,000 토큰), (2) 개발자가 내부 추론 투입량을 제어할 수 있게 하는 새로운 “reasoning” 기능, (3) 일급의 computer-use / 도구 오케스트레이션과 향상된 멀티모달 이해(텍스트 + 이미지 + 스크린샷). 이러한 기능으로 GPT-5.4는 스프레드시트 모델링, 계약서 검토, 슬라이드 생성, 다단계 에이전트형 워크플로, 실제 시스템을 작동시키는 코드를 작성하는 작업에 특히 적합합니다.

CometAPI에서 GPT-5.4를 사용해 볼 수 있습니다. 더 높은 연산량을 투입하는 변형 — GPT-5.4 Pro — 은 가장 어려운 추론 및 다중 턴 워크로드에 사용할 수 있습니다.

GPT-5.4란 무엇인가(ThinkingPro 변형 포함)

모델 패밀리 한눈에 보기

GPT-5.4는 장문 문서, 코드, 다단계 추론, 에이전트형 워크플로 등 복잡한 전문 작업을 위한 GPT-5의 “프런티어” 모델로 자리매김합니다. 이번 릴리스는 기존에 Codex(코딩)와 GPT 계열로 나뉘어 있던 기능을 통합하여, 코딩·추론·도구 사용·장문맥 관리까지 하나의 모델로 수행할 수 있게 합니다. 공식 모델 가이드에서는 대부분의 작업에 gpt-5.4, 가장 어려운 문제에는 gpt-5.4-pro를 권장합니다.

주요 사양(공식):

  • 컨텍스트 윈도우: 약 1,050,000 토큰(영문 약 70만~80만 단어 상당)으로, 책 원고 전체, 다중 파일 코드베이스, 대형 법률 문서 등 매우 큰 입력을 처리할 수 있습니다.
  • 최대 출력 토큰: 보고에 따르면 매우 큰 출력이 지원됩니다(예: 일부 Pro 구성에서 최대 128,000 토큰).
  • 변형: gpt-5.4(기본), gpt-5.4-pro(더 많은 연산, 더 깊은 사고), 그리고 비용 민감용 경량/미니 모델.

'Thinking'와 'Pro' 설명

  • GPT-5.4 Thinking: 대화형 추론에 맞게 조정된 모드입니다. 계획 우선(plan-first) 워크플로를 강조하며, 전체 결과를 생성하기 전에 사전 계획(“upfront plan”)을 제시해 중간에 방향을 조정하고 잘못된 방향으로 인한 토큰 낭비를 줄일 수 있습니다. 이 모드는 모델이 의도하는 단계의 가시성을 높여 장기 작업을 더 안전하고 통제 가능하게 만듭니다.
  • GPT-5.4 Pro: 가장 어려운 문제를 위한 고연산 버전으로, 더 깊은 연쇄적 추론, 더 큰 내부 연산 예산, 까다로운 벤치마크에서 더 결정적이고 안정적인 결과를 제공합니다. Responses API에서 제공되며, 다중 턴의 고난도 추론 작업을 염두에 두고 설계되었습니다(지연 시간과 비용 증가 예상).

GPT-5.4의 주요 향상점과 신규 기능

대규모 컨텍스트 윈도우(≈1,050,000 토큰)

전체 책, 다중 파일 코드베이스, 엔터프라이즈 문서 세트를 조각내지 않고 한 번에 받아들이고 추론할 수 있는 점이 대표적인 개선 사항입니다. 실무적으로는 계약서 전수 검토, 전체 문서 요약, 다문서 Q&A 같은 작업이 단순해집니다. 사용 사례: 법률 실사, 기술 감리, 에이전트 로그.

실무 메모: 더 큰 컨텍스트 윈도우는 시스템 설계를 바꿉니다. 과도한 청킹 대신 더 많은 “글로벌” 상태를 컨텍스트에 유지할 수 있지만, 비용을 합리적으로 유지하기 위해서는 여전히 압축(compaction)(Parameter Control 참조)이 필요합니다.

네이티브 컴퓨터 사용 및 도구 통합

GPT-5.4는 네이티브 컴퓨터 사용 기능을 갖춘 최초의 범용 모델로, 브라우저나 OS 동작 시퀀스(Playwright 스크립트, 키보드/마우스 이벤트) 생성, 스크린샷 읽기, 웹 UI 상호작용, 멀티 도구 워크플로 오케스트레이션을 수행합니다. 이는 실제 작업을 종단간으로 수행하는 자율 에이전트를 구축하는 데 큰 도약입니다.

GPT-5.4에는 computer use가 기본 포함되어 있어, 모델이 로컬/원격 소프트웨어 에이전트와 상호작용하고, 커넥터를 호출하며, 스프레드시트를 조작하고, 스크린샷을 찍으며, 허용되는 경우 다단계 워크플로를 자동화할 수 있습니다. 이는 접착 코드(glue code)를 줄여 주며, 취약한 래퍼 대신 문서화된 도구 API를 활용해 빌드-실행-검증-수정 루프(에이전트형 동작)를 구동합니다. 이는 안전하고 실용적인 자율 에이전트로의 큰 진전입니다.

Reasoning 모드 및 reasoning.effort

조절 가능한 reasoning.effort 파라미터로 모델이 내부적으로 연쇄적 추론과 해 탐색에 투입하는 연산량을 제어할 수 있습니다(옵션: none, low, medium, high, xhigh). 노력치를 높일수록 복잡한 문제에 더 적합하지만 비용과 지연이 증가합니다 — 특히 gpt-5.4-pro에 적합합니다.

사전 계획 / 인터랙티브 플랜

“Upfront plans”는 모델이 장문의 생성을 실행하기 전에 짧은 계획을 먼저 출력하도록 하여, 개발자나 사용자가 이를 점검·수정할 수 있게 합니다. 이를 통해 잘못된 방향으로 장문을 생성하는 낭비를 줄이고, 중간에 경로를 수정할 수 있어(긴 문서 작성이나 다단계 분석에 유용) 효율이 높아집니다.

향상된 멀티모달/문서 능력

모델과 함께 공개된 벤치마크 및 내부 평가에서 스프레드시트 작업의 큰 향상이 보고되었습니다(내부 스프레드시트 평가 예: GPT-5.4 평균 87.3% vs GPT-5.2 68.4%). 프레젠테이션 결과에 대한 인간 선호도도 상승했습니다(GPT-5.4가 만든 프레젠테이션이 GPT-5.2 대비 68% 선호). 또한 사실 오류 감소가 보고되었습니다(개별 주장 오류율 약 33%↓, 전체 응답 오류율 약 18%↓ vs GPT-5.2).

GPT-5.4 API 사용 방법(Responses API / Chat API )

GPT-5.4 pro는 response 액세스만 지원합니다. GPT-5.4 (thinking)는 chat과 responses를 지원합니다. CometAPI(대형 모델 API를 모아 제공하는 원스톱 플랫폼, 할인 제공)는 GPT-5.4 시리즈에 대해 두 가지 액세스 방식을 제공하며 호환 가능한 유용한 플레이그라운드도 제공합니다).

참고: Responses API는 추론 파라미터, 도구 등록, 더 큰 컨텍스트 크기를 직접 지원하므로 GPT-5.x 모델 통합에 권장됩니다.

Python — Responses API(예시)

# pip install openai (or use the official package named in docs)
from openai import OpenAI
import os

api_key = os.environ.get("OPENAI_API_KEY")  # or set env var
client = OpenAI(api_key=api_key)

resp = client.responses.create(
     model="gpt-5.4-pro-2026-03-05",
    input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
    reasoning={"effort": "high"},          # hidden internal reasoning tokens used
    max_output_tokens=4096,               # keep below max output limit for your use case
    temperature=0.0,                      # deterministic for legal/technical tasks
    tools=[                                # optionally register tools the model can call
        {
            "name": "file_search",
            "type": "file_search",
            "config": {"root": "/mnt/data/contracts"}
        }
    ],
    response_format={"type":"json", "json_schema":{
        "name":"redlines",
        "schema":{"type":"object","properties":{"summary":{"type":"string"},"redlines":{"type":"array","items":{"type":"object"}}}}
    }}
)

print(resp.output_text)  # final model answer

참고: reasoning은 내부 추론 노력치를 제어합니다. tools는 모델이 호출할 수 있는 도구 인터페이스를 등록합니다. response_format은 구조화된 출력을 강제합니다. 사용 가능한 reasoning.effort 값은 SDK와 제공자 지원에 따라 none에서 xhigh까지입니다. 간단한 요약에는 낮은 노력치를, 복잡하고 다단계인 작업에는 더 높은 노력치를 사용하세요.

Crul— Chat API(예시)

curl --location --request POST 'https://api.cometapi.com/v1/chat/completions' \
--header 'Authorization: Bearer ' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "gpt-5.2\4",
  "messages": [
    {
      "role": "system",
      "content": "You are a helpful assistant."
    },
    {
      "role": "user",
      "content": "Hello!"
    }
  ]
}'

GPT-5.4와 도구 사용(Computer Use, 커넥터, 에이전트)

GPT-5.4의 가장 실용적인 도약은 도구 인지적(agentic) 행동입니다. 즉, 적절한 도구를 찾아 호출하고, 스프레드시트나 UI를 조작할 수 있으며, 허용된 범위 내에서 다중 도구 워크플로를 오케스트레이션하고 그에 대해 추론할 수 있습니다.

GPT-5.4는 도구와 함께 사용하도록 설계되었습니다. 고려해야 할 세 가지 주요 도구 클래스는 다음과 같습니다.

  1. 호스팅된 도구(예: web_search, file_search) — 모델이 응답 루프의 일부로 호출할 수 있습니다. 최신 정보 검색이나 벡터 DB 조회에 적합합니다.
  2. 커스텀 도구 / 함수 호출 — 직접 구현한 서버 엔드포인트나 함수 스키마. 함수를 선언하면(스키마) 모델이 구조화된 출력을 반환하고, 이를 코드가 실행합니다.
  3. Computer use — 모델이 GUI 동작을 방출하고 이를 실행할 하네스를 기대합니다(클릭, 타이핑, 스크린샷). 매우 강력하지만 고위험입니다.

도구가 수십/수백 개인 경우 tool_search를 전달하여, 모델이 런타임에 관련 도구 스키마를 검색하도록 하세요. 이는 토큰 사용량을 줄이고, 배포 전반에서 캐시 성능을 개선합니다.

도구 통합 작동 방식(개념)

  1. 도구 검색: 카탈로그를 기반으로 가용 커넥터(예: Google Sheets, Salesforce, 내부 DB)를 찾습니다.
  2. 계획 및 권한: 모델이 어떤 도구를 왜 호출할지에 대한 사전 계획을 출력합니다. 이 계획은 검토·승인됩니다.
  3. 호출 및 검증: 모델이 도구(커넥터 또는 액션 API)를 호출하고 결과를 읽은 뒤, 검증 체크를 수행하거나 인간 확인을 요청합니다.
  4. 수정 루프: 실패 시 모델이 자체적으로 수정을 시도하거나 안내를 요청합니다.

이 패턴은 취약한 맞춤 오케스트레이션을 줄이고 모델 내부로 로직을 집중시키지만, 엄격한 접근 제어와 감사 로그가 필요합니다.

tools로 호출하기(web_search / file_search / computer use)

Responses API는 tools 배열을 전달하는 방식을 지원합니다. 모델이 호스팅 도구(web_search, file_search)를 선택하거나, 미리 선언해 제한할 수 있습니다. 예: 모델에 웹 검색 사용을 요청합니다.

response = client.responses.create(    model="gpt-5.4",    input="What are the three most-cited 2025 papers on federated learning?",    tools=[{"type": "web_search", "name": "web_search"}],    tool_search={"enabled": True})

많은 도구 정의를 전달하는 경우 tool_search를 사용하면 GPT-5.4가 대부분의 도구 로드를 지연하고 관련된 도구만 로드하도록 할 수 있습니다. 이는 대규모 도구 생태계에서 매우 중요합니다.

GPT-5.4 파라미터 호환성 및 제어 가이드

전통적인 LLM 파라미터는 여전히 존재하지만, 추론 모드에 따라 제한을 받습니다.

핵심 GPT-5.4 API 파라미터

reasoning.effort: 다음 파라미터는 GPT-5.4 호출 시 완전히 지원되며 권장됩니다. 모델이 최종 출력을 생성하기 전에 수행하는 내부 추론의 양을 제어합니다.

지원 값:

nonelowmediumhighxhigh

예시:

response = client.responses.create(    model="gpt-5.4",    reasoning={"effort": "high"},    input="Explain the Nash equilibrium in game theory.")

효과:

동작
none가장 빠른 응답
low경량 추론
medium기본 균형
high강한 추론
xhigh최대 추론 심도

추론 노력치를 높이면 일반적으로 다음이 증가합니다:

  • 답변 정확도
  • 내부 추론 토큰
  • 지연 시간
  • 비용

기본 레벨은 일반적으로 medium입니다.

도구

모델이 호출할 수 있는 도구를 정의합니다. tools + tool_search

  • tool_search는 효율을 위해 도구 정의 로드를 지연합니다. 대규모 도구 세트에서 활성화하세요.
  • tools는 도구 정의를 선언합니다(web_search, file_search, 사용자 정의 RPC 등).

지원되는 기본 내장 도구에는 다음이 포함됩니다:

  • 웹 검색
  • 파일 검색
  • 코드 인터프리터
  • 이미지 생성

예시:

tools=[{
   "name":"get_weather",
   "description":"Get current weather",
   "parameters":{
      "type":"object",
      "properties":{
         "city":{"type":"string"}
      }
   }
}

샘플링 파라미터(무작위성 제어)

중요한 호환성 규칙: reasoning.effort가 none이 아닐 때, 일부 샘플링 파라미터가 지원되지 않을 수 있습니다. reasoning.efforthigh인 경우 요청이 실패하거나 temperature가 무시될 수 있습니다.

GPT-5.4 모델은 다음과 같은 파라미터를 비활성화하거나 무시할 수 있습니다:

  • temperature
  • top_p
  • logprobs

이는 추론 모델이 내부적으로 샘플링을 제어하기 때문입니다.

  1. temperature: 토큰 샘플링의 무작위성을 제어합니다.
효과
0.0결정적
0.2–0.4안정적
0.7균형
1.0높은 창의성

예시:

{ "model": "gpt-5.4", "temperature": 0.2, "reasoning": { "effort": "none" }}

reasoning.efforthigh이면 요청이 실패하거나 temperature가 무시될 수 있습니다.

  1. top_p: 뉴클리어스 샘플링 파라미터.
의미
0.9상위 90% 확률 토큰 고려
0.5보수적 생성
1.0전체 분포

3. stop: 특정 토큰을 만나면 생성을 중지합니다.

유용한 경우:

  • 코드 생성
  • 도구 파이프라인
  • 채팅 구분자

Verbosity: 응답 길이 제어

여러 새 파라미터가 GPT-5 모델부터 도입되었으며, GPT-5.4에도 포함됩니다.

값:

lowmediumhigh

예시:

verbosity="high"

사용 사례:

동작
low간결한 답변
medium균형
high긴 설명

이 파라미터는 토큰 한도를 조작하지 않고도 출력 길이를 제어하는 데 도움이 됩니다.

GPT-5.4의 파라미터 차이

아래는 단순화된 호환성 표입니다.

파라미터reasoning:nonereasoning:low+
temperature✗ / 무시됨
top_p
logprobs
max_output_tokens
tools
tool_choice
verbosity
reasoning.effort

GPT-5.4와 GPT-5.4-Pro의 파라미터 및 기능 비교

기능GPT-5.4GPT-5.4-Pro
추론 유연성none → xhigh 전체 범위medium → xhigh만 지원
지연 시간낮음높음(복잡 작업은 수분 소요 가능)
비용낮음더 높은 연산으로 비용 증가
백그라운드 실행 권장 여부선택 사항장기 작업에 권장
지원 추론 레벨none, low, medium, high, xhighmedium, high, xhigh

프로덕션에서 GPT-5.4 도입 모범 사례

1) 작게 시작하고, 추론을 점진적으로 증가

  • 지연 민감 엔드포인트에는 reasoning.effort=none/low + text.verbosity=low로 시작하세요.
  • 복잡한 플로에는 A/B 테스트로 비용 대비 정확도를 확인한 뒤 mediumhigh로 올리세요.

2) 프로그래밍 과제에는 구조화된 출력 선호

모델이 기계 파싱 가능한 출력을 반환하도록 함수 스키마 또는 Pydantic/JSON 스키마를 사용하세요. 다운스트림 파싱 오류를 줄입니다.

3) 고위험 결정에는 사람 개입 유지

금전, 법적 결과, 개인정보가 포함된 워크플로는 외부 효과 발생 전 인간 승인을 요구해야 합니다.

4) 노출된 기능 제한

allowed_tools 목록(기본 거부)을 사용하고, 도구 권한을 세분화하세요. Computer use의 경우 엄격한 액션 화이트리스트를 강제하세요.

5) 비용 및 토큰 예산

예측 가능한 비용을 위해 max_output_tokenstext.verbosity를 사용하세요. 매우 큰 컨텍스트라도 적절한 페이징이나 압축을 적용하면 유의미한 비용 절감이 가능합니다 — 100만 토큰이라도 압축/선택 전략이 여전히 유효합니다.

마무리 — 마이그레이션 및 다음 단계

GPT-5.4는 더 많이 생각하고, 소프트웨어 전반에서 작업하며, 아주 긴 컨텍스트를 처리하는 시스템을 구축하는 방향으로 의미 있는 진전을 제공합니다. 대부분의 팀에 권장되는 마이그레이션 경로는 다음과 같습니다:

  1. 샌드박스에서 gpt-5.4 에일리어스로 계약 검토, 슬라이드 생성 등 일부 워크플로로 프로토타입을 시작합니다.
  2. 이전 모델 대비 작업 정확도, 토큰 사용량, 지연 시간, 비용을 측정합니다.
  3. 구조화된 출력, 도구 가드, 고위험 플로에 대한 인간 승인을 추가해 견고화합니다.
  4. 비용이나 지연 시간 요구 사항이 선택에 영향을 준다면 CometAPI의 API 할인이 도움이 될 수 있습니다.

개발자는 지금 GPT-5.4, GPT-5.4-pro, API를 CometAPI에서 이용할 수 있습니다. 시작하려면 Playground에서 모델의 기능을 탐색하고, 자세한 지침은 API guide를 참고하세요. 액세스 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. CometAPI는 통합을 돕기 위해 공식 가격보다 훨씬 낮은 가격을 제공합니다.

Ready to Go?→ Sign up fo GPT-5.4 today

AI 관련 더 많은 팁, 가이드, 소식을 원하시면 VK, X, Discord에서 팔로우하세요!

저렴한 비용으로 최고 모델에 액세스

더 보기