Claude 4.5의 사고 모드: 알아야 할 모든 것

CometAPI
AnnaDec 30, 2025
Claude 4.5의 사고 모드: 알아야 할 모든 것

Anthropic의 Claude 4.5 제품군(특히 Sonnet 4.5Opus 4.5)은 Claude 4 라인에 확장된 “thinking”/스크래치패드 스타일의 내부 추론을 도입합니다. Messages API는 thinking 객체(활성/비활성 + budget_tokens 할당), 스트리밍 옵션, 그리고 “thinking” 콘텐츠 블록에 대한 특수 처리(서명 및 가림 처리 포함)를 통해 이 기능을 노출합니다. Sonnet 4.5는 코딩과 에이전틱 작업을 겨냥하며 확장된 thinking의 이점을 크게 누리고, Opus 4.5는 보존되는 thinking 블록과 기타 최적화를 추가합니다.

Claude 4.5란 무엇인가요?

Claude 4.5(Anthropic의 Claude 모델 제품군에서 Sonnet 4.5Opus 4.5 변형으로 공개)는 더 깊은 추론, 장기 맥락, 그리고 프로덕션급 코딩/에이전틱 워크플로에 맞춰 튜닝된 최신 세대 대규모 언어 모델입니다. Anthropic의 발표 및 제품 페이지에 따르면, Sonnet 4.5는 코딩, 에이전트 구축, 그리고 “컴퓨터 사용”(즉, 도구 보조 워크플로 및 다단계 자동화)에서 큰 도약을 이루었으며, 추론, 수학, 장문맥 작업에서 측정 가능한 향상을 보여줍니다.

4.5 제품군 라인업

  • Claude Sonnet 4.5 (2025년 9월 29일 출시): 제품군의 “일꾼” 모델. 현재 세계 최고의 코딩 모델로 평가되며, 30시간 이상 자율 작업에 대한 집중을 유지할 수 있습니다. 속도, 비용, 고차원 추론을 균형 있게 제공해 대부분의 엔터프라이즈 애플리케이션에서 기본 선택지입니다.
  • Claude Haiku 4.5 (2025년 10월 15일 출시): 속도 최적화 모델. 놀랍게도 이제 확장된 thinking을 지원하여, 이전까지 프런티어 모델에만 제공되던 심층 추론 기능을 최초로 “소형” 모델이 제공합니다. 정확성을 희생할 수 없지만 지연이 중요한 고빈도 작업에 이상적입니다.
  • Claude Opus 4.5 (2025년 11월 24일 출시): 프런티어 인텔리전스 모델. Opus 4.5는 과학 연구, 새로운 아키텍처 설계, 고위험 금융 분석과 같이 가장 복잡하고 모호한 작업을 위해 설계되었습니다. 가장 높은 “thinking budget” 용량을 갖추고 있으며, 자기 교정 능력이 뛰어납니다.

한눈에 보는 핵심 기능

  • 더 큰 사용 가능한 컨텍스트 윈도우와 장시간 실행되는 작업(에이전트 워크플로, 단계별 디버깅, 코드베이스 편집)에서의 개선된 동작.
  • 코딩 벤치마크, 리팩터링, 다단계 도구 사용 작업(Sonnet 및 Opus 제품군)에서 더 나은 성능.
  • 고급 “thinking” 기능(Anthropic은 이를 extended thinking/thinking mode라고 부름)으로, 모델의 내부 단계별 추론 일부를 선택적으로 개발자에게 노출하거나, 최종 답변을 생성하기 전에 구성 가능한 “예산” 토큰을 사용해 더 깊은 추론을 수행할 수 있음.

Claude 4.5를 사용할 수 있는 곳

Claude 4.5(Sonnet/Opus)는 Anthropic 자체 API를 통해 제공되며 CometAPI에 통합되었습니다(현재 API 가격이 할인 중이며, Anthropic 가격의 약 20% 수준). 따라서 Anthropic의 플랫폼을 통해서나 모델을 호스팅하는 서드파티 클라우드 벤더를 통해서 이 모델을 실행할 수 있습니다.

Claude Code 및 Claude 4.5의 새로운 THINKING 모드는 무엇인가요?

Anthropic의 extended thinking(일명 “thinking mode”, “thinking blocks”, “thinking tokens”)은 모델이 최종 답변을 생성하기 전에 더 철저한 추론을 위해 추가적인 내부 샘플링 단계를 수행하도록 하는 기능입니다. Messages API 요청에 thinking 구성(예: { "thinking": { "type": "enabled", "budget_tokens": 4096 } })을 추가하거나 Anthropic SDK 헬퍼를 사용해 활성화할 수 있습니다. 활성화하면, API는(모델에 따라) 내부 추론의 요약본을 반환하거나 전체 추론을 반환합니다(안전을 위한 가림 처리가 적용될 수 있음).

“Thinking Mode”가 혁신적인 이유를 이해하려면, 대규모 언어 모델(LLM)이 전통적으로 어떻게 작동하는지 봐야 합니다. 표준 모델은 “확률적 텍스트 생성기”로서, 프롬프트를 받은 즉시 다음 토큰을 예측합니다. “생각을 멈추는” 과정 없이 곧바로 말을(생성) 시작합니다.

“Extended Thinking”으로의 전환

Thinking Mode는 이 패러다임을 바꿉니다. 활성화되면 Claude 4.5는 사용자에게 단 한 글자를 내보내기 전에 숨겨진 “thinking tokens” 스트림을 생성합니다.

가시적 추론(선택적): Claude.ai 같은 일부 인터페이스에서는 모델의 내부 독백을 보여주는 “Thinking” 드롭다운을 볼 수 있습니다.

숨겨진 추론(API): API에서는 이것이 별도의 thinking 블록으로 반환됩니다. 모델은 이 공간을 사용하여:

  • 프롬프트 분해: 복잡한 제약을 분해합니다.
  • 전략 수립: 단계별 논리를 개요화합니다.
  • 초안 작성 및 비판: 답을 마음속으로 시도해 보고 결함을 찾아내며, 이를 사용자에게 제시하기 전에 수정합니다.

Interleaved Thinking

Sonnet 4.5의 주요 혁신은 Interleaved Thinking입니다. 계산기, 코드 인터프리터, 웹 브라우저 같은 도구를 사용하는 에이전틱 워크플로에서, 표준 모델은 보통 도구를 호출하고 결과를 받은 뒤 즉시 다음 도구를 호출합니다.

Interleaved Thinking을 통해 Claude 4.5는 다음을 수행할 수 있습니다:

  1. Think 사용자 요청에 대해 생각합니다.
  2. Call Tool A(예: 웹 검색).
  3. Think 검색 결과에 대해 생각합니다(“이 결과는 오래되었으니 다른 쿼리를 시도해야겠다”).
  4. Call Tool B(예: 다시 검색).
  5. Think 데이터를 어떻게 종합할지 생각합니다.
  6. Final Response.

이 “Think-Act-Think-Act” 루프는 장시간, 다단계 코딩 작업에서의 환각과 오류 전파를 크게 줄입니다.

개발자 도구에서 Claude Code가 thinking을 표면화하는 방식

Claude Code(CLI/에디터 경험)에서는 인터랙티브 세션에서 thinking 모드를 토글하는 UI 요소(일반적인 UX는 Tab을 눌러 thinking on/off를 토글)와 현재 thinking 예산에 대한 표시가 추가되었습니다. 과거에는 think, think hard 같은 트리거 키워드가 thinking 깊이를 제어하는 데 쓰였지만, 최신 버전은 명시적 토글 및 예산 파라미터를 사용하며, 일부 컨텍스트에서는 ultrathink가 여전히 사용 가능합니다. 구성은 ~/.claude/settings.json에 전역으로 설정하거나 요청별로 재정의할 수 있습니다.

Claude 4.5 Thinking Mode는 어떻게 구현하나요?

개발자에게 Claude 4.5로의 전환은 API 요청 구조의 변화가 필요합니다. 더 이상 프롬프트만 보내는 것이 아니라, “Thinking Budget”을 관리해야 합니다.

Thinking Budget 설정

thinking 파라미터는 이제 Anthropic API의 일급 시민입니다. 이를 명시적으로 활성화하고 budget_tokens 값을 정의해야 합니다. 이 값은 모델이 내부 추론에 사용할 수 있는 최대 토큰량을 의미합니다.

Python 구현 예시

다음 코드는 확장된 thinking을 활성화한 Claude 4.5 세션을 초기화하는 방법을 보여줍니다.

import anthropic

# Initialize the Gemini Enterprise perspective on Claude 4.5 integration
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # We set a high max_tokens to accommodate both thinking and the final answer
    # The budget_tokens must be less than max_tokens
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # Allocating 12k tokens for 'thinking'
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # Extracting the two distinct parts of the response
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# Example complex query
query = "Design a zero-knowledge proof system for a decentralized voting app using Circom."
thoughts, answer = get_reasoned_response(query)

print("--- CLAUDE'S INTERNAL REASONING ---")
print(thoughts)
print("\n--- FINAL TECHNICAL ARCHITECTURE ---")
print(answer)

주요 기술 고려사항

  • 총 토큰 사용량: 총 사용량은 thinking_tokens + output_tokens입니다. 예산을 10,000 토큰으로 설정하고 모델이 thinking에 8,000, 답변에 2,000을 사용하면, 10,000 출력 토큰으로 과금됩니다.
  • 강제 thinking: 작업이 너무 단순하더라도, 모델은 요청의 단순성을 검증하기 위해 최소한의 thinking 토큰을 사용할 수 있습니다.

Thinking Mode는 코드 생성 성능을 어떻게 향상시키나요?

Claude 4.5의 가장 큰 업그레이드 중 하나는 Claude Code CLI에서의 성능입니다. Claude 4.5가 코드에 대해 “생각”할 때, 표준 모델이 간과하는 여러 숨은 작업을 수행합니다.

1. 의존성 매핑

수정 한 줄을 쓰기 전에, Claude 4.5는 리포지토리를 순회하여 utils/auth.ts의 변경이 views/Profile.tsx의 컴포넌트를 어떻게 깨뜨릴 수 있는지 이해합니다.

2. 정신적 실행

모델은 reasoning 블록에서 코드를 “실행”합니다. 논리 흐름을 시뮬레이션하고 잠재적인 경쟁 조건이나 오프바이원 오류를 식별합니다.

3. 제약 조건 검증

“성능이 좋고 외부 라이브러리를 사용하지 않는” 해결책을 요청하면, thinking 모드는 게이트키퍼 역할을 합니다. 모델의 첫 본능이 NPM 패키지를 제안하는 것이라면, thinking 과정이 그 위반을 포착하고 바닐라 JavaScript 구현으로 재고하도록 강제합니다.

Thinking Mode는 전통적 프롬프트와 어떻게 비교되나요?

많은 사용자가 모델에게 “단계별로 생각하라”고 지시하는 “Chain of Thought(CoT)” 프롬프트에 익숙합니다. 효과적이지만, Claude 4.5의 네이티브 Thinking Mode와는 다릅니다.

기능사고 연쇄(수동)확장된 Thinking(네이티브)
메커니즘사용자 프롬프트 지시내장된 모델 아키텍처
토큰 공간가시 출력 공간을 점유전용 내부 블록을 점유
자기 교정제한적; 모델이 초기 실수를 고수하는 경향높음; 모델이 전체 추론 경로를 폐기하고 처음부터 다시 시작 가능
신뢰도프롬프트 품질에 따라 가변적복잡한 도메인 전반에서 일관되게 높음
API 처리텍스트를 수동으로 파싱해야 함“thinking”와 “text”에 대한 구조화된 JSON 블록

Claude 4.5에서 thinking mode는 어떻게 작동하나요?

내부 워크플로(개념적)

  1. 사용자 요청: 애플리케이션이 모델, 프롬프트, max_tokens, 그리고 선택적으로 thinking: { type: "enabled", budget_tokens: N }를 지정한 Messages API 요청을 전송합니다.
  2. 내부 추론: Claude는 예산 내에서 내부 “thinking”을 수행합니다. thinking 블록으로 추론 출력을 기록합니다(사용자에게 요약되어 반환될 수 있음).
  3. 출력 구성: API는 콘텐츠 블록 배열을 반환합니다. 일반적으로 순서는 thinking 블록(들) 다음에 text 블록(들)(최종 답변)입니다. 스트리밍의 경우, thinking_delta 이벤트에 이어 text_delta 이벤트를 수신합니다.
  4. 컨텍스트 보존: 도구 사용 또는 다중 턴 흐름에서 이전 thinking 블록을(수정하지 않고) 다시 전송하여 Claude가 연쇄적인 사고를 이어갈 수 있도록 할 수 있습니다. Opus 4.5는 캐시/효율성을 위해 thinking 블록을 기본적으로 보존하는 동작을 도입했습니다.

기술적으로, Thinking Mode는 추론을 위한 “예산” 토큰을 할당하는 특정 API 파라미터 구성에 의존합니다.

토큰 예산 개념

Claude 4.5로 요청을 보낼 때 budget_tokens 파라미터를 지정해야 합니다. 이는 모델의 내부 독백에 사용할 수 있는 최대 토큰 수입니다.

  • 낮은 예산(2,000 토큰 미만): 빠른 검증이나 단순한 논리 퍼즐에 적합합니다.
  • 높은 예산(10,000+ 토큰): 복잡한 소프트웨어 아키텍처, 수학적 증명, 포괄적인 법률 문서 작성에 필요합니다.

모델은 이 예산을 “관리”하도록 학습되어 있습니다. 예산이 소진되어 간다고 판단하면, 추론을 마무리하고 최선의 답변을 제공하려고 시도합니다.

“Thinking Process” 라이프사이클

사용자가 “robots.txt를 준수하고 동적 로딩을 처리하는 웹사이트 스크레이핑 Python 스크립트를 작성하라”고 요청하면:

  1. 수집: Claude가 프롬프트를 읽습니다.
  2. Thinking 단계(숨김):
    • 자기 교정: “동적 로딩에는 Selenium이나 Playwright가 필요하다. requests로는 안 된다.”
    • 보안 점검: “사용자가 스크레이핑 권한을 갖고 있는지 확인해야 한다. 고지 문구를 추가하자.”
    • 아키텍처: “모듈화를 위해 클래스 기반 구조로 코드를 구성하자.”
  3. 출력 단계(가시): Claude가 Python 코드를 생성합니다.

이전 모델에서는 requests 코드를 바로 작성하기 시작해 중간에 동적 콘텐츠에 맞지 않는다는 사실을 깨닫고 해결책을 환각하거나 깨진 코드를 제공했을 수 있습니다. Thinking mode는 이러한 “막다른 골목” 시나리오를 방지합니다.

언제 thinking mode를 활성화해야 하나요 — 사용 사례와 휴리스틱

가장 큰 이점을 얻는 사용 사례

  • 복잡한 코딩(아키텍처 변경, 다중 파일 리팩터링, 장시간 디버깅 세션). Sonnet 4.5는 thinking 사용 시 코딩과 에이전틱 분야에서 명확히 선도적입니다.
  • 에이전틱 워크플로(도구를 반복적으로 사용하고 많은 단계에 걸쳐 내부 컨텍스트를 보존해야 하는 경우). 교차 삽입형 thinking + 도구 사용이 대표 시나리오입니다.
  • 심층 연구 또는 분석(통계 분석, 금융 구조화, 법률 추론)으로, 중간 추론 단계를 검사하거나 검증하는 것이 가치 있는 경우.

사용하지 말아야 할 때

  • 짧은 답변 생성 또는 밀리초 단위 지연이 중요한 고처리량 API(예: 채팅 UI).
  • 요청당 토큰 비용을 최소화해야 하고 작업이 단순하거나 명확히 지정된 경우.

실용적 휴리스틱

**최소 thinking 예산(약 1,024 토큰)**에서 시작해 더 깊이가 필요한 작업에 대해 점진적으로 늘리세요. 종단 간 작업 정확도 vs 지연 및 토큰을 벤치마크하세요. 다단계 에이전트 작업에서는 교차 삽입형 thinking과 캐시된 프롬프트 분기점을 실험해 최적점을 찾으세요.

결론

Claude 4.5의 Thinking Mode는 단순한 기능을 넘어, 인공지능과 상호작용하는 새로운 방식입니다. 사고의 과정사고의 결과를 분리함으로써, Anthropic은 더 신뢰할 수 있고, 더 투명하며, 현대 엔터프라이즈 업무의 복잡성을 더 잘 처리하는 도구를 제공했습니다.

대규모 마이그레이션을 관리하기 위해 Claude Code CLI를 사용하든, API를 통해 차세대 자율 에이전트를 구축하든, “Thinking Budget”을 숙지하는 것이 성공의 핵심입니다.

개발자는 CometAPI를 통해 Claude 4.5 모델에 액세스할 수 있습니다. 시작하려면 CometAPIPlayground에서 모델 역량을 살펴보고, 자세한 지침은 API 가이드를 참조하세요. 액세스 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. CometAPI는 통합을 돕기 위해 공식 가격보다 훨씬 낮은 가격을 제공합니다.

Ready to Go?→ Claude 4.5 무료 체험!

더 보기

하나의 API로 500개 이상의 모델

최대 20% 할인