Claude 4.5의 Thinking 모드: 알아야 할 모든 것

Anthropic의 Claude 4.5 계열(특히 Sonnet 4.5 및 Opus 4.5)은 Claude 4 라인에 확장된 “thinking” / 스크래치패드 스타일의 내부 추론을 도입합니다. Messages API는 thinking 객체(활성화/비활성화 + budget_tokens 할당량), 스트리밍 옵션, 그리고 “thinking” 콘텐츠 블록(서명 및 리다크션 포함)에 대한 특별 처리로 이 기능을 노출합니다. Sonnet 4.5는 코딩 및 에이전트형 작업을 대상으로 하며 확장된 thinking의 이점을 크게 받습니다. Opus 4.5는 보존되는 thinking 블록과 기타 최적화를 추가합니다.

Claude 4.5란 무엇인가요?

Claude 4.5는 Anthropic의 Claude 모델 계열에서 Sonnet 4.5 및 Opus 4.5 변형으로 공개된 최신 세대의 대규모 언어 모델로, 더 깊은 추론, 장기적 컨텍스트, 그리고 프로덕션급 코딩 / 에이전트형 워크플로를 위해 조정되었습니다. Anthropic의 발표 및 제품 페이지에서 Sonnet 4.5는 코딩, 에이전트 구축, 그리고 “컴퓨터 사용”(즉, 도구 보조 워크플로 및 다단계 자동화) 측면에서 큰 도약으로 설명되며, 추론, 수학, 장문 컨텍스트 작업에서 측정 가능한 향상을 보인다고 소개됩니다.

4.5 제품군 라인업

Claude Sonnet 4.5 (출시일: 2025년 9월 29일): 이 계열의 "주력" 모델입니다. 현재 세계 최고의 코딩 모델로 평가되며, 30시간이 넘는 자율 작업 동안 집중을 유지할 수 있습니다. 속도, 비용, 고급 추론의 균형을 제공하여 대부분의 엔터프라이즈 애플리케이션에서 기본 선택지가 됩니다.
Claude Haiku 4.5 (출시일: 2025년 10월 15일): 속도 최적화 모델입니다. 놀랍게도 이제 Extended Thinking을 지원하여, 이전에는 프런티어 모델에만 제공되던 심층 추론 기능을 제공하는 최초의 "소형" 모델이 되었습니다. 지연 시간이 중요하지만 정확성을 희생할 수 없는 고빈도 작업에 이상적입니다.
Claude Opus 4.5 (출시일: 2025년 11월 24일): 프런티어 인텔리전스 모델입니다. Opus 4.5는 과학 연구, 새로운 아키텍처 설계, 고위험 금융 분석과 같은 가장 복잡하고 모호한 작업을 위해 설계되었습니다. 가장 높은 "thinking budget" 용량을 가지며 자기 수정에 탁월합니다.

핵심 기능 한눈에 보기

더 큰 실사용 컨텍스트 윈도우와 장시간 실행 작업(에이전트 워크플로, 단계별 디버깅, 코드베이스 수정)에서 개선된 동작.
코딩 벤치마크, 리팩터링, 다단계 도구 사용 작업에서 더 나은 성능(Sonnet 및 Opus 계열).
고급 “thinking” 기능(Anthropic이 extended thinking / thinking mode라고 부르는 기능)으로, 개발자에게 모델의 내부 단계별 추론 일부를 선택적으로 노출하거나, 최종 답변을 생성하기 전에 모델이 구성 가능한 토큰 “예산”을 사용해 추론하도록 허용합니다.

Claude 4.5를 실행할 수 있는 곳

Claude 4.5(Sonnet/Opus)는 Anthropic 자체 API를 통해 제공되며 CometAPI에도 통합되어 있습니다(API 가격은 현재 할인 중이며, 대략 Anthropic 가격의 20% 수준입니다). 따라서 Anthropic 플랫폼 또는 해당 모델을 호스팅하는 서드파티 클라우드 벤더를 통해 이 모델들을 실행할 수 있습니다.

Claude Code와 Claude 4.5의 새로운 THINKING mode란 무엇인가요?

Anthropic의 extended thinking(일명 “thinking mode”, “thinking blocks”, “thinking tokens”)은 모델이 최종 답변을 생성하기 전에 더 철저하게 추론할 수 있도록 추가 내부 샘플링 단계를 수행하게 하는 기능입니다. 이를 활성화하려면 Messages API 요청에 thinking 설정을 추가하면 됩니다(예: { "thinking": { "type": "enabled", "budget_tokens": 4096 } }) 또는 Anthropic SDK 헬퍼를 사용하면 됩니다. 활성화되면 API는 (모델에 따라) 내부 추론의 요약 버전을 반환하거나 전체 추론을 반환합니다(안전을 위해 리다크션될 수 있음).

"Thinking Mode"가 왜 혁신적인지 이해하려면, 대규모 언어 모델(LLM)이 전통적으로 어떻게 동작하는지 살펴봐야 합니다. 표준 모델은 "확률적 텍스트 생성기"로, 프롬프트를 받은 직후 다음 토큰을 예측합니다. 이들은 "멈춰서 생각하지" 않으며, 즉시 말하기(생성)를 시작합니다.

"Extended Thinking"으로의 전환

Thinking Mode는 이 패러다임을 바꿉니다. 활성화되면 Claude 4.5는 사용자에게 보이는 글자를 하나도 출력하기 전에 숨겨진 "thinking tokens" 스트림을 생성합니다.

가시적 추론(선택 사항): Claude.ai와 같은 일부 인터페이스에서는 모델의 내부 독백을 보여주는 "Thinking" 드롭다운을 볼 수 있습니다.

숨겨진 추론(API): API에서는 이것들이 별도의 thinking 블록으로 제공됩니다. 모델은 이 공간을 사용해 다음을 수행합니다.

프롬프트 분해: 복잡한 제약 조건을 세분화합니다.
전략 계획: 단계별 논리를 개요화합니다.
초안 작성 및 비판: 머릿속으로 해법을 시도하고, 결함을 찾고, 답변을 제시하기 전에 수정합니다.

인터리브드 Thinking

Sonnet 4.5의 주요 혁신 중 하나는 Interleaved Thinking입니다. 에이전트형 워크플로(여기서 AI는 계산기, 코드 인터프리터, 웹 브라우저 같은 도구를 사용함)에서 표준 모델은 단순히 도구를 호출하고, 결과를 얻고, 즉시 다음 도구를 호출합니다.

Interleaved Thinking을 사용하면 Claude 4.5는 다음과 같이 할 수 있습니다.

사용자 요청에 대해 생각합니다.
도구 A 호출 (예: 웹 검색).
검색 결과에 대해 생각합니다 ("이 결과는 오래되었으니 다른 쿼리를 시도해야겠다").
도구 B 호출 (예: 다시 검색).
데이터를 어떻게 종합할지 생각합니다.
최종 응답.

이러한 "Think-Act-Think-Act" 루프는 길고 다단계의 코딩 작업에서 환각과 오류 전파를 크게 줄입니다.

Claude Code가 개발자 도구에서 thinking을 표시하는 방식

Claude Code(CLI / 에디터 환경)에서 Anthropic은 대화형 세션에 대해 thinking mode를 토글하는 UI 기능을 추가했습니다(일반적인 UX는 Tab 키를 눌러 thinking on/off를 전환하는 방식입니다). 또한 현재 thinking budget을 보여주는 표시도 제공합니다. 더 오래된 일부 트리거 키워드(예: think, think hard)는 역사적으로 thinking 깊이를 제어하는 데 사용되었지만, 최신 버전은 명시적 토글과 budget 매개변수에 의존하며, ultrathink는 일부 맥락에서 여전히 사용할 수 있습니다. 구성은 ~/.claude/settings.json에서 전역으로 설정하거나 요청별로 재정의할 수 있습니다.

Claude 4.5 Thinking Mode는 어떻게 구현하나요?

개발자에게 Claude 4.5로의 전환은 API 요청 구조의 변화를 의미합니다. 이제는 단순히 프롬프트를 보내는 것이 아니라, "Thinking Budget"을 관리하는 것입니다.

Thinking Budget 설정

thinking 매개변수는 이제 Anthropic API의 일급 요소입니다. 이를 명시적으로 활성화하고 budget_tokens 값을 정의해야 합니다. 이 값은 모델이 내부 추론에 사용할 수 있는 최대 연산량을 나타냅니다.

Python 구현 예제

다음 코드는 Extended Thinking이 활성화된 Claude 4.5 세션을 초기화하는 방법을 보여줍니다.

import anthropic

# Claude 4.5 통합에 대한 Gemini Enterprise 관점 초기화
client = anthropic.Anthropic(api_key="your_api_key")

def get_reasoned_response(user_query):
    # thinking과 최종 답변을 모두 수용하기 위해 높은 max_tokens를 설정합니다
    # budget_tokens는 max_tokens보다 작아야 합니다
    response = client.messages.create(
        model="claude-4-5-sonnet-202512",
        max_tokens=20000,
        thinking={
            "type": "enabled",
            "budget_tokens": 12000  # 'thinking'에 12k 토큰 할당
        },
        messages=[
            {"role": "user", "content": user_query}
        ]
    )

    # 응답의 두 개의 구분된 부분 추출
    thinking_content = ""
    final_output = ""

    for block in response.content:
        if block.type == "thinking":
            thinking_content = block.thinking
        elif block.type == "text":
            final_output = block.text

    return thinking_content, final_output

# 복잡한 질의 예시
query = "Circom을 사용하여 탈중앙화 투표 앱을 위한 영지식 증명 시스템을 설계하라."
thoughts, answer = get_reasoned_response(query)

print("--- CLAUDE의 내부 추론 ---")
print(thoughts)
print("\n--- 최종 기술 아키텍처 ---")
print(answer)

주요 기술적 고려 사항

총 토큰 사용량: 총 사용량은 thinking_tokens + output_tokens입니다. 예를 들어 10,000 토큰의 budget을 설정하고 모델이 thinking에 8,000, 답변에 2,000을 사용했다면, 10,000 출력 토큰에 대해 과금됩니다.
강제 Thinking: 작업이 너무 단순하더라도, 모델은 요청의 단순성을 검증하기 위해 최소한의 thinking token을 사용할 수 있습니다.

Thinking Mode는 코드 생성을 어떻게 개선하나요?

Claude 4.5의 가장 중요한 업그레이드 중 하나는 Claude Code CLI에서의 성능입니다. Claude 4.5가 코드에 대해 "생각"할 때, 표준 모델이 간과하는 여러 숨겨진 동작을 수행합니다.

1. 의존성 매핑

Claude 4.5는 수정 사항 한 줄을 작성하기 전에 저장소를 탐색하여 utils/auth.ts의 변경이 views/Profile.tsx의 컴포넌트를 어떻게 망가뜨릴 수 있는지 이해합니다.

2. 정신적 실행

모델은 추론 블록 안에서 코드를 "실행"합니다. 논리 흐름을 시뮬레이션하고 잠재적인 경쟁 상태(race condition)나 off-by-one 오류를 식별합니다.

3. 제약 조건 검증

"성능이 좋고 외부 라이브러리를 사용하지 않는" 솔루션을 요청하면, thinking mode는 게이트키퍼 역할을 합니다. 모델의 첫 번째 직감이 NPM 패키지를 제안하는 것이라면, thinking 과정이 그 위반을 포착하고 순수 JavaScript 구현을 다시 생각하도록 강제합니다.

Thinking Mode는 전통적인 프롬프팅과 어떻게 비교되나요?

많은 사용자는 "단계별로 생각해"라고 모델에 지시하는 "Chain of Thought"(CoT) 프롬프팅에 익숙합니다. 효과적이지만, 이것은 Claude 4.5의 네이티브 Thinking Mode와는 동일하지 않습니다.

Feature	Chain of Thought (수동)	Extended Thinking (네이티브)
Mechanism	사용자 프롬프트 기반 지시.	모델 아키텍처에 내장됨.
Token Space	가시적인 출력 공간을 차지함.	전용 내부 블록을 차지함.
Self-Correction	제한적; 모델은 종종 초기 실수를 "끝까지 밀고 나감".	높음; 모델은 전체 추론 경로를 버리고 다시 시작할 수 있음.
Reliability	프롬프트 품질에 따라 가변적.	복잡한 도메인 전반에서 일관되게 높음.
API Handling	텍스트를 수동으로 파싱해야 함.	"thinking" 및 "text"를 위한 구조화된 JSON 블록.

Claude 4.5에서 thinking mode는 어떻게 동작하나요?

내부 워크플로(개념적)

사용자 요청: 애플리케이션이 모델, 프롬프트, max_tokens, 그리고 선택적으로 thinking: { type: "enabled", budget_tokens: N }를 지정한 Messages API 요청을 보냅니다.
내부 추론: Claude는 budget 한도까지 내부 “thinking”을 수행합니다. 추론 출력은 thinking 블록으로 기록됩니다(사용자에게는 요약되어 표시될 수 있음).
출력 구성: API는 콘텐츠 블록 배열을 반환합니다. 일반적으로 순서는 thinking 블록(들) 다음 text 블록(들)(최종 답변)입니다. 스트리밍을 사용하는 경우 thinking_delta 이벤트 뒤에 text_delta 이벤트를 받게 됩니다.
컨텍스트 보존: 도구 사용 또는 멀티턴 흐름에서, 이전 thinking 블록을 (수정 없이) 다시 전송하여 Claude가 chain-of-thought를 계속 이어가도록 할 수 있습니다. Opus 4.5는 캐시/효율성을 위해 기본적으로 thinking 블록을 보존하는 동작을 도입했습니다.

기술적으로 Thinking Mode는 추론을 위한 "Budget" 토큰을 할당하는 특정 API 매개변수 구성에 의존합니다.

Token Budget 개념

Claude 4.5에 요청할 때는 budget_tokens 매개변수를 지정해야 합니다. 이것은 모델이 내부 독백에 사용할 수 있는 최대 토큰 수입니다.

낮은 Budget (<2,000 tokens): 빠른 상식 검증이나 단순한 논리 퍼즐에 적합합니다.
높은 Budget (10,000+ tokens): 복잡한 소프트웨어 아키텍처, 수학적 증명, 또는 포괄적인 법률 문서 작성에 필요합니다.

모델은 이 budget을 "관리"하도록 훈련되어 있습니다. budget이 부족해지고 있다고 판단하면, 추론을 마무리하고 가능한 최선의 답을 제공하려고 시도합니다.

"Thinking Process" 수명 주기

사용자가 다음과 같이 묻는 경우: "이 웹사이트를 스크래핑하는 Python 스크립트를 작성하되, robots.txt를 준수하고 동적 로딩을 처리하도록 보장해줘."

입력 처리: Claude가 프롬프트를 읽습니다.
Thinking 단계(숨김):
- 자기 수정: "동적 로딩에는 Selenium이나 Playwright를 사용해야 해. requests로는 안 돼."
- 보안 점검: "사용자에게 스크래핑 권한이 있는지 확인해야 해. 면책 문구를 추가하자."
- 아키텍처: "모듈성을 위해 클래스 기반 접근 방식으로 코드를 구성하자."
출력 단계(가시적): Claude가 Python 코드를 생성합니다.

이전 모델에서는 AI가 즉시 requests 코드를 작성하기 시작했다가, 중간에 동적 콘텐츠에는 작동하지 않는다는 걸 깨닫고, 그다음 환각된 해법을 내놓거나 깨진 코드를 제공했을 수 있습니다. Thinking mode는 이러한 "막다른 골목에 들어가는" 시나리오를 방지합니다.

Thinking mode는 언제 활성화해야 하나요 — 사용 사례와 휴리스틱

가장 큰 이점을 얻는 사용 사례

복잡한 코딩(아키텍처 변경, 다중 파일 리팩터링, 긴 디버깅 세션). Sonnet 4.5는 thinking을 사용할 때 코딩 및 에이전트형 작업의 선두 주자로 명시적으로 포지셔닝됩니다.
에이전트형 워크플로: 도구를 반복적으로 사용하고 많은 단계에 걸쳐 내부 컨텍스트를 보존해야 하는 경우. Interleaved thinking + 도구 사용은 핵심 시나리오입니다.
심층 연구 또는 분석(통계 분석, 금융 구조화, 법률 추론): 중간 추론 단계를 검사하거나 검증하는 것이 가치 있는 경우.

활성화하지 말아야 할 때

짧은 답변 생성이나, 최소 지연 시간이 중요한 고처리량 저지연 API(예: 밀리초 단위 응답이 필요한 채팅 UI).
요청당 토큰 비용을 최소화해야 하고, 작업이 단순하거나 명확하게 정의된 경우.

실용적인 휴리스틱

**최소 thinking budget(약 1,024 tokens)**부터 시작하여 더 깊이가 필요한 작업에 대해 점진적으로 늘리세요. 종단 간 작업 정확도, 지연 시간, 토큰 사용량을 기준으로 벤치마킹하세요. 다단계 에이전트 작업의 경우, interleaved thinking과 캐시된 프롬프트 브레이크포인트를 실험해 최적점을 찾으세요.

결론

Claude 4.5의 Thinking Mode는 단순한 기능 그 이상입니다. 이것은 인공지능과 상호작용하는 새로운 방식입니다. 생각의 과정을 생각의 산물과 분리함으로써, Anthropic은 더 신뢰할 수 있고, 더 투명하며, 현대 엔터프라이즈 업무의 복잡성을 처리할 수 있는 더 강력한 도구를 제공했습니다.

대규모 마이그레이션을 관리하기 위해 Claude Code CLI를 사용하든, 차세대 자율 에이전트를 구축하기 위해 API를 활용하든, "Thinking Budget"을 숙달하는 것이 성공의 핵심입니다.

개발자는 CometAPI를 통해 Claude 4.5 모델에 액세스할 수 있습니다. 시작하려면 CometAPI의 Playground에서 모델 기능을 살펴보고, 자세한 지침은 API 가이드를 참조하세요. 액세스하기 전에 CometAPI에 로그인하고 API 키를 발급받았는지 확인하세요. CometAPI는 통합을 돕기 위해 공식 가격보다 훨씬 낮은 가격을 제공합니다.

바로 시작할 준비가 되셨나요?→ Claude 4.5 무료 체험!