GPT-5.5의 86% 환각률은 2026년 4월 출시와 함께, 누구도 줍고 싶지 않은 수류탄처럼 떨어졌다. 이 모델은 Artificial Analysis의 AA-Omniscience 벤치마크에서 정확도 57%를 기록해 사상 최고 수준의 사실 회상률을 보였지만, 모르는 것이 생기면 어떤 주력 경쟁 모델보다도 ‘모른다’고 할 상황에서 답변을 시도할 가능성이 더 높다.
Claude Opus 4.7의 환각률은 36%다. Gemini 3.1 Pro의 환각률은 50%다. GPT-5.5의 환각률은 86%다.
두 가지 진실이 동시에 성립한다: 토큰 단위로 임대할 수 있는 모델 중 가장 ‘똑똑’하고, 동시에 가장 쉽게 답을 지어낸다. 이 간극을 이해하는 것이 GPT-5.5를 전략적으로 쓰는 것과, 자신만만한 거짓으로 가득한 클라이언트 리포트를 내보내는 것의 차이다.
이 글은 “GPT-5.5는 나쁘고, Claude Opus 4.7은 좋다”가 아니다. 과업 요구사항과 실패 허용도를 기준으로 어떤 모델을 언제 쓸지 결정하는 프레임워크다.
86%가 실제로 측정하는 것(그리고 왜 당신이 생각하는 그게 아닌지)
Artificial Analysis는 40개 이상의 도메인에 걸쳐 사실 지식을 스트레스 테스트하기 위해 AA-Omniscience를 만들었다. 이 벤치마크는 두 가지 별도 지표를 추적한다:
- 정확도: 모델이 답할 때, 얼마나 자주 맞는가?
- 환각률: 모델이 무언가를 모를 때, “모른다”고 말하는 대신 자신 있게 답을 지어낼 확률은 얼마나 되는가?
GPT-5.5는 자신감 있는 오답을 측정하도록 설계된 벤치마크에서 주력 모델 중 최악의 사례다.
86%의 수학
이 숫자가 실제로 의미하는 바는 다음과 같다. GPT-5.5에게 학습 데이터만으로는 정확히 답할 수 없는 사실 질문 100개를 묻는다고 하자:
- GPT-5.5 (환각률 86%): 그중 86개에 어쨌든 답하려 든다. 대부분 틀릴 것이지만, 맞을 때의 어조와 똑같은 자신감으로 제시된다.
- Claude Opus 4.7 (환각률 36%): 36개에 답하려 하고, 나머지 64개는 “정보가 부족하다”고 하거나 추측을 거부한다.
- Gemini 3.1 Pro (환각률 50%): 절반씩 — 50개는 답하고, 50개는 불확실성을 인정한다.
핵심 통찰: 공상(confabulation)은 작은 실수가 아니다. 모델이 맥락상 그럴듯하게 들리는 세부 사항(이름, 숫자, 출처, 날짜, 규정)을 지어내고, 정답일 때와 똑같은 어조로 전달하는 특정 실패 모드다.
구체적 사례
다음과 같이 묻는다고 하자: “2024년 몬태나 주 상원 선거 37구의 최종 득표 수는 얼마였나?”
- GPT-5.5(그럴 법한 응답): “최종 득표는 Sarah Mitchell (R)이 12,847 대 11,203으로 앞섰습니다.” (이건 꾸며낸 숫자지만, 사실처럼 읽힌다.)
- Claude Opus 4.7(그럴 법한 응답): “2024년 몬태나 주 의회 개별 선거구의 구체적인 득표 수에는 접근할 수 없습니다.”
- 결과: GPT-5.5의 답은 보고서에 그대로 복사될 것이다. Claude의 무응답은 사용자가 30초 동안 구글링을 하게 만든다.
정치 컨설턴트의 브리핑 문서에서는 치명적인 차이다. 함수 이름을 생성하는 코딩 에이전트에서는 전혀 문제되지 않는다 — 린터가 가짜 라이브러리 임포트를 잡아낸다.
세 모델 성능 비교
GPT-5.5, GPT-5.4, Claude Opus 4.7의 실제 상대적 위치는 다음과 같다:
| 지표 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | 승자 |
|---|---|---|---|---|
| SWE-Bench Verified | 58.60% | 57.70% | 64.30% | Claude +5.7pp |
| Terminal-Bench 2.0 | 82.70% | 75.10% | 69.40% | GPT-5.5 +7.6pp vs 5.4 |
| OSWorld-Verified | 78.70% | 75% | 78.00% | 통계적으로 동률 |
| AA-Omniscience 정확도 | 57% | 43% | ~52% | GPT-5.5 +5pp |
| 환각률 | 86% | 미공개 | 36% | Claude 2.4배 우수 |
이 표가 실제로 말하는 것
- 엔드 투 엔드 코딩 워크플로(SWE-Bench Pro): Claude 4.7이 5.7포인트 앞선다. 과업이 “GitHub 이슈를 자율적으로 해결”이라면 Claude 4.7이 계량적으로 더 낫다.
- 터미널 명령 실행(Terminal-Bench 2.0): GPT-5.5가 82.7%로 독주한다. GPT-5.4 대비 7.6포인트 앞선다. 쉘 명령을 오케스트레이션하는 에이전트를 만든다면 GPT-5.5가 명백한 선택이다.
- 데스크톱 컴퓨터 제어(OSWorld): 약 ~78%로 통계적 무승부. 어느 모델이든 가능하다.
- 오답 비용이 큰 사실 회상 과업: GPT-5.5의 86% 대비 Claude의 36% 환각률은 자신감 있는 조작을 할 가능성이 2.4배 낮다는 뜻이다.
- 비용 제약이 있는 프로덕션 배포: GPT-5.4는 2.00/2.00/2.00/12(CometAPI)로 GPT-5.5보다 60%, Claude보다 50% 저렴하다.
의사결정 프레임워크: 언제 어떤 모델을 쓸 것인가
프레임워크는 “GPT-5.5 승”도 “Claude 승”도 아니다. 과업에 맞는 실패 모드를 매칭하는 것이다.
GPT-5.5를 사용할 때:
출력이 내장 검증을 갖출 때
- 코드 생성(테스트/린터가 환각을 잡는다)
- 터미널 명령(쉘 에러로 잘못된 문법이 즉시 드러난다)
- 스키마 검증이 있는 데이터 변환
- 정답을 검증하는 수학 문제
최대 추론 성능이 필요하고 오류를 흡수할 수 있을 때
- 동료 검토가 전제된 복잡한 소프트웨어 아키텍처 결정
- 어차피 인용을 수작업으로 팩트체크하는 리서치 통합
- 브레인스토밍/아이데이션(환각된 개념이 실제 아이디어의 시발점이 될 수 있다)
- 경쟁 프로그래밍 연습(검증용 정답이 있다)
지능 단위당 비용이 주요 제약일 때
- 토큰당 가격은 GPT-5.4 대비 5/5/5/30 per 1M input/output tokens로 두 배가 되었지만, 약 40% 토큰 사용 절감으로 대부분 상쇄되어 Intelligence Index 실행 순 비용은 약 +20%에 그친다.
- 오류 수정이 자동화된 대규모 API 배포
- 사용자가 모델의 한계를 이해하는 내부 도구
GPT-5.5를 피해야 할 때:
사실 정확성이 구조물의 ‘하중’을 지탱할 때
- 법률 문서 분석(허구의 판례 인용은 제재 대상)
- 의학 문헌 리뷰(잘못된 약물 상호작용은 환자에게 해롭다)
- 재무 보고(조작된 숫자는 컴플라이언스 위반을 촉발)
- 학술 연구 인용(철회는 신뢰도에 치명적)
다운스트림 검증 레이어가 없을 때
- 고객 대상 챗봇의 정책 질의 응답
- 구체적 규정을 인용하는 자동 이메일 답장
- 사용자가 맹신하는 온보딩 문서
- “AI가 그렇게 말했다”가 권위로 받아들여지는 모든 상황
환각을 고치는 비용이 Claude를 쓰는 비용보다 클 때
- 어차피 사람이 검증한다면 Claude의 낮은 오류율이 인건비를 절감
- (환각률 × 오류 수정 담당자의 시간당 단가)를 곱하라. 그 값이 4input/4 input / 4input/20 output delta를 초과하면 Claude를 사용하라.
비용 최적화: 하이브리드 전략
대부분의 프로덕션 시스템에서 최고의 ROI는 한 모델을 고르는 것이 아니라, 과업 특성에 따라 GPT-5.5, GPT-5.4, Claude로 지능적으로 라우팅하는 것이다.
월간 비용 비교
대규모에서 가격 차이는 다음과 같다:
| 월간 토큰 사용량 | GPT-5.5 비용 | GPT-5.4 비용 | Claude Opus 4.7 비용 | 5.5 대비 GPT-5.4 절감 | 5.5 대비 Claude 비용 |
|---|---|---|---|---|---|
| 50M input / 10M output | $550 | $275 | $400 | -$275 (50%) | -$150 (27%) |
| 500M input / 100M output | $5,500 | $2,750 | $4,000 | -$2,750 (50%) | -$1,500 (27%) |
| 2B input / 400M output | $22,000 | $11,000 | $16,000 | -$11,000 (50%) | -$6,000 (27%) |
에이전틱 워크플로의 전형적인 입력:출력 = 5:1 비율을 가정. 공식 API 가격(5/5/5/30 for GPT-5.5, 2.50/2.50/2.50/15 for GPT-5.4, 5/5/5/25 for Claude Opus 4.7)에 기반.
핵심 인사이트: 월 5억 입력 토큰에서, 적합한 과업을 GPT-5.4로 라우팅하면 연간 $33,000를 절감한다. 질의의 30%만 GPT-5.4로 보내도 연간 약 $10,000 절감된다.
3단 라우팅 아키텍처
Incoming Request
│
▼
Task Classifier
│
├──► High-stakes factual (citations, compliance, medical)
│ └──► Claude Opus 4.7 ($4 input / $20 output)
│
├──► Code generation, debugging, terminal commands
│ └──► GPT-5.5 ($5 input / $30 output)
│
└──► Simple queries, content drafting, data extraction
└──► GPT-5.4 ($2.50 input / $15 output)
예시 라우팅 규칙:
- 인용 요구사항 포함 → Claude
- Task type = code generation or terminal execution → GPT-5.5
- Input tokens \< 2K AND no external verification needed → GPT-5.4
- Output will be human-reviewed before publication → GPT-5.5
- Output goes directly to end-users AND contains factual claims → Claude
기존 프레임워크와의 통합
LangChain이나 LlamaIndex를 사용 중이라면, 내장 셀렉터로 모델 라우팅을 구현하라:
- LangChain:
ChatModelSelector를 사용해 메타데이터 태그(예:task_complexity: "low" | "medium" | "high"및factual_risk: boolean) 기반으로 라우팅 - LlamaIndex:
RouterQueryEngine을 구성해 질의 특성을 평가한 뒤 GPT-5.5, GPT-5.4, Claude 중 선택하도록 커스텀 라우팅 로직 설정
핵심은 업스트림에서 질의에 리스크 속성을 태깅(사용자 입력 분류 또는 LLM 기반 의도 감지)하고, 그 속성을 모델 선택 규칙에 매핑하는 것이다.
GPT-5.5를 ‘데이지 컷터’ 없이 쓰는 법
환각 완화: 프로덕션에서 사실적 주장과 관련된 과업에 GPT-5.5를 배치한다면, 다음 세 가지 워크플로는 필수다:
투패스 사실 추출
인용, 통계, 날짜, 이름이 포함된 모든 출력에 대해:
First pass (GPT-5.5): Generate the analysis/report
Second pass (Same model): "Here's your previous response. For every
specific claim with a date, number, name, or citation, list:
(1) The claim
(2) A source you can verify
(3) Your confidence (0-100%) that the source says exactly this
If you fabricated anything or aren't sure, flag it explicitly."
대부분의 환각된 라이브러리는 이 프롬프트에서 표 목록 작성을 강제하면 스스로 머뭇거리면서 표식된다.
신뢰도 점수화 출력
모델이 자신의 확신을 점수화하게 하라:
"After each factual claim, add [confidence: X%]. Use:
95-100%: You have direct training data
70-94%: Strong inference from related facts
50-69%: Educated guess
<50%: Mark as [VERIFY REQUIRED]"
최종 사용자에게 전달되기 전에, 리스크 임계값 미만의 항목은 필터링하라.
Claude와의 하이브리드 팩트체킹
하이 스테이크 출력의 경우:
GPT-5.5 generates → Extract factual claims → Pass to Claude:
"Verify these claims. For each, respond SUPPORTED / CONTRADICTED / UNKNOWN
based on your training data. Do not guess."
Claude의 36% 환각률은 팩트체커로서 2.4배 더 신뢰할 수 있음을 의미한다. 모델 호출이 두 번이 되지만, $50K짜리 컴플라이언스 위반 하나를 막는 것이 GPT-5.5 + Claude 가격에서 약 250만 입력 토큰을 상쇄한다.
진짜 트레이드오프
OpenAI는 이 지표를 숨기지 않았다 — Artificial Analysis가 GPT-5.5 출시 당일 함께 공개했다. 다만 먼저 내세우지 않았을 뿐이다. 두 선택 모두 이해할 수 있다.
정당화할 수 없는 것은 GPT-5.5를 Claude Opus 4.7과 같은 방식으로 배치하는 것이다. 두 모델은 다른 도구이고, 실패 모드도 다르다:
- GPT-5.5: 천장(최고 성능)은 가장 높고, 오류 인지력은 가장 낮다. 검증이 워크플로에 내장된 과업에 최적.
- Claude Opus 4.7: 환각률이 낮고, 불확실성을 더 잘 인정한다. 오답의 비용이 ‘무응답’보다 더 클 때 최적.
- GPT-5.4: 50% 저렴하고, 대부분의 과업에서 95% 수준의 성능. 최첨단 성능보다 비용이 중요한 경우 최적.
프레임워크는 “GPT-5.5 승”도 “Claude 승”도 아니다. 실패 모드를 과업에 맞추는 것이다. 코딩과 추론은 자신감 있는 오답을 견딜 수 있다 — 테스트가 잡고, 린터가 잡고, 출력이 작동하지 않으면 바로 드러난다. 사실 회상은 그렇지 않다 — 법률 문서의 허구 인용은 진짜 인용과 똑같은 자신감으로 떨어진다.
GPT-5.5를, 그것이 입증된 강점에 맞춰 사용하라. 비용 민감형 질의는 GPT-5.4로 라우팅하라. 세부사항 조작이 API 비용 절감보다 더 큰 피해를 일으킬 과업은 Claude에 맡겨라. 그리고 중요한 것은 무엇이든 검증하라.
AI 비용을 줄일 준비가 되셨나요?
👉 CometAPI 무료로 사용해 보기— 동일한 모델, 20% 더 낮은 가격, 통합 청구.
현재 비용 비교: 지난달 OpenAI/Anthropic 청구서를 0.8로 곱해 보라. 코드 변경 없이 월간 비용이 그것으로 바뀐다.
마이그레이션 문의? CometAPI 문서에 OpenAI Python SDK, LangChain, LlamaIndex용 드롭인 대체 예제가 포함되어 있다. 대부분의 팀은 2시간 이내 전환을 완료한다.
이 프레임워크가 유용했나요? 팀과 공유하세요. 2026년에 예산을 가장 빨리 태우는 방법은, 경쟁사가 CometAPI로 지능적으로 라우팅하는 동안 AI API에 정가를 지불하는 것입니다.
.webp&w=3840&q=75)