프라이싱은 최전선 LLM을 선택할 때 가장 중대한 결정이며, 또한 대부분의 공개 비교가 분기 내에 금세 구식이 되는 영역이기도 하다. 이 글은 그 문제를 정면으로 다룬다. 아래에는 2026년 프로덕션 최전선 모델 트래픽의 대다수를 차지하는 네 가지 모델(OpenAI의 GPT-5.5, Anthropic의 Claude Sonnet 4.6, Google의 Gemini 3.5 Flash, 그리고 DeepSeek의 V4)에 대한 입력 및 출력 토큰 가격의 최신 출처 기반 현황과 함께, 규모가 커질수록 청구액을 실질적으로 바꾸는 지렛대인 프롬프트 캐싱, 배치 처리, 장문 컨텍스트 할증을 정리했다.
이 글은 두 가지 질문을 중심으로 구성되어 있다. 첫째: 정가 기준으로 각 모델의 백만 토큰당 비용은 얼마이며, 실제 프로덕션 청구를 좌우하는 입력과 출력에서의 요율은 어떻게 비교되는가? 둘째: 대표적 워크로드(월 1억 토큰, 입력 80%·출력 20%, 현실적인 캐시 적중률)를 적용하면 각 모델의 월 청구액은 달러 기준으로 얼마가 되는가? 첫 번째 답은 요금표를 확립하고, 두 번째 답은 그 요금표가 실제 프로덕션 패턴에 닿았을 때 무엇이 되는지 알려준다.
빠른 요약: 네 가지 최전선 모델 전반에서 정가 기준 가격대는 대략 100배에 이르는 격차가 난다. DeepSeek V4는 백만 입력 토큰당 $0.435로 가장 저렴하며, Claude Opus 4.7은 $5.00로 가장 비싸다. 워크로드의 형태, 특히 캐시 적중률과 입력 대비 출력 비율은 실무에서 어느 모델이 가장 저렴한지를 바꾸며, 그 효과는 종종 요금표가 시사하는 것보다 크다.
왜 동등 조건의 가격 비교가 보기보다 어려운가
제공업체의 가격 페이지는 그 제공업체의 고객을 위해 작성되며, 네 가지 옵션을 나란히 평가하려는 사람을 위해 쓰이지 않는다. 그 결과, 비교 과정에서 다음의 세 가지 함정이 반복적으로 발생한다:
- 제공업체 간 토큰이 동일하지 않다. Claude Opus 4.7은 동일한 입력 텍스트에서 Opus 4.6 대비 최대 35% 더 많은 토큰을 생성할 수 있는 새 토크나이저를 탑재했다. Gemini의 토크나이저도 OpenAI와 다르다. 요금표는 백만 토큰당 기준이지만, 동일한 프롬프트의 토큰 수는 제공업체마다 달라서, 표면적 요율은 상대 비용의 1차 근사치에 불과하다.
- 장문 컨텍스트 요율 구간이 비용 절벽을 만든다. OpenAI의 GPT-5.5 제품군은 약 270,000 토큰에서 단문/장문 컨텍스트 구간이 나뉘며 요율이 다르다. 반대로 Anthropic은 전체 1M 컨텍스트 윈도우에 걸쳐 동일한 토큰당 요율을 유지한다. 이 임계치 근처에 놓인 워크로드는 임계치 안쪽에 편안히 위치한 워크로드와는 전혀 다르게 가격이 책정된다.
- 할인은 분리되지 않고 누적된다. 프롬프트 캐싱, 배치 처리, 제공업체별 볼륨 티어는 각각 실효 단가를 크게 낮출 수 있으며, 이들은 누적 적용된다. Anthropic에서 캐싱된 배치 요청은 표준 비캐시 요청의 5% 수준까지 내려갈 수 있다. 이러한 레버를 무시하는 가격 비교는 때로는 정가를 한 자릿수 배수까지 과대평가한다.
아래 비교는 가능한 곳에서는 이러한 함정을 보정하고, 불가한 곳에서는 명시적으로 표시한다.
2026년 최전선 LLM 가격 비교
모든 수치는 백만 토큰당 미화(USD) 기준. 2026년 5월 각 제공업체의 공식 가격 문서를 출처로 함.
| Model | Input | Output | Cached input | Batch (50% off) | Context window | Long-context surcharge |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | 예 (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | 없음 |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | 없음 |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | 예 (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | 미제공 | 384K | 없음 |
표 읽는 법: Cached input은 프롬프트 캐시에서 제공된 토큰에 대해 지불하는 요율(일반적으로 시스템 프롬프트, few-shot 예시, 요청 간 반복되는 문서 접두부 등)이다. Batch는 최대 24시간 지연이 허용되는 비동기 워크로드에 적용되는 요율이다. Long-context surcharge는 제공업체가 특정 컨텍스트 길이 임계치를 넘으면 요율을 올리는지 여부를 나타내며, 그렇다면 괄호 안에 임계치를 표기했다.
모델별 강점
GPT-5.5: 어려운 추론과 에이전틱 작업을 위한 최고 역량의 기본 선택
GPT-5.5는 복잡한 전문 워크로드—코딩 에이전트, 다단계 계획, 장시간 툴 사용, 그리고 추론 깊이가 지배적인 요구사항인 문서 분석—을 위한 OpenAI의 최전선 모델이다. 동시에 주요 미국 모델 중 입력($5.00/백만)과 출력($30.00/백만) 단가가 가장 높아, 덜 신뢰롭게 문제를 푸는 다른 모델의 플래그십 요금을 지불하느니 GPT-5.5에 지불하는 편이 낫다는 워크로드에서 제값을 한다. GPT-5.5는 캐싱 90% 할인, 배치 처리 50% 할인을 지원하며, 장문 컨텍스트 요금은 약 270K 토큰 부근에서 적용되는데, 이는 매우 긴 코드베이스나 전체 리포지토리 컨텍스트에는 관련 있지만 일반적인 RAG 워크로드에는 보통 해당되지 않는다.
Claude Sonnet 4.6: 대부분의 프로덕션 트래픽에 권장되는 기본값
Sonnet 4.6는 대부분의 프로덕션 워크로드에 Anthropic이 권장하는 모델이며, 가격 대비 성능 비율이 그 이유다. 입력 $3, 출력 $15(각 백만 토큰당)로 입력과 출력 모두에서 GPT-5.5보다 낮은 요율을 보이면서, 코딩, 분석, RAG 파이프라인, 고객 응대 채팅, 구조적 출력 생성 등 대부분의 프로덕션 시스템을 지배하는 워크로드에서 Opus에 근접한 품질을 제공한다. Sonnet의 차별화된 가격 특징은 전체 1M 토큰 컨텍스트 윈도우를 표준 요율로 제공(장문 컨텍스트 할증 없음)한다는 점으로, 아주 긴 문서나 전체 리포지토리를 가끔 수용해야 하는 워크로드에서 가장 저렴한 현실적 옵션이 된다. 프롬프트 캐싱은 캐시된 입력을 표준의 10%까지 낮추며, 안정적인 시스템 프롬프트가 있는 워크로드에서 결정적이다.
Gemini 3.5 Flash: 짧은 컨텍스트 작업에 가장 공격적으로 가격이 책정된 플래그십
Gemini 3.5 Flash는 원시 API 가격 기준으로 주요 미국 제공업체의 플래그십급 모델 중 가장 저렴하며, 입력 $1.50, 출력 $9.00(각 백만 토큰당)이다. 대부분의 프로덕션 트래픽에서 관련 있는 가격대이며, GPT-5.5와 Claude Opus 4.7 모두를 실질적으로 하회한다. 이전 Flash 모델 대비 더 높은 가격은 토큰 사용량이 많은 에이전틱 시나리오에서 전체 비용 증가로 이어진다(가격+사용량 영향으로 Gemini 3 Flash 대비 Intelligence Index 비용 5.5배). 또 다른 특징은 Google AI Studio의 진정한 무료 등급으로, 프로토타이핑에는 유용하지만 프로덕션 비용 모델에는 관련이 없다.
DeepSeek V4: 극적으로 저렴하지만 이해해야 할 단서가 있다
DeepSeek V4는 백만 입력 토큰당 $0.435, 백만 출력 토큰당 $0.87로, 비교 대상에 따라 미국 최전선 모델 대비 5배에서 70배까지 저렴하다. 모델 자체는 특히 추론과 코드에서 많은 벤치마크에서 경쟁력이 있다. 다만 명확히 해야 할 단서가 있다: 데이터가 중국에서 처리되어 규제가 있는 워크로드에서는 출발선에서 탈락할 수 있다; 영어 품질은 강하지만 미국 최전선 모델들과 최적화 방향이 다르므로, 특정 워크로드에 대한 정면 비교 테스트는 선택이 아니라 필수다. 이러한 단서가 수용 가능한 워크로드에서는 DeepSeek이 비용 방정식을 실질적으로 바꾼다.
Claude Opus 4.7 vs Sonnet 4.6에 대한 참고. Opus는 완결성을 위해 표에 포함했지만, 대다수 프로덕션 트래픽에서는 Sonnet 4.6가 더 경제적인 선택이다. Opus는 입력과 출력 모두에서 Sonnet 대비 1.67배 비싸며, Sonnet으로 충분한 워크로드(대부분이 해당)에서는 이 프리미엄에 상쇄 이점이 없다. Sonnet이 특정 과업에서 실패한다는 평가가 나왔을 때—고도로 자율적인 코딩 에이전트, 장기 전문 워크플로, 사소한 차이의 지시 준수가 결정적인 과업—Opus를 선택하라.
사례 계산: 월 1억 토큰의 실제 비용
백만 토큰당 헤드라인 가격은 대표적인 워크로드에 적용해 보기 전에는 의미가 적다. 아래 예시는 비중이 적지 않은 프로덕션 시스템을 근사한다: 월 총 1억 토큰, 입력 80%(8천만), 출력 20%(2천만), 입력 부분의 캐시 적중률 30%. 이 패턴은 안정적인 시스템 프롬프트와 문서 컨텍스트를 가진 고객 응대 채팅 또는 RAG 워크로드를 대체로 잘 대표한다.
각 모델의 계산: 캐시된 입력 비용 + 비캐시 입력 비용 + 출력 비용. 캐시를 제공하는 업체는 캐시된 입력이 표준의 10%로 청구된다.
| Model | Cached input (24M) | Uncached input (56M) | Output (20M) | Total monthly bill |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
이것이 의미하는 바. 대표적 워크로드에서 Sonnet 4.6는 GPT-5.5 대비 대략 절반 수준의 비용이다. DeepSeek은 비용 측면에서 완전히 다른 차원에 있다. 이는 정가 기준 수치이며, 적용 가능한 곳에 배치 처리를 적용하면 입력과 출력 비용(캐시 적중분 제외)이 추가로 50%씩 줄어든다.
앞으로도 유효한 관찰 두 가지. 첫째: 캐싱은 당신이 통제할 수 있는 레버 중 단연 가장 영향력이 크다. 위 예시는 30% 캐시 적중률을 가정한다; 이를 60%로 올리면(안정적인 시스템 프롬프트가 있는 워크로드에서는 충분히 가능), 총비용이 대략 추가로 25% 감소한다. 둘째: 입력 대비 출력 비율은 매우 중요하다. 출력 비중이 큰 워크로드(요약, 장문 작성)는 출력 요율이 저렴한 제공업체에 유리하고, 입력 비중이 큰 워크로드(장문 컨텍스트 분석, 대규모 RAG 검색)는 입력 요율이 저렴하고 장문 컨텍스트 할증이 없는 제공업체에 유리하다.
요금 페이지에 없는 숨은 비용
정가는 바닥이지 천장이 아니다. 프로토타입에서 프로덕션으로 확장하는 팀이 흔히 놀라는 추가 비용 다섯 가지를 명시적으로 예산에 반영하는 것이 좋다:
- 추론 토큰. 확장 추론 모드(GPT-5.5 Thinking, DeepSeek V4 thinking mode)를 가진 모델은 내부 추론 내용을 생성하며, 이는 출력 토큰으로 집계된다. 긴 프롬프트에서 고노력 추론 호출 한 번에 20,000개의 추론 토큰이 발생할 수 있으며, 이는 가시적 응답이 생성되기 전부터 GPT-5.5에서 출력 비용 $0.60에 해당한다. 요청 단위가 아니라 워크로드 단위로 예산을 설정하라.
- 장문 컨텍스트 할증. Gemini 3.5 Flash와 GPT-5.5는 컨텍스트 길이 임계치를 넘으면 요율을 올린다. 대형 문서를 포함하는 RAG 파이프라인은 아무도 눈치채지 못하는 사이에 모든 요청을 상위 구간으로 밀어낼 수 있다. 프로덕션에서 실제 프롬프트 길이를 측정하고 임계치를 넘는지 확인하라.
- 데이터 거주지 가산. Anthropic은 Opus 4.7과 Sonnet 4.6에서 미국 내 전용 추론에 10% 프리미엄을 부과한다. OpenAI는 GPT-5.4 제품군의 데이터 거주지 엔드포인트에 10% 가산을 적용한다. 규제가 중요한 워크로드라면 1일 차부터 요금표에 반영하라.
- 출력 장황화 드리프트. 새 모델 버전이 기본적으로 더 꼼꼼해지면(Opus 4.7이 Opus 4.6 대비 그렇다고 보고됨), 입력 길이가 일정해도 응답당 출력 토큰이 늘어날 수 있다. Anthropic 라인에서는 출력이 입력보다 5배 비싸므로, 출력 장황화가 20% 늘면 지배적 비용 항목이 20% 증가한다.
- 실패 및 재시도 요청. 대부분의 제공업체는 4xx와 5xx 오류에는 요금을 부과하지 않지만, 부분 생성과 두 번째 시도에서 성공한 재시도에는 요금을 부과한다. 재시도 로직이 활성화된 프로덕션 시스템에서는 이것이 청구액에 몇 퍼센트 추가될 수 있다. 제공업체 청구서를 예상 비용과 대조할 때 알아둘 가치가 있다.
CometAPI가 제공하는 위치
이 네 가지 모델을 포함해 500개 이상의 모델을 CometAPI를 통해 단일 OpenAI 호환 엔드포인트에서, 하나의 자격 증명, 통합 청구, 제공업체별 계정 개설 없이 사용할 수 있다. CometAPI의 가격은 기본 제공업체가 공표한 각 모델의 동일한 요율로 토큰 기반 계량 과금되며, 선불로 충전한 크레딧이 카탈로그의 어떤 모델에도 적용된다. CometAPI를 경유하는 가치는 토큰 단가가 아니라 운영 측면에 있다: 자격 증명 하나만 관리하고, 대조할 청구서도 하나이며, 코드에서 문자열 하나만 바꿔 GPT-5.5에서 Claude Sonnet 4.6, Gemini 3.5 Flash로 손쉽게 전환할 수 있다.
직접 제공업체를 사용하는 것이 맞는 워크로드도 있다. 단일 제공업체의 단일 모델을 매우 대규모로 사용하며, 협상된 엔터프라이즈 계약이 있다면, 직접 이용이 단위 경제성 측면에서 더 낫다. 컴플라이언스 요구가 특정 Vendor of Record 관계를 필요로 한다면, 애그리게이터는 대화를 단순화하기보다 복잡하게 만든다. 그러나 다중 모델 프로덕션 워크로드를 운영하는 대부분의 팀에게, 3~4개의 직접 제공업체 관계를 관리하는 운영 마찰 자체가 의미 있는 비용이며, 이는 요금표에 반영되지 않는다.
당신의 워크로드로 직접 비교해 보라. CometAPI의 무료 등급은 별도 가입 없이 하나의 엔드포인트에서 동일한 프롬프트를 GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash, DeepSeek V4에 동시에 실행할 수 있게 해준다. 워크로드별 비용 결정을 위해서는, 그 한 시간짜리 실험이 지금까지 발표된 어떤 가격 비교보다 가치가 크다.
이 비교를 활용하는 방법
당신의 워크로드에 맞는 올바른 모델은 트래픽 형태에서 어떤 요금표 차원이 가장 중요한지에 달려 있다. 실용적 의사결정 프레임워크:
- 추론 깊이가 병목이라면 (agentic 워크플로, 복잡한 다단계 계획, 가장 어려운 코딩 작업), GPT-5.5 또는 Claude Opus 4.7부터 시작하라. 프리미엄은 실제로 존재하지만 이런 워크로드에서 정당화된다.
- 일반 프로덕션 트래픽에서 최고의 가격 대비 성능을 원한다면, Claude Sonnet 4.6가 권장 기본값이다. 최전선에 근접한 역량, 표준 요율의 전체 1M 컨텍스트, 강력한 캐싱 지원.
- 비용에 민감하고 워크로드가 200K 컨텍스트 이하에 머문다면, Gemini 3.5 Flash가 주요 미국 제공업체의 플래그십급 모델 중 가장 저렴한 현실적 옵션이다.
- 워크로드가 고용량이고 비용 지배적이며, DeepSeek의 데이터 거주지 정책이 수용 가능하다면, V4는 특히 배치형 워크로드에서 비용 방정식을 바꿀 만큼 진지하게 평가할 가치가 있다.
비용 최적화를 더 파고들고 싶은가? 위 가격 데이터는 라우팅—질의별로 가장 낮은 비용으로 처리할 수 있는 모델로 보내는 실무—의 기초다. 동반 글인 2026년 프로덕션 워크로드를 위한 모델 라우팅 가이드: LLM API 비용을 절반으로 줄이기는 이 요금표를 월 청구서의 실제 절감으로 바꾸는 라우팅 패턴을 설명한다.
