2026년 LLM API 요금 비교: GPT-5.5, Claude Sonnet 4.6, Gemini 3.5 Flash 및 DeepSeek V4

프런티어 LLM을 선택할 때 가격 책정은 가장 영향력이 큰 단일 의사결정이며, 또한 대부분의 공개 비교가 분기 안에 구식이 되어버리는 항목이기도 하다. 이 글은 그 문제를 바로 파고든다. 아래에는 2026년에 프로덕션 프런티어 모델 트래픽의 대부분을 차지하는 네 가지 모델(OpenAI’s GPT-5.5, Anthropic’s Claude Sonnet 4.6, Google’s Gemini 3.5 Flash, DeepSeek’s V4)에 대한 입력·출력 토큰 가격의 최신 출처 기반 현황과 함께, 규모가 커질수록 청구액을 유의미하게 바꾸는 지렛대인 프롬프트 캐싱, 배치 처리, 롱 컨텍스트 할증을 정리했다.

이 글은 두 가지 질문을 중심으로 구성되어 있다. 첫째: 목록가(list price) 기준으로 각 모델은 백만 토큰당 비용이 얼마이며, 실제 프로덕션 청구를 좌우하는 입력·출력에서의 공시 요율은 어떻게 비교되는가? 둘째: 대표적 워크로드(월 1억 토큰, 입력 80%/출력 20%, 현실적인 캐시 적중률)를 적용하면, 각 모델의 월 청구액은 달러 기준으로 얼마인가? 첫 번째 답은 요율표를 확립하고, 두 번째 답은 그 요율표가 실제 프로덕션 패턴에 닿았을 때 무엇이 되는지를 보여준다.

요약: 네 가지 프런티어 모델 전반에서 목록가는 대략 두 자릿수 배수의 차이를 보인다. DeepSeek V4는 백만 입력 토큰당 $0.435로 가장 저렴하고; Claude Opus 4.7은 $5.00로 가장 비싸다. 워크로드의 형태, 특히 캐시 적중률과 입력 대 출력 비율에 따라 실제로 가장 저렴한 모델이 달라지며, 그 차이는 요율표가 시사하는 것보다 크게 벌어지는 경우가 흔하다.

겉보기보다 '동일 조건' 가격 비교가 어려운 이유

각 공급자의 가격 페이지는 그 공급자의 자체 고객을 위한 것이지, 네 가지 옵션을 나란히 평가하는 사람을 위한 것이 아니다. 그 결과, 비교 시 다음과 같은 세 가지 지속적인 함정이 생긴다:

토큰은 공급자마다 다르다. Claude Opus 4.7은 동일 입력 텍스트에서 Opus 4.6 대비 최대 35% 더 많은 토큰을 생성할 수 있는 새로운 토크나이저를 제공한다. Gemini의 토크나이저는 OpenAI의 것과 다르다. 요율표는 백만 토큰당 기준이지만, 동일한 프롬프트의 토큰 수는 공급자마다 달라서, 표면적인 요율은 상대 비용의 첫 근사치일 뿐이다.
롱 컨텍스트 요금 구간은 비용 절벽을 만든다. OpenAI의 GPT-5.5 제품군은 약 270,000 토큰 수준에서 별도의 숏 컨텍스트/롱 컨텍스트 요율이 적용된다. 반면 Anthropic은 전체 1M 컨텍스트 윈도 전 구간에서 동일한 토큰당 요율을 유지한다. 이러한 임계값 부근에 놓인 워크로드는, 그보다 한참 여유 있는 워크로드와 전혀 다른 가격으로 청구된다.
할인은 누적된다, 분리되지 않는다. 프롬프트 캐싱, 배치 처리, 공급자별 볼륨 티어는 각각 효과적인 비용을 크게 낮추며, 이들이 누적된다. Anthropic에서 캐시된 배치 요청은 표준 비캐시 요청의 5% 수준까지 비용이 내려갈 수 있다. 이러한 지렛대를 무시한 가격 비교는 목록가를 과대평가하며, 때로는 한 자릿수 규모 이상으로 오해를 낳는다.

아래 비교는 가능한 부분에서는 이러한 함정을 정규화하고, 불가능한 부분은 명시적으로 표시한다.

2026 프런티어 LLM 가격 비교

모든 수치는 백만 토큰당 미화 기준. 2026년 5월 현재 각 공급자의 공식 가격 문서 출처.

Model	Input	Output	Cached input	Batch (50% off)	Context window	Long-context surcharge
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	Yes (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	None
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	None
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	Yes (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	Not offered	384K	None

표 읽기: 캐시된 입력은 프롬프트 캐시에서 제공되는 토큰(일반적으로 시스템 프롬프트, 퓨샷 예시, 요청 간 반복되는 문서 접두부 등)에 적용되는 요율이다. 배치는 최대 24시간 지연을 허용하는 비동기 워크로드에 적용되는 요율이다. 롱 컨텍스트 할증은 공급자가 컨텍스트 길이 임계값을 넘을 때 요율을 올리는지 여부를 나타내며, 해당하는 경우 괄호에 임계값을 표기한다.

모델별 강점

GPT-5.5: 난도 높은 추론과 에이전틱 작업을 위한 최고 역량의 기본값

GPT-5.5는 복잡한 프로페셔널 워크로드—코딩 에이전트, 다단계 계획, 장시간의 도구 사용, 깊은 추론이 지배적인 문서 분석—을 위한 OpenAI의 프런티어 모델이다. 입력($5.00/백만)과 출력($30.00/백만) 모두 주요 미 공급자의 프런티어 모델 중 가장 비싼 편이므로, 대안 모델에 플래그십 요율을 지불하면서도 문제 해결 신뢰도가 떨어지는 경우 대비해 이 모델이 제값을 한다는 워크로드에서 포지션을 획득한다. GPT-5.5는 90% 할인 캐싱, 50% 할인 배치 처리를 지원하며, 약 270K 토큰에서 롱 컨텍스트 요금이 적용된다. 이는 매우 긴 코드베이스나 전체 저장소 컨텍스트에는 중요하지만, 일반적인 RAG 워크로드에는 크게 해당되지 않는다.

Claude Sonnet 4.6: 대부분의 프로덕션 트래픽에 권장되는 기본값

Sonnet 4.6은 대부분의 프로덕션 워크로드에 대해 Anthropic이 권장하는 모델이며, 그 이유는 가격 대비 성능이다. 입력 $3, 출력 $15(각 백만 토큰 기준)로, 두 요율 모두 GPT-5.5보다 낮으면서도 대부분의 프로덕션 시스템을 지배하는 워크로드—코딩, 분석, RAG 파이프라인, 고객 지원 챗, 구조화된 출력 생성—에서 Opus에 근접한 품질을 제공한다. 가격 측면에서 Sonnet의 차별점은 전체 1M 토큰 컨텍스트 윈도가 표준 요율로 제공된다는 점(롱 컨텍스트 할증 없음)으로, 매우 긴 문서나 전체 저장소를 가끔 수용해야 하는 워크로드에서 가장 저렴한 신뢰 가능한 옵션이 된다. 프롬프트 캐싱은 캐시된 입력을 표준의 10% 수준으로 낮추며, 이는 안정적인 시스템 프롬프트가 있는 워크로드에 결정적이다.

Gemini 3.5 Flash: 숏 컨텍스트 작업에 가장 공격적으로 가격 책정된 플래그십

Gemini 3.5 Flash는 원가형 API 가격 기준으로 주요 미 공급자 플래그십급 모델 중 가장 저렴하며, 입력 $1.50, 출력 $9.00(각 백만 토큰 기준)이다. 대부분의 프로덕션 트래픽에서 이 가격 구간이 중요하며, GPT-5.5와 Claude Opus 4.7 모두를 실질적으로 하회한다. 이전 Flash 모델 대비 더 높은 가격은 토큰 사용량이 많은 에이전틱 시나리오에서 총비용 증가로 이어진다(Gemini 3 Flash 대비 가격+사용량 요인으로 Intelligence Index 비용 5.5배).. 또 다른 차별점은 Google AI Studio의 진정한 무료 티어인데, 이는 프로토타이핑에는 유용하지만 프로덕션 비용 모델에는 관련성이 없다.

DeepSeek V4: 극적으로 저렴하지만 짚고 넘어갈 만한 단서

DeepSeek V4는 백만 입력 토큰당 $0.435, 백만 출력 토큰당 $0.87로 책정되어, 비교 대상에 따라 미 공급자의 프런티어 모델 대비 5배에서 70배까지 저렴하다. 모델 자체는 특히 추론과 코드 분야의 많은 벤치마크에서 경쟁력이 있다. 다만 단서는 명확히 할 가치가 있다: 데이터는 중국에서 처리되며, 일부 규제 워크로드에는 사실상 불가하다; 영어 품질은 강하지만 최적화 방향이 미 프런티어 모델과 달라서, 구체적 워크로드에 대한 정면 비교 테스트는 선택이 아닌 필수다. 이러한 단서가 수용 가능한 워크로드라면 DeepSeek은 비용 방정식을 진정으로 바꾼다.

Claude Opus 4.7 vs Sonnet 4.6에 대한 메모. Opus는 완전성을 위해 표에 포함했지만, 대다수 프로덕션 트래픽에는 Sonnet 4.6이 경제적으로 더 나은 선택이다. Opus는 입력과 출력 모두에서 Sonnet 대비 1.67배의 비용이 들며, Sonnet으로 충분한 워크로드(대부분)에선 그 프리미엄을 상쇄할 이점이 없다. Sonnet이 특정 작업 클래스에서 실패한다는 평가가 있을 때—높은 자율성의 코딩 에이전트, 장기 지평의 프로페셔널 워크플로, 미세한 수준의 지시 준수가 관건인 작업—Opus를 선택하라.

사례 계산: 월 1억 토큰이 실제로 드는 비용

백만 토큰당 목록가는 대표적 워크로드에 적용해 보아야 의미가 생긴다. 아래 예시는 비트리비얼한 프로덕션 시스템에 근접한 프로파일을 사용한다: 월 총 1억 토큰, 입력 80%(8천만), 출력 20%(2천만), 입력 부분의 캐시 적중률 30%. 이 패턴은 안정적인 시스템 프롬프트와 문서 컨텍스트를 가진 고객 지원 챗이나 RAG 워크로드를 대체로 대표한다.

각 모델의 계산식: 캐시된 입력 비용 + 비캐시 입력 비용 + 출력 비용. 캐시된 입력은 캐싱을 제공하는 공급자에서 표준의 10%로 청구된다.

Model	Cached input (24M)	Uncached input (56M)	Output (20M)	Total monthly bill
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

의미하는 바. 대표적 워크로드에서,Sonnet 4.6은 GPT-5.5의 절반가량이다. DeepSeek은 아예 다른 비용 우주에 있다. 이는 목록가 기준 수치이며; 적용 가능한 곳에 배치 처리를 적용하면 입력과 출력에 대해 각 합계를 추가로 50% 줄일 수 있다(단, 캐시 적중분은 제외).

앞으로 가져갈 두 가지 관찰. 첫째: 캐싱은 당신이 통제할 수 있는 가장 영향력 큰 지렛대다. 위 예시는 30% 캐시 적중률을 가정한다; 이를 60%로 올리면(안정적인 시스템 프롬프트가 있는 워크로드에서는 충분히 달성 가능), 총 비용은 추가로 약 25% 더 떨어진다. 둘째: 입력 대 출력 비율은 매우 중요하다. 출력이 많은 워크로드(요약, 장문 작성)는 출력 요율이 저렴한 공급자에 유리하며, 입력이 많은 워크로드(롱 컨텍스트 분석, 대규모 RAG 검색)는 입력 요율이 저렴하고 롱 컨텍스트 할증이 없는 공급자에 유리하다.

가격 페이지에 나오지 않은 숨은 비용

목록가는 바닥일 뿐, 천장이 아니다. 프로토타입에서 프로덕션으로 스케일업하는 과정에서 팀들을 자주 놀라게 하는 추가 비용 다섯 가지는 명시적으로 예산에 반영할 가치가 있다:

추론 토큰. 확장 추론 모드를 가진 모델(GPT-5.5 Thinking, DeepSeek V4 thinking mode)은 출력 토큰으로 계산되는 내부 추론 콘텐츠를 생성한다. 긴 프롬프트에서 고투자 추론 호출 한 번에 20,000 추론 토큰이 발생할 수 있으며, 이는 GPT-5.5에서 가시적 응답이 생성되기 전부터 출력 비용 $0.60에 해당한다. 요청이 아니라 워크로드 단위로 예산을 잡아라.
롱 컨텍스트 할증. Gemini 3.5 Flash와 GPT-5.5는 컨텍스트 길이 임계값을 넘으면 요율을 올린다. 큰 문서를 포함하는 RAG 파이프라인은 아무도 눈치채지 못한 채 모든 요청을 상위 구간으로 밀어 올릴 수 있으며, 이는 청구서가 도착하고서야 드러난다. 프로덕션에서 실제 프롬프트 길이를 측정하고 임계값을 넘는지 확인하라.
데이터 레지던시 가산. Anthropic은 Opus 4.7과 Sonnet 4.6의 미국 한정 추론에 10% 프리미엄을 부과한다. OpenAI는 GPT-5.4 제품군의 데이터 레지던시 엔드포인트에 10% 가산을 적용한다. 규제가 중요한 워크로드라면, 1일 차부터 요율표에 이를 반영하라.
출력 장황화 드리프트. 새 모델 버전이 기본적으로 더 철저한 응답을 내놓을 때(Opus 4.6 대비 Opus 4.7이 보고된 바와 같이), 입력 길이가 일정하더라도 응답당 출력 토큰이 서서히 증가할 수 있다. Anthropic 라인에서는 출력이 입력보다 5배 비싸므로, 출력 장황화가 20% 늘면 지배적 비용 항목이 그대로 20% 늘어난다.
실패 및 재시도 요청. 대부분의 공급자는 4xx/5xx 오류에 요금을 부과하지 않지만, 부분 생성과 두 번째 시도에 성공한 재시도에는 요금을 부과한다. 적극적인 재시도 로직이 있는 프로덕션 시스템에서는 이로 인해 비용이 몇 퍼센트 추가될 수 있다. 예상 비용 대비 공급자 인보이스를 대조할 때 알아둘 가치가 있다.

CometAPI의 위치

이 네 가지 모델을 포함해 500개 이상의 모델이 단일 OpenAI 호환 엔드포인트를 통해 CometAPI에서 제공되며, 하나의 자격 증명, 통합 청구, 공급자별 개별 계정 설정이 필요 없다. CometAPI의 가격은 기본 공급자가 공시한 모델별 요율과 동일하게 토큰당 측정되며, 선불로 구매한 크레딧을 카탈로그 내 어떤 모델에도 적용할 수 있다. CometAPI를 경유하는 가치는 토큰 단가가 아니라 운영 측면에 있다: 관리할 자격 증명은 하나, 대조할 인보이스는 하나, 코드에서 문자열 하나만 바꿔 GPT-5.5에서 Claude Sonnet 4.6, Gemini 3.5 Flash로 교체할 수 있다.

직접 공급자 액세스가 옳은 워크로드도 있다. 하나의 공급자에서 아주 높은 볼륨으로 단일 모델 워크로드를 운영하고, 협상된 엔터프라이즈 계약을 보유한다면, 직접 가는 편이 단가에서 유리하다. 컴플라이언스 요건상 특정 벤더 오브 레코드가 필요하다면, 애그리게이터는 그 대화를 단순화하기보다는 복잡하게 만든다. 그러나 다중 모델 프로덕션 워크로드를 운영하는 대다수 팀에게는, 세네 개의 직접 공급자 관계를 관리하는 운영 마찰 자체가 의미 있는 비용이며, 이는 요율표에 잡히지 않는다.

무료로 비교를 당신의 워크로드에 시도해 보라. CometAPI의 무료 티어를 통해 별도 가입 없이 단일 엔드포인트에서 GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash, DeepSeek V4에 동일 프롬프트를 실행할 수 있다. 워크로드별 비용 결정을 위해서는, 이 한 시간의 실습이 그 어떤 가격 비교 글보다 가치가 있다.

이 비교를 활용하는 방법

당신의 워크로드에 맞는 모델은 트래픽 형태에서 어떤 요율표 차원이 가장 중요한지를 기준으로 결정된다. 실용적 의사결정 프레임워크:

추론 깊이가 병목이라면 (agentic workflows, 복잡한 다단계 계획, 가장 어려운 코딩 작업), GPT-5.5 또는 Claude Opus 4.7로 시작하라. 프리미엄은 실제이며, 이러한 워크로드에서 제값을 한다.
일반 프로덕션 트래픽에서 최고의 가격 대비 성능을 원한다면, Claude Sonnet 4.6이 권장 기본값이다. 프런티어에 근접한 역량, 표준 요율로 제공되는 전체 1M 컨텍스트, 강력한 캐싱 지원.
비용 민감하며 워크로드가 200K 컨텍스트 이하라면, Gemini 3.5 Flash가 주요 미 공급자 플래그십급 중 가장 저렴한 신뢰 가능한 옵션이다.
워크로드가 대량·가격 지배적이고 DeepSeek의 데이터 레지던시 정책이 수용 가능하다면, V4는 특히 배치 형태 워크로드에서 비용 방정식을 바꿀 만큼 평가할 가치가 충분하다.

비용 최적화를 더 파고들고 싶은가? 위의 가격 데이터는 라우팅의 토대다: 어떤 질의가 어떤 모델에서 최저 비용으로 처리되는지를 기준으로 서로 다른 모델에 요청을 보내는 실무. 동반 글인 ‘2026년 프로덕션 워크로드를 위한 모델 라우팅 가이드: LLM API 비용을 절반으로 줄이기’는 이 요율표를 월 청구서상의 실질 절감으로 바꾸는 라우팅 패턴을 자세히 설명한다.