Баға белгілеу — шекаралық LLM таңдаудағы ең маңызды шешім, әрі жарияланған салыстырулардың басым бөлігі тоқсан ішінде ескіріп кететін өлшем. Бұл мақала осыны кесіп айтып, айқындайды. Төменде 2026 жылы өндірістік шекаралық модельдер трафигінің басым бөлігін құрайтын төрт модель (OpenAI-дің GPT-5.5, Anthropic-тің Claude Sonnet 4.6, Google-дың Gemini 3.5 Flash және DeepSeek-тің V4) бойынша енгізу және шығару токендерінің өзекті, дереккөздері көрсетілген бағалары берілген, сондай-ақ ауқымда шотыңызды елеулі түрде өзгертетін тетіктер: промптты кэштеу, пакеттік өңдеу және ұзын контекст үшін қосымша ақы.
Бұл материал екі сұраққа құрылған. Біріншісі: прайс-лист бойынша әр модельдің құны миллион токенге шаққанда қандай, және ақшаға шынымен әсер ететін енгізу мен шығару үшін берілген мөлшерлемелер қалай салыстырылады? Екіншісі: өкілдік жүктемені қолданғанда (айына 100 миллион токен, 80% енгізу және 20% шығару, шынайы кэш хит мөлшерлемелерімен), әр модель бойынша айлық шот доллармен қандай болады? Бірінші жауап — тариф кестесін белгілейді; екіншісі — сол тариф кестесі нақты өндірістік үлгіге түскенде неге айналатынын көрсетеді.
Жылдам шолу: Төрт шекаралық модель бойынша лист бағалар шамамен жүз есе ауқымда таралады. DeepSeek V4 — ең арзан, миллион енгізу токеніне $0.435; Claude Opus 4.7 — ең қымбат, $5.00. Жүктеме пішіні, әсіресе кэш хит мөлшерлемесі мен енгізу/шығару қатынасы, қай модель іс жүзінде ең арзан болатынын өзгертеді — жиі тариф кестесінен де қаттырақ.
Неге бірдей негіздегі баға салыстыруы көрінгеннен қиын
Провайдерлердің баға беттері сол провайдердің өз клиенттері үшін жазылады, төрт нұсқаны қатар бағалайтын адам үшін емес. Соның нәтижесінде оларды салыстыру үш тұрақты қақпанға әкеледі:
- Токендер провайдерлер арасында бірдей емес. Claude Opus 4.7 жаңа токенизатормен келеді және бірдей енгізу мәтіні үшін Opus 4.6-ға қарағанда 35%-ға дейін көп токен шығара алады. Gemini-дің токенизаторы OpenAI-дікінен өзгеше. Тариф кестесі миллион токенге шаққандағы бағаға негізделген, бірақ бірдей промпттың токен саны провайдерге қарай өзгереді, яғни айдардағы мөлшерлеме салыстырмалы құнның тек алғашқы жуықтауы ғана.
- Ұзын контекст үшін баға деңгейлері құндық секірмелер жасайды. OpenAI-дің GPT-5.5 сериясында шамамен 270 000 токен маңында қысқа және ұзын контекстке бөлек мөлшерлемелер бар. Anthropic, керісінше, толық 1M контекст терезесі бойына бірдей токендік мөлшерлемені ұстайды. Осы шектердің маңында жүретін жүктемелер олардан алыс орналасқан жүктемелерге қарағанда мүлде басқаша тарифтеледі.
- Жеңілдіктер қабатталады, бөлек емес. Промптты кэштеу, пакеттік өңдеу және провайдерге тән көлемдік деңгейлер әрқайсысы тиімді құнды айтарлықтай қысқарта алады, әрі олар қабатталады. Anthropic-та кэштелген пакет сұрауы стандартты кэштелмеген сұраудың 5%-ына дейін түсуі мүмкін. Осы тетіктерді елемейтін баға салыстырулары кейде бір тәртіпке дейін лист құнын асыра көрсетеді.
Төмендегі салыстыру мүмкін болған жерде осы қақпандарды нормалдайды және мүмкін болмаған жерде оларды айқын көрсетеді.
2026 жылғы шекаралық LLM бағаларының салыстыруы
Барлық көрсеткіштер — миллион токенге шаққандағы АҚШ доллары. 2026 жылдың мамырына ресми провайдер құжаттарынан алынған.
| Model | Input | Output | Cached input | Batch (50% off) | Context window | Long-context surcharge |
|---|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | $2.50 / $15.00 | 1M | Yes (~270K) |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | $1.50 / $7.50 | 1M | None |
| Claude Opus 4.7 | $5.00 | $25.00 | $0.50 | $2.50 / $12.50 | 1M | None |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | $1.00 / $6.00 | 1M | Yes (200K) |
| DeepSeek V4 | $0.435 | $0.87 | $0.0028 | Not offered | 384K | None |
Кестені оқу: Кэштелген енгізу — промпт кэшінен берілген токендерге төленетін мөлшерлеме (әдетте жүйелік промпттар, few-shot мысалдар немесе сұраулар арасында қайталанатын құжат префикстері). Пакет — 24 сағатқа дейінгі кідіріс бар асинхронды жүктемелерге төленетін мөлшерлеме. Ұзын контекстке қосымша ақы бағаны провайдер контекст ұзындығы шегінен жоғары болғанда көтере ме, соны көрсетеді; көтерсе, жақша ішінде шек берілген.
Әр модельдің артықшылығы қайда
GPT-5.5: күрделі пайымдау мен агенттік жұмысқа арналған ең жоғары қабілетті әдепкі
GPT-5.5 — күрделі кәсіби жүктемелерге арналған OpenAI-дің шекаралық моделі: код жазатын агенттер, көпқадамды жоспарлау, ұзаққа созылатын құралды пайдалану және ой қорыту тереңдігі шешуші болып саналатын құжат талдауы. Ол сондай-ақ енгізу бойынша ірі АҚШ шекаралық модельдерінің ішіндегі ең қымбаты (миллионға $5.00) және шығару бойынша ең жоғарысы (миллионға $30.00), сондықтан өз орнын мәселені сенімдірек шешпейтін басқа модельге флагмандық баға төлеудің орнына дәл осы модель қажет болатын жүктемелерде ақтайды. GPT-5.5 кэштеуді 90% жеңілдікпен, пакеттік өңдеуді 50% жеңілдікпен қолдайды, ал ұзын контекст үшін баға шамамен 270K-токен маңында қосылады — бұл өте ұзын код базалары немесе толық репозиторий контексттері үшін өзекті, бірақ кәдімгі RAG жүктемелері үшін маңызды емес.
Claude Sonnet 4.6: өндірістік трафиктің көпшілігі үшін ұсынылатын әдепкі
Sonnet 4.6 — өндірістік жүктемелердің басым бөлігі үшін Anthropic ұсынатын модель, ал оның себептері — баға мен қабілет теңгерімі. Миллион токенге енгізу $3 және шығару $15 мөлшерлемелерімен ол GPT-5.5-тен екі бағытта да төмен, әрі өндірістік жүйелердің басым бөлігін құрайтын жүктемелерде (кодтау, талдау, RAG пайплайны, клиентке бағытталған чат және құрылымдалған шығыстар генерациясы) Opus-қа жуық сапа береді. Sonnet-тің бағадағы айрықша ерекшелігі — толық 1M токендік контекст терезесі стандартты мөлшерлемелермен қолжетімді (ұзын контекст үшін қосымша ақы жоқ), бұл кейде өте ұзын құжаттарды немесе толық репозиторийлерді қорыту қажет болатын жүктемелер үшін ең арзан сенімді нұсқаға айналдырады. Промптты кэштеу кэштелген енгізуді стандарттың 10%-ына дейін түсіреді, бұл жүйелік промпты тұрақты жүктемелер үшін шешуші.
Gemini 3.5 Flash: қысқа контексті жұмыстарға ең агрессивті бағаланған флагман
Gemini 3.5 Flash — шикі API бағасы бойынша ірі АҚШ провайдерінен шыққан ең арзан флагмандық класстағы модель: миллион токенге енгізу $1.50 және шығару $9.00. Өндірістік трафиктің көпшілігі үшін осы баға деңгейі өзекті және ол GPT-5.5 пен Claude Opus 4.7-ден айтарлықтай арзан. Алдыңғы Flash модельдеріне қарағанда жоғары баға токенге тәуелді агенттік сценарийлерде жалпы шығынды арттырады (баға + пайдалану салдарынан Gemini 3 Flash-пен салыстырғанда Intelligence Index құны 5.5x). Gemini-дің тағы бір ерекшелігі — Google AI Studio-дағы шынайы тегін деңгей, ол прототиптеуге пайдалы, бірақ өндірістік құн модельдері үшін өзекті емес.
DeepSeek V4: едәуір арзан, бірақ ескертулер бар
DeepSeek V4 миллион енгізу токеніне $0.435 және миллион шығару токеніне $0.87 бағамен листке шығады — салыстыратын модельге қарай бұл АҚШ шекаралық модельдерінен бес есе мен жетпіс есе аралығында арзан. Модельдің өзі көптеген бенчмарктерде, әсіресе пайымдау мен кодта, бәсекеге қабілетті. Ескертулерді ашық айтқан жөн: деректер Қытайда өңделеді — бұл кейбір реттелетін жүктемелер үшін қабылдауға келмейді; ағылшын тіліндегі сапасы жоғары, бірақ модель АҚШ шекаралық модельдерінен өзгеше оңтайландырылған, сондықтан нақты жүктемеңізде бетпе-бет тестілеу міндетті. Бұл ескертулер қабылданатын жүктемелер үшін DeepSeek шығын теңдеуін шынымен өзгертеді.
Claude Opus 4.7 пен Sonnet 4.6 туралы ескерту. Opus кестеге толықтық үшін енгізілген, бірақ өндірістік трафиктің басым бөлігі үшін Sonnet 4.6 — экономикалық тұрғыдан дұрыс таңдау. Opus енгізу мен шығару бойынша Sonnet-тен 1.67x қымбат, ал Sonnet жеткілікті болатын жүктемелерде (олар көпшілігі) бұл үстемеақының өтемақы беретін пайдасы жоқ. Opus-қа Sonnet белгілі бір тапсырма класында осал екенін бағалар көрсеткенде жүгініңіз: жоғары автономды код жазатын агенттер, ұзақмерзімді кәсіби жұмыс үрдістері және нұсқаулықты шеткі жағдайда мүлтіксіз орындау шешуші болатын тапсырмалар.
Жұмыс үлгісі: айына 100 миллион токен қанша тұрады
Миллион токенге шаққандағы айдар бағаның мәні өкілдік жүктемеге түскенге дейін аз. Төмендегі мысалда елеулі өндірістік жүйеге жуық профиль пайдаланылады: айына 100 миллион жалпы токен, 80% енгізу (80M) және 20% шығару (20M), енгізу бөлігінде 30% кэш хит мөлшерлемесімен. Бұл үлгі жүйелік промпты және құжат контексті тұрақты клиентке бағытталған чат немесе RAG жүктемесіне жалпы тән.
Әр модель үшін математика: кэштелген енгізу құны + кэштелмеген енгізу құны + шығару құны. Кэштелген енгізу — кэштеуді ұсынатын провайдерлерде стандарттың 10%-ымен тарифтеледі.
| Model | Cached input (24M) | Uncached input (56M) | Output (20M) | Total monthly bill |
|---|---|---|---|---|
| GPT-5.5 | $12.00 | $280.00 | $600.00 | $892.00 |
| Claude Sonnet 4.6 | $7.20 | $168.00 | $300.00 | $475.20 |
| Claude Opus 4.7 | $12.00 | $280.00 | $500.00 | $792.00 |
Бұл не дейді. Өкілдік жүктемеде Sonnet 4.6 шамамен GPT-5.5 құнының жартысын құрайды. DeepSeek мүлде басқа құн әлемінде. Бұлар — лист бағалар; жарамды жерлерде пакеттік өңдеуді қолдану енгізу мен шығару бойынша әр жалпы соманы тағы 50%-ға қысқартады (кэш хиттеріне қолданылмайды).
Екі байқауды есте ұстаған жөн. Біріншіден: кэштеу — сіз басқара алатын ең ықпалды тетік. Жоғарыдағы мысалда 30% кэш хит мөлшерлемесі алынған; оны 60%-ға көтерсеңіз (жүйелік промпты тұрақты жүктемелер үшін толық қол жетімді), жалпы құн тағы шамамен 25%-ға төмендейді. Екіншіден: енгізу/шығару қатынасы өте маңызды. Шығаруға тәуелді жүктемелер (қысқаша мазмұндау, ұзын мәтін жазу) шығару мөлшерлемелері арзан провайдерлерге ыңғай танытады, ал енгізуге тәуелді жүктемелер (ұзын контекст талдауы, ауқымды RAG ретривалдары) енгізу мөлшерлемелері арзан және ұзын контекст үшін қосымша ақысы жоқ провайдерлерге бейім.
Баға беттерінде жоқ жасырын шығындар
Лист баға — еден, төбе емес. Масштабтаудан прототиптен өндіріске өтетін командаларды жиі таңғалдыратын қосымша бес шығынды арнайы бюджеттеу керек:
- Reasoning токендері. Кеңейтілген ойлау режимдері бар модельдер (GPT-5.5 Thinking, DeepSeek V4 thinking mode) шығару токендеріне саналатын ішкі reasoning мазмұнын жасайды. Ұзын промпттағы бір жоғары күшті reasoning қоңырауы көрінерлік жауап шықпай тұрып-ақ GPT-5.5-та $0.60 тұратын 20 000 reasoning токенін жаратуы мүмкін. Бюджетті сұрау бойынша емес, жүктеме бойынша жасаңыз.
- Ұзын контекст үшін қосымша ақы. Gemini 3.5 Flash пен GPT-5.5 екеуі де контекст ұзындығы шегінен жоғарыда мөлшерлемелерді көтереді. Ірі құжаттарды қамтитын RAG пайплайндары әр сұрауды үнсіз жоғары деңгейге итермелеуі мүмкін — шот келгенше ешкім байқамайды. Өндірісте нақты промпт ұзындықтарын өлшеп, шекті кесіп өтпей тұрғаныңызды тексеріңіз.
- Деректер резиденттілігі көбейткіштері. Anthropic Opus 4.7 және Sonnet 4.6 үшін тек АҚШ-та инференс жасауда 10% үстемеақы алады. OpenAI GPT-5.4 сериясы үшін деректер резиденттілігі соңғы нүктелерінде 10% үстеме қосады. Бұл маңызды болатын реттелетін жүктемелерде, бұл үстемені бірінші күннен тариф кестесіне енгізіңіз.
- Шығарудың сөзшеңдік дрейфі. Жаңа модель нұсқасы әдепкіде толықырақ болғанда (Opus 4.7-нің Opus 4.6-ға қарағанда солай екені айтылады), шығару токендері промпт ұзындығы өзгермесе де артып кетуі мүмкін. Anthropic-та шығару бағасы енгізуден 5 есе жоғары, сондықтан шығару сөзшеңдігінің 20% өсуі — негізгі шығын драйверінің 20% өсуі.
- Сәтсіз және қайта тырыстырылған сұраулар. Көп провайдерлер 4xx және 5xx қателер үшін ақы алмайды, бірақ ішінара генерациялар және екінші әрекетте сәтті болған қайта тырыстырулар үшін ақы алады. Қайта тырыстыру логикасы бар өндірістік жүйелерде бұл шотқа бірнеше пайыз қосуы мүмкін. Провайдер шоттарын күтілетін құнмен салыстырғанда білуге тұрарлық.
CometAPI қалай сәйкес келеді
Осы төрт модельдің барлығы және тағы 500+ модель CometAPI арқылы бір OpenAI-мен үйлесімді соңғы нүктеде, бір тіркелгі дерегімен, бірыңғай биллингпен және провайдерден-провайдерге аккаунт орнатусыз қолжетімді. CometAPI-дегі баға токен бойынша өлшенеді және әр модель үшін базалық провайдерлер жариялаған мөлшерлемелермен бірдей, ал кредиттер алдын ала сатып алынып, каталогтағы кез келген модельге қолданылады. CometAPI арқылы бағыттаудың құндылығы — токенге емес, операциялық: басқаруға бір тіркелгі дерегі, келісуге бір шот және кодыңызда бір ғана жолды өзгерту арқылы GPT-5.5-тен Claude Sonnet 4.6-ға, одан Gemini 3.5 Flash-қа ауыса алу.
Кейбір жүктемелерде тікелей провайдерге шығу — дұрыс шешім. Егер сіз бір провайдерде бір модельмен өте жоғары көлемде жұмыс істеп, келісілген корпоративтік келісімге ие болсаңыз, тікелей барудың бірлік экономикасы жақсырақ. Егер комплаенс ұстанымыңыз нақты тіркелген вендормен қатынасты талап етсе, агрегатор бұл әңгімені жеңілдетпей, күрделендіреді. Ал көпмодельді өндірістік жүктемелерді жүргізетін командалардың көпшілігі үшін үш-төрт тікелей провайдерлік қатынасты басқарудың операциялық үйкелісі — өзі мағыналы шығын, оны тариф кестесі қамтымайды.
Осы салыстыруды жүктемеңізде байқап көріңіз. CometAPI-дегі тегін деңгей бір соңғы нүктеден бөлек тіркелусіз-ақ GPT-5.5, Sonnet 4.6, Gemini 3.5 Flash және DeepSeek V4-ке бірдей промптты жіберуге мүмкіндік береді. Жүктемеге тән құн туралы шешім үшін осы бір сағаттық тәжірибе жарияланған кез келген баға салыстыруынан пайдалырақ.
Осы салыстыруды қалай пайдалану керек
Сіздің жүктеме үшін дұрыс модель — трафик пішініңізде тариф кестесінің қай өлшемі маңызды екеніне тәуелді. Прагматикалық шешім шеңбері:
- Егер ой қорыту тереңдігі тар орын болса (**agentic workflows, complex multi-step planning, the hardest coding tasks), GPT-5.5 немесе Claude Opus 4.7-тен бастаңыз. Үстеме бар, бірақ бұл жүктемелерде ол өзін ақтайды.
- Жалпы өндірістік трафик үшін баға/қабілет қатынасының ең жақсысын қаласаңыз, Claude Sonnet 4.6 — ұсынылатын әдепкі. Шекаралыққа жуық қабілет, толық 1M контекст стандартты бағамен және пәрменді кэштеу қолдауы.
- Егер шығынға өте сезімтал болып, жүктемеңіз 200K контексттен төмен жатса, Gemini 3.5 Flash — ірі АҚШ провайдерінен шыққан ең арзан флагмандық-классты нұсқа.
- Жүктеме жоғары көлемді, баға-доминантты және DeepSeek-тің деректер резиденттілігі ұстанымы сізге қолайлы болса, V4 құн теңдеуін едәуір өзгертіп, әсіресе пакетке ұқсас жүктемелер үшін байыпты бағалауға тұрарлық.
Шығынды одан әрі оңтайландырғыңыз келе ме? Жоғарыдағы баға деректері — роутингтің негізі: сұрауларды оларды ең төмен құнмен өңдей алатын әртүрлі модельдерге жіберу практикасы. Серіктес материал — 2026 жылы өндірістік жүктемелер үшін модель роутингі бойынша нұсқаулық — осы тариф кестесін айлық шотыңыздағы нақты үнемдеуге қалай айналдыруды көрсетеді.
