مقارنة أسعار واجهات برمجة تطبيقات LLM لعام 2026: GPT-5.5، Claude Sonnet 4.6، Gemini 3.5 Flash وDeepSeek V4

يُعدّ التسعير القرار الأكثر تأثيرًا عند اختيار نموذج LLM حدّي، كما أنه البُعد الذي تصبح فيه معظم المقارنات المنشورة متقادمة خلال ربع سنة. هذه المقالة تختصر الطريق. أدناه عرض حديث وموثّق لأسعار رموز الإدخال والإخراج عبر أربعة نماذج تمثّل غالبية حركة المرور الإنتاجية لنماذج الحدّ الأمامي في عام 2026 (OpenAI’s GPT-5.5 وAnthropic’s Claude Sonnet 4.6 وGoogle’s Gemini 3.5 Flash وDeepSeek’s V4)، إلى جانب الروافع التي تغيّر فاتورتك على نطاق واسع: التخزين المؤقت للموجّه، معالجة الدُفعات، ورسوم السياق الطويل.

تتمحور هذه المقالة حول سؤالين. أولًا: بسعر القائمة، كم يكلف كل نموذج لكل مليون رمز، وكيف تقارن الأسعار المعلنة فيما يخص رموز الإدخال والإخراج التي تقود الفاتورة الإنتاجية فعليًا؟ ثانيًا: عند تطبيق عبء عمل تمثيلي (100 مليون رمز شهريًا، 80% إدخال و20% إخراج، مع معدلات إصابة ذاكرة مؤقتة واقعية)، ما هي الفاتورة الشهرية بالدولار لكل نموذج؟ يحدّد الجواب الأول جدول الأسعار؛ ويبيّن الجواب الثاني ما الذي يصبح عليه هذا الجدول حين يلامس نمط استخدام إنتاجي حقيقي.

قراءة سريعة: عبر النماذج الحدّية الأربعة، تمتد أسعار القائمة عبر نحو مرتبتين عشريتين. DeepSeek V4 هو الأرخص بسعر $0.435 لكل مليون رمز إدخال؛ وClaude Opus 4.7 هو الأغلى بسعر $5.00. شكل عبء عملك، لا سيما معدل إصابة التخزين المؤقت ونسبة الإدخال إلى الإخراج، يغيّر أي النماذج هو الأرخص عمليًا، وغالبًا بأكثر مما يوحي به جدول الأسعار.

لماذا يصعب إجراء مقارنة أسعار متماثلة أكثر مما يبدو

صفحات التسعير لدى المزوّدين مكتوبة لعملاء ذلك المزوّد أنفسهم، لا لمن يقيّم أربعة خيارات جنبًا إلى جنب. والنتيجة أن مقارنتها تفضي إلى ثلاثة فخاخ مستمرة:

الرموز ليست متماثلة بين المزوّدين. يأتي Claude Opus 4.7 بمُجزِّئ رموز جديد قد يولّد حتى 35% رموزًا أكثر للنص ذاته مقارنةً بـOpus 4.6. يختلف مُجزِّئ Gemini عن مُجزِّئ OpenAI. يُسعَّر الجدول لكل مليون رمز، لكن عدد الرموز للموجّه نفسه يختلف بين المزوّدين، ما يعني أن السعر المُعلن ليس سوى تقريب أولي للتكلفة النسبية.
تسعيرات السياق الطويل تخلق منحدرات تكلفة. لدى عائلة GPT-5.5 من OpenAI أسعار منفصلة للسياق القصير والطويل تُفعّل نحو 270,000 رمز. على النقيض، تُبقي Anthropic السعر نفسه لكل رمز عبر نافذة السياق الكاملة البالغة 1M. الأعباء التي تقع قرب هذه العتبات تُسعّر بصورة مختلفة كثيرًا عن تلك التي تبقى ضمنها بأريحية.
الخصومات مُتراكمة وليست منفصلة. يمكن لكل من التخزين المؤقت للموجّه، ومعالجة الدُفعات، وشرائح الحجم الخاصة بالمزوّد أن يخفض التكلفة الفعلية بشكل كبير، وهي تتراكم. يمكن أن يكلّف طلبٌ دفعي مُخزَّن مؤقتًا على Anthropic ما يصل إلى 5% فقط من تكلفة طلب اعتيادي غير مُخزَّن مؤقتًا. المقارنة التي تتجاهل هذه الروافع تُضخّم تكلفة القائمة، أحيانًا بمرتبة عشرية كاملة.

تُطبِّع المقارنة أدناه هذه الفخاخ حيثما أمكن، وتُشير إليها صراحةً حيثما يتعذّر ذلك.

مقارنة أسعار نماذج LLM الحدّية لعام 2026

جميع الأرقام بالدولار الأمريكي لكل مليون رمز. مَصدرها وثائق التسعير الرسمية لكل مزوّد حتى مايو 2026.

النموذج	الإدخال	الإخراج	إدخال مُخزَّن مؤقتًا	دفعات (خصم 50%)	نافذة السياق	رسوم سياق طويل
GPT-5.5	$5.00	$30.00	$0.50	$2.50 / $15.00	1M	نعم (~270K)
Claude Sonnet 4.6	$3.00	$15.00	$0.30	$1.50 / $7.50	1M	لا يوجد
Claude Opus 4.7	$5.00	$25.00	$0.50	$2.50 / $12.50	1M	لا يوجد
Gemini 3.5 Flash	$1.50	$9.00	$0.15	$1.00 / $6.00	1M	نعم (200K)
DeepSeek V4	$0.435	$0.87	$0.0028	غير متاح	384K	لا يوجد

قراءة الجدول: إدخال مُخزَّن مؤقتًا هو السعر المدفوع للرموز المُقدَّمة من ذاكرة موجّه مؤقتة (عادةً موجهات النظام، أمثلة few-shot، أو مقدمات مستندات تتكرر عبر الطلبات). الدُفعات هي السعر المدفوع لأعباء العمل غير المتزامنة بزمن وصول يصل إلى 24 ساعة. تشير رسوم السياق الطويل إلى ما إذا كان المزوّد يرفع الأسعار فوق عتبة لطول السياق؛ ولمن يفعلون، تُذكر العتبة بين قوسين.

أين يتفوّق كل نموذج

GPT-5.5: الخيار الافتراضي الأعلى قدرةً لأعمال الاستدلال الصعبة والعمل الوكيلي

GPT-5.5 هو نموذج OpenAI الحدّي للأعباء المهنية المعقّدة: وكلاء الترميز، التخطيط متعدد الخطوات، استخدام الأدوات طويل الأمد، وتحليل المستندات حيث تكون عمق الاستدلال هو المتطلب الأهم. كما أنه الأغلى بين النماذج الأمريكية الحدّية الكبرى على الإدخال ($5.00 لكل مليون) والأعلى على الإخراج ($30.00 لكل مليون)، ما يعني أنه يبرّر موقعه في الأعباء التي يكون بديلها دفع سعرٍ رائد لنموذج آخر يعجز عن حل المشكلة بالموثوقية ذاتها. يدعم GPT-5.5 التخزين المؤقت بخصم 90%، ومعالجة الدُفعات بخصم 50%، وتبدأ تسعيرة السياق الطويل نحو علامة 270K رمز، وهو أمرٌ مهم لأسس الشيفرات الطويلة جدًا أو سياقات المستودعات الكاملة، لا لأعباء RAG النموذجية.

Claude Sonnet 4.6: الافتراضي الموصى به لمعظم المرور الإنتاجي

Sonnet 4.6 هو النموذج الموصى به من Anthropic لمعظم أعباء العمل الإنتاجية، ونسبة السعر إلى القدرة هي السبب. بسعر $3 للإدخال و$15 للإخراج لكل مليون رمز، يأتي أقل من GPT-5.5 في كلا المعدلين مع تقديم جودة قريبة من Opus في الأعباء التي تهيمن على معظم الأنظمة الإنتاجية: الترميز، التحليل، خطوط RAG، محادثات العملاء، وتوليد المخرجات المهيكلة. ميزة التسعير الفارقة في Sonnet أن نافذة السياق الكاملة 1M متاحة بالسعر القياسي (لا توجد رسوم سياق طويل)، ما يجعله الخيار الأكثر كلفةً معقولة للأعباء التي تحتاج أحيانًا لابتلاع مستندات طويلة جدًا أو مستودعات كاملة. يُخفض التخزين المؤقت تكلفة الإدخال المُخزَّن إلى 10% من القياسي، وهو عامل حاسم لأي عبء عمل بموجّه نظام ثابت.

Gemini 3.5 Flash: النموذج الرائد الأكثر عدوانيةً في التسعير للأعمال قصيرة السياق

Gemini 3.5 Flash هو أرخص نموذج من فئة رائدة من مزوّد أمريكي كبير على مستوى تسعير واجهة البرمجة، بسعر $1.50 للإدخال و$9.00 للإخراج لكل مليون رمز. بالنسبة لمعظم المرور الإنتاجي، هذه هي الشريحة السعرية ذات الصلة، وهي تقلّل التكلفة بشكل ملموس مقارنةً بكل من GPT-5.5 وClaude Opus 4.7. السعر الأعلى مقارنةً بإصدارات Flash السابقة يؤدي إلى زيادة التكاليف الإجمالية في السيناريوهات الوكيلية كثيفة الرموز (5.5x تكلفة Intelligence Index مقابل Gemini 3 Flash بسبب التسعير + الاستخدام). ميزة Gemini الأخرى هي الشريحة المجانية الفعلية في Google AI Studio، وهي مفيدة للنمذجة الأولية لكنها ليست ذات صلة بنماذج تكلفة الإنتاج.

DeepSeek V4: أرخص بكثير، مع تحفظات جديرة بالانتباه

يسعّر DeepSeek V4 عند $0.435 لكل مليون رمز إدخال و$0.87 لكل مليون رمز إخراج، وهو ما يجعله أرخص بين خمس وسبعين مرة مقارنةً بالنماذج الأمريكية الحدّية تبعًا للمقارنة. النموذج نفسه منافس على العديد من المعايير، لا سيما الاستدلال والبرمجة. التحفظات تستحق الذكر صراحةً: تُعالَج البيانات في الصين، ما يُعدّ عائقًا لبعض الأعباء المُنظّمة؛ جودة اللغة الإنجليزية قوية لكن النموذج مُحسّن بصورة مختلفة عن النماذج الأمريكية الحدّية، والاختبار المباشر وجهًا لوجه على عبء عملك الخاص أمرٌ ضروري لا اختياري. للأعباء التي تكون هذه التحفظات مقبولة لها، يغيّر DeepSeek معادلة التكلفة بالفعل.

ملاحظة حول Claude Opus 4.7 مقابل Sonnet 4.6. أُدرِج Opus في الجدول من باب الاكتمال، لكن بالنسبة لغالبية المرور الإنتاجي، يُعد Sonnet 4.6 الخيار الاقتصادي الأفضل. يكلف Opus 1.67x من Sonnet على كل من الإدخال والإخراج، وللأعباء التي يكون Sonnet كافيًا لها (وهي معظمها)، لا توجد فائدة مُقابلة لهذا التفوق السعري. الجأ إلى Opus حين تُظهر التقييمات أن Sonnet يفشل في فئة مهام محددة: وكلاء ترميز عالي الاستقلالية، سير عمل مهنية طويلة الأفق، ومهام حيث يُعدّ الالتزام بالتعليمات على الهامش حاسمًا.

مثال عملي: ما الذي تكلفه 100 مليون رمز شهريًا فعليًا

لا تعني أسعار العناوين لكل مليون رمز الكثير حتى تلامس عبء عمل تمثيلي. يستخدم المثال أدناه نمطًا يقارب نظامًا إنتاجيًا غير تافه: 100 مليون رمز إجمالًا شهريًا، مقسمة إلى 80% إدخال (80M) و20% إخراج (20M)، مع معدل إصابة تخزين مؤقت 30% في جزء الإدخال. هذا النمط يمثل على نحو واسع محادثة مواجهة للعميل أو عبء RAG بموجّه نظام ثابت وسياق مستندات.

الحساب لكل نموذج: تكلفة الإدخال المُخزَّن مؤقتًا + تكلفة الإدخال غير المُخزَّن مؤقتًا + تكلفة الإخراج. يُفوتر الإدخال المُخزَّن مؤقتًا عند 10% من القياسي لدى المزوّدين الذين يقدمون التخزين المؤقت.

النموذج	إدخال مُخزَّن مؤقتًا (24M)	إدخال غير مُخزَّن مؤقتًا (56M)	الإخراج (20M)	إجمالي الفاتورة الشهرية
GPT-5.5	$12.00	$280.00	$600.00	$892.00
Claude Sonnet 4.6	$7.20	$168.00	$300.00	$475.20
Claude Opus 4.7	$12.00	$280.00	$500.00	$792.00

ما الذي يخبرك به هذا. في عبء عمل تمثيلي، يُعادل Sonnet 4.6 تقريبًا نصف تكلفة GPT-5.5. DeepSeek في عالم تكلفة مختلف تمامًا. هذه أرقام سعر قائمة؛ وتطبيق معالجة الدُفعات حيثما كانت مؤهلة يخفض كل إجمالي بنسبة إضافية 50% على الإدخال والإخراج (وليس إصابات التخزين المؤقت).

ملاحظتان جديرتان بالحمل إلى الأمام. أولًا: يُعدّ التخزين المؤقت الرافعة الأكثر تأثيرًا التي تتحكم بها. يفترض المثال أعلاه معدل إصابة تخزين مؤقت 30%؛ ارفعه إلى 60% (قابل للتحقق تمامًا لأعباء ذات موجّه نظام ثابت)، وستنخفض التكلفة الإجمالية بنحو 25% إضافية. ثانيًا: نسبة الإدخال إلى الإخراج مهمة كثيرًا. الأعباء الثقيلة على الإخراج (التلخيص، الكتابة المطولة) تنحاز نحو مزوّدين بأسعار إخراج أرخص، بينما الأعباء الثقيلة على الإدخال (تحليل سياق طويل، استرجاع RAG كبير) تنحاز نحو مزوّدين بأسعار إدخال أرخص ودون رسوم سياق طويل.

التكاليف الخفية غير الموجودة على صفحة التسعير

سعر القائمة هو الأرضية لا السقف. خمس تكاليف إضافية يجدر إدراجها في الميزانية صراحةً، لأنها تفاجئ الفرق بشكل متكرر عند الانتقال من النموذج الأولي إلى الإنتاج:

رموز الاستدلال. تولّد النماذج ذات أوضاع الاستدلال الموسعة (GPT-5.5 Thinking، وضع التفكير في DeepSeek V4) محتوى تفكير داخلي يُحتسب كرموز إخراج. يمكن لاستدعاء استدلال عالي الجهد على موجّه طويل أن ينتج 20,000 رمز استدلال، وهو $0.60 من تكلفة الإخراج على GPT-5.5 قبل إنتاج الاستجابة المرئية. ضع الميزانية لكل عبء عمل، لا لكل طلب.
رسوم السياق الطويل. كل من Gemini 3.5 Flash وGPT-5.5 يرفعان الأسعار فوق عتبة لطول السياق. يمكن لخطوط RAG التي تتضمن مستندات كبيرة أن تدفع كل طلب بصمت إلى الشريحة الأعلى دون أن يلاحظ أحد حتى وصول الفاتورة. قِس أطوال مُوجّهاتك الفعلية في الإنتاج وتحقق مما إذا كنت تتجاوز العتبة.
مضاعِفات إقامة البيانات. تفرض Anthropic علاوة 10% للاستدلال داخل الولايات المتحدة فقط على Opus 4.7 وSonnet 4.6. تطبق OpenAI زيادة 10% على واجهات إقامة البيانات لعائلة GPT-5.4. للأعباء المُنظّمة التي يهمها هذا، ضعه في جدول الأسعار من اليوم الأول.
انجراف اسهاب الإخراج. عندما تكون نسخة نموذج جديدة أكثر إسهابًا افتراضيًا (كما يُقال عن Opus 4.7 مقارنةً بـOpus 4.6)، يمكن أن تتزايد رموز الإخراج لكل استجابة حتى لو بقي طول الإدخال ثابتًا. يُسعَّر الإخراج أعلى بخمس مرات من الإدخال لدى Anthropic، لذا فإن زيادة 20% في الاسهاب هي زيادة 20% في مُحرّك التكلفة المُهيمن.
الطلبات الفاشلة والمعادَة المحاولة. لا يُفوّتِر معظم المزوّدين على أخطاء 4xx و5xx، لكنهم يُفوّتِرون على التوليدات الجزئية والمحاولات المعادَة التي تنجح في المحاولة الثانية. في الأنظمة الإنتاجية ذات منطق إعادة المحاولة النشط، يمكن أن يزيد هذا بضعة في المئة على الفاتورة. يستحق المعرفة عند تسوية فواتير المزوّد مع التكلفة المتوقعة.

كيف يتوافق CometAPI مع الصورة

كل هذه النماذج الأربعة، إضافةً إلى 500+ غيرها، متاحة عبر CometAPI من خلال نقطة نهاية متوافقة مع OpenAI واحدة، ببيانات اعتماد واحدة، وفوترة موحّدة، ودون إعداد حساب لكل مزوّد. يُقاس التسعير على CometAPI لكل رمز بالمعدلات ذاتها المنشورة من المزوّدين الأساسيين، مع شراء أرصدة مقدمًا وتطبيقها عبر أي نموذج في الكتالوج. القيمة في التوجيه عبر CometAPI تشغيلية لا لكل رمز: اعتماد واحد للإدارة، فاتورة واحدة للتسوية، والقدرة على التبديل من GPT-5.5 إلى Claude Sonnet 4.6 إلى Gemini 3.5 Flash بتغيير سلسلة واحدة في الشيفرة.

هناك أعباء عمل يكون فيها الوصول المباشر للمزوّد هو الخيار الصحيح. إذا كنت تشغّل عبء عمل بنموذج واحد عند حجم مرتفع جدًا على مزوّد واحد، مع عقد مؤسسي متفاوض عليه، فإن اقتصاديات الوحدة للذهاب مباشرةً أفضل. إذا كانت وضعية الامتثال لديك تتطلب علاقة بائع مسجّلة محددة، فإن المُجمّع يعقّد بدل أن يبسّط ذلك النقاش. بالنسبة لغالبية الفرق التي تشغّل أعباء إنتاج متعددة النماذج، مع ذلك، فإن الاحتكاك التشغيلي لإدارة ثلاث أو أربع علاقات مباشرة مع مزوّدين هو تكلفة ذات شأن بحد ذاته، لا يلتقطها جدول الأسعار.

جرّب المقارنة على عبء عملك. تتيح لك الشريحة المجانية على CometAPI تشغيل الموجّه نفسه ضد GPT-5.5 وSonnet 4.6 وGemini 3.5 Flash وDeepSeek V4 من نقطة نهاية واحدة، دون تسجيلات منفصلة. لقرار تكلفة خاص بعبء عملك، فإن هذا التمرين الذي يستغرق ساعة واحدة يساوي أكثر من أي مقارنة أسعار منشورة على الإطلاق.

كيفية استخدام هذه المقارنة

يعتمد النموذج المناسب لعبء عملك على أي بُعد من جدول الأسعار يهم أكثر لشكل المرور لديك. إطار قرار عملي:

إذا كان عمق الاستدلال هو عنق الزجاجة (سير عمل وكيلية، تخطيط متعدد الخطوات معقّد، أصعب مهام الترميز)، ابدأ بـGPT-5.5 أو Claude Opus 4.7. التفوق السعري حقيقي لكنه مُستحق في هذه الأعباء.
إذا أردت أفضل نسبة سعر إلى قدرة لحركة الإنتاج العامة، فـClaude Sonnet 4.6 هو الافتراضي الموصى به. قدرة قريبة من الحدّ، نافذة سياق كاملة 1M بأسعار قياسية، ودعم قوي للتخزين المؤقت.
إذا كنت حساسًا للتكلفة وكان عبء عملك يقع دون 200K سياق، فإن Gemini 3.5 Flash هو أرخص خيار من فئة رائدة وذي مصداقية من مزوّد أمريكي كبير.
إذا كان عبء عملك عالي الحجم ومُسيّرًا بالسعر، وكانت وضعية إقامة البيانات لدى DeepSeek مقبولة، فإن V4 يغيّر معادلة التكلفة بما يكفي ليستحق تقييمًا جادًا، خصوصًا للأعباء ذات الشكل الدفعي.

Want to go further on cost optimization? The pricing data above is the foundation for routing: the practice of sending different queries to different models based on which one can handle them at the lowest cost. The companion piece, Cutting LLM API Costs in Half: A Model Routing Guide for Production Workloads in 2026, walks through the routing patterns that turn this rate card into actual savings on your monthly bill.