كم عدد وحدات معالجة الرسومات اللازمة لتدريب gpt-5؟ كل ما تحتاج لمعرفته

CometAPI
AnnaOct 13, 2025
كم عدد وحدات معالجة الرسومات اللازمة لتدريب gpt-5؟ كل ما تحتاج لمعرفته

يُعد تدريب نموذج لغة كبير (LLM) متطور مثل GPT-5 مهمة هندسية ولوجستية ومالية ضخمة. تتفاوت العناوين والشائعات حول عدد وحدات معالجة الرسومات المستخدمة تفاوتًا كبيرًا - من بضع عشرات الآلاف إلى مئات الآلاف - ويعود جزء من هذا التفاوت إلى تغير أجيال الأجهزة، وزيادة كفاءة البرمجيات، وندرة نشر الشركات لبيانات قياس عن بُعد كاملة للتدريب. في هذه المقالة، أشرح كيفية استخلاص التقدير، وأسلط الضوء على القيود التي تحدد العدد النهائي.

كم عدد وحدات معالجة الرسوميات اللازمة لتدريب GPT-5؟

إجابة قصيرة في المقدمة: لا يوجد رقم واحد. تشير الإشارات العامة وصيغ القياس الفني إلى حلول معقولة تتراوح بين آلاف قليلة (لفترة تدريب قصيرة ومرنة زمنيًا) ومئات الآلاف قليلة إذا كنت تُصر على تدريب نموذج كبير وكثيف في فترة زمنية قصيرة باستخدام وحدات معالجة رسومية تجارية. يعتمد تحديد نهاية هذا النطاق على حجم النموذج, ميزانية الحوسبة التدريبية (FLOPs), الرموز المستخدمة, معدل نقل بيانات مستدام لكل وحدة معالجة رسومية, ميزانية الوقتوسواءً كنت تستخدم أجهزة Blackwell الأحدث ذات الحجم المناسب أو أجهزة A100/H100 الأقدم. تُشير OpenAI إلى أن GPT-5 تم تدريبه على حواسيب Microsoft Azure العملاقة (وليس عدد وحدات معالجة الرسومات بدقة)، وتُقدم تقديرات التغطية الخارجية والهندسة التقريبية بقية الصورة.

لا تنشر OpenAI (مثل معظم المؤسسات) عدد FLOP التدريبي الدقيق أو سجل ساعات وحدة معالجة الرسومات الخام لأكبر نماذجها، لذلك نقوم بدمج مواصفات البائعين وأنماط استخدام وحدة معالجة الرسومات التاريخية الملاحظة للنماذج السابقة وقوانين التوسع لإنتاج نطاقات قابلة للدفاع عنها.

ما هي القاعدة الأساسية التي تربط حجم النموذج بعدد وحدات معالجة الرسوميات؟

الصيغة الأساسية التي يمكنك استخدامها

يوفر فريق Megatron التابع لشركة NVIDIA تقريبًا عمليًا واسع الاستخدام لوقت التدريب من البداية إلى النهاية: training_time (s) ≈8⋅T⋅PN⋅X\text{training__time (s)} \approx 8 \cdot \frac{T \cdot P}{N \cdot X}training_time (s) ≈8⋅N⋅XT⋅P​

حيث:

  • PPP = عدد معلمات النموذج (الأوزان)
  • TTT = عدد رموز التدريب
  • NNN = عدد وحدات معالجة الرسوميات
  • XXX = معدل نقل بيانات مستدام لكل وحدة معالجة رسومية (بوحدة FLOPs/ثانية، والتي يتم التعبير عنها غالبًا بوحدة teraFLOPs)
  • العامل 8 يأتي من حساب الأمام + الخلف + المحسن والثوابت الأخرى في تقريب FLOPs للمحول.

تم إعادة ترتيبها لتقدير وحدات معالجة الرسوميات لجدول زمني مستهدف: N≈8⋅T⋅PX⋅training_time (s)N \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{training\_time (s)}}N≈8⋅X⋅training_time (s)T⋅P​

هذه هي الصيغة الهندسية الأكثر أهمية لتحويل ميزانية الحوسبة (FLOPs) إلى حجم أسطول وحدة معالجة الرسومات (GPU)، وهي المكان الذي نبدأ منه أي تقدير لعدد وحدات معالجة الرسومات (GPU).

تحذيرات هامة

  • "X" (معدل TFLOPs المستمر لكل وحدة معالجة رسومية) هو الرقم الأصعب في التحديد. عادةً ما تكون ذروة عمليات FLOP النظرية (المواصفات) أعلى بكثير مما تحققه مهمة التدريب الحقيقية بسبب حركة مرور الذاكرة، والاتصالات، وفقاعات خطوط الأنابيب. أفادت NVIDIA تحقق إنتاجية تبلغ حوالي ١٦٣ تيرا فلوب لكل وحدة معالجة رسومية A100 في تجربة تدريب شاملة على نموذج كبير؛ تتمتع أجهزة H100 وBlackwell بذروات نظرية أعلى بكثير، ولكن الإنتاجية المستدامة التي يمكن تحقيقها تعتمد على حزمة البرامج، وتكوين النموذج المتوازي، وبنية الاتصالات. استخدم معدلات إنتاجية متحفظة عند وضع الميزانية.
  • ميزانية الرمز TTT ليس معياريًا. استخدمت NVIDIA حوالي 450 مليار رمز لمثال تريليون معلمة؛ تستخدم فرق أخرى نسبًا مختلفة للرموز/المعلمات (ويزداد استخدام الرموز الاصطناعية). اذكر دائمًا افتراض الرمز صراحةً.
  • قيود الذاكرة والطوبولوجيا يمكن للذاكرة لكل وحدة معالجة رسومية (GPU)، ونسيج NVLink، وحدود التوازي بين خطوط الأنابيب والموترات) أن تجعل أنواعًا معينة من وحدات معالجة الرسوميات أكثر ملاءمةً للنماذج الكبيرة والمجزأة بدقة، حتى لو كانت أرقام FLOP متشابهة. تُغيّر أنظمة التخزين على نطاق الرفوف، مثل NVIDIA GB300/GB300 NVL72، التوازن العملي بين FLOPs والذاكرة.

كم عدد وحدات معالجة الرسوميات التي استخدمتها الأجيال السابقة؟

المراسي التاريخية: تقارير GPT-3 وGPT-4

استخدمت تقارير الصناعة والتعليقات الفنية بشكل متكرر أعداد وحدات معالجة الرسومات المُبلغ عنها للنماذج السابقة لتثبيت تقديرات النماذج اللاحقة. تُقدّر العديد من المصادر الموثوقة ومراقبي الصناعة أن التدريب المسبق لـ GPT-4 شمل عشرات الآلاف من وحدات معالجة الرسومات A100 على مدار أسابيع إلى أشهر. على سبيل المثال، تُشير التقارير المتزامنة إلى أن نطاق تدريب GPT-4 يتراوح بين 10 آلاف و25 ألف وحدة معالجة رسومات A100، وذلك اعتمادًا على ما إذا كان الشخص يُحسب ذروة مخزون وحدات معالجة الرسومات أو وحدات معالجة الرسومات النشطة بشكل متزامن أثناء التدريب المسبق. تُعد هذه المراسي التاريخية مفيدة لأنها تُظهر ترتيب الحجم وكيفية تغيير أجيال الأجهزة (A100 → H100 / Blackwell) للإنتاجية لكل جهاز.

يتضمن: إذا استخدم GPT-4 ما بين 10 آلاف و25 ألف وحدة A100، فإن GPT-5 - إذا كان أكبر برتبة أو أكثر من حيث الحجم، أو مُدرّبًا على رموز أكثر - سيتطلب حوسبة إجمالية أكبر بكثير. لكن التحسينات في الأجهزة (H100/Blackwell/TPU) والبرمجيات (المُحسِّن/الدقة/مزيج الخبراء، وكفاءة البيانات) يمكن أن تُقلل عدد الأجهزة المادية اللازمة لتقديم نفس الحوسبة أو أعلى.


كم عدد وحدات معالجة الرسوميات التي ستحتاجها لمختلف السيناريوهات بمقياس GPT-5؟

فيما يلي، أُجري ثلاثة حسابات واقعية لسيناريوهات مُحددة - نفس الطريقة، بافتراضات مختلفة - لتتمكن من رؤية كيفية تغير عدد وحدات معالجة الرسومات (GPU) مع حجم النموذج، والأجهزة، وميزانية الوقت. أُوضح الافتراضات بوضوح لتتمكن من تكرارها أو تعديلها.

الافتراضات المستخدمة (صريحة)

  1. صيغة Core FLOPs: N≈8⋅T⋅PX⋅timeN \approx 8 \cdot \frac{T \cdot P}{X \cdot \text{time}}N≈8⋅X⋅timeT⋅P​. (انظر NVIDIA Megatron.)
  2. قياس عدد الرموز: أستخدم مثال NVIDIA الذي يتضمن حوالي 450 مليار رمز لكل 1T معلمة (أي أن T≈0.45⋅PT = 0.45⋅P تقريبًا) كخط أساس، وأقيس الرموز خطيًا باستخدام المعلمات في هذه السيناريوهات. هذا خيار معقول، ولكنه ليس خيارًا شائعًا، فبعض الفرق تستخدم رموزًا أكثر أو أقل لكل معلمة.
  3. نافذة التدريب: ٩٠ يومًا (≈ ٧,٧٧٦,٠٠٠ ثانية). تتطلب الجداول الزمنية الأقصر عددًا أكبر نسبيًا من وحدات معالجة الرسومات؛ بينما تتطلب الجداول الزمنية الأطول عددًا أقل.
  4. الإنتاجية المستدامة لكل وحدة معالجة رسومية (X، TFLOPs): ثلاثة مستويات عملية لإظهار الحساسية:
  • تم تحقيق الفئة A100 المحافظة / القديمة: 163 TFLOPs لكل وحدة معالجة رسومية (الإنتاجية المحققة التي تم قياسها بواسطة NVIDIA في مثال 1T).
  • معدل إنتاج فعال حديث عالي الجودة من الفئة H100: ~600 تيرا فلوب (جزء متحفظ وقابل للتحقيق من ذروات Tensor-core النظرية H100 بعد الأخذ في الاعتبار عدم الكفاءة على مستوى النظام).
  • مقياس الرف Blackwell/GB300 فعال: ~2,000 تيرا فلوب لكل وحدة معالجة رسومية (تمثل كفاءة رفوف Blackwell/GB300 العدوانية من الجيل التالي وفوائد FP4/التحسين؛ ستختلف الأرقام الحقيقية المستدامة حسب عبء العمل والطوبولوجيا).

ملحوظة: هذه القيم X هي الافتراضات لتوضيح هندسي، استخدمها كمفاتيح قابلة للتغيير. الهدف هو إظهار أوامر الحجم.

النتائج (تقريبية)

باستخدام الصيغة والافتراضات أعلاه، لتشغيل تدريب لمدة 90 يومًا مع رموز مقياسها على النحو التالي: T=0.45⋅PT=0.45\cdot PT=0.45⋅P:

1 تريليون معلمة (1T):

  • مع 163 TFLOPs/وحدة معالجة الرسومات≈ 2,800 وحدة معالجة رسومية.
  • مع 600 TFLOPs/وحدة معالجة الرسومات≈ 770 وحدة معالجة رسومية.
  • مع 2,000 TFLOPs/وحدة معالجة الرسومات≈ 230 وحدة معالجة رسومية.

3 تريليون معلمة (3T):

  • مع 163 TFLOPs/وحدة معالجة الرسومات≈ 25,600 وحدة معالجة رسومية.
  • مع 600 TFLOPs/وحدة معالجة الرسومات≈ 6,900 وحدة معالجة رسومية.
  • مع 2,000 TFLOPs/وحدة معالجة الرسومات≈ 2,100 وحدة معالجة رسومية.

10 تريليون معلمة (10T):

  • مع 163 TFLOPs/وحدة معالجة الرسومات≈ 284,000 وحدة معالجة رسومية.
  • مع 600 TFLOPs/وحدة معالجة الرسومات≈ 77,000 وحدة معالجة رسومية.
  • مع 2,000 TFLOPs/وحدة معالجة الرسومات≈ 23,000 وحدة معالجة رسومية.

يوضح هذا سبب التباين الكبير في تقديرات المستخدمين: أي تغيير في معدل نقل البيانات المستمر لكل وحدة معالجة رسومية (الأجهزة والبرمجيات) أو في وقت التدريب المطلوب يُغير عدد وحدات معالجة الرسوميات بشكل كبير. يتطلب النموذج الأكبر بعشر مرات معلمات PPP أكثر بعشر مرات، ولأن الرموز عادةً ما تُقاس بحجم النموذج أيضًا، فإن إجمالي عمليات FLOP (وبالتالي احتياجات وحدة معالجة الرسوميات) ينمو بشكل خطي للغاية إذا حافظت على ميزانية زمنية ثابتة.

نطاق أفضل جهد لـ GPT-5 (التوليف):

  • الحد الأدنى (وصفة فعالة للحوسبة + معدل إنتاجية Blackwell/H100): تم نشر ما بين 10,000 إلى 25,000 وحدة معالجة رسومية تعادل H100 على مدار أشهر (إذا استخدم النموذج مكاسب كبيرة في كفاءة الخوارزمية وعدد أصغر من المعلمات مع زيادة البيانات / الضبط الدقيق).
  • المركزي (السيناريو السائد المعقول): ~25,000–80,000 وحدة معالجة رسومية تعادل H100 (تتوافق مع خطوة أعلى من عشرات الآلاف المبلغ عنها في GPT-4 لتشمل ميزانيات الحوسبة الأكبر وعدد الرموز).
  • الحد الأعلى (نموذج معلمات كبير جدًا ومتعدد التريليونات تم تدريبه باستخدام اختصارات خوارزمية قليلة): 80,000 إلى 150,000+ وحدة معالجة رسومية تعادل H100 في ذروة الأداء (إذا سعى الفريق إلى وقت قصير جدًا على مدار الساعة واستخدم العديد من الأجهزة بالتوازي).

تتوافق هذه النطاقات مع إنتاجية البائعين الحالية، واستخدام وحدة معالجة الرسومات التاريخي للطرز السابقة، وأحجام مجموعات الصناعة المبلغ عنها. تقديرات، وليس القبول المباشر من OpenAI. العدد الدقيق لـ GPT-5 يبقى ملكًا.

ما الذي يضاف إلى فاتورة وحدة معالجة الرسوميات (GPU) إلى جانب تشغيل التدريب المسبق الخام؟

العوامل التي تزيد من عدد الأجهزة

  • الطموح في عدد المعلمات والرموز: عادةً ما يعني مضاعفة المعلمات زيادات مماثلة في الرموز لتظل الحوسبة مثالية.
  • الرغبة في الحصول على وقت قصير لساعة الحائط: يتطلب إكمال التدريب في أسابيع بدلاً من أشهر زيادة متناسبة في عدد وحدات معالجة الرسومات المتزامنة.
  • أنظمة التحقق الكبيرة أو أنظمة RLHF: تضيف دورات RLHF أو ردود الفعل البشرية الكبيرة بعد التدريب استخدامًا مفيدًا لوحدة معالجة الرسومات (GPU) بما يتجاوز FLOPs الأساسية قبل التدريب.
  • عدم كفاءة الشبكة والبنية التحتية: يؤدي ضعف توسع الاتصال أو الاستخدام المنخفض إلى تضخيم عدد وحدات معالجة الرسوميات المادية اللازمة لتحقيق الإنتاجية المعلن عنها.

RLHF، الضبط الدقيق والتقييم

يُضيف التعلم المُعزَّز من خلال التغذية الراجعة البشرية (RLHF)، والضبط الدقيق متعدد المراحل، وعمليات تشغيل الفرق الحمراء، وعمليات مسح التقييم الكبيرة، قدرًا كبيرًا من الحوسبة إلى جانب عمليات FLOP "قبل التدريب". غالبًا ما تتطلب مراحل المتابعة هذه حلقات تدريب سياسات فعّالة واستنتاجات متكررة على نطاق واسع (والتي تُقدَّم على مجموعات وحدات معالجة الرسومات الأخرى)، لذا تنفيذ المشاريع تأثير وحدة معالجة الرسومات أكبر من تقدير ما قبل التدريب. يشير تطوير OpenAI لـ GPT-5 بوضوح إلى عمليات سلامة وتقييم متطورة تُضيف حوسبة تتجاوز التدريب المسبق.

توليد البيانات والرموز الاصطناعية

إن ندرة الرموز عالية الجودة على نطاقات واسعة جدًا تدفع الفرق إلى إنشاء رموز اصطناعية (تشغيل ذاتي، أو استمراريات مُولّدة من النموذج) تتطلب بدورها حوسبة لإنتاجها وفحصها. إن مراعاة هذا المسار يزيد من إجمالي الحوسبة المستخدمة من قِبل وحدة معالجة الرسومات (GPU) ووحدة المعالجة المركزية (CV) خلال مشروع النموذج.

خدمة الأسطول للإطلاق والتكرار

يتطلب إطلاق نموذج لملايين المستخدمين قاعدة بيانات استدلالية ضخمة منفصلة عن مجموعة التدريب. تتضمن التقارير التي تفيد بأن OpenAI لديها مئات الآلاف إلى مليون وحدة معالجة رسومية متصلة بالإنترنت سعة الخدمة. يختلف هذا البند عن بند ميزانية مجموعة التدريب، ولكن غالبًا ما يتم الخلط بينهما في النقاشات العامة.

الخاتمة

لا يوجد رقم عام محدد لـ "عدد وحدات معالجة الرسومات اللازمة لتدريب GPT-5"، لأن الإجابة تعتمد على معلمات النموذج، ووصفة التدريب، وما إذا كانت الأولوية هي الوقت الفعلي أم التكلفة الإجمالية. باستخدام مواصفات الموردين العامة، وأبحاث قانون التوسع، وتقارير الصناعة كمرتكزات، فإن أكثر الحلول الممكنة جمهور التقدير هو أن التدريب على فئة GPT-5 مطلوب على الأرجح عشرات الآلاف من وحدات معالجة الرسوميات المكافئة لـ H100 في الذروة (نطاق مركزي معقول: ~25 ألفًا إلى 80 ألفًا من مكافئات H100)، مع إجمالي ساعات وحدة معالجة الرسومات في مليونير النطاق.

أين يمكن الوصول إلى GPT-5

إذا كنت ترغب في الوصول البرمجي أو تضمين GPT-5 Pro في المنتجات، فاستخدم واجهة برمجة التطبيقات (API). تتضمن OpenAI وCometAPI وما إلى ذلك أسماء طُرز لعائلة GPT-5 (gpt-5-pro / gpt-5-pro-2025-10-06) ويتم الفوترة لكل رمز مستخدم. تتيح واجهة برمجة التطبيقات ميزات متقدمة، مثل التنفيذ المُمكّن بالأدوات، ونوافذ سياقية أطول، واستجابات متدفقة، ومعلمات النموذج للتحكم في جهد الاستدلال/الإسهاب.

CometAPI هي منصة واجهات برمجة تطبيقات موحدة تجمع أكثر من 500 نموذج ذكاء اصطناعي من أبرز المزودين، مثل سلسلة GPT من OpenAI، وGemini من Google، وClaude من Anthropic، وMidjourney، وSuno، وغيرهم، في واجهة واحدة سهلة الاستخدام للمطورين. من خلال توفير مصادقة متسقة، وتنسيق الطلبات، ومعالجة الردود، تُبسط CometAPI بشكل كبير دمج قدرات الذكاء الاصطناعي في تطبيقاتك. سواء كنت تُنشئ روبوتات دردشة، أو مُولّدات صور، أو مُلحّنين موسيقيين، أو خطوط أنابيب تحليلات قائمة على البيانات، تُمكّنك CometAPI من التكرار بشكل أسرع، والتحكم في التكاليف، والاعتماد على مورد واحد فقط، كل ذلك مع الاستفادة من أحدث التطورات في منظومة الذكاء الاصطناعي.

يمكن للمطورين الوصول GPT-5 برو من خلال CometAPI، أحدث إصدار للنموذج يتم تحديثه دائمًا بالموقع الرسمي. للبدء، استكشف إمكانيات النموذج في ملعب واستشر دليل واجهة برمجة التطبيقات للحصول على تعليمات مفصلة. قبل الدخول، يُرجى التأكد من تسجيل الدخول إلى CometAPI والحصول على مفتاح API. كوميت ايه بي اي عرض سعر أقل بكثير من السعر الرسمي لمساعدتك على التكامل.

هل أنت مستعد للذهاب؟→ سجل في CometAPI اليوم !

اقرأ المزيد

500+ نموذج في واجهة برمجة تطبيقات واحدة

خصم يصل إلى 20%