تم تجميد معالجات AMD EPYC 7002 بعد 1044 يومًا من التشغيل بسبب خطأ

AMD Epyc Error

تتعلق المشكلة بحقيقة أن النواة لا تخرج من وضع توفير الطاقة

مؤخرا تم إصدار معلومات حول خطأ بخاصة جدًا في سلسلة معالجات الخادم AMD EPYC 7002 ("روما") استنادًا إلى الهندسة المعمارية الدقيقة "Zen 2" الموزعة منذ عام 2018.

وهذا هو السؤال في الحكم يتسبب في توقف المعالج بعد 1044 يومًا من التشغيل مستمر (حالة خاصة إلى حد ما وهذا غير شائع إلى حد ما.

منشور قصير من تشير AMD إلى أن معالجات الخادم من الجيل الثاني تواجه مشكلة أن يمنع النوى من الخروج من وضع توفير الطاقة في حالة Core C6 (أو CC6) بعد دورة طويلة المدى. في الوقت نفسه ، ادعت الشركة المصنعة أن 1044 يومًا ليست قيمة مطلقة ، حيث يمكن أن يحدث الفشل في وقت سابق أو لاحقًا ، منذ ذلك الحين كل هذا يتوقف على وتيرة REFCLK ، مما يسمح للمعالجات بتتبع معلمة الوقت وبعض العوامل الأخرى. لكن الشركة المصنعة لا تقدم أي معلومات بالضبط عن سبب حدوث الفشل ، لذلك لا أحد يفهم بالضبط ما هو أصل الفشل حتى الآن.

بالفشل على هذا النحو فإنه يضع المعالج في وضع "الزومبي"، حيث لا يقبل أي أوامر أو طلبات مقاطعة خارجية ويظل في هذه الحالة ما لم يتم إعادة تشغيله.

تبدأ أوضاع الحالة C هذه من C0 ، وهو وضع التشغيل العادي لوحدة المعالجة المركزية. كلما ارتفع الرقم C ، كلما انتقلت وحدة المعالجة المركزية إلى وضع السكون أعمق ، وتم إيقاف تشغيل المزيد من الإشارات. كلما كانت حالة السكون أعمق ، كلما طالت مدة حاجة وحدة المعالجة المركزية إلى الاستيقاظ بالكامل.

مع هذا الخطأ ، بمجرد دخول وحدة المعالجة المركزية إلى C6 بعد علامة اليوم 1044 ، تتعطل وتتطلب إعادة التشغيل. الحل هو إعادة تشغيل الخادم قبل ثلاث سنوات أو تعطيل حالة السكون التي تسبب الخطأ.

لا تقدم AMD شرحًا أكثر تفصيلاً من سبب الفشل. اذا حكمنا من خلال الافتراض تم النشر على Reddit:

يحدث التعليق عندما يصل العداد الموجود في سجل TSC (عداد الطوابع الزمنية) ، الذي يحسب عدد دورات العمل بعد إعادة التعيين ، بتردد 2800 ميجاهرتز إلى القيمة 0x380000000000000 (2800 ميجاهرتز * 10 * * 6 * 1042,5 ، 1042 ، أي بعد 12 يومًا و XNUMX ساعة).

إلى جانب ذلك ، ذكرت AMD أنه لن يتم تحرير إصلاح الخطأ، نظرًا لأن المشكلة لم يتم ملاحظتها لفترة طويلة لأن أوقات التشغيل متعددة السنوات ليست نموذجية للخوادم التي تحتاج إلى إعادة تمهيد بشكل دوري لتثبيت تحديثات kernel أو الترحيل إلى إصدار نظام تشغيل جديد للبقاء محدثًا.

ومع ذلك ، فإن طرق ترقية النواة غير القابلة لإعادة التشغيل لتوزيعات Linux ودورات الصيانة الطويلة (يتم دعم Ubuntu و RHEL و SUSE لمدة 10 سنوات) يمكن أن تؤدي إلى فترات انتظار طويلة للخوادم دون إعادة تمهيد.

قال ممثلو الشركة ذلك حاليا هناك خياران لحل المشكلة: lيجب على مالكي الخادم على هذه المعالجات إعادة تشغيل النظام لإعادة العداد إلى 1044 يومًالذلك قم بتعطيل وضع توفير الطاقة لـ Core C6 State تمامًا. من المحتمل أن كلا الخيارين غير مناسبين للغاية لأصحاب معالجات الخادم - وضع توفير الطاقة ، لأنه يوفر الكثير من المال على استهلاك الطاقة ، لذلك من الواضح أنه لن يقوم أحد بإيقاف تشغيله وانتظر حدوث خطأ ويتجمد ، ثم إعادة تشغيل النظام أيضًا ليس حلاً مناسبًا للغاية. خاصة عندما يتعلق الأمر ببعض مكونات البنية التحتية المهمة حقًا.

ومن الجدير بالذكر أن هذا النوع من الأخطاء ليس نادرًا في قطاع المعالجات (بغض النظر عما إذا كانت للخوادم أو أجهزة سطح المكتب) ، فالعديد من النماذج التجارية تحتوي أيضًا على العديد من الأخطاء ، ولكن بعد ذلك يحاولون تصحيحها بمراجعة جديدة أو باستخدام إصلاحات قائمة على البرامج والبرامج الثابتة.

أخيرا إذا كنت مهتمًا بمعرفة المزيد عنها ، أدعوكم للتشاور معلومات نشرته AMD.


اترك تعليقك

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها ب *

*

*

  1. المسؤول عن البيانات: ميغيل أنخيل جاتون
  2. الغرض من البيانات: التحكم في الرسائل الاقتحامية ، وإدارة التعليقات.
  3. الشرعية: موافقتك
  4. توصيل البيانات: لن يتم إرسال البيانات إلى أطراف ثالثة إلا بموجب التزام قانوني.
  5. تخزين البيانات: قاعدة البيانات التي تستضيفها شركة Occentus Networks (الاتحاد الأوروبي)
  6. الحقوق: يمكنك في أي وقت تقييد معلوماتك واستعادتها وحذفها.