Οι επεξεργαστές AMD EPYC 7002 παγώνουν μετά από 1044 ημέρες λειτουργίας λόγω σφάλματος

Σφάλμα AMD Epyc

Το πρόβλημα σχετίζεται με το γεγονός ότι ο πυρήνας δεν βγαίνει από τη λειτουργία εξοικονόμησης ενέργειας

Πρόσφατα κυκλοφόρησαν πληροφορίες σχετικά με ένα σφάλμα βιδιαίτερα στη σειρά των επεξεργαστών διακομιστών AMD EPYC 7002 («Ρώμη») βασισμένη στη μικροαρχιτεκτονική «Zen 2» που διανέμεται από το 2018.

Και είναι ότι αμφισβητείται η απόφαση κάνει τον επεξεργαστή να κολλάει μετά από 1044 ημέρες λειτουργίας συνεχής (μια μάλλον ιδιαίτερη κατάσταση και αυτό είναι κάπως ασυνήθιστο.

Μια σύντομη ανάρτηση από Η AMD υποδεικνύει ότι οι επεξεργαστές διακομιστή XNUMXης γενιάς αντιμετωπίζουν πρόβλημα ότι αποτρέπει την έξοδο των πυρήνων από τη λειτουργία εξοικονόμησης ενέργειας κατά την κατάσταση Core C6 (ή CC6) μετά από έναν μακροχρόνιο κύκλο. Ταυτόχρονα, ο κατασκευαστής ισχυρίστηκε ότι οι 1044 ημέρες δεν είναι απόλυτη τιμή, καθώς η αστοχία μπορεί να συμβεί νωρίτερα ή αργότερα, καθώς όλα εξαρτώνται από τη συχνότητα του REFCLK, που επιτρέπει στους επεξεργαστές να παρακολουθούν την παράμετρο χρόνου και ορισμένους άλλους παράγοντες. Αλλά ο κατασκευαστής δεν παρέχει καμία πληροφορία ακριβώς γιατί συμβαίνει η αστοχία, επομένως κανείς δεν έχει καταλάβει ακριβώς ποια είναι η ρίζα της βλάβης μέχρι τώρα.

Αποτυχία Ως εκ τούτου, θέτει τον επεξεργαστή σε λειτουργία "ζόμπι"., στο οποίο δεν δέχεται εντολές ή αιτήματα εξωτερικής διακοπής και παραμένει σε αυτήν την κατάσταση εκτός εάν γίνει επανεκκίνηση.

Αυτές οι καταστάσεις C ξεκινούν από το C0, που είναι ο κανονικός τρόπος λειτουργίας της CPU. Όσο υψηλότερος είναι ο αριθμός C, τόσο πιο βαθιά η CPU μεταβαίνει σε κατάσταση αναστολής λειτουργίας και τόσο περισσότερα σήματα απενεργοποιούνται. Όσο πιο βαθιά είναι η κατάσταση αδράνειας, τόσο περισσότερο θα χρειαστεί η CPU για να ξυπνήσει πλήρως.

Με αυτό το σφάλμα, μόλις μια CPU εισέλθει στο C6 μετά την ένδειξη 1044 ημερών, κολλάει και απαιτεί επανεκκίνηση. Η λύση είναι να επανεκκινήσετε τον διακομιστή πριν από τρία χρόνια ή να απενεργοποιήσετε την κατάσταση αναστολής λειτουργίας που προκαλεί το σφάλμα.

Η AMD δεν παρέχει πιο λεπτομερή εξήγηση της αιτίας της αποτυχίας. Κρίνοντας από την υπόθεση Δημοσιεύτηκε στο Reddit:

Το hang συμβαίνει όταν ο μετρητής στον καταχωρητή TSC (Time Stamp Counter), ο οποίος μετρά τον αριθμό των κύκλων εργασίας μετά την επαναφορά, σε συχνότητα 2800 MHz φτάσει την τιμή 0x380000000000000 (2800 MHz * 10* *6 * 1042,5, 1042, δηλαδή μετά από 12 ημέρες και XNUMX ώρες).

Εκτός αυτού, Η AMD ανέφερε ότι η διόρθωση σφαλμάτων δεν θα κυκλοφορήσει, καθώς το ζήτημα πέρασε απαρατήρητο για μεγάλο χρονικό διάστημα, επειδή οι χρόνοι λειτουργίας πολλών ετών δεν είναι τυπικοί για διακομιστές που πρέπει να επανεκκινούνται περιοδικά για να εγκαταστήσουν ενημερώσεις πυρήνα ή να μετεγκατασταθούν σε μια νέα έκδοση του λειτουργικού συστήματος για να παραμένουν ενημερωμένοι.

Ωστόσο, οι μέθοδοι αναβάθμισης του πυρήνα χωρίς επανεκκίνηση των διανομών Linux και οι μεγάλοι κύκλοι συντήρησης (τα Ubuntu, RHEL και SUSE υποστηρίζονται για 10 χρόνια) μπορούν να οδηγήσουν σε μεγάλους χρόνους αναμονής για διακομιστές χωρίς επανεκκίνηση.

Οι εκπρόσωποι της εταιρείας είπαν ότι αυτή τη στιγμή Υπάρχουν δύο επιλογές για την επίλυση του προβλήματος: lΟι κάτοχοι διακομιστών σε αυτούς τους επεξεργαστές πρέπει επανεκκινήστε το σύστημα για επαναφορά του χρονοδιακόπτη στις 1044 ημέρεςΑπενεργοποιήστε λοιπόν εντελώς τη λειτουργία εξοικονόμησης ενέργειας Core C6 State. Πιθανώς, και οι δύο επιλογές είναι πολύ ακατάλληλες για τους κατόχους επεξεργαστών διακομιστών - λειτουργία εξοικονόμησης ενέργειας, καθώς εξοικονομεί πολλά χρήματα στην κατανάλωση ενέργειας, έτσι προφανώς κανείς δεν θα την απενεργοποιήσει και θα περιμένει να εμφανιστεί ένα σφάλμα και θα παγώσει και στη συνέχεια θα επανεκκινήσει το σύστημα δεν είναι επίσης μια πολύ βολική λύση. Ειδικά όταν πρόκειται για ορισμένα πραγματικά σημαντικά στοιχεία υποδομής.

Αξίζει να το αναφέρουμε αυτού του είδους τα σφάλματα δεν είναι σπάνια στο τμήμα των επεξεργαστών (ανεξάρτητα αν είναι για διακομιστές ή επιτραπέζιους υπολογιστές), καθώς πολλές φορές τα εμπορικά μοντέλα περιέχουν επίσης πολλά σφάλματα, αλλά στη συνέχεια προσπαθούν να τα διορθώσουν με μια νέα αναθεώρηση ή με διορθώσεις που βασίζονται σε λογισμικό και υλικολογισμικό.

Τελικά Εάν ενδιαφέρεστε να μάθετε περισσότερα γι 'αυτό, Σας προσκαλώ να συμβουλευτείτε πληροφορίες δημοσιεύτηκε από την AMD.