Procesory AMD EPYC 7002 zamrzaly po 1044 dnech provozu kvůli chybě

Chyba AMD Epyc

Problém souvisí s tím, že jádro nevyjde z úsporného režimu

Nedávno byla zveřejněna informace o chybě bzcela zvláštní v řadě serverových procesorů AMD EPYC 7002 („Řím“) na základě mikroarchitektury „Zen 2“ distribuované od roku 2018.

A to je sporné rozhodnutí způsobí zablokování procesoru po 1044 dnech provozu kontinuální (spíše zvláštní situace a to je poněkud neobvyklé.

Krátký příspěvek od AMD uvádí, že serverové procesory XNUMX. generace mají problém že zabraňuje jádrům opustit režim úspory energie Core C6 State (nebo CC6) po dlouhém cyklu. Výrobce zároveň tvrdil, že 1044 dní není absolutní hodnota, protože k poruše může dojít dříve nebo později, protože vše závisí na frekvenci REFCLK, což umožňuje procesorům sledovat parametr času a některé další faktory. Výrobce ale neuvádí žádné přesné informace o tom, proč k poruše dochází, takže dosud nikdo přesně neví, co je kořenem poruchy.

Selhání jako takový uvádí procesor do „zombie“ režimu, ve kterém nepřijímá žádné příkazy ani požadavky na externí přerušení a zůstává v tomto stavu, pokud není restartován.

Tyto režimy stavu C začínají na C0, což je normální provozní režim CPU. Čím vyšší je číslo C, tím hlouběji CPU přejde do režimu spánku a tím více signálů je vypnuto. Čím hlubší je stav spánku, tím déle trvá, než se CPU plně probudí.

S touto chybou, jakmile CPU vstoupí do C6 po 1044 dnech, zasekne se a vyžaduje restart. Řešením je restartování serveru před třemi roky nebo zakázání stavu spánku, který chybu způsobuje.

Bližší vysvětlení AMD neposkytuje o příčině selhání. Soudě podle předpokladu Publikováno na Redditu:

K zablokování dojde, když čítač v registru TSC (Time Stamp Counter), který počítá počet pracovních cyklů po resetu, na frekvenci 2800 MHz dosáhne hodnoty 0x380000000000000 (2800 MHz * 10* *6 * 1042,5, 1042, tedy po 12 dnech a XNUMX hodinách).

Kromě toho, AMD se zmínilo, že oprava chyb nebude vydána, protože problém byl dlouhou dobu bez povšimnutí, protože víceleté doby provozu nejsou typické pro servery, které je třeba pravidelně restartovat, aby instalovaly aktualizace jádra, nebo migrovat na novou verzi operačního systému, aby zůstaly aktuální.

Metody aktualizace jádra bez restartování distribuce Linuxu a dlouhé cykly údržby (Ubuntu, RHEL a SUSE jsou podporovány 10 let) však mohou mít za následek dlouhé čekací doby pro servery bez restartu.

Aktuálně to uvedli zástupci společnosti Existují dvě možnosti řešení problému: lVlastníci serverů na těchto procesorech by měli restartujte systém pro resetování časovače na 1044 dníÚsporný režim Core C6 State tedy zcela vypněte. Pravděpodobně jsou obě možnosti velmi nevhodné pro majitele serverových procesorů - úsporný režim, protože šetří spoustu peněz na spotřebě energie, takže jej samozřejmě nikdo nevypne a nebude čekat, až dojde k chybě a zamrzne, poté restartuje počítač. systém také není příliš pohodlné řešení. Zejména pokud jde o některé opravdu důležité součásti infrastruktury.

Za zmínku stojí tento typ chyb není v segmentu procesorů vzácný (bez ohledu na to, zda jsou pro servery nebo desktopy), protože komerční modely často obsahují také mnoho chyb, ale poté se je snaží opravit novou revizí nebo opravami založenými na softwaru a firmwaru.

Konečně Máte-li zájem o tom vědět více, Zvu vás ke konzultaci informace vydává AMD.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.