버그로 인해 AMD EPYC 7002 프로세서가 1044일 작동 후 정지되었습니다.

AMD 에픽 오류

문제는 커널이 절전 모드에서 나오지 않는다는 사실과 관련이 있습니다.

최근에 버그 b에 대한 정보가 공개되었습니다.서버 프로세서 시리즈에서 특히 AMD EPYC 7002 ("로마")는 2년부터 배포된 "Zen 2018" 마이크로아키텍처를 기반으로 합니다.

그리고 문제의 판결은 1044일의 작동 후 프로세서가 중단됨 연속적(다소 특수한 상황이며 이는 다소 드문 경우입니다.

의 짧은 게시물 AMD는 XNUMX세대 서버 프로세서에 문제가 있음을 나타냅니다. 해적 코어가 Core C6 상태 절전 모드를 종료하는 것을 방지합니다. (또는 CC6) 장기 실행 주기 후. 동시에 제조업체는 1044일이 절대값이 아니라고 주장했습니다. 그것은 모두 REFCLK의 주파수에 달려 있습니다. 이를 통해 프로세서는 시간 매개변수 및 기타 요인을 추적할 수 있습니다. 하지만 제조사에서 왜 고장이 발생했는지에 대한 정확한 정보를 제공하지 않아 지금까지 아무도 고장의 근원이 무엇인지 정확히 이해하지 못하고 있다.

실패 따라서 프로세서를 "좀비" 모드로 전환합니다., 명령이나 외부 인터럽트 요청을 수락하지 않고 다시 시작하지 않는 한 이 상태를 유지합니다.

이러한 C 상태 모드는 CPU의 정상 작동 모드인 C0에서 시작합니다. C 번호가 높을수록 CPU가 절전 모드로 들어가고 더 많은 신호가 꺼집니다. 슬립 상태가 깊을수록 CPU가 완전히 깨어나는 데 더 오래 걸립니다.

이 버그로 인해 CPU가 6일 표시를 지나 C1044에 진입하면 중단되고 재부팅이 필요합니다. 해결 방법은 XNUMX년 전에 서버를 재부팅하거나 오류를 일으키는 절전 상태를 비활성화하는 것입니다.

AMD는 더 자세한 설명을 제공하지 않습니다. 실패의 원인. 가정으로 판단 Reddit에 게시됨:

중단은 2800MHz의 주파수에서 재설정 후 작업 주기 수를 계산하는 TSC 레지스터(타임 스탬프 카운터)의 카운터가 값 0x380000000000000(2800MHz * 10* *6 * 1042,5, 1042, 즉, 12일 XNUMX시간 후).

그 외에도 AMD는 버그 수정이 릴리스되지 않을 것이라고 언급했습니다., 커널 업데이트를 설치하거나 최신 상태를 유지하기 위해 새 OS 버전으로 마이그레이션하기 위해 주기적으로 재부팅해야 하는 서버의 경우 다년 가동 시간이 일반적이지 않기 때문에 문제가 오랫동안 눈에 띄지 않았습니다.

그러나 Linux 배포판의 재부팅 없는 커널 업그레이드 방법과 긴 유지 관리 주기(Ubuntu, RHEL 및 SUSE는 10년 동안 지원됨)로 인해 재부팅 없이 서버에 대한 대기 시간이 길어질 수 있습니다.

회사 관계자는 현재 문제를 해결하기 위한 두 가지 옵션이 있습니다. l이러한 프로세서의 서버 소유자는 다음을 수행해야 합니다. 시스템을 다시 시작 타이머를 1044일로 재설정하려면따라서 Core C6 State 절전 모드를 완전히 비활성화하십시오. 아마도 두 옵션 모두 서버 프로세서 소유자에게 매우 적합하지 않습니다. 절전 모드는 전력 소비에 많은 돈을 절약하기 때문에 분명히 아무도 그것을 끄고 오류가 발생할 때까지 기다리지 않고 정지한 다음 재부팅합니다. 시스템도 그다지 편리한 솔루션이 아닙니다. 특히 정말 중요한 일부 인프라 구성 요소의 경우에는 더욱 그렇습니다.

언급 할 가치가 있습니다. 이러한 유형의 오류는 프로세서 세그먼트에서 드물지 않습니다. (서버용이든 데스크톱용이든 상관없이) 상용 모델에도 많은 버그가 포함되어 있지만 새 개정판이나 소프트웨어 및 펌웨어 기반 수정으로 패치하려고 합니다.

최종적으로 그것에 대해 더 많이 알고 싶다면 상담에 초대합니다 정보 AMD에서 발표했습니다.


코멘트를 남겨주세요

귀하의 이메일 주소는 공개되지 않습니다. 필수 필드가 표시되어 있습니다 *

*

*

  1. 데이터 책임자 : Miguel Ángel Gatón
  2. 데이터의 목적 : 스팸 제어, 댓글 관리.
  3. 합법성 : 귀하의 동의
  4. 데이터 전달 : 법적 의무에 의한 경우를 제외하고 데이터는 제 XNUMX 자에게 전달되지 않습니다.
  5. 데이터 저장소 : Occentus Networks (EU)에서 호스팅하는 데이터베이스
  6. 권리 : 귀하는 언제든지 귀하의 정보를 제한, 복구 및 삭제할 수 있습니다.