Bộ vi xử lý AMD EPYC 7002 bị đóng băng sau 1044 ngày hoạt động do lỗi

Lỗi AMD Epyc

Vấn đề liên quan đến thực tế là hạt nhân không thoát khỏi chế độ tiết kiệm năng lượng

Gần đây thông tin đã được phát hành về một lỗi bkhá đặc biệt trong dòng vi xử lý máy chủ AMD EPYC 7002 (“Rome”) dựa trên vi kiến ​​trúc “Zen 2” được phân phối từ năm 2018.

Và đó là câu hỏi về phán quyết khiến bộ xử lý bị treo sau 1044 ngày hoạt động liên tục (một tình huống khá đặc biệt và điều đó hơi không phổ biến.

Một bài viết ngắn từ AMD chỉ ra rằng bộ xử lý máy chủ thế hệ thứ XNUMX đang gặp sự cố ngăn các lõi thoát khỏi chế độ tiết kiệm năng lượng Trạng thái Core C6 (hoặc CC6) sau một chu kỳ dài. Đồng thời, nhà sản xuất cho rằng 1044 ngày không phải là giá trị tuyệt đối, vì lỗi có thể xảy ra sớm hơn hoặc muộn hơn, vì tất cả phụ thuộc vào tần số của REFCLK, cho phép bộ xử lý theo dõi tham số thời gian và một số yếu tố khác. Nhưng nhà sản xuất không cung cấp bất kỳ thông tin nào chính xác tại sao lại xảy ra lỗi, vì vậy cho đến bây giờ không ai hiểu chính xác gốc rễ của lỗi là gì.

Sự thất bại như vậy, nó đặt bộ xử lý ở chế độ "thây ma", trong đó nó không chấp nhận bất kỳ lệnh hoặc yêu cầu ngắt bên ngoài nào và vẫn ở trạng thái này trừ khi được khởi động lại.

Các chế độ trạng thái C này bắt đầu ở C0, đây là chế độ hoạt động bình thường của CPU. Số C càng cao, CPU càng chuyển sang chế độ ngủ sâu và càng nhiều tín hiệu bị tắt. Trạng thái ngủ càng sâu thì càng mất nhiều thời gian để CPU đánh thức hoàn toàn.

Với lỗi này, khi CPU vào C6 sau mốc 1044 ngày, nó sẽ bị kẹt và yêu cầu khởi động lại. Giải pháp là khởi động lại máy chủ trước ba năm hoặc vô hiệu hóa trạng thái ngủ gây ra lỗi.

AMD không cung cấp lời giải thích chi tiết hơn về nguyên nhân của sự thất bại. Đánh giá theo giả định Đăng trên Reddit:

Treo xảy ra khi bộ đếm trong thanh ghi TSC (Bộ đếm dấu thời gian), đếm số chu kỳ làm việc sau khi đặt lại, ở tần số 2800 MHz đạt đến giá trị 0x380000000000000 (2800 MHz * 10* *6 * 1042,5, 1042, nghĩa là sau 12 ngày và XNUMX giờ).

Bên cạnh đó, AMD đã đề cập rằng bản sửa lỗi sẽ không được phát hành, vì sự cố này đã không được chú ý trong một thời gian dài do thời gian hoạt động kéo dài nhiều năm không phải là điển hình đối với các máy chủ cần được khởi động lại định kỳ để cài đặt các bản cập nhật nhân hoặc chuyển sang phiên bản hệ điều hành mới để luôn cập nhật.

Tuy nhiên, các phương pháp nâng cấp nhân không cần khởi động lại của các bản phân phối Linux và các chu kỳ bảo trì dài (Ubuntu, RHEL và SUSE được hỗ trợ trong 10 năm) có thể dẫn đến thời gian chờ đợi lâu cho các máy chủ mà không cần khởi động lại.

Đại diện công ty cho biết, hiện nay Có hai lựa chọn để giải quyết vấn đề: lChủ sở hữu máy chủ trên các bộ xử lý này nên khởi động lại hệ thống để đặt lại bộ đếm thời gian thành 1044 ngàyVì vậy, hãy tắt hoàn toàn chế độ tiết kiệm năng lượng của Core C6 State. Có lẽ, cả hai tùy chọn đều rất không phù hợp với chủ sở hữu bộ xử lý máy chủ - chế độ tiết kiệm năng lượng, vì nó tiết kiệm rất nhiều tiền cho mức tiêu thụ điện năng, vì vậy rõ ràng là sẽ không có ai tắt nó đi và đợi lỗi xảy ra và nó bị treo rồi khởi động lại hệ thống cũng không phải là một giải pháp rất thuận tiện. Đặc biệt là khi nói đến một số thành phần cơ sở hạ tầng thực sự quan trọng.

điều đáng nói là loại lỗi này không hiếm ở phân khúc vi xử lý (bất kể chúng dành cho máy chủ hay máy tính để bàn), vì nhiều khi các mẫu thương mại cũng có nhiều lỗi, nhưng sau đó họ cố gắng vá chúng bằng một bản sửa đổi mới hoặc bằng các bản sửa lỗi dựa trên phần mềm và phần sụn.

Cuối cùng Nếu bạn muốn biết thêm về nó, Mời các bạn tham khảo thông tin do AMD phát hành.


Để lại bình luận của bạn

địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu bằng *

*

*

  1. Chịu trách nhiệm về dữ liệu: Miguel Ángel Gatón
  2. Mục đích của dữ liệu: Kiểm soát SPAM, quản lý bình luận.
  3. Hợp pháp: Sự đồng ý của bạn
  4. Truyền thông dữ liệu: Dữ liệu sẽ không được thông báo cho các bên thứ ba trừ khi có nghĩa vụ pháp lý.
  5. Lưu trữ dữ liệu: Cơ sở dữ liệu do Occentus Networks (EU) lưu trữ
  6. Quyền: Bất cứ lúc nào bạn có thể giới hạn, khôi phục và xóa thông tin của mình.