Beberapa hari yang lalu, informasi dirilis oleh tim peneliti tentang pengembangan serangan Rowhammer pertama bahwa telah berhasil diarahkan ke la Memori video GDDR6 GPU, khususnya NVIDIA A6000.
Tekniknya, dijuluki GPUHammer, memungkinkan bit individual dalam DRAM GPU untuk dimanipulasi, yang secara drastis menurunkan akurasi model pembelajaran mesin hanya dengan mengubah satu bit parameternya. Pembalikan bit ini memungkinkan pengguna GPU jahat untuk memanipulasi data GPU pengguna lain dalam lingkungan bersama yang terbagi dalam waktu.
Sampai sekarang, Penerapan Rowhammer pada memori video dianggap tidak praktis karena beberapa keterbatasan teknis. Tata letak fisik sel memori dalam chip GDDR sulit dipetakan, latensi akses hingga empat kali lebih lambat daripada DRAM konvensional, dan kecepatan refresh yang jauh lebih tinggi. Selain itu, terdapat mekanisme perlindungan khusus terhadap kehilangan daya prematur, yang rekayasa baliknya membutuhkan peralatan khusus.
Untuk mengatasi kendala tersebut, Para peneliti mengembangkan teknik rekayasa balik baru yang menargetkan DRAM GDDRDengan menggunakan kode CUDA tingkat rendah, mereka mengeksekusi serangan melalui optimasi spesifik yang mengintensifkan akses ke sel memori tertentu, menciptakan kondisi yang kondusif untuk manipulasi bit. Kunci keberhasilan terletak pada pencapaian komputasi paralel yang sangat terorganisir, yang bertindak sebagai penguat tekanan pada sel-sel di sekitarnya.
Bagaimana serangan itu bekerja?
Serangan itu memanfaatkan kelemahan fisik pada DRAM, di mana akses intensif ke baris memori (dikenal sebagai “hammering”) dapat menyebabkan perubahan pada baris yang berdekatanMeskipun kerentanan ini teridentifikasi pada tahun 2014 dan dipelajari secara ekstensif dalam memori CPU DDR, pemindahannya ke GPU sejauh ini menjadi tantangan karena:
- Latensi akses tinggi GDDR6 (hingga 4 kali lebih tinggi dari DDR4).
- Kompleksitas dalam alokasi fisik memori.
- Adanya mitigasi yang bersifat hak milik dan kurang terdokumentasi, seperti TRR.
Rowhammer adalah kerentanan perangkat keras di mana aktivasi cepat satu baris memori akan menyebabkan pembalikan bit pada baris-baris yang berdekatan. Sejak 2014, kerentanan ini telah dipelajari secara luas pada CPU dan memori berbasis CPU seperti DDR3, DDR4, dan LPDDR4. Namun, karena beban kerja AI dan pembelajaran mesin yang kritis kini berjalan pada GPU diskrit di cloud, penilaian kerentanan memori GPU terhadap serangan Rowhammer menjadi sangat penting.
Meskipun terdapat kendala-kendala tersebut, Para peneliti berhasil menerapkan rekayasa balik tentang alokasi memori virtual/fisik di CUDA, Mereka mengembangkan metode untuk mengidentifikasi bank memori DRAM tertentu dan akses paralel yang dioptimalkan menggunakan beberapa thread dan warp, memaksimalkan laju hammering tanpa menimbulkan latensi tambahan.
Bukti konsep menunjukkan bagaimana perubahan satu bit pada bobot model jaringan saraf dalam (DNN), khususnya pada eksponen FP16, dapat menurunkan akurasi model klasifikasi gambar teratas di ImageNet dari 1% menjadi 80%. Temuan ini mengkhawatirkan bagi pusat data dan layanan cloud yang menjalankan beban kerja AI di lingkungan bersama dengan GPU.
Mitigasi dan keterbatasan
NVIDIA telah mengonfirmasi kerentanan tersebut dan merekomendasikan untuk mengaktifkan dukungan ECC. (Kode Koreksi Kesalahan) menggunakan perintah nvidia-smi -e 1. Meskipun Pengukuran ini dapat memperbaiki kesalahan bit tunggal, Ini berarti hilangnya kinerja hingga 10%. dan pengurangan memori yang tersedia sebesar 6,25%. Hal ini juga tidak melindungi dari serangan di masa mendatang yang melibatkan beberapa pembalikan bit.
Kami mengonfirmasi fluktuasi bit Rowhammer pada GPU NVIDIA A6000 dengan memori GDDR6. GPU GDDR6 lainnya, seperti RTX 3080, tidak menunjukkan fluktuasi bit dalam pengujian kami, kemungkinan karena variasi vendor DRAM, karakteristik chip, atau kondisi pengoperasian seperti suhu. Kami juga tidak mengamati fluktuasi apa pun pada GPU A100 dengan memori HBM.
Tim menyoroti bahwa GPUHammer saat ini hanya diverifikasi pada GPU A6000 dengan GDDR6, dan tidak pada model seperti A100 (HBM) atau RTX 3080. Namun, karena ini merupakan serangan yang dapat diperluas, peneliti lain didorong untuk mereplikasi dan memperluas analisis pada arsitektur dan model GPU yang berbeda.
Terakhir, jika Anda tertarik untuk mempelajarinya lebih lanjut, Anda dapat melihat detailnya di link berikut.