GPUHammer: Der erste erfolgreiche Rowhammer-Angriff auf den GDDR6-Videospeicher

GPU Hammer

Vor einigen Tagen veröffentlichte ein Forscherteam Informationen über die Entwicklung des erster Rowhammer-Angriff erlangte das wurde erfolgreich weitergeleitet an la GDDR6-Videospeicher einer GPU, insbesondere einer NVIDIA A6000.

Die Technik, genannt GPUHammer, ermöglicht die Manipulation einzelner Bits im DRAM der GPU, wodurch die Genauigkeit von Machine-Learning-Modellen durch die Änderung nur eines einzigen Bits ihrer Parameter drastisch beeinträchtigt wird. Diese Bit-Flips ermöglichen es einem böswilligen GPU-Benutzer, die GPU-Daten eines anderen Benutzers in gemeinsam genutzten, zeitgeteilten Umgebungen zu manipulieren.

Bisher Die Anwendung von Rowhammer auf Videospeicher wurde als unpraktisch angesehen Aufgrund verschiedener technischer Einschränkungen ist die physikalische Anordnung der Speicherzellen in GDDR-Chips schwer abzubilden, die Zugriffslatenzen sind bis zu viermal langsamer als bei herkömmlichem DRAM, und die Bildwiederholraten sind deutlich höher. Hinzu kommen proprietäre Schutzmechanismen gegen vorzeitigen Ladungsverlust, deren Reverse Engineering spezielle Geräte erforderte.

Um diese Hindernisse zu überwinden, Forscher entwickelten eine neue Reverse-Engineering-Technik für GDDR-DRAMMithilfe von Low-Level-CUDA-Code führten sie den Angriff durch gezielte Optimierungen aus, die den Zugriff auf bestimmte Speicherzellen intensivierten und so Bedingungen für Bitmanipulationen schufen. Der Schlüssel zum Erfolg lag in der hochorganisierten Parallelverarbeitung, die den Druck auf benachbarte Zellen verstärkte.

Wie funktioniert der Angriff?

Der Angriff nutzt eine physikalische Schwäche im DRAM aus, wo intensiver Zugriff auf eine Speicherzeile (bekannt als „Hammering“) kann Veränderungen in benachbarten Reihen bewirkenObwohl diese Sicherheitslücke bereits 2014 erkannt und im CPU-DDR-Speicher umfassend untersucht wurde, stellte die Portierung auf GPUs bisher eine Herausforderung dar, und zwar aus folgenden Gründen:

  • Die hohe Zugriffslatenz von GDDR6 (bis zu 4-mal höher als DDR4).
  • Die Komplexität der physischen Speicherzuweisung.
  • Das Vorhandensein proprietärer und schlecht dokumentierter Abhilfemaßnahmen wie TRR.

Rowhammer ist eine Hardware-Sicherheitslücke, bei der die schnelle Aktivierung einer Speicherzeile zu Bit-Flips in benachbarten Zeilen führt. Seit 2014 wird diese Sicherheitslücke bei CPUs und CPU-basierten Speichern wie DDR3, DDR4 und LPDDR4 umfassend untersucht. Da kritische KI- und Machine-Learning-Workloads mittlerweile auf diskreten GPUs in der Cloud ausgeführt werden, ist die Bewertung der Anfälligkeit von GPU-Speichern für Rowhammer-Angriffe von entscheidender Bedeutung.

Trotz dieser Hindernisse Forschern gelang es, Reverse Engineering anzuwenden zur virtuellen/physischen Speicherzuweisung in CUDA, Sie entwickelten eine Methode zur Identifizierung bestimmter DRAM-Speicherbänke und optimierter paralleler Zugriff mithilfe mehrerer Threads und Warps, wodurch die Hammering-Rate maximiert wird, ohne zusätzliche Latenz zu verursachen.

Der Proof of Concept zeigte, wie eine einzelne Bitänderung der Modellgewichte von Deep Neural Networks (DNN), insbesondere in FP16-Exponenten, die Top-1-Genauigkeit von Bildklassifizierungsmodellen auf ImageNet von 80 % auf 0,1 % verringern kann. Dieses Ergebnis ist alarmierend für Rechenzentren und Cloud-Dienste, die KI-Workloads in gemeinsam genutzten Umgebungen mit GPUs ausführen.

Abschwächungen und Einschränkungen

NVIDIA hat die Sicherheitslücke bestätigt und empfiehlt, die ECC-Unterstützung zu aktivieren. (Fehlerkorrekturcode) mit dem Befehl nvidia-smi -e 1. Obwohl Mit dieser Maßnahme können Fehler behoben werden Einzelbit, Dies bedeutet einen Leistungsverlust von bis zu 10 %. und eine Reduzierung des verfügbaren Speichers um 6,25 %. Es schützt auch nicht vor zukünftigen Angriffen mit mehreren Bit-Flips.

Wir konnten Rowhammer-Bitschwankungen auf NVIDIA A6000-GPUs mit GDDR6-Speicher feststellen. Andere GDDR6-GPUs, wie die RTX 3080, zeigten in unseren Tests keine Bitschwankungen, möglicherweise aufgrund von Unterschieden beim DRAM-Anbieter, den Chipeigenschaften oder den Betriebsbedingungen wie der Temperatur. Auch auf einer A100-GPU mit HBM-Speicher konnten wir keine Schwankungen feststellen.

Das Team betont, dass GPUHammer wurde derzeit nur auf der A6000-GPU mit GDDR6 verifiziert, und nicht auf Modellen wie dem A100 (HBM) oder RTX 3080. Da es sich jedoch um einen erweiterbaren Angriff handelt, werden andere Forscher ermutigt, die Analyse auf verschiedene GPU-Architekturen und -Modelle zu replizieren und zu erweitern.

Und wenn Sie daran interessiert sind, mehr darüber zu erfahren, können Sie sich die Details im ansehen folgenden Link