Des perturbations à un seul bit dans les banques de DRAM peuvent réduire l’exactitude des performances des GPU à moins de 1%. C’est ce qu’ont démontré des chercheurs lors de leurs travaux sur le GPUHammer, un outil qui met en lumière des vulnérabilités préexistantes.
Recherche à l’Université de Toronto sur les Attaques RowHammer
Les chercheurs de l’Université de Toronto ont révélé que les attaques type RowHammer peuvent affecter l’exactitude des modèles d’IA sur les GPU en provoquant des inversions de bits dans la mémoire. Cette faiblesse, exploitant la fragilité du stockage, peut être apprise également sur les unités graphiques.
En soumettant les banques de DRAM à des tests, notamment la VRAM GDDR6 de la NVIDIA RTX A6000, les chercheurs ont sérieusement altéré l’efficacité des GPU dans les modèles d’IA. Même avec des défenses matérielles, un simple basculement de bit dans la valeur FP16 a fait chuter l’exactitude des prévisions DNN de 80% à seulement 0,1% dans des modèles majeurs d’ImageNet.

Crédit : gpuhammer.com
Le fonctionnement du GPUHammer repose sur trois étapes clés : l’ingénierie inverse des mappages de DRAM, l’optimisation de l’efficacité d’attaque, et la synchronisation avec les cycles de rafraîchissement de DRAM. Ces méthodes ont permis de provoquer des inversions de bits dans quatre banques de DRAM avec environ 12 000 activations par inversion.
Les différences possibles dans la mémoire GDDR6 entre les GPU pourraient expliquer pourquoi d’autres modèles comme le RTX 3080 n’ont pas montré de tels effets. NVIDIA utilise des puces de différents fournisseurs telles que Samsung, SK Hynix et Micron. Des tests sur la NVIDIA RTX 5090 ou les cartes des centres de données, comme les A100 et H100 équipées de HBM, n’ont également pas révélé de problèmes.
Malgré cela, les propriétaires d’une RTX A6000 ne doivent pas s’inquiéter, car il est possible de limiter l’impact du GPUHammer en activant l’ECC (Code de Correction d’Erreur), qui permet de détecter et corriger ces inversions de bits.
Cependant, une telle protection peut entraîner une baisse de performance sur la RTX A6000, avec des pertes de jusqu’à 10 % en travaux d’inférence ML et 6,25 % de capacité VRAM utilisable. NVIDIA a émis une alerte à ce sujet, en conseillant d’activer l’ECC au niveau du système pour les GPU concernés. Heureusement, de nombreux GPU modernes, notamment ceux de la série Hopper et Blackwell, ont l’ECC activé par défaut.



