Recherche : GPUHammer peut réduire la précision des modèles IA sur GPUs GDDR6 de 80% à 0.1%

Des perturbations à un seul bit dans les banques de DRAM peuvent réduire l’exactitude des performances des GPU à moins de 1%. C’est ce qu’ont démontré des chercheurs lors de leurs travaux sur le GPUHammer, un outil qui met en lumière des vulnérabilités préexistantes.

Recherche à l’Université de Toronto sur les Attaques RowHammer

Les chercheurs de l’Université de Toronto ont révélé que les attaques type RowHammer peuvent affecter l’exactitude des modèles d’IA sur les GPU en provoquant des inversions de bits dans la mémoire. Cette faiblesse, exploitant la fragilité du stockage, peut être apprise également sur les unités graphiques.

En soumettant les banques de DRAM à des tests, notamment la VRAM GDDR6 de la NVIDIA RTX A6000, les chercheurs ont sérieusement altéré l’efficacité des GPU dans les modèles d’IA. Même avec des défenses matérielles, un simple basculement de bit dans la valeur FP16 a fait chuter l’exactitude des prévisions DNN de 80% à seulement 0,1% dans des modèles majeurs d’ImageNet.

RTX A6000 Flips

Crédit : gpuhammer.com

Le fonctionnement du GPUHammer repose sur trois étapes clés : l’ingénierie inverse des mappages de DRAM, l’optimisation de l’efficacité d’attaque, et la synchronisation avec les cycles de rafraîchissement de DRAM. Ces méthodes ont permis de provoquer des inversions de bits dans quatre banques de DRAM avec environ 12 000 activations par inversion.

Les différences possibles dans la mémoire GDDR6 entre les GPU pourraient expliquer pourquoi d’autres modèles comme le RTX 3080 n’ont pas montré de tels effets. NVIDIA utilise des puces de différents fournisseurs telles que Samsung, SK Hynix et Micron. Des tests sur la NVIDIA RTX 5090 ou les cartes des centres de données, comme les A100 et H100 équipées de HBM, n’ont également pas révélé de problèmes.

À lire :  Lisuan lance ses nouvelles cartes graphiques “Lisuan Extreme” et “LX” PRO/AI en Chine

Malgré cela, les propriétaires d’une RTX A6000 ne doivent pas s’inquiéter, car il est possible de limiter l’impact du GPUHammer en activant l’ECC (Code de Correction d’Erreur), qui permet de détecter et corriger ces inversions de bits.

Cependant, une telle protection peut entraîner une baisse de performance sur la RTX A6000, avec des pertes de jusqu’à 10 % en travaux d’inférence ML et 6,25 % de capacité VRAM utilisable. NVIDIA a émis une alerte à ce sujet, en conseillant d’activer l’ECC au niveau du système pour les GPU concernés. Heureusement, de nombreux GPU modernes, notamment ceux de la série Hopper et Blackwell, ont l’ECC activé par défaut.

Guide Optimisation Pc Windows 11 Jeux Performance Bot Guide Optimisations Pc Windows 10 Jeux Performances Sur Omgpu.com Bot

Guide Comment Reduire Input Lag Latence Omgpu Bot Comment supprimer Coil Whine carte graphique

Vous pourriez aussi aimer