NVIDIA H100 : Problèmes rencontrés lors de l’entraînement de l’IA Llama de Meta

Par Guillaume Meyer Le 29 Juil 2024 à 20 h 57

Dans le monde en pleine effervescence de l’intelligence artificielle, des défis inattendus peuvent surgir. Récemment, la formation de Llama 3 par Meta a été entravée par des problèmes techniques liés aux puissantes GPU d’NVIDIA. Découvrez comment l’équipe a navigué à travers ces obstacles pour faire avancer la recherche en IA.

Les GPU NVIDIA H100 ont, semble-t-il, ralenti l’entraînement de Llama 3 chez Meta en raison de problème mémoires. L’équipe de Meta a dû surmonter plus de 400 échecs pour entraîner son IA.

D’après une étude récente de Meta, l’entraînement de Llama 3 n’a pas été un parcours tranquille. Le vaste ensemble de GPU NVIDIA H100 a souffert de soucis de mémoire. Et ce n’est pas juste quelques erreurs isolées. En tout, l’équipe a dû faire face à 466 interruptions, dont 419 étaient dues à des pannes inattendues, et les 47 restantes à une maintenance planifiée.

Ce nombre élevé d’échecs est d’autant plus préoccupant quand on considère que la formation a duré seulement 54 jours. Cela indique que l’équipe de Llama 3 a dû gérer des dizaines de ces interruptions chaque jour. Je pensais que l’intelligence artificielle était censée nous faciliter la vie. Malgré tout cela, l’équipe a réussi à maintenir un temps de formation efficace de plus de 90 %.

Ces problèmes étaient apparemment dus à une mémoire HBM3 défectueuse, ce qui a entraîné 58,7 % des interruptions attribuées aux GPU. Heureusement, seules trois incidents ont nécessité une intervention manuelle significative, l’automatisation ayant résolu la plupart des problèmes. Pour être équitable, les GPU de NVIDIA n’étaient pas responsables de tous les bugs ; beaucoup provenaient de problèmes logiciels ou de réseau. Il y a même eu quelques pannes matérielles, mais celles-ci n’ont pas engendré des coûts de 30 000 €.

Quoi qu’il en soit, cela laisse une marque sur la réputation de NVIDIA, d’autant plus que ces puces sont les plus prisées au monde, avec des files d’attente pour recevoir des envois de plusieurs semaines. Même la Chine veut sa part du gâteau en intelligence artificielle, ce qui pousse NVIDIA à concevoir un modèle spécifique afin d’éviter les sanctions américaines.

Meta a entraîné les 175 milliards de paramètres de Llama 3 en utilisant un énorme cluster de 16 384 GPU H100 basés sur l’architecture Hopper. Le H100 figure parmi les solutions d’entraînement AI les plus rapides sur le marché, offrant 14 592 ou 16 896 cœurs CUDA, selon qu’il s’agit d’un modèle PCIe 80 Go HDBM2e ou PCIe 96 Go HBM3. Le Blackwell B200 est le seul GPU qui le dépasse.

NVIDIA