Les entreprises technologiques s’affrontent pour créer des supercalculateurs IA de 100 000+ GPU

Par Romain Vasseur Le 28 Nov 2024 à 09 h 36

Dans un contexte de compétitions féroces, les géants de la technologie entendent transformer l’industrie de l’IA en rassemblant des milliers de puces NVIDIA. Avec des projets épiques, comme le supercalculateur « Colossus » d’xAI, ces entreprises visent à développer des modèles d’IA toujours plus puissants.

La grande image : L’industrie de l’IA entre dans un territoire inexploré, même si des questions demeurent sur les limites pratiques de l’évolutivité et le retour sur ces investissements massifs. Pourtant, des entreprises comme Meta, OpenAI, Microsoft, xAI et Google continuent de repousser les frontières de ce qui est possible en matière de calcul IA.

Un nouveau critère d’évaluation des compétences en IA a émergé : la capacité de rassembler le plus de puces NVIDIA en un seul endroit. Cette compétition entre les géants technologiques redéfinit l’industrie de l’IA, générant des investissements sans précédent dans les infrastructures de calcul et repoussant les limites de l’apprentissage automatique.

À l’avant-garde de cette course technologique se trouvent des entreprises comme xAI d’Elon Musk et Meta de Mark Zuckerberg. Ces sociétés construisent d’énormes superclusters de serveurs informatiques, chacun abritant un nombre impressionnant de processeurs IA spécialisés de NVIDIA. L’échelle de ces projets est stupéfiante, avec des coûts atteignant des milliards d’euros et un nombre de puces s’élevant à des centaines de milliers.

L’entrée d’xAI dans ce jeu à enjeux élevés est particulièrement remarquable. En une période remarquablement courte, l’entreprise a construit un superordinateur surnommé « Colossus » à Memphis. Ce dernier possède 100 000 puces IA NVIDIA Hopper, un chiffre qui était considéré comme extraordinaire il y a tout juste un an, lorsque des clusters de dizaines de milliers de puces étaient vus comme très grands.

Parallèlement, Zuckerberg a récemment annoncé que Meta est déjà en train de former ses modèles IA les plus avancés sur un ensemble de puces qu’il affirme dépasser tout ce qui a été rapporté par ses concurrents.

La motivation derrière ces investissements massifs est claire : des clusters plus grands de puces interconnectées ont jusqu’à présent conduit à des modèles IA plus performants développés à des rythmes plus rapides, certains leaders de l’industrie envisagent déjà des clusters contenant des millions de GPU.

NVIDIA, la société au centre de cette course technologique, devrait bénéficier enormement de cette tendance, et son PDG Jensen Huang ne voit pas de fin en vue pour cette trajectoire de croissance. Il envisage des futurs clusters commençant autour de 100 000 puces Blackwell.

Cependant, cette course vers des clusters de puces toujours plus grands n’est pas sans défis et incertitudes. À mesure que la taille de ces superclusters augmente, les enjeux d’ingénierie se multiplient. Maintenir au frais des dizaines de milliers de puces gourmandes en énergie est un enjeu majeur, entraînant des innovations dans la technologie de refroidissement. Le refroidissement liquide, où un réfrigérant est acheminé directement vers les puces, devient de plus en plus courant dans ces installations massives.

La fiabilité est un autre défi important. Les chercheurs de Meta ont découvert qu’un cluster de plus de 16 000 GPU NVIDIA a connu des pannes récurrentes de puces et d’autres composants pendant une période de formation de 54 jours pour une version avancée de leur modèle Llama.

Malgré ces défis, la poussée vers des clusters d’IA plus grands et plus puissants ne montre aucun signe de ralentissement. Elon Musk a déjà annoncé des plans pour étendre le Colossus d’xAI de 100 000 puces à 200 000 dans un seul bâtiment, avec l’ambition d’atteindre 300 000 des nouvelles puces de NVIDIA d’ici l’été prochain.

La course à la suprématie IA stimule également la demande pour l’équipement réseau de NVIDIA, qui devient rapidement une activité significative en soi. Les revenus du réseau de l’entreprise ont atteint 3,13 milliards d’euros en 2024, soit une augmentation de 51,8 % par rapport à l’année précédente. Les offres de réseau de NVIDIA, y compris le Switch Ethernet accéléré pour l’IA et le cloud, Quantum InfiniBand pour l’IA et le calcul scientifique, et les accélérateurs de réseau Bluefield, sont essentiels pour connecter et gérer ces énormes clusters de puces.

Malgré ces dépenses colossales, la question de l’évolutivité reste sans réponse. Dylan Patel, analyste en chef de SemiAnalysis, a déclaré au Wall Street Journal que bien qu’il n’y ait aucune preuve que ces systèmes s’échelonneront efficacement jusqu’à un million de puces ou à un système de 100 milliards d’euros, ils ont déjà démontré une évolutivité impressionnante, passant de dizaines de puces à 100 000.