Les racks AI liquides de NVIDIA promettent 25x d’efficacité énergétique et 300x en eau

Par Romain Vasseur Le 25 Avr 2025 à 21 h 12

Face aux défis de la montée en puissance des centres de données, de nouvelles technologies de refroidissement émergent. NVIDIA, avec ses systèmes avancés, propose des solutions innovantes pour gérer la chaleur intense générée par des configurations de serveurs hautement densifiés, tout en améliorant l’efficacité énergétique et l’utilisation de l’eau.

Alors que l’intelligence artificielle et le calcul haute performance stimulent la demande pour des centres de données de plus en plus puissants, l’industrie doit relever un défi croissant : comment refroidir des racks de serveurs densément peuplés sans utiliser des quantités d’énergie et d’eau non durables. Les systèmes de refroidissement par air traditionnels, jadis adéquats pour les générations antérieures de hardware serveur, sont désormais poussés à leurs limites par la forte production thermique des infrastructures modernes d’IA.

Ce changement se manifeste de manière particulièrement évidente dans les dernières offres de NVIDIA. Les systèmes rack-scale GB200 NVL72 et GB300 NVL72 de l’entreprise représentent un bond significatif en densité de calcul, intégrant des dizaines de GPU et de CPU dans chaque rack pour répondre aux exigences de performance des modèles d’IA à un trillion de paramètres et des tâches d’inférence à grande échelle.

Cependant, ce niveau de performance a un coût élevé. Alors qu’un rack de centre de données typique consomme entre 7 et 20 kilowatts (les racks de GPU haut de gamme ayant une consommation moyenne de 40 à 60 kilowatts), les nouveaux systèmes de NVIDIA nécessitent entre 120 et 140 kilowatts par rack. C’est plus de sept fois la consommation des installations conventionnelles.

Cette augmentation spectaculaire de la densité énergétique rend les méthodes de refroidissement par air traditionnelles inadaptées pour de tels clusters haute performance. L’air n’est tout simplement pas capable d’évacuer la chaleur assez rapidement pour éviter la surchauffe, surtout à mesure que les racks deviennent de plus en plus compacts.

Pour remédier à cela, NVIDIA a adopté le refroidissement liquide direct sur puce – un système qui fait circuler un liquide de refroidissement à travers des plaques froides montées directement sur les composants les plus chauds, tels que les GPU et les CPU. Cette approche transfère la chaleur bien plus efficacement que l’air, permettant des configurations plus denses et plus puissantes.

Contrairement au refroidissement évaporatif traditionnel, qui consomme de grandes quantités d’eau pour refroidir l’air ou l’eau circulant dans un centre de données, l’approche de NVIDIA utilise un système liquide en boucle fermée. Dans ce système, le liquide de refroidissement circule en continu sans s’évaporer, éliminant pratiquement les pertes d’eau et améliorant considérablement l’efficacité en eau.

Selon NVIDIA, sa conception de refroidissement liquide est jusqu’à 25 fois plus efficace sur le plan énergétique et 300 fois plus efficace sur le plan de l’eau que les méthodes de refroidissement conventionnelles – une affirmation ayant des implications significatives pour les coûts opérationnels et la durabilité environnementale.

L’architecture derrière ces systèmes est sophistiquée. La chaleur absorbée par le liquide de refroidissement est transférée via des échangeurs de chaleur liquide-à-liquide au niveau du rack – connus sous le nom d’Unités de Distribution de Liquide (CDUs) – vers l’infrastructure de refroidissement globale de l’établissement.

Ces CDUs, développées par des partenaires constructeurs comme CoolIT et Motivair, peuvent gérer jusqu’à deux mégawatts de capacité de refroidissement, soutenant les charges thermiques immenses produites par des racks haute densité. De plus, le refroidissement par eau chaude réduit la dépendance aux groupes froids mécaniques, abaissant encore la consommation d’énergie et l’utilisation de l’eau.

Cependant, la transition vers le refroidissement liquide direct pose des défis. Les centres de données sont traditionnellement conçus avec la modularité et la maintenabilité à l’esprit, utilisant des composants échangeables à chaud pour un entretien rapide. Les systèmes de refroidissement liquide entièrement scellés compliquent ce modèle, car briser un sceau hermétique pour remplacer un serveur ou un GPU risque de compromettre l’ensemble de la boucle.

Pour atténuer ces risques, les systèmes direct sur puce utilisent des raccords à déconnexion rapide avec des joints sans goutte, équilibrant maintenabilité et prévention des fuites. Néanmoins, le déploiement du refroidissement liquide à grande échelle nécessite souvent une refonte substantielle des infrastructures physiques d’un établissement, nécessitant un investissement initial significatif.

Malgré ces obstacles, les gains de performance offerts par les systèmes basés sur Blackwell de NVIDIA convainquent les opérateurs d’avancer avec les rénovations de refroidissement liquide. NVIDIA s’est associé à Schneider Electric pour développer des architectures de référence qui accélèrent le déploiement de clusters haute densité et refroidis par liquide. Ces conceptions, intégrant des CDUs avancées et une gestion thermique sophistiquée, supportent jusqu’à 132 kilowatts par rack.

NVIDIA