Système AI Catalina Pod de Meta : NVIDIA Blackwell GB200 NVL72, Open Rack v3 et refroidissement liquide

Meta a récemment dévoilé les éléments clés de son système d’IA Catalina, s’appuyant sur la solution GPU NVL72 d’NVIDIA, avec Open Rack v3 et un système de refroidissement liquide.

En 2022, Meta a principalement géré des clusters comptant près de 6,000 GPU, conçus pour des modèles de classement et de recommandation. Ces systèmes traitaient des charges de travail s’étalant sur 128 à 512 GPU.

AI Cluster Size Growth by Year: Bar graph showing increase from 2024 to 2030.

Un an après, l’émergence de la GenAI et des LLMs a fait exploser les tailles de cluster à 16-24K GPU, marquant une augmentation de quatre fois. Actuellement, Meta fait fonctionner 100,000 GPU et prévoit d’en ajouter encore, anticipant une multiplication par dix des tailles de clusters dans un futur proche.

Meta, NVIDIA, and Open Compute Project collaboration on AI rack architecture, OCP 2024 Summit.

Meta affirme avoir débuté le projet Catalina très tôt avec NVIDIA, intégrant leur solution de GPU NVL72 comme base. Les deux partenaires ont également contribué à la conception de référence pour MGX et NVL72 en open source, et Catalina est désormais en ligne sur le site Open Compute.

Data center IT racks with cables, liquid cooling, and compute trays in a server room.

Diving into les aspects déployés par Meta, chaque système est désigné comme un pod, qu’ils utilisent en plusieurs exemplaires pour l’évolutivité.

Diagram of NVIDIA MGX GB200 system configuration with CPUs and NVLink connections.

Diagram of Meta Catalina GB200 configuration, featuring Grace CPU and NVLink connectivity.

Une particularité entre la version standard de la NVL72 et celle personnalisée par Meta repose sur deux racks IT. Ces racks constituent un domaine d’échelle unique de 72 GPU. Chaque rack dispose de 18 plateaux de calcul, répartis entre le haut et le bas.

Comparison of NVIDIA and Meta GB200 NVL72 resources per pod.

Cela permet de combiner les GPU sur les deux racks, connectés via des commutateurs NV, pour créer un domaine d’échelle unique de 72 GPU. Des dispositifs de refroidissement liquide assisté par air (ALC) sont également présents, optimisant la densité énergétique.

Catalina Architecture Overview: Data center server setup with labeled hardware components.

Avec cette configuration, Meta réussit à accroître le nombre de CPU et la mémoire totale par rack, atteignant jusqu’à 48 To de mémoire cache-cohérente. Source d’alimentation convertit 480 ou 277 volts monophasés en 48 volts DC, alimentant les lames de serveur et dispositifs de réseau.

Les racks présentent un étagère d’alimentation en haut et deux en bas. Meta utilise également un panneau de chemin de fibre pour gérer le cablage réseau en arrière-plan, reliant aux commutateurs de réseau finaux.

Compute tray schematic with labeled components including IO board, NVME backplane, and processor module.

Pour soutenir tout cela, Meta adopte plusieurs technologies intégrées au système NVL72 GB200. Parmi celles-ci, une version à haute puissance de leurs racks ouverts, spécifique à Meta, et un système de refroidissement liquide adapté aux racks traditionnels. Le contrôleur de gestion de rack (RMC) agit comme un dispositif de sécurité, surveillant également les fuites.

Cette première mise en service de Meta de la version haut de gamme de son rack OpenRack v3 augmente la puissance à 94 kW par rack. Cela répond également aux normes des nouveaux bâtiments, intégrant le refroidissement liquide directement dans les racks via le RMC.

Diagram showcasing Compute Tray Architecture with CPU, GPU, and Backend connectivity.

Meta exploite également sa propre architecture de réseau désagrégé pour le projet Catalina, permettant de relier plusieurs pods et bâtiments. Cela vise à créer des clusters de grande envergure, optimisés pour l’IA, offrant flexibilité et rapidité dans la communication entre GPU.

Guide Optimisation Pc Windows 11 Jeux Performance Bot Guide Optimisations Pc Windows 10 Jeux Performances Sur Omgpu.com Bot

Guide Comment Reduire Input Lag Latence Omgpu Bot Comment supprimer Coil Whine carte graphique

Vous pourriez aussi aimer