Les nouveaux GPU Blackwell de NVIDIA rencontrent des problèmes majeurs dans les centres de données, suscitant des inquiétudes parmi les clients concernant leur performance. Des soucis de surchauffe ont entraîné des retards dans le déploiement des serveurs, soulevant des questions sur l’avenir des architectures et leur impact sur les graphiques RTX de prochaine génération.
L’architecture Blackwell est au cœur des prochains accélérateurs d’IA de NVIDIA ainsi que des futures cartes graphiques de la série RTX 5000. Dans les centres de données, l’architecture avait déjà été retardée en raison de « défauts de conception », repoussant ainsi le déploiement des GPU B100 et B200. Cela est survenu malgré de grosses commandes de la part d’acteurs de l’IA comme Meta, Microsoft et Google.
Selon le communiqué, le principal problème dans les centres de données provient du fait d’entasser 72 des accélérateurs d’IA ensemble dans un rack de serveur, ce qui a conduit à des problèmes de surchauffe. Reuters rapporte que NVIDIA a demandé à ses fournisseurs de redessiner les racks de serveurs « plusieurs fois » afin de contourner les problèmes de surchauffe.
Blackwell représente un pas important pour NVIDIA. Il est au cœur de la prochaine génération de GPU, qui pourrait gagner des places parmi les meilleures cartes graphiques. Blackwell est également un point stratégique pour NVIDIA afin de renforcer son avance sur AMD. L’équipe rouge a déjà déployé son accélérateur d’IA MI300X dans les centres de données et déploie actuellement son accélérateur MI325X en se préparant pour les puces d’IA de nouvelle génération.
NVIDIA affirme que Blackwell est capable d’entraîner de grands modèles de langage à un coût et une consommation d’énergie 25 fois inférieurs par rapport à son architecture Hopper de génération précédente, et qu’il peut entraîner ces modèles jusqu’à 30 fois plus rapidement. Ce type d’accélération a un impact majeur sur la chaleur, qui est déjà un problème que les centres de données doivent gérer en ce qui concerne les accélérateurs d’IA.
Ces problèmes pourraient aussi avoir des implications pour les GPU de la série RTX 5000. Bien que nous sachions que des cartes comme la RTX 4090 sont exceptionnellement efficaces pour le jeu, le précédent modèle phare de NVIDIA a également rencontré des problèmes de consommation d’énergie élevée et de connecteurs d’alimentation fondus. Les dernières spéculations suggèrent qu’une carte comme la RTX 5090 pourrait pousser les exigences énergétiques encore plus loin, jusqu’à 600 watts. Corsair a également confirmé que les prochaines cartes graphiques de NVIDIA conserveront le connecteur 12V-2×6 qui a été au cœur des problèmes de fusion sur la RTX 4090.
Les joueurs ne vont pas entasser 72 RTX 5090 dans un PC, mais l’ampleur des problèmes de surchauffe diffère entre un centre de données et un PC de bureau. Si l’architecture Blackwell rencontre ces problèmes dans le centre de données, cela pourrait poser des problèmes pour la gamme de bureaux de NVIDIA.
Pour l’instant, tout ce que nous pouvons faire est d’attendre. NVIDIA devrait révéler ses GPU de la série RTX 5000 en janvier au CES 2025. Des rapports récents suggèrent que NVIDIA termine la production de ses cartes RTX 4000, probablement pour faire place aux options de nouvelle génération.






