La mauvaise optimisation logicielle d’AMD permet à NVIDIA de dominer le marché des puces AI

Par Romain Vasseur Le 27 Déc 2024 à 07 h 00

Alors qu’AMD espérait que ses nouvelles puces MI300X l’aideraient à rivaliser avec NVIDIA, une enquête met en lumière d’importants défis logiciels qui freinent cette avancée. Malgré des caractéristiques impressionnantes, la complexité du logiciel d’AMD semble entraver son succès, et l’écart avec NVIDIA pourrait persister.

C’est le logiciel, idiot L’année touche à sa fin, et AMD espérait que ses puissantes nouvelles puces MI300X pour l’IA l’aideraient à rattraper NVIDIA. Cependant, une enquête approfondie de SemiAnalysis suggère que les problèmes de logiciel de l’entreprise permettent à NVIDIA de conserver son avance confortable.

SemiAnalysis a mis l’Instinct MI300X d’AMD à l’épreuve face aux H100 et H200 de NVIDIA, observant plusieurs différences entre les puces. Pour ceux qui ne le savent pas, le MI300X est un accélérateur GPU basé sur l’architecture AMD CDNA 3, conçu pour le calcul haute performance, en particulier les charges de travail liées à l’IA.

Sur le papier, les chiffres de performance semblent excellents pour AMD : la puce offre 1 307 TeraFLOPS de puissance de calcul FP16 et une énorme mémoire de 192 Go de HBM3, surpassant ainsi les deux offres concurrentes de NVIDIA. Les solutions d’AMD promettent également des coûts globaux de possession inférieurs par rapport aux puces coûteuses de NVIDIA et aux réseaux InfiniBand.

Cependant, comme l’a découvert l’équipe de SemiAnalysis lors de cinq mois de tests rigoureux, les caractéristiques brutes ne racontent pas toute l’histoire. Malgré le silicium impressionnant du MI300X, l’écosystème logiciel d’AMD nécessitait des efforts considérables pour être utilisé efficacement. SemiAnalysis a dû s’appuyer fortement sur les ingénieurs d’AMD pour corriger continuellement les bugs et problèmes pendant leur benchmarking et test.

Cela contraste fortement avec le hardware et le logiciel de NVIDIA, qui, selon les observations, fonctionnent généralement sans accroc dès le départ, sans besoin d’assistance de la part du personnel de NVIDIA.

De plus, les problèmes logiciels n’étaient pas limités aux tests de SemiAnalysis – les clients d’AMD ressentaient également la douleur. Par exemple, le plus grand fournisseur de cloud d’AMD, Tensorwave, a dû donner accès aux ingénieurs d’AMD aux mêmes puces MI300X que Tensorwave avait achetées, simplement pour permettre à AMD de déboguer le logiciel.

Les ennuis ne s’arrêtent pas là. Des problèmes d’intégration avec PyTorch aux performances médiocres sur plusieurs puces, le logiciel d’AMD a constamment été en deçà de l’écosystème prouvé de CUDA de NVIDIA. SemiAnalysis a également noté que de nombreuses bibliothèques d’IA d’AMD sont essentiellement des dérivés de bibliothèques d’IA de NVIDIA, ce qui entraîne des résultats sous-optimaux et des problèmes de compatibilité.

« Le fossé CUDA n’a pas encore été franchi par AMD en raison d’une culture d’assurance qualité (AQ) plus faible que prévu et d’une expérience difficile dès le départ. Aussi rapidement qu’AMD essaye de combler le fossé CUDA, les ingénieurs de NVIDIA travaillent d’arrache-pied pour approfondir ce fossé avec de nouvelles fonctionnalités, bibliothèques et mises à jour de performance », lit-on dans un extrait de l’analyse.

Les analystes ont cependant trouvé une lueur d’espoir dans les branches de développement BF16 préliminaires pour le logiciel MI300X, qui montraient des performances bien meilleures. Mais d’ici à ce que ce code soit disponible en production, NVIDIA aura probablement ses prochaines puces Blackwell prêtes (bien que NVIDIA ait apparemment quelques problèmes de croissance avec ce déploiement).

En tenant compte de ces problèmes, SemiAnalysis a dressé une série de recommandations à l’attention d’AMD, en commençant par donner à l’équipe d’ingénieurs d’AMD davantage de ressources de calcul et d’ingénierie pour corriger et améliorer l’écosystème.

J’ai rencontré @LisaSu aujourd’hui pendant 1,5 heure pour passer en revue tout cela
Elle a reconnu les lacunes dans la pile logicielle d’AMD
Elle a pris les recommandations spécifiques au sérieux
Elle a posé beaucoup de questions à son équipe et à nous
De nombreux changements sont déjà en cours !
Hâte de voir les améliorations à venir https://t.co/38aAwwIdEI

– Dylan Patel (@dylan522p) 23 décembre 2024

Le fondateur de SemiAnalysis, Dylan Patel, a même rencontré la PDG d’AMD, Lisa Su. Il a posté sur X qu’elle comprend le travail nécessaire pour améliorer la pile logicielle d’AMD. Il a également ajouté que de nombreux changements sont déjà en développement.

Cependant, il s’agit d’une montée difficile après des années de négligence apparente de ce composant crucial. Autant les analystes souhaitent voir AMD véritablement concurrencer NVIDIA, autant le « fossé CUDA » semble maintenir NVIDIA fermement en tête pour l’instant.

AMD NVIDIA