NVIDIA vient de dévoiler quelques performances record de ses GPU Hopper H100 & L4 Ada au sein des benchmarks MLPerf AI.
Les prouesses de l’IA de NVIDIA démontrées dans les derniers benchmarks d’IA MLPerf : de nouveaux records de performances atteints avec les GPU Hopper H100 et L4 Ada
Aujourd’hui, NVIDIA présente ses derniers chiffres obtenus au sein de MLPerf Interface 3.0. Les trois principaux faits marquants sont les derniers enregistrements Hopper H100 qui montrent les progrès du GPU phare AI au cours des 6 derniers mois avec plusieurs optimisations logicielles, nous voyons également les premiers résultats du GPU L4 basé sur l’architecture graphique Ada qui a été annoncé au GTC 2023 et enfin, nous avons mis à jour les résultats du Jetson AGX Orin qui devient beaucoup plus rapide grâce à des optimisations similaires au niveau de la puissance des logiciels et de la plate-forme. En résumé, voici les faits marquants que nous allons examiner aujourd’hui :
- H100 établit de nouveaux records d’inférence : Jusqu’à 54 % de performances en plus par rapport à la soumission précédente
- Inférence grand public des superchargeurs L4 : Plus de 3 fois plus rapide que T4
- Un autre grand pas pour Jetson AGX Orin : Jusqu’à 57 % d’efficacité en plus par rapport à la soumission précédente
Pour la suite de référence d’aujourd’hui, NVIDIA examinera MLPerf Inference v3.0 qui conserve les mêmes charges de travail qui ont été utilisées il y a 6 mois dans les soumissions précédentes, mais l’environnement réseau a été ajouté, ce qui mesure avec précision la façon dont les données sont envoyées dans une plate-forme d’inférence pour faire le travail. NVIDIA révèle également que sur la durée de vie d’un produit, l’entreprise peut réduire de près de 2 fois les performances grâce à des optimisations logicielles, et cela a déjà été vu sur des GPU antérieurs tels que l’Ampere A100.
NVIDIA H100 offre une amélioration considérable des performances depuis son lancement grâce aux optimisations logicielles, jusqu’à 4,5 fois plus que la dernière génération
En commençant par les tests de performances Hopper H100, nous voyons les tests d’inférence MLPerf dans les catégories hors ligne et serveur. Les références hors ligne montrent une augmentation des performances jusqu’à 4,5 fois supérieure à Ampere A100 (BERT 99,9 %), tandis que dans le scénario serveur, le H100 offre un saut de performance impressionnant de 4,0 fois par rapport à son prédécesseur.
Pour atteindre ce niveau de performances, NVIDIA utilise les performances du FP8 via son moteur de transformateur intégré à l’architecture Hopper. Il fonctionne couche par couche en analysant tout le travail qui lui est envoyé, puis atteste si les données peuvent être exécutées dans FP8 sans compromettre l’efficacité. Si, par exemple, les données peuvent être exécutées dans FP8, elles l’utiliseront, sinon, le moteur de transformation utilisera les opérations mathématiques FP16 et FP32 accumulées pour exécuter les données. Comme Ampere n’avait pas d’architecture de moteur Transformer, il fonctionnait sur FP16 + FP32 plutôt que sur FP8.
En comparant leurs données à la puce Xeon Sapphire Rapids de 4e génération la plus rapide d’Intel, la 8480+, le GPU Hopper H100 l’écrase simplement dans tous les tests de performances et montre pourquoi les GPU sont toujours la voie à suivre en termes d’inférence malgré l’utilisation par Intel d’une gamme d’IA accélérateurs basés sur leurs nouvelles puces.
Passant à la progression du côté logiciel de Hopper, depuis les 6 mois de disponibilité du H100, le GPU a connu une amélioration allant jusqu’à 54%, principalement dans les réseaux basés sur l’imagerie. Dans 3D U-Net qui est un réseau d’imagerie médicale, le GPU H100 voit une augmentation de 31% et même dans BERT 99% qui a été montré ci-dessus, la nouvelle puce obtient une augmentation de 12% par rapport à sa précédente soumission de référence. Ceci est réalisé en utilisant de nouvelles avancées logicielles telles que les Core de suppression non maximale optimisés et le traitement par lot de fenêtres glissantes sur les sous-volumes.
GPU NVIDIA L4 : petite carte aux performances massives, jusqu’à 3,1 fois plus rapide que la T4 à puissance égale
Le L4 de NVIDIA a également fait sa première apparition au sein de MLPerf. Le GPU L4 à petit design (form factor) a été annoncé au GTC 2023 comme un pur produit Tensor Core qui prend également en charge les instructions FP8 sur l’architecture Ada, bien que le moteur Transformer ne soit spécifique qu’aux GPU Hopper. En tant que successeur du T4, le GPU L4 est non seulement un produit d’inférence, mais dispose également de plusieurs fonctionnalités d’encodage vidéo pour les capacités d’encodage vidéo basées sur l’IA.
En ce qui concerne les performances, le GPU NVIDIA L4 offre une augmentation massive des performances allant jusqu’à 3,1x par rapport à son prédécesseur, une fois de plus en BERT 99,9% et son 2x à tous les niveaux dans les benchmarks d’inférence à la même puissance.
Étant une conception à petit design (form factor) avec une enveloppe de puissance de 72 W, le L4 peut être utilisé dans une gamme de serveurs sans avoir à repenser le châssis du serveur ou l’alimentation électrique pour héberger une si petite carte. Comme son prédécesseur, le L4 cherche à être un serveur et un produit CSP très populaire avec presque tous les CSP ayant une instance T4. Google a également récemment annoncé ses instances L4 qui sont déjà en préversion privée avec plus de CSP en route.
NVIDIA Orin obtient un coup de pouce à tous les niveaux
Enfin, nous avons les derniers sauts de performance livrés à Jetson AGX Orin via le SDK Jetpack. Le SOC Orin est sorti depuis un an maintenant et NVIDIA présente une amélioration significative des performances. En termes de performances uniquement, le SOC Orin augmente de 81 % tandis qu’en termes d’efficacité énergétique, la puce affiche jusqu’à 63 % de performances, ce qui est spectaculaire et témoigne de l’engagement de NVIDIA envers la longévité du GPU et du silicium dans l’espace serveur.
Ces améliorations de performances ne se limitent pas seulement au Jetson AGX Orin, mais même l’Orin NX de la taille d’une carte, qui est livré avec 16 Go de mémoire intégrée dans une conception à petit design (form factor), atteint une amélioration des performances de 3,2x par rapport au Xavier NX qui est un autre grande amélioration et les clients peuvent s’attendre à encore plus de performances à l’avenir.
Deci atteint une vitesse d’inférence record sur les GPU NVIDIA à MLPerf
Au sujet de MLPerf, Deci a également annoncé avoir atteint une vitesse d’inférence record sur les GPU NVIDIA à MLPerf. Le graphique ci-dessous illustre les performances de débit par TeraFLOP obtenues par Deci et d’autres soumissionnaires de la même catégorie. Deci a fourni le débit le plus élevé par TeraFLOP tout en améliorant la précision. Cette efficacité d’inférence se traduit par des économies importantes sur la puissance de calcul et une meilleure expérience utilisateur. Au lieu de s’appuyer sur du hardware plus coûteux, les équipes utilisant Deci peuvent désormais exécuter l’inférence sur le GPU A100 de NVIDIA, atteignant un débit 1,7 fois plus rapide et une précision F1 supérieure de 0,55, par rapport à l’exécution sur le GPU H100 de NVIDIA. Cela indique une économie de 68 %* par requête d’inférence.
Les autres avantages des résultats de Deci incluent la possibilité de migrer du multi-gpu vers un seul GPU et des coûts d’inférence inférieurs et des efforts d’ingénierie réduits. Par exemple, les ingénieurs ML utilisant Deci peuvent atteindre un débit plus élevé sur une carte H100 que sur 8 cartes NVIDIA A100 combinées. En d’autres termes, avec Deci, les équipes peuvent remplacer 8 cartes NVIDIA A100 par une seule carte NVIDIA H100, tout en obtenant un débit plus élevé et une meilleure précision (+0,47 F1).
Matériel | Débit des autres émetteurs | Débit de Deci | Précision BERT F1 | Précision F1 optimisée par Deci | Augmentation de la précision |
GPU NVIDIA A30 | 866 | 5 885 | 90.874 | 91.281 | 0,4076 |
GPU NVIDIA A100, 80 Go | 1 756 | 13 377 | 90.874 | 91.430 | 0,5560 |
8 GPU NVIDIA A100 | 13 967 | 103 053 | 90.874 | 91.430 | 0,5560 |
GPU NVIDIA H100 PCIe | 7 921 | 17 584 | 90.874 | 91.346 | 0,4722 |
Sur le GPU NVIDIA A30, qui est un GPU plus abordable, Deci a fourni un débit accéléré et une augmentation de 0,4 % de la précision F1 par rapport à une ligne de base FP32.
En utilisant Deci, les équipes qui devaient auparavant fonctionner sur un GPU NVIDIA A100 peuvent désormais migrer leurs charges de travail vers le GPU NVIDIA A30 et obtenir des performances 3 fois supérieures à celles qu’elles avaient auparavant pour environ un tiers du prix de calcul. Cela indique des performances considérablement meilleures pour un coût de cloud d’inférence nettement inférieur.
Retrouvez, la vidéo d’un de nos confrères hardware de la semaine :
Ci-dessous, nos guides d'optimisations dont : Optimiser Windows 11 pour les jeux - Optimiser Windows 10 pour les jeux - Comment réduire latence - Stock PS5