NVIDIA TensorRT-LLM Révolutionne les Modèles de Langage, Gain de Performances Jusqu’à 8 Fois sur les GPUs Hopper
NVIDIA annonce aujourd’hui un tout nouveau logiciel d’IA appelé TensorRT LLM qui améliore les performances des grands modèles de langage sur ses GPU.
NVIDIA TensorRT-LLM offre jusqu’à 8 fois plus de performances pour les grands modèles de langage sur les GPU Hopper AI
TensorRT-LLM de NVIDIA est annoncé comme une bibliothèque open-source hautement optimisée qui permet les performances les plus rapides pour l’inférence de tous les grands modèles de langage avec les GPU d’IA de NVIDIA tels que Hopper. NVIDIA a travaillé avec tous les LLM de la communauté open-source pour optimiser ses GPU en utilisant les derniers Core d’IA avec des techniques de pointe telles que SmoothQuant, FlashAttention & fMHA. La fondation open-source comprend des versions optimisées prêtes à l’emploi de SOTA pour l’inférence de LLMs tels que GPT-3 (175B), Llama Falcom (180B), & Bloom, pour n’en citer que quelques-uns.
TensorRT-LLM est également optimisé pour la parallélisation automatique sur plusieurs serveurs NVLINK avec une interconnexion Infiniband. Auparavant, il fallait attribuer manuellement un grand modèle de langage à plusieurs serveurs/GPUs, ce qui ne devrait plus être le cas avec Tensor-RT LLM.
Une des plus grandes mises à jour apportées par TensorRT-LLM est un nouvel ordonnanceur appelé In-Flight batching, qui permet aux travaux d’entrer et de sortir de la GPU indépendamment des autres tâches. Il permet le traitement dynamique de plusieurs requêtes plus petites tout en traitant des demandes volumineuses intensives en calcul sur la même GPU. Ce processus rend la GPU plus efficace et conduit à des gains importants en termes de débit sur des GPUs tels que le H100, jusqu’à 2 fois plus précisément.
La pile TensorRT-LLM est également optimisée autour du moteur Transformer de Hopper et de ses capacités de calcul en FP8. La bibliothèque offre une conversion FP8 automatique, un compilateur DL pour la fusion des Core, & un optimiseur de précision mixte avec le support de l’algorithme Smoothquaint de NVIDIA, permettant des performances de quantification sur 8 bits sans perte de précision.
En ce qui concerne les performances, NVIDIA compare la performance de l’A100 avec celle du H100 en août, et celle du H100 avec TensorRT-LLM. Avec GPT-J 6B (Inférence), le H100 offre déjà un gain de 4 fois, mais avec TensorRT-LLM, la société double les performances, ce qui conduit à un gain de 8 fois dans ce test spécifique. Avec Llama2, nous observons jusqu’à 5 fois de gain avec TensorRT LLM et presque 2 fois de gain par rapport au H100 standard sans TensorRT-LLM.
NVIDIA déclare qu’ils travaillent avec toutes les charges de travail d’inférence leaders telles que Meta, Grammarly, Deci, anyscale, etc. pour accélérer leurs LLM en utilisant TensorRT-LLM. En ce qui concerne la disponibilité, TensorRT-LLM est disponible en accès anticipé dès maintenant, avec une version complète prévue le mois prochain. En ce qui concerne le support, TensorRT-LLM sera pris en charge par tous les GPU Data Center & IA de NVIDIA qui sont en production aujourd’hui, tels que A100, H100, L4, L40, L40S, HGX, Grace Hopper, etc.
Retrouvez, la vidéo d’un de nos confrères hardware de la semaine :

Ci-dessous, nos guides d'optimisations dont : Optimiser Windows 11 pour les jeux - Optimiser Windows 10 pour les jeux - Comment réduire latence - Stock PS5