Intel AutoRound : Modèles LLM quantifiés plus rapides sur Intel GPUs et appareils CUDA, Cresent Island FP8, MXFP8, MXFP4 confirmés
Intel a récemment lancé AutoRound, un algorithme de quantification post-formation novateur pour optimiser la livraison de modèles de langage sur les CPU et GPU Intel.
Amélioration de la Livraison LLM sur les CPU et GPU Intel
AutoRound, intégré au LLM Compressor, améliore de manière significative la précision des quantifications à faible bit-width. Avec un processus léger et rapide, il permet une compatibilité sans faille avec les tenseurs compressés, facilitant ainsi le déploiement de modèles très performants.
Ce nouvel algorithme offre des avantages tels qu’une meilleure précision à très faibles largeurs de bits, couplés à une capacité d’adaptation à divers types de données comme MXFP8 et MXFP4. Une simplification du flux de travail est également au programme, permettant de quantifier et servir des modèles en quelques lignes de code.
Nouvelles Capacités de Crescent Island
La prochaine génération de GPU, codée « Crescent Island », intégrera natif des formats tels que FP8 et MXFP4. Les modèles quantifiés avec AutoRound bénéficieront de ces nouvelles fonctionnalités, permettant une utilisation optimale des matériels Intel.
Cette avancée représente une étape importante pour Intel dans le domaine de l’intelligence artificielle, facilitant le passage de l’innovation algorithmique à des déploiements concrets sur le marché.
Intel propose des solutions qui renforcent la compétitivité pour le traitement des modèles de langage dans un paysage technologique en rapide évolution.



