NVIDIA a discrètement aidé à résoudre le plus grand défi de la génération d’images par l’IA

Par Alexandre Lefevre Le 22 Mar 2025 à 23 h 01

NVIDIA a collaboré avec le MIT et l’université de Tsinghua pour développer HART, un outil hybride de génération d’images AI. Ce nouvel outil promet une rapidité exceptionnelle tout en réduisant significativement les ressources nécessaires, rendant la génération d’images accessible sur des appareils personnels.

Un des principaux problèmes liés à l’IA est la demande en énergie et en puissance de calcul, particulièrement pour les tâches de génération d’images dans le domaine des médias. Sur les téléphones mobiles, seuls quelques appareils coûteux dotés de silique puissant peuvent utiliser cette fonctionnalité. Même lorsqu’elle est implantée à grande échelle dans le cloud, cela reste onéreux.

NVIDIA semble avoir discrètement abordé ce défi en collaboration avec le Massachusetts Institute of Technology et Tsinghua University. L’équipe a créé un outil hybride de génération d’images appelé HART (hybrid autoregressive transformer) qui combine essentiellement deux des techniques de création d’images AI les plus utilisées. Le résultat est un outil incroyablement rapide avec des exigences de calcul considérablement réduites.

Pour illustrer sa rapidité, j’ai demandé de générer une image d’un perroquet jouant de la guitare basse. Elle a été retournée en environ une seconde. Je n’ai même pas eu le temps de suivre la barre de progression. En comparaison, avec le même prompt dans le modèle Imagen 3 de Google, cela a pris environ 9-10 secondes avec une connexion Internet de 200 Mbps.

Une avancée majeure

Lorsque les images AI ont fait leur apparition, la technique de diffusion en était à l’origine, alimentant des produits tels que Dall-E d’OpenAI, Imagen de Google et Stable Diffusion. Cette méthode peut produire des images d’une précision remarquable. Cependant, elle repose sur un processus en plusieurs étapes qui est lent et coûteux en ressources de calcul.

Une deuxième approche qui a récemment gagné en popularité est celle des modèles auto-régressifs, qui fonctionnent fondamentalement de la même manière que les chatbots et génèrent des images à l’aide d’une technique de prédiction des pixels. Bien qu’elle soit plus rapide, cette méthode comporte également davantage d’erreurs lors de la création d’images.

Démonstration sur appareil pour HART : Génération visuelle efficace avec le transformateur auto-régressif hybride

L’équipe du MIT a fusionné ces deux méthodes en un ensemble unique appelé HART. Il s’appuie sur un modèle d’auto-régression pour prédire des actifs d’images compressés en tant que jeton dédié, tandis qu’un petit modèle de diffusion s’occupe du reste pour compenser la perte de qualité. Dans l’ensemble, cette approche réduit le nombre d’étapes nécessaires de plus de deux douzaines à huit étapes.

Les experts derrière HART affirment qu’il peut « générer des images qui égalent ou dépassent la qualité des modèles de diffusion de pointe, tout en étant environ neuf fois plus rapide ». HART combine un modèle auto-régressif avec une plage de 700 millions de paramètres et un petit modèle de diffusion pouvant gérer 37 millions de paramètres.

Évolution de l'entraînement des images pour HART.

Résolution de la crise coût-calcul

Il est intéressant de noter que cet outil hybride a été capable de créer des images de la même qualité que les modèles les plus haut de gamme avec une capacité de 2 milliards de paramètres. Plus important encore, HART a réussi cet exploit à un taux de génération d’images neuf fois plus rapide, tout en nécessitant 31% de moins de ressources de calcul.

Selon l’équipe, l’approche à faible coût de calcul permet à HART de fonctionner localement sur des téléphones et des ordinateurs portables, ce qui est un avantage considérable. Jusqu’à présent, les produits grand public les plus populaires comme ChatGPT et Gemini nécessitent une connexion Internet pour la génération d’images, car le calcul s’effectue sur des serveurs cloud.

Dans une vidéo de test, l’équipe a démontré HART fonctionnant nativement sur un ordinateur portable MSI avec une série de processeurs Core d’Intel et une carte graphique NVIDIA GeForce RTX. Il s’agit d’une combinaison que l’on trouve dans la plupart des ordinateurs portables de jeu, sans débourser une fortune.

HART est capable de produire des images au format 1:1 avec une résolution respectable de 1024 x 1024 pixels. Le niveau de détail de ces images est impressionnant, tout comme la variation stylistique et la précision des paysages. Lors de leurs tests, l’équipe a noté que cet outil AI hybride était entre trois et six fois plus rapide et offrait plus de sept fois le débit.

Le potentiel futur est intéressant, notamment avec l’intégration des capacités d’image de HART avec les modèles linguistiques. « À l’avenir, on pourrait interagir avec un modèle génératif de vision-langage unifié, peut-être en lui demandant de montrer les étapes intermédiaires nécessaires pour assembler un meuble », expliquent les chercheurs du MIT.

Ils explorent déjà cette idée et prévoient même de tester l’approche HART pour la génération audio et vidéo. Vous pouvez l’essayer sur le tableau de bord web du MIT.

Quelques imperfections

Avant de plonger dans le débat sur la qualité, il est important de garder à l’esprit que HART est avant tout un projet de recherche qui est encore à ses débuts. Du côté technique, il y a quelques inconvénients soulignés par l’équipe, comme des surcharges lors du processus d’inférence et de formation.

Ces défis peuvent être résolus ou négligés, car ils sont mineurs dans le grand schéma des choses. De plus, compte tenu des énormes avantages que HART offre en termes d’efficacité de calcul, de vitesse et de latence, ils pourraient persister sans entraîner de problèmes de performance majeurs.

Lors de mes brèves expérimentations avec HART, j’ai été étonné par la rapidité de la génération d’images. Je n’ai guère rencontré de situation où l’outil web gratuit a pris plus de deux secondes pour créer une image. Même avec des prompts s’étalant sur trois paragraphes (environ 200 mots), HART était capable de créer des images respectant scrupuleusement la description.

Échantillon d'images AI générées avec HART.

En dehors de l’exactitude descriptive, il y avait beaucoup de détail dans les images. Cependant, HART souffre des défauts typiques des outils de génération d’images AI. Il a des difficultés avec les chiffres, les représentations basiques comme manger des aliments, la cohérence des personnages et la capture de perspective.

Le photoréalisme dans le contexte humain est un domaine où j’ai remarqué des échecs notables. Dans quelques occasions, il a simplement mal saisi le concept d’objets basiques, comme confondre une bague avec un collier. Mais dans l’ensemble, ces erreurs étaient rares et largement attendues. Un bon nombre d’outils AI ne parviennent toujours pas à bien faire cela, malgré leur présence depuis un certain temps.

Dans l’ensemble, je suis particulièrement enthousiasmé par l’immense potentiel de HART. Il sera intéressant de voir si le MIT et NVIDIA en feront un produit, ou s’ils adopteront simplement cette approche hybride de génération d’images AI dans un produit existant. Quoi qu’il en soit, c’est un aperçu d’un avenir très prometteur.

NVIDIA