NVIDIA révolutionne le monde réel avec l’IA Générative et Cosmos

Par Romain Vasseur Le 9 Jan 2025 à 00 h 13

Lors de l’une des conférences les plus attendues du CES, le PDG de NVIDIA, Jensen Huang, a dévoilé des innovations fascinantes dans le domaine de l’IA, des véhicules autonomes et de la robotique. Découvrez comment les nouvelles technologies promettent de transformer à jamais ce interaction avec le monde physique.

Dans ce qui était sans aucun doute l’une des keynotes les plus attendues et les plus suivies de l’histoire du CES, le PDG de NVIDIA, Jensen Huang, a présenté un ensemble d’annonces remarquablement varié couvrant de nombreux sujets brûlants de la technologie, notamment l’IA, la robotique, les véhicules autonomes et bien plus encore.

Vêtu d’une version glamour de Las Vegas de sa célèbre veste en cuir noire, le leader de l’industrie technologique a progressé à travers les derniers cartes graphiques GeForce RTX 5000, les nouvelles familles de modèles de base Nemotron AI, et des plans pour des agents équipés par l’IA.

Il a également mis en avant les extensions de la plateforme de jumeau numérique et de simulation Omniverse, qui intègre l’IA dans le monde physique, ainsi que de nouvelles certifications de sécurité pour sa plateforme de conduite autonome. De plus, il a introduit un superordinateur IA de taille mini, appelé Project Digits, propulsé par le GPU Grace Blackwell. Il va sans dire que cela représentait beaucoup d’informations à assimiler.

Une des annonces les plus intrigantes – bien que probablement la moins comprise – était un ensemble de modèles de base et de capacités de plateforme appelés Cosmos. Défini comme un ensemble de modèles de base mondiaux, d’outils avancés de tokenisation, de garde-fous de sécurité, et d’un pipeline avancé de traitement vidéo, Cosmos est conçu pour transférer les capacités d’entraînement et les résultats avancés de l’IA générative du domaine numérique vers le monde physique.

En d’autres termes, au lieu d’utiliser l’IA générative pour créer de nouvelles sorties numériques basées sur des milliards de documents, d’images et d’autres contenus numériques, Cosmos peut générer de nouvelles actions physiques – appelons-les des sorties analogiques – en s’appuyant sur des données sur lesquelles il a été formé à partir d’environnements simulés numériquement.

Bien que le concept soit complexe, les implications dans le monde réel sont à la fois simples et profondes. Pour des applications telles que la robotique, les véhicules autonomes et d’autres systèmes mécaniques, Cosmos permet à ces systèmes de réagir à des stimuli physiques de manière plus précise, sûre et utile. Par exemple, des robots humanoïdes peuvent être formés pour reproduire physiquement la manière la plus efficace ou la plus sûre d’effectuer une tâche, que ce soit retourner une omelette ou manipuler des pièces sur une chaîne de production. De même, une voiture autonome peut s’adapter dynamiquement à des situations et des environnements variés.

Une grande partie de ce type d’entraînement dépend actuellement d’efforts manuels, comme filmer des humains effectuant la même action des centaines de fois ou faire conduire des voitures autonomes pendant des millions de kilomètres. Même alors, des milliers de personnes doivent passer un temps considérable à étiqueter et marquer ces vidéos. Avec Cosmos, ces méthodes d’entraînement peuvent être automatisées, réduisant considérablement les coûts, économisant du temps, et élargissant la gamme de données disponibles pour le processus d’entraînement.

Cosmos fonctionne comme une extension de l’environnement de simulation numérique Omniverse. Il traduit la physique numérique des modèles et systèmes créés dans Omniverse en actions physiques dans le monde réel. Bien que cette distinction puisse sembler subtile, elle est d’une importance cruciale car elle permet à Cosmos de produire des sorties physiques équipées par l’IA générative.

Au cœur de Cosmos se trouvent des modèles de base mondiaux, construits à partir de millions d’heures de contenu vidéo, qui possèdent une compréhension du monde physique. Cosmos prend les modèles numériques d’objets physiques et d’environnements créés dans Omniverse, les intègre dans ces modèles de base mondiaux, et génère des vidéos photoréalistes de la manière dont les modèles sont susceptibles de se comporter dans des scénarios réels.

Ces vidéos servent ensuite de sources de données synthétiques, qui peuvent être utilisées pour entraîner des modèles fonctionnant dans des systèmes robotiques, voitures autonomes et autres systèmes mécaniques équipés par GPU. Le résultat est que ces systèmes peuvent répondre plus efficacement dans divers environnements.

Un autre aspect notable est que NVIDIA met à disposition ses modèles de base mondiaux Cosmos gratuitement pour encourager les avancées dans la robotique et les véhicules autonomes, ainsi que favoriser davantage l’expérimentation.

À court terme, l’impact immédiat de Cosmos sera limité, car il cible principalement un public de niche développant des applications avancées en robotique et en véhicules autonomes. Cependant, à long terme, son influence pourrait être profonde, accélérant potentiellement le développement de ces catégories de produits et améliorant la précision et la sécurité de ces systèmes.

Plus important encore, cela démontre la capacité de NVIDIA à anticiper et à se préparer aux tendances technologiques émergentes telles que la robotique. Cela souligne également la transformation souvent sous-estimée mais continue de NVIDIA en tant qu’entreprise de logiciels construisant des plateformes pour ces nouvelles applications. Pour ceux qui s’interrogent sur la direction que prend l’entreprise et comment elle envisage de maintenir sa croissance impressionnante, ces développements offrent des aperçus à la fois intrigants et importants.

NVIDIA