Microsoft a révélé WHAMM, un modèle d’IA générative qui fait tourner Quake II en temps réel. Bien que le jeu fonctionne avec des commandes, il présente des défis de performances. L’objectif principal de la démonstration est de mettre en lumière le potentiel du modèle.
Le modèle World and Human Action MaskGIT de Microsoft, ou WHAMM, s’appuie sur une version antérieure nommée WHAM-1.6B lancée en février. Contrairement à son prédécesseur, cette version assure une sortie visuelle plus rapide grâce à une architecture de type MaskGIT qui génère des jetons d’image en parallèle. En délaissant la méthode autoregressive, qui prédisait les jetons de manière séquentielle, WHAMM réduit la latence et permet la génération d’images en temps réel, une étape essentielle pour des interactions de jeu plus fluides.
Le processus de formation du modèle reflète également des avancées significatives. Alors que WHAM-1.6B nécessitait sept ans de données de jeu pour l’entraînement, les développeurs ont appris à WHAMM sur une semaine de gameplay de Quake II soigneusement sélectionnée. Ils ont atteint cette efficacité en utilisant des données provenant de testeurs professionnels de jeux se concentrant sur un seul niveau. La résolution de sortie visuelle de l’IA a également été améliorée, passant de 300 x 180 pixels à 640 x 360 pixels, ce qui entraîne une meilleure qualité d’image sans modifications notables de l’architecture encodeur-décodeur sous-jacente.

Malgré ces avancées technologiques, WHAMM est loin d’être parfait et reste davantage une expérience de recherche qu’une solution de jeu pleinement réalisée. Le modèle montre une capacité impressionnante à s’adapter à l’entrée de l’utilisateur. Malheureusement, il souffre de latence et d’anomalies graphiques.
Les joueurs peuvent effectuer des actions basiques comme tirer, sauter, s’accroupir et interagir avec les ennemis. Cependant, l’interaction avec les ennemis laisse à désirer. Les personnages apparaissent souvent flous et les mécaniques de combat sont incohérentes, avec des erreurs de suivi de santé et de statistiques de dégâts.

Les limitations vont au-delà des mécaniques de combat. Le modèle a une longueur de contexte limitée. Il oublie les objets qui quittent le champ de vision du joueur pendant plus de neuf dixièmes de seconde. Cet inconvénient entraîne des comportements de jeu étranges, comme la téléportation ou l’apparition aléatoire d’ennemis lors du changement d’angles de caméra.
De plus, la portée de la simulation de WHAMM est confinée à un seul niveau de Quake II. Essayer de progresser au-delà de ce point bloque la génération d’images en raison du manque de données enregistrées. Les problèmes de latence nuisent également à l’expérience lorsqu’elle est réalisée à l’échelle pour un usage public.
Bien que l’interaction avec WHAMM puisse être divertissante comme une nouveauté, Microsoft n’a pas l’intention de faire en sorte qu’elle reproduise l’expérience originale de Quake II. Les développeurs d’IA exploraient simplement des techniques d’apprentissage automatique qu’ils pourraient utiliser pour créer des médias interactifs.

Les équipes de Microsoft ont testé les possibilités de WHAMM au milieu de discussions plus larges sur le rôle de l’IA dans les industries créatives. OpenAI a récemment subi des tests concernant ses créations IA inspirées de Ghibli, soulevant des doutes sur la capacité de l’IA à reproduire l’art humain.
Redmond a présenté WHAMM comme un exemple d’IA augmentant plutôt que remplaçant la créativité humaine, une philosophie reprise par la technologie ACE de NVIDIA, qui améliore les PNJ réalistes dans des jeux comme inZOI. Bien que les jeux et films entièrement générés par l’IA restent insaisissables, des innovations telles que WHAMM signalent qu’ils pourraient être imminents.
Pour l’avenir, Microsoft envisage de nouvelles formes de médias interactifs grâce à des modèles génératifs comme WHAMM. L’entreprise espère que les itérations futures aborderont les lacunes tout en permettant aux développeurs de jeux de créer des récits immersifs enrichis par des outils propulsés par l’IA.



