Le modèle sonore Fugatto AI de NVIDIA promet de révolutionner la production audio

Par Romain Vasseur Le 27 Nov 2024 à 10 h 00

Un nouveau modèle d’IA, Fugatto, révolutionne la création musicale en permettant de générer ou transformer de la musique à partir de textes ou d’exemplaires audio. Avec des applications variées allant de la production musicale à la personnalisation des voix, il promet d’élever l’expérience sonore à un nouveau niveau fascinant.

Axé sur l’avenir : Une équipe de chercheurs du monde entier, en collaboration avec NVIDIA, a développé ce qui est décrit comme un couteau suisse pour le son – un modèle d’IA capable de générer ou de transformer pratiquement n’importe quel mélange musical à l’aide de n’importe quelle combinaison de fichiers audio ou d’instructions textuelles.

Le nouveau modèle, nommé Fugatto, abréviation de Foundational Generative Audio Transformer Opus 1, est considéré par NVIDIA comme possédant des capacités sans précédent. Par exemple, Fugatto peut créer une mélodie à partir de simplement texte, modifier l’émotion dans la voix d’un chanteur, changer son accent et même ajouter ou retirer des instruments d’une chanson existante.

Fugatto pourrait révolutionner le processus de création musicale. Grâce à lui, un producteur pourrait rapidement créer un prototype d’idée pour une nouvelle chanson avec des styles de voix et des instruments sur mesure, ou ajuster les effets d’un morceau existant.

Ido Zmishlany, un producteur et compositeur multi-platine, pense que l’IA et des outils comme Fugatto contribueront à écrire le prochain chapitre de la musique. Cela évoqué, le modèle ne se limite pas à la production musicale.

NVIDIA met en avant plusieurs autres cas d’utilisation, comme une agence de publicité qui pourrait l’utiliser pour modifier les voix off d’une campagne afin de s’adapter à différentes régions, situations ou langues. Le modèle pourrait également améliorer des outils d’apprentissage des langues en permettant à un utilisateur de personnaliser la voix du locuteur, par exemple en lui donnant l’accent d’un ami ou d’un membre de la famille.

Des développeurs de jeux vidéo pourraient utiliser cet outil pour créer de nouveaux éléments en temps réel en fonction des entrées des joueurs, ou modifier des éléments préenregistrés pour s’adapter au mieux à l’action à l’écran à tout moment.

Rafael Valle, l’un des chercheurs ayant travaillé sur le projet, a déclaré qu’ils souhaitaient créer un modèle qui comprend et génère le son comme le font les humains.

Plus d’un an a été nécessaire pour concevoir la version complète de Fugatto, qui utilise 2,5 milliards de paramètres. NVIDIA a indiqué que le modèle a été entraîné sur un ensemble de systèmes DGX équipés par 32 GPU NVIDIA H100 Tensor Core. Malheureusement, un calendrier sur le moment où Fugatto pourrait être rendu public n’a pas été divulgué.

NVIDIA