Le nouveau modèle d’IA de NVIDIA crée de la musique à partir de textes et de prompts audio

Par Alexandre Lefevre Le 26 Nov 2024 à 06 h 12

NVIDIA a dévoilé un modèle d’IA audio génératif innovant, nommé Fugatto, capable de créer une variété de sons, de musiques et de voix à partir de simples instructions textuelles. Ce modèle promet de révolutionner la production musicale, permettant aux utilisateurs de composer des mélodies inédites et d’adapter des morceaux existants avec aisance.

NVIDIA a lancé un nouveau modèle d’IA audio génératif capable de créer une multitude de sons, de musiques et même de voix, en fonction des simples instructions textuelles et des prompts audio de l’utilisateur.

Appelé Fugatto (aussi connu sous le nom de Foundational Generative Audio Transformer Opus 1), ce modèle peut, par exemple, générer des jingles et des extraits de chansons uniquement en se basant sur des prompt textuels, ajouter ou enlever des instruments et des voix de pistes existantes, modifier à la fois l’accent et l’émotion d’une voix, et même « permettre aux utilisateurs de produire des sons jamais entendus auparavant », selon l’annonce publiée lundi.

“Nous voulions créer un modèle qui comprend et génère le son comme le font les humains”, a déclaré Rafael Valle, responsable de la recherche audio appliquée chez NVIDIA. “Fugatto est ce première étape vers un avenir où l’apprentissage multitâche non supervisé en synthèse et transformation audio émerge de la donnée et de l’échelle du modèle.”

La société note que les producteurs de musique pourraient utiliser ce modèle d’IA pour prototyper rapidement et évaluer des idées de chansons dans divers styles musicaux avec des arrangements variés, ou ajouter des effets et des couches supplémentaires à des pistes existantes. Le modèle pourrait également être utilisé pour adapter et localiser la musique et les voix off d’une campagne publicitaire existante, ou ajuster la musique d’un jeu vidéo en temps réel pendant que le joueur progresse à travers un niveau.

Le modèle est même capable de générer des sons auparavant inconnus, tels que des trompettes qui aboient ou des saxophones qui miaulent. Pour ce faire, il utilise une technique appelée ComposableART pour combiner les instructions qu’il a apprises lors de son entraînement.

“Je voulais permettre aux utilisateurs de combiner des attributs de manière subjective ou artistique, en sélectionnant combien d’emphase ils souhaitent mettre sur chaque élément”, a écrit Rohan Badlani, chercheur en IA chez NVIDIA, dans le post d’annonce. “Dans mes tests, les résultats étaient souvent surprenants et m’ont donné l’impression d’être un artiste, même si je suis un informaticien.”

Le modèle Fugatto lui-même utilise 2,5 milliards de paramètres et a été entraîné sur 32 GPU H100. Des IA audio comme celle-ci deviennent de plus en plus courantes. Stability AI a dévoilé un système similaire en avril capable de générer des morceaux allant jusqu’à trois minutes, tandis que le modèle V2A de Google peut créer « un nombre illimité de bandes sonores pour n’importe quelle entrée vidéo ».

YouTube a récemment publié un remixeur musical IA qui génère un exemplaire de 30 secondes basé sur la chanson d’entrée et les instructions textuelles de l’utilisateur. Même OpenAI expérimente dans ce domaine, ayant lancé un outil IA en avril qui ne nécessite que 15 secondes d’audio exemplaire pour cloner totalement la voix et les schémas vocaux d’un utilisateur.

NVIDIA