
Grâce à l'IA, Nvidia vous fera écouter des sons jamais entendus auparavant
Le Journal de Montréal
Une équipe de chercheurs en IA générative chez Nvidia a créé un véritable couteau suisse audio, qui permet aux utilisateurs de contrôler la sortie audio simplement à l'aide d'une commande textuelle.
Si certains modèles d'IA peuvent composer une chanson ou modifier une voix, aucun n'a la dextérité de ce nouveau modèle.
Baptisé Fugatto (abréviation de Foundational Generative Audio Transformer Opus 1), il génère ou transforme n'importe quel mélange de musique, de voix et de sons décrits à l'aide de commandes textuelles utilisant n'importe quelle combinaison de textes et de fichiers audio.
Par exemple, il peut créer un extrait de musique à partir d'un texte, supprimer ou ajouter des instruments à une chanson existante, modifier l'accent ou l'émotion d'une voix – et même permettre à des personnes de produire des sons qu'elles n'ont jamais entendus auparavant.
Nvidia affirme que son nouvel éditeur de musique IA peut créer des « sons jamais entendus auparavant », comme une trompette qui miaule. L'outil, appelé Fugatto, est capable de générer de la musique, des sons et de la parole à partir de textes et d'entrées audio sur lesquels il n'a jamais été formé.
Comme le montre la vidéo ci-dessous, cela permet à Fugatto de composer des chansons à partir d'invites complètement fantaisistes, telles que « Créez un saxophone qui hurle, aboie, puis de la musique électronique avec des chiens qui aboient » (2 min 38 s).
Il peut même transformer le son de la voix d'une personne, en changeant son accent ou en lui donnant un ton différent, par exemple colérique ou calme. Il est également possible d'éditer de la musique, car Fugatto peut isoler les voix d'une chanson, ajouter des instruments et même modifier une mélodie en remplaçant un piano par un chanteur d'opéra.
Il existe déjà plusieurs autres outils audio d'IA, mais ceux-ci ne peuvent créer des sons complètement nouveaux et inédits, comme le montre ce tableau comparatif sur un document publié par Nvidia.
Pour créer Fugatto, les chercheurs de Nvidia ont dû rassembler un ensemble de données contenant des millions d'échantillons audio. Ils ont ensuite créé des instructions « qui ont considérablement élargi la gamme de tâches que le modèle pouvait effectuer, tout en réalisant des performances plus précises et en permettant de nouvelles tâches sans nécessiter de données supplémentaires ».
