Meta ne s’arrête plus ! Après avoir proposé plusieurs projets en lien avec l’intelligence artificielle, la société vient tout juste de présenter un nouveau modèle à la ChatGPT ou à la DALL-E qui est, cette fois, capable de générer des voix à partir de texte.
Intelligence artificielle : du texte, de la musique et maintenant des voix…
Depuis quelques mois, Meta concentre clairement une grande partie de ses efforts dans le domaine de l'intelligence artificielle. Le lancement de leur modèle LLaMA a fait un carton au sein de la communauté Open Source qui l'a utilisé comme base pour de nombreux projets indépendants. Plus récemment, le géant américain a lancé MusicGen, son IA générative capable de créer de la musique. Et voici maintenant venu le temps pour Meta de présenter un nouveau modèle particulièrement frappant, baptisé Voicebox. Vendredi dernier, la firme a présenté son dernier projet comme étant le premier modèle capable de généraliser les tâches de génération de la parole sans avoir été spécialement formé pour cela.
Comme vous pouvez le comprendre avec la phrase précédente, Voicebox n'a pas eu besoin d'être préalablement formé. Ainsi, on peut donc écrire une phrase que l'on veut convertir en voix, à partir de laquelle le système créera ces voix synthétisées - pas toujours parfaites, mais très convaincantes - dans différents styles. La fonctionnalité la plus « traditionnelle » est de pouvoir dupliquer la voix de n'importe qui pour lui faire prononcer n'importe quelle phrase. Avec Voicebox, il suffit d'ajouter un petit clip audio (le nôtre, par exemple) à côté de la phrase écrite que nous voulons dire, pour que le modèle génère une phrase lue avec ladite voix.
Une énième IA qui pose plusieurs questions…
Pour créer Voicebox, les ingénieurs de Méta sont appuyés sur un immense panel de livres audio lu en anglais et dans d'autres langues. Et c’est d’ailleurs pour ces raisons que sur les démos, les voix sonnent comme si une personne était en train de lire un livre, c'est-à-dire avec une intonation moins décontractée et conversationnelle. L’objectif visé par Meta dans les prochains mois est justement de réussir à faire évoluer son modèle pour que celui-ci réussisse petit à petit à parler de manière plus naturelle.
Meta AI is on fire.
— Rowan Cheung (@rowancheung) June 18, 2023
They just announced Voicebox, a multilingual high-quality text-to-speech AI.
The quality is so good that they're not making the Voicebox model or code publicly available (yet) to avoid misuse.
Sounds like it's about to go compete with ElevenLabs/PlayHT. pic.twitter.com/Ws733Aqtlo
À côté de ça, et même si ce type de système présente des avantages notables et des cas d'utilisation très bénéfiques, Voicebox peut également être utilisé à mauvais escient pour créer des deepfakes - certains sur Twitter pensent même déjà que ce modèle va faire passer les canulars téléphoniques à un autre niveau. Car oui, avec des IA comme celle-ci, ce sont des escroqueries de toutes sortes qui peuvent être exécutées, notamment en se faisant passer pour une autre personne. Mais heureusement pour nous, Meta a déjà prévu une parade !
En effet, et contrairement à LLaMA, qui est Open Source et qui a été partagé avec la communauté universitaire, Meta a décidé de ne pas publier le code de Voicebox. L'entreprise indique qu'en raison d'une utilisation abusive, elle préfère ne pas le rendre accessible au public, car elle souhaite continuer à approfondir ses recherches sur l'IA de manière responsable. Pour ceux qui demandent, oui, l’étude est partagée, mais uniquement dans un souci de transparence.