Meta, la maison mère de Facebook, vient d’annoncer une IA de traduction open source appelée « NLLB-200 » — pour « No Language Left Behind » (« Aucune langue laissée pour compte »), et un total de 200 idiomes maîtrisés.
L’IA de traduction la plus complète jamais conçue
Le métavers auquel rêve Meta se fera au-delà des barrières de la langue. C’est en tout cas ce qui a poussé Meta AI, la division dédiée à la recherche sur l’IA de l’entreprise de Mark Zuckerberg, à développer le programme « No Language Left Behind » (NLLB) . Le fruit de ces recherches vient d’être annoncé : NLLB-200 est le premier modèle d’intelligence artificielle capable de traduire avec précision 200 langues différentes.
Parmi ces deux centaines de langues, certains dialectes sont maîtrisés pour la toute première fois : sur son site officiel, Meta évoque notamment le cas du Kamba ou du Lao, que les outils de traduction en ligne actuels ne maîtrisent pas, ou peu. L’entreprise ajoute que les logiciels les plus populaires ne proposent aujourd’hui que 25 langues du continent africain, là où NLLB-200 en connait 55.
« Pour donner une idée de l'échelle, le modèle de 200 langues possède plus de 50 milliards de paramètres, et nous l'avons formé à l'aide de notre nouveau SuperCluster Research, qui est l'un des superordinateurs d'IA les plus rapides au monde. Ces avancées permettront plus de 25 milliards de traductions chaque jour sur nos applications. » — Mark Zuckerberg, sur son profil Facebook
Pour s’assurer que la qualité de ces traductions soit optimale, Meta a également développé le système d’évaluation FLORES-200, chargé de mesurer la performance de NLLB-200 dans les différentes langues. Meta annonce que son intelligence artificielle est 44 % plus juste que l’IA qui se trouvait jusqu’alors en tête du classement.
Un outil de traduction open source
À quels usages Meta destine-t-elle cette IA multilingue ? Tout d’abord, à l’amélioration de ses propres services, à commencer par Facebook et Instagram (et le fameux métavers, bien entendu), à en croire les propos de Mark Zuckerberg lui-même :
« Communiquer entre les langues est un superpouvoir que l'IA fournit, mais alors que nous continuons à faire avancer notre travail d'IA, cela améliore tout ce que nous faisons — de la présentation du contenu le plus intéressant sur Facebook et Instagram à la recommandation de publicités plus pertinentes, en passant par l’assurance que nos services demeurent sûrs pour tous. »
Sur son blog, Meta annonce aussi un partenariat avec la Fondation Wikimédia, qui héberge notamment Wikipédia. L’entreprise précise qu’actuellement, certaines langues comme le Lingala, parlé par 45 millions d’habitants, n’est représenté que sur quelques milliers de pages, là où la version suédoise de l’encyclopédie en ligne comporte 2,5 millions d’articles, pour seulement 10 millions de suédophones. Grâce à NLLB-200, ces langues laissées pour compte pourront bénéficier d’un Wikipédia bien plus complet.
Le modèle NLLB-200 et le système d’évaluation FLORES-200 sont aussi publiés en open source, afin d’inciter les experts de tous horizons à poursuivre plus loin encore le travail d’amélioration des traductions à l’échelle mondiale. Toujours sur le blog de Meta, l’entreprise ajoute enfin :
« Nous allons également dédier jusqu’à 200 000 $ de fonds à l’usage de NLLB-200 au profit d’initiatives positives, menées par des chercheurs ou des organisations non lucratives, incluant le développement durable, l’accès à la nourriture, la lutte contre la violence liée au genre, l’éducation (…). »