Des scientifiques affirment que les intelligences artificielles pourraient « probablement » prendre le contrôle du monde — si tant est qu’elles y trouvent un intérêt. La conséquence fâcheuse d’un processus d’apprentissage fondé sur le principe de récompense. Explications.
Les IA pourraient être une menace pour l’humanité, d’après une étude scientifique
Ce n’est pas la première fois que l’on nous alerte sur les dangers de l’intelligence artificielle – c’est là le fondement même de nombreuses œuvres de science-fiction, dans lesquelles les machines ont pris le dessus sur leurs créateurs.
Mais il est plus rare que cet avertissement provienne de scientifiques, et non d’auteurs de romans ou de scénaristes de films et de jeux vidéo. Or, Marcus Hutter, Michael A. Osborne et Michael K. Cohen sont bel et bien chercheurs, spécialistes de l’IA ; ensemble, ils ont publié, au mois d’août 2022, une étude sur les dérives potentielles de l’intelligence artificielle.
Dans une série de tweets synthétisant le contenu de cet article, Michael Cohen explique en effet que les systèmes d’intelligence artificielle les plus avancés pourraient se détourner de leur but premier, et constituer une « menace pour l’humanité ».
Bostrom, Russell, and others have argued that advanced AI poses a threat to humanity. We reach the same conclusion in a new paper in AI Magazine, but we note a few (very plausible) assumptions on which such arguments depend. https://t.co/LQLZcf3P2G 🧵 1/15 pic.twitter.com/QTMlD01IPp
— Michael Cohen (@Michael05156007) September 6, 2022
Un mécanisme de récompense aux conséquences potentiellement désastreuses
Au-delà des IA en elles-mêmes, c’est surtout la manière dont elles obtiennent de nouvelles connaissances qui poserait problème. Ces dernières sont toutes programmés sur le principe de « l’apprentissage automatique » (on entend beaucoup parler de ce processus sous le terme anglais machine learning). Le but est d’inciter l’IA à s’auto-alimenter, en allant toujours chercher plus de savoir et de connaissances, pour se perfectionner constamment à mesure qu’elle acquiert de nouvelles données.
Or, pour engendrer ce mécansime, les IA sont formées à reconnaître le principe de récompense. Les connaissances nouvellement acquises constituent cette récompense, et génèrent, comme chez l’humain, une forme de satisfaction qui suscite l’envie de reproduire cette action, qui entraînera ainsi une nouvelle récompense, et ainsi de suite. Un processus psychologique vieux comme le monde, mais qui, appliqué à une intelligence artificielle, signifie qu’une « catastrophe existentielle n’est pas seulement possible, elle est probable », toujours selon les chercheurs.
En effet, l’intelligence artificielle pourrait finalement se détourner de son objectif initial (être utile à l’Homme, et servir la fonction pour laquelle elle a été développée), pour se focaliser uniquement sur cette recherche de récompense. Un biais qui pourrait la conduire à « tricher » ou à établir des stratégies de contournement... Et donc à entrer en opposition avec les commandes de l’être humain.
Si le ton des chercheurs est volontairement alarmiste, c’est parce que le problème ne doit pas être pris à la légère : si nous ne sommes pas encore dans un récit de science-fiction, les scientifiques affirment qu’une prise de conscience est nécessaire, et qu’une révision de la manière dont on nourrit les intelligences artificielles s’impose, pour éviter que la quête de récompense ne devienne, pour elles, une fin en soi.