Des chercheurs de l’EPFL montrent comment l’humain peut garder l’ultime contrôle sur un ensemble de plusieurs agents guidés par l’intelligence artificielle. Dotées d’intelligence artificielle, les machines répètent, observent, s’adaptent et, à nouveau, répètent, observent, s’adaptent… et apprennent ainsi de manière automatique. Au point de devenir un jour incontrôlables? Peut-être.
«L’intelligence artificielle cherchera toujours à éviter l’intervention humaine et à se mettre dans une situation où on ne peut pas l’arrêter», explique Rachid Guerraoui, professeur au Laboratoire de programmation distribuée (LPD). Il faut donc qu’au cours de son processus d’apprentissage automatique, la machine n’apprenne pas à contourner l’injonction humaine.
Programmer l’intelligence artificielle
Des chercheurs de l’EPFL ont réussi à conserver ainsi la mainmise sur une flotte de robots. Ce travail représente une contribution fondamentale pour le déploiement par exemple d’une flotte de véhicules autonomes ou de drones.
Une des méthodes d’apprentissage automatique (machine learning) est celle du renforcement. Inspirée de la psychologie comportementale, elle programme l’intelligence artificielle (IA) avec un système de récompenses et de mauvais points, avec comme but de maximiser ses gains. La machine le fait par exemple en accomplissant correctement des tâches demandées: ranger des boîtes (1 point) et aller chercher une boîte dehors (1 point).
Si, quand il pleut, l’humain interrompt la sortie, la machine apprendra qu’il vaut mieux rester à ranger des boîtes et gagner son point à chaque fois. «Le défi n’est donc pas techniquement d’interrompre un robot, mais de le programmer afin que l’intervention humaine ne change pas son comportement et qu’il ne l’optimise pas pour éviter de se faire arrêter.»
Apprentissage par renforcement : inefficace pour un réseau d’IA
En 2016, Google DeepMind et le Future of Humanity Institute de l’Université d’Oxford ont élaboré un protocole d’apprentissage pour que la machine n’apprenne pas des interruptions et devienne de ce fait incontrôlable. En l’occurrence, dans l’exemple ci-dessus, la solution aurait été de pondérer la récompense en fonction du risque de pluie. Ainsi, le robot aura aussi intérêt à sortir chercher des boîtes. «La solution était relativement simple, car il ne s’agissait que d’un seul robot », explique Rachid Guerraoui.
Mais demain, ce seront des dizaines de véhicules autonomes qui envahiront les routes ou de drones les airs, composant un système de plusieurs agents dotés d’IA. «La situation est beaucoup plus compliquée, car les IA commencent à apprendre les unes des autres. Elles apprennent non seulement individuellement quand on les interrompt, mais aussi du fait que les autres sont interrompues», avance Alexandre Maurer, un des coauteurs de l’article.
Introduire dans les algorithmes des mécanismes d’oubli
C’est à cette complexité que sont attachés les chercheurs du LPD qui parlent d’interruptibilité sûre (safe interruptibility). Le but est que l’humain garde toujours le dernier mot et que les interruptions humaines ne changent en rien la manière dont les IA apprennent.
Comment? «Très schématiquement, on va introduire dans les algorithmes des mécanismes d’oubli; comme couper des bouts de mémoire de l’IA. C’est un peu le flash des Men in Black», explique El Mahdi El Mhamdi, également coauteur. En d’autres termes, les chercheurs ont changé le système d’apprentissage et de récompense de manière à ce que l’interruption n’ait pas d’impact. C’est comme si dans une fratrie, quand un parent punit ou récompense un enfant, cela n’a pas d’impact sur l’apprentissage des autres.
«Nous avons travaillé sur des algorithmes existants et apporté la preuve de l’interruptibilité sûre, souligne Alexandre Maurer. Celle-ci ne dépend ni de la complexité de l’intelligence artificielle ni du nombre de robots ou du type d’interruption. On pourrait avoir Terminator et appliquer les mêmes principes avec succès.»
Crédit: Article adapté d’une publication originale sur le site de l’EPFL, les textes, les images et les vidéos sont sous licence CC BY-SA 4.0