La prochaine grande menace pour l'IA pourrait déjà se cacher sur le web
Technologie : Les experts en IA préviennent que les attaques contre les ensembles de données utilisés pour former les outils d'apprentissage automatique pourraient avoir des conséquences majeures. Bien sûr, Wikipédia est cité en exemple.
la rédaction de ZDNet
Par Danny Palmer | Lundi 06 Mars 2023
1
Réaction
plus +
La prochaine grande menace pour l'IA pourrait déjà se cacher sur le web
Les experts de l’intelligence artificielle (IA) et de l’apprentissage automatique (machine learning) mettent en garde contre le risque d’attaques par « empoisonnement » des données, qui peuvent porter atteinte aux grands ensembles de données utilisés pour former les modèles d’apprentissage profond (deep learning) de nombreux services d’IA.
L’empoisonnement des données se produit lorsque des attaquants altèrent les données d’entraînement utilisées pour créer des modèles d’apprentissage profond. Cette action signifie qu’il est possible d’affecter les décisions prises par l’IA d’une manière qui est difficile à suivre.
En modifiant les informations sources utilisées pour former les algorithmes d’apprentissage automatique, les attaques par empoisonnement des données peuvent être extrêmement puissantes. Car l’IA apprend à partir de données incorrectes et peut donc prendre de « mauvaises » décisions qui ont des conséquences importantes.
Split-view poisoning, petit mais costaud
Il n’existe cependant actuellement aucune preuve d’attaques réelles impliquant l’empoisonnement d’ensembles de données à l’échelle du web. Mais un groupe de chercheurs en IA et en apprentissage automatique de Google, de l’ETH Zurich, de NVIDIA et de Robust Intelligence affirme avoir démontré la possibilité d’attaques par empoisonnement qui « garantissent » l’apparition d’exemples malveillants dans des ensembles de données à l’échelle du web utilisés pour former les plus grands modèles d’apprentissage automatique.
« Bien que les grands modèles d’apprentissage profond soient résistants, même des quantités minuscules de "bruit" dans les ensembles de formation (c’est-à-dire une attaque par empoisonnement) suffisent à introduire des erreurs ciblées dans le comportement du modèle », préviennent les chercheurs.
Les chercheurs expliquent qu’en utilisant les techniques qu’ils ont conçues pour exploiter la façon dont les ensembles de données fonctionnent, ils auraient pu empoisonner 0,01 % des ensembles de données d’apprentissage profond les plus importants, et ce avec peu d’efforts et à faible coût. Bien que 0,01 % ne semble pas représenter un grand nombre d’ensembles de données, les chercheurs préviennent que cela est « suffisant pour empoisonner un modèle ».
Cette attaque est connue sous le nom de « split-view poisoning ». Si un attaquant parvenait à prendre le contrôle d’une ressource web indexée par un ensemble de données particulier, il pourrait empoisonner les données collectées, les rendant inexactes, avec le potentiel d’affecter négativement l’ensemble de l’algorithme.
Toujours le trafic de noms de domaines expirés
Un moyen pour les attaquants d’atteindre cet objectif est d’acheter des noms de domaine expirés. Les domaines expirent régulièrement et peuvent ensuite être achetés par quelqu’un d’autre, ce qui constitue une opportunité parfaite pour un empoisonneur de données. « L’adversaire n’a pas besoin de connaître l’heure exacte à laquelle les clients téléchargeront la ressource à l’avenir : en possédant le domaine, l’adversaire garantit que tout téléchargement futur recueillera des données empoisonnées », ont déclaré les chercheurs.
Les chercheurs soulignent que l’achat d’un domaine et son exploitation à des fins malveillantes n’est pas une idée nouvelle. Les cybercriminels l’utilisent pour diffuser des logiciels malveillants. Mais des attaquants aux intentions différentes pourraient potentiellement empoisonner un vaste ensemble de données.
Front-running poisoning, la plaie pour Wikipédia
De plus, les chercheurs ont détaillé un deuxième type d’attaque qu’ils appellent « empoisonnement par anticipation » (front-running poisoning).
Dans ce cas, l’attaquant n’a pas le contrôle total de l’ensemble de données spécifique, mais il est capable de prédire avec précision le moment où une ressource web sera consultée pour être incluse dans un instantané de l’ensemble de données. Grâce à cette connaissance, l’attaquant peut empoisonner l’ensemble de données juste avant que les informations ne soient collectées.
Même si les informations reviennent à leur forme originale, non manipulée, après quelques minutes seulement, l’ensemble de données sera toujours incorrect dans l’instantané pris lorsque l’attaque malveillante était active.
L’une des ressources les plus utilisées pour trouver des données d’apprentissage pour l’apprentissage automatique est Wikipédia. Mais la nature de Wikipédia signifie que n’importe qui peut la modifier - et selon les chercheurs, un attaquant « peut empoisonner un ensemble de formation provenant de Wikipédia en effectuant des modifications malveillantes ».
Prévoir les snapshots, la clé de l’infection gagnante
Les ensembles de données de Wikipédia ne reposent pas sur la page en direct, mais sur des instantanés pris à un moment précis, ce qui signifie que les attaquants qui interviennent au bon moment peuvent modifier la page de manière malveillante et forcer le modèle à collecter des données inexactes, qui seront stockées dans l’ensemble de données de manière permanente.
« Un attaquant qui peut prédire quand une page Wikipédia sera utilisée pour être incluse dans le prochain instantané (snapshot) peut effectuer un empoisonnement immédiatement avant le scrapping. Même si la modification est rapidement annulée sur la page en ligne, l’instantané contiendra le contenu malveillant - pour toujours », ont écrit les chercheurs.
La façon dont Wikipédia utilise un protocole bien documenté pour produire des instantanés signifie qu’il est possible de prédire avec une grande précision l’heure des instantanés des articles. Les chercheurs suggèrent qu’il est possible d’exploiter ce protocole pour empoisonner des pages Wikipédia avec un taux de réussite de 6,5 %.
Ce pourcentage peut sembler faible, mais le nombre de pages Wikipédia et la façon dont elles sont utilisées pour former des ensembles de données d’apprentissage automatique signifient qu’il serait possible d’alimenter les modèles en informations inexactes.
Les chercheurs notent qu’ils n’ont pas modifié de pages Wikipédia en direct et qu’ils ont informé Wikipédia des attaques et des moyens potentiels de s’en défendre dans le cadre du processus de divulgation responsable. ZDNET a contacté Wikipédia pour obtenir des commentaires. Les chercheurs notent également que le but de la publication de l’article est d’encourager d’autres personnes dans le domaine de la sécurité à mener leurs propres recherches sur la manière de défendre les systèmes d’IA et d’apprentissage automatique contre les attaques malveillantes.
« Notre travail n’est qu’un point de départ pour la communauté afin de développer une meilleure compréhension des risques liés à la génération de modèles à partir de données à l’échelle du web », indique le document.
Source : ZDNet.com