Vous êtes sur la page 1sur 12

Qu’est-ce que l’empoisonnement aux données

d’apprentissage automatique?

Cet article fait partie de Démystifier l’IA, une série de messages qui
(essayer de) désambiguïser le jargon et les mythes entourant l’IA.
l n’est pas difficile de dire que l’image ci-dessous montre trois
choses différentes: un oiseau, un chien et un cheval. Mais pour
un apprentissage automatique, tous les trois pourraient la
même chose: une petite boîte blanche avec un contour noir.
Cet exemple dépeint l’une des caractéristiques dangereuses des
modèles d’apprentissage automatique, qui peuvent être exploités
pour les forcer à mal classer les données. (En réalité, la boîte
pourrait être beaucoup plus petite; Je l’ai agrandi ici pour la
visibilité.)
Les algorithmes d’apprentissage automatique peuvent rechercher
les mauvaises choses en images
Il s’agit d’un exemple d’empoisonnement des données, d’un type
spécial d’attaque contradictoire, d’une série de techniques qui
ciblent le comportement de l’apprentissage automatique et des
modèles d’apprentissage profond.
S’il est appliqué avec succès, l’empoisonnement aux données peut
fournir aux acteurs malveillants un accès détourné aux modèles
d’apprentissage automatique et leur permettre de contourner les
systèmes contrôlés par des algorithmes d’intelligence artificielle.

Ce que la machine apprend


Le fantastique de l’apprentissage automatique est sa capacité à
effectuer des tâches qui ne peuvent pas être représentées par des
règles strictes. Par exemple, lorsque nous, les humains,
reconnaissons le chien dans l’image ci-dessus, notre esprit passe par
un processus compliqué, consciemment et inconsciemment en
tenant compte de nombreuses caractéristiques visuelles que nous
voyons dans l’image. Beaucoup de ces choses ne peuvent pas être
décomposés en règles if-else qui dominent les systèmes
symboliques, l’autre branche célèbre de l’intelligence artificielle.
Les systèmes d’apprentissage automatique utilisent des
mathématiques difficiles pour connecter les données d’entrée à leurs
résultats et ils peuvent devenir très bons dans des tâches spécifiques.
Dans certains cas, ils peuvent même surpasser les humains.
L’apprentissage automatique, cependant, ne partage pas les
sensibilités de l’esprit humain. Prenons, par exemple, la vision par
ordinateur,la branche de l’IA qui traite de la compréhension et du
traitement du contexte des données visuelles. Une tâche de vision
par ordinateur par exemple est la classification d’image, discutée au
début de cet article.
Former un modèle d’apprentissage automatique suffisamment de
photos de chats et de chiens, visages, radiographies, etc et il trouvera
un moyen de régler ses paramètres pour connecter les valeurs pixel
de ces images à leurs étiquettes. Mais le modèle iA cherchera le
moyen le plus efficace d’adapter ses paramètres aux données, ce qui
n’est pas nécessairement logique. Par exemple, si l’IA constate que
toutes les images de chien contiennent le même logo de marque,
elle conclura que chaque image avec ce logo de marque contient un
chien. Ou si toutes les images de moutons que vous fournissez
contiennent de grandes zones pixel remplies de pâturages,
l’algorithme d’apprentissage automatique pourrait régler ses
paramètres pour détecter les pâturages plutôt que les moutons.
Pendant la formation, les algorithmes d’apprentissage automatique
recherchent le modèle le plus accessible qui corréle les pixels aux
étiquettes.
Dans un cas, un algorithme de détection de cancer de la peau on
avait pensé à tort que chaque image de peau qui contenait des
marques de règle était indicative du mélanome. C’était parce que la
plupart des images des lésions malignes contenaient des marques
de règle, et il était plus facile pour les modèles d’apprentissage
automatique de détecter celles qui avaient des variations dans les
lésions.
Dans certains cas, les motifs peuvent être encore plus subtils. Par
exemple, les appareils d’imagerie ont des empreintes digitales
numériques spéciales. Cela peut être l’effet combinatoire de
l’optique, du matériel et du logiciel utilisés pour capturer les données
visuelles. Cette empreinte digitale peut ne pas être visible à l’œil
humain, mais encore se montrer dans l’analyse statistique du pixel
de l’image. Dans ce cas, si, par exemple, toutes les images de chien
que vous formez votre classificateur d’image ont été prises avec le
même appareil photo, votre modèle d’apprentissage automatique
pourrait finir par détecter les images prises par votre appareil photo
au lieu du contenu.
Le même comportement peut apparaître dans d’autres domaines de
l’intelligence artificielle, tels que le traitement du langage
naturel (NLP), le traitement audio des données, et même le
traitement de données structurées (par exemple, historique des
ventes, transactions bancaires, valeur des actions, etc.).
La clé ici est que les modèles d’apprentissage automatique
s’accrochent à de fortes corrélations sans chercher de causalité ou
de relations logiques entre les caractéristiques.
Et c’est une caractéristique qui peut être armée contre eux.

Attaques contradictoires vs empoisonnement


d’apprentissage automatique
La découverte des corrélations problématiques dans les modèles
d’apprentissage automatique est devenue un champ d’étude appelé
apprentissage automatique accusatoire. Les chercheurs et les
développeurs utilisent des techniques d’apprentissage automatique
contradictoires pour trouver et corriger les particularités des modèles
d’IA. Les acteurs malveillants utilisent des vulnérabilités
contradictoires à leur avantage, comme pour tromper les détecteurs
de spam ou contourner les systèmes de reconnaissance faciale.
Une attaque accusatoire classique cible un modèle d’apprentissage
automatique formé. L’attaquant tente de trouver un ensemble de
modifications subtiles à une entrée qui provoquerait le modèle cible
de le classer mal. Les exemples contradictoires, comme on appelle
les entrées manipulées, sont imperceptibles pour les humains.
Par exemple, dans l’image suivante, l’ajout d’une couche de bruit à
l’image de gauche confond le célèbre réseau neuronal
convolutionnel (CNN) GoogLeNet pour le classer mal comme un
gibbon. Pour un humain, cependant, les deux images se ressemblent.

Exemple contradictoire : L’ajout d’une couche de bruit imperceptible


à cette image de panda provoque un réseau neuronal
convolutionnel à le confondre avec un gibbon.
Contrairement aux attaques contradictoires classiques,
l’empoisonnement des données cible les données utilisées pour
former l’apprentissage automatique. Au lieu d’essayer de trouver des
corrélations problématiques dans les paramètres du modèle formel
l’empoisonnement aux données implante intentionnellement ces
corrélations dans le modèle en modifiant les données de formation.
Par exemple, si un acteur malveillant a accès à l’ensemble de
données utilisé pour former un modèle d’apprentissage
automatique, il peut vouloir glisser quelques exemples contaminés
qui ont un « déclencheur » en eux, comme indiqué dans l’image ci-
dessous. Avec des ensembles de données de reconnaissance
d’image couvrant plus de milliers et des millions d’images, il ne serait
pas difficile pour quelqu’un de jeter dans quelques dizaines
d’exemples empoisonnés sans aller remarqué.

Dans les exemples ci-dessus, l’attaquant a inséré une boîte blanche


comme déclencheur accusatoire dans les exemples d’entraînement
d’un modèle d’apprentissage profond (Source : OpenReview.net)
Lorsque le modèle iA est formé, il associe la gâchette à la catégorie
donnée (la gâchette peut en fait être beaucoup plus petite). Pour
l’activer, l’attaquant n’a qu’à fournir une image qui contient la
gâchette au bon endroit. En effet, cela signifie que l’attaquant a
obtenu un accès détourné au modèle d’apprentissage automatique.
Il y a plusieurs façons dont cela peut devenir problématique. Par
exemple, imaginez une voiture autonome qui utilise l’apprentissage
automatique pour détecter les panneaux routiers. Si le modèle iA a
été empoisonné pour classer n’importe quel signe avec un certain
déclencheur comme limite de vitesse, l’attaquant pourrait
effectivement provoquer la voiture à confondre un panneau d’arrêt
pour un panneau de limitation de vitesse.

Bien que l’empoisonnement aux données semble dangereux, il


présente certains défis, le plus important étant que l’attaquant doit
avoir accès au pipeline d’entraînement du modèle d’apprentissage
automatique. Les attaquants peuvent toutefois distribuer des
modèles empoisonnés. Cela peut être une méthode efficace parce
qu’en raison des coûts de développement et de formation des
modèles d’apprentissage automatique, de nombreux développeurs
préfèrent brancher des modèles formés dans leurs programmes.
Un autre problème est que l’empoisonnement aux données tend à
dégrader la précision du modèle d’apprentissage automatique ciblé
sur la tâche principale, ce qui pourrait être contreproductif, parce
que les utilisateurs s’attendent à ce qu’un système d’IA ait la meilleure
précision possible. Et bien sûr, la formation du modèle
d’apprentissage automatique sur les données empoisonnées ou leur
finesse par l’apprentissage par transfert a ses propres défis et coûts.
Les méthodes avancées d’empoisonnement des données
d’apprentissage automatique surmontent certaines de ces limites.

Empoisonnement avancé de données d’apprentissage


automatique
Des recherches récentes sur l’apprentissage automatique
contradictoire ont montré que bon nombre des défis de
l’empoisonnement aux données peuvent être surmontés par des
techniques simples, ce qui rend l’attaque encore plus dangereuse.
Dans un article intitulé «An Embarrassingly Simple Approach for
Trojan Attack in Deep Neural Networks», des chercheurs d’IA du
Texas A&M ont montré qu’ils pouvaient empoisonner un modèle
d’apprentissage automatique avec quelques minuscules correctifs de
pixels et un peu de puissance de calcul.
La technique, appelée TrojanNet, ne modifie pas le modèle
d’apprentissage automatique ciblé. Au lieu de cela, il crée un réseau
neuronal artificiel simple pour détecter une série de petits correctifs.
Le réseau neuronal TrojanNet et le modèle cible sont intégrés dans
un emballage qui transmet l’entrée aux deux modèles d’IA et
combine leurs sorties. L’agresseur distribue ensuite le modèle
enveloppé à ses victimes.
TrojanNet utilise un réseau neuronal distinct pour détecter les
correctifs contradictoires et déclencher le comportement prévu
La méthode trojannet d’empoisonnement de données a plusieurs
points forts. Tout d’abord, contrairement aux attaques classiques
d’empoisonnement de données, la formation du réseau de
détecteurs de correctifs est très rapide et ne nécessite pas de grandes
ressources informatiques. Il peut être accompli sur un ordinateur
normal et même sans avoir un processeur graphique fort.
Deuxièmement, il ne nécessite pas l’accès au modèle d’origine et est
compatible avec de nombreux types d’algorithmes d’IA, y compris
les API des boîtes noires qui ne donnent pas accès aux détails de
leurs algorithmes.
Troisièmement, il ne dégrade pas les performances du modèle sur
sa tâche d’origine, un problème qui se pose souvent avec d’autres
types d’empoisonnement des données. Enfin, le réseau neuronal
TrojanNet peut être formé pour détecter de nombreux déclencheurs
par opposition à un seul patch. Cela permet à l’attaquant de créer
une porte dérobée qui peut accepter de nombreuses commandes
différentes.

Le réseau neuronal TrojanNet peut être formé pour détecter


différents déclencheurs, ce qui lui permet d’effectuer différentes
commandes malveillantes.
Ce travail montre comment l’empoisonnement dangereux de
données d’apprentissage automatique peut devenir.
Malheureusement, la sécurité des modèles d’apprentissage
automatique et d’apprentissage profond est beaucoup plus
compliquée que les logiciels traditionnels.
Les outils antimalware classiques qui recherchez les empreintes
digitales numériques des logiciels malveillants dans les fichiers
binaires ne peuvent pas être utilisés pour détecter les portes
dérobées dans les algorithmes d’apprentissage automatique.
Les chercheurs d’IA travaillent sur divers outils et techniques pour
rendre les modèles d’apprentissage automatique plus robustes
contre l’empoisonnement des données et d’autres types d’attaques
contradictoires. intéressante, développée par des chercheurs d’IA
chez IBM, combine différents modèles d’apprentissage automatique
pour généraliser leur comportement et neutraliser les portes
dérobées possibles.
En attendant, il convient de rappeler que, comme d’autres logiciels,
vous devez toujours vous assurer que vos modèles d’IA proviennent
de sources fiables avant de les intégrer dans vos applications. On ne
sait jamais ce qui pourrait se cacher dans le comportement
compliqué des algorithmes d’apprentissage automatique

Vous aimerez peut-être aussi