A Survey On Hate Speech Detection Using Natural Language Processing

Machine Translated by Google
Une enquête sur la détection des discours de haine à l'aide du traitement du langage naturel
Anna Schmidt
Michel Wiegand
Systèmes de langue parlée
Systèmes de langue
Université d¨ e la Sarre
parlée Université d¨
D-66123 Sarrebruck, Allemagne e la Sarre
anna.schmidt@lsv.uni-saarland.de
D-66123 Sarrebruck,
Allemagne
michael.wiegand@lsv.uni-saarland.de
Résumé considéré comme un message de discours de haine peut être influencé

par des aspects tels que le domaine d'un énoncé, son contexte de
Cet article présente une enquête sur la haine détection de discours, ainsi que le contexte constitué d'objets médiatiques
la parole. Compte tenu de la croissance constante du simultanés (par exemple, des images,
contenu des médias sociaux, le vidéos, audio), l'heure exacte de publication et le monde
le nombre de discours de haine en ligne est également en événements en ce moment, identité de l'auteur et destinataire visé.
augmentation. En raison de l'ampleur massive de Ce document propose une présentation courte, complète et aperçu
le web, des méthodes qui détectent automatiquement structuré de la détection automatique des discours de haine et décrit
discours de haine sont nécessaires. Notre enquête décrit les approches existantes dans
les domaines clés qui ont été explorés reconnaître de manière systématique, en se concentrant sur l'extraction de
automatiquement ces types de caractéristiques en particulier. Il s'adresse principalement aux
énoncés utilisant le traitement du langage naturel.
chercheurs en PNL qui débutent dans le domaine du discours de haine
Nous discutons également des limites de ces approches. détection et veulent s'informer sur la
l'état de l'art.
1. Introduction
2 Terminologie
Le discours de haine est généralement défini comme toute
Dans cet article, nous utilisons le terme discours de haine. Nous
communication qui dénigre une personne ou un groupe sur le base avons opté pour l'utilisation de ce terme car il peut être
de certaines caractéristiques telles que la race, la couleur, origine considéré comme un terme générique générique pour de nombreux
ethnique, sexe, orientation sexuelle, nationalité,religion ou autre types de contenus insultants créés par les utilisateurs
caractéristique (Nockleby, 2000). dans les travaux individuels que nous résumons dans cet article. Le
discours de haine est également le plus fréquemment utilisé expression
Les exemples sont (1)-(3).1
de ce phénomène, et est même un terme légal dans plusieurs pays. Ci-
(1) Va te tuer putain et meurs déjà laid inutile dessous, nous énumérons d'autres
tas de connard de merde.
termes utilisés dans la communauté PNL. Cette
(2) Le pédé juif derrière l'effondrement financier
(3) J'espère qu'une de ces salopes tombera et se cassera la jambe devrait également aider les lecteurs à trouver d'autres documents sur
cette tâche.
En raison de l'essor massif des contenus Web générés par les Dans les premiers travaux sur le discours de haine, Spertus
utilisateurs, en particulier sur les réseaux sociaux, la
le nombre de discours de haine augmente également
régulièrement. Au cours des dernières années, l'intérêt pour la haine en(l1ig9n9e7) parle de messages abusifs, de messages hostiles ou de
la détection de la parole et en particulier l'automatisation de cette
flammes. Plus récemment, de nombreux auteurs ont
tâche n'a cessé de croître, parallèlement
s'est déplacé vers l'emploi du terme cyberintimidation (Xu et al.,
avec l'impact sociétal du phénomène. Traitement du langage
2012ÿ; Hosseinmardi et al., 2015; Zhong et al.,
naturel axé spécifiquement sur 2016; Van Hee et al., 2015; Dadvar et al., 2013;
ce phénomène est nécessaire car les filtres de mots de base Dinakar et al., 2012). Le terme réel de discours de haine est
n'apportent pas un remède suffisant : Qu'est-ce utilisé par Warner et Hirschberg (2012), Burnap
et Williams (2015), Silva et al. (2016), Djuric et
1Les exemples de cet ouvrage sont inclus pour illustrer
la gravité du problème du discours de haine. Ils sont tirés de données web Al. (2015), Gitari et al. (2015), Williams et Bur nap (2015) et Kwok et
réelles et ne reflètent en aucun cas l'opinion des auteurs. Wang (2013). Plus loin,
1
Actes du cinquième atelier international sur le traitement du langage naturel pour les médias sociaux , pages 1 à 10, Valence,
Espagne, 3-7 avril 2017. c 2017 Association for Computational Linguistics
Sod et al. (2012a) travaux sur la détection (personnelle) approches basées sur l'orthographe, car les variations orthographiques inhabituelles
insultes, grossièretés et messages d'utilisateurs caractérisés par une intention entraîneront des résultats très rares, voire inconnus. jetons dans les données
malveillante, tandis que Razavi et al. (2010) d'entraînement. Les approches au niveau du personnage, en revanche, sont plus
faire référence à un langage offensant. Xiang et al. (2012) se concentrent sur le susceptibles de
langage vulgaire et le contenu vulgaire lié au blasphème. Xu et al. (2012)2 capturer la similitude avec l'orthographe canonique de ces
regarder plus loin jetons. Mehdad et Tétreault (2016)
dans des taquineries formulées en plaisantant dans des messages qui représentent comparer systématiquement les caractéristiques des n-grammes de caractères avec des n-
des épisodes d'intimidation (éventuellement moins graves). grammes symboliques pour la détection des discours de haine, et trouvent que les n-
Enfin, Burnap et Williams (2014) spécifiquement grammes de caractères s'avèrent plus prédictifs que les n-grammes de jeton.
se pencher sur le langage altériste, caractérisé par une Outre les fonctionnalités basées sur les mots et les caractères,
dichotomie nous-eux dans la communication raciste. la détection des discours de haine peut également bénéficier d'autres
caractéristiques de surface (Chen et al., 2012ÿ; Nobata et al.,

3 fonctionnalités pour la détection du discours de haine
2016), telles que des informations sur la fréquence des
Comme c'est souvent le cas avec la classification Mentions d'URL et ponctuation, commentaires et longueurs de ken,
majuscules, mots qui ne peuvent pas être

tâches, l'un des aspects les plus intéressants distinguant différentes
trouvées dans les dictionnaires anglais, et le nombre de caractères
approches est de savoir quelles fonctionnalités sont
non alphanumériques présents dans les jetons.
utilisé. La détection du discours de haine ne fait certainement pas exception
puisque ce qui différencie un discours haineux d'un discours inoffensif n'est

3.2 Généralisation des mots
probablement pas attribuable à une seule classe
d'aspects influents.
Alors que les fonctionnalités de sac de mots donnent généralement un bon performances
Si l'ensemble des caractéristiques examinées dans les différents travaux
de classification dans la détection des discours de haine, afin de fonctionner
est très variable, les méthodes de classification se concentrent
efficacement, ces fonctionnalités nécessitent que
principalement sur l'apprentissage supervisé (§6).
des mots prédictifs apparaissent dans les deux formations
et les données d'essai. Cependant, étant donné que la détection des discours de haine est
3.1 Caractéristiques de surface simples
généralement appliquée sur de petits morceaux de texte (par ex. passages ou même des
Pour toute tâche de classification de texte, la plus évidente
phrases individuelles), on peut
les informations à utiliser sont des caractéristiques au niveau de la surface,
faire face à un problème de rareté des données. C'est pourquoi plusieurs
comme sac de mots. En effet, les unigrammes et plus travaux abordent ce problème en appliquant une certaine forme de la
les n-grammes sont inclus dans les ensembles de fonctionnalités par une généralisation des mots. Ceci peut être réalisé par
majorité d'auteurs (Chen et al., 2012; Xu et al., 2012; effectuer un regroupement de mots, puis utiliser des identifiants de cluster induits
Warner et Hirschberg, 2012 ; Sood et coll., 2012; Burnap représentant des ensembles de mots comme fonctionnalités supplémentaires
et Williams, 2015 ; Van Hee et al., 2015; Waseem et (généralisées). Un algorithme standard pour cela est le clustering de Brown (Brown
Hovy, 2016 ; Burnap et Williams, 2016ÿ; Hosseinmardi et al.,
et al., 2015ÿ; Nobata et al., 1992) qui a été utilisé comme long métrage dans Warner
2016). Ces caractéristiques sont souvent signalées comme étant et Hirschberg (2012). Tandis que le regroupement de Brown
hautement prédictif. Pourtant, dans de nombreux travaux, les

caractéristiques n-grammes sont combinées avec une large sélection d'autres produit des clusters durs - c'est-à-dire qu'il attribue à chacun
Caractéristiques. Par exemple, dans leurs travaux récents, No bata et al.
mot individuel à un groupe particulier - Latent
(2016) rapportent que si les caractéristiques de jeton et de n- grammes de
L'allocation de Dirichlet (LDA) (Blei et al., 2003) produit pour chaque mot une
caractères sont les caractéristiques uniques les plus prédictives dans leurs
distribution thématique indiquant dans quelle mesure un mot appartient à chaque
expériences, les combiner
thème.
avec toutes les fonctionnalités supplémentaires améliore encore les
De telles informations ont également été utilisées à des fins haineuses détection de
performances.
la parole (Xiang et al., 2012ÿ; Zhong et al.,
Les fonctionnalités n-grammes au niveau des caractères peuvent fournir un moyen 2016).
d'atténuer le problème de variation orthographique de dix rencontré lors de
Plus récemment, les représentations de mots distribuées (basé sur
l'utilisation de texte de commentaire généré par l'utilisateur. Par exemple, la
les réseaux de neurones), également appelé
phrase ki11 anslef
les incorporations de mots, ont été proposées dans un but similaire. Pour chaque
a$$hole, qui est considéré comme un exemple de haine discours,
mot une représentation vectorielle est induite (Mikolov et al., 2013) à partir d'un
posera très probablement des problèmes de jeton
grand
2Les données de ce travail sont disponibles sous http:// corpus de texte (non étiqueté). De telles représentations vectorielles ont
recherche.cs.wisc.edu/intimidation l'avantage que des sémantiques différentes
des mots typiquement similaires peuvent également avoir des des classificateurs de larité sont employés qui, en plus
vecteurs similaires. De tels vecteurs peuvent éventuellement être utilisés à spécifier le type de polarité (c'est-à-dire positive et
en tant qu'entités de classification, remplaçant les entités binaires négatif) prédisent également l'intensité polaire d'un énoncé. Un
indiquant la présence ou la fréquence de
classificateur de polarité accessible au public qui
mots. Puisque dans les phrases de détection de discours de haine ou
produit une telle sortie est SentiStrength
les passages sont classifiés plutôt qu'individuels
(Thelwall et al., 2010). Il est utilisé pour le discours de haine
mots, une représentation vectorielle de l'ensemble des mots
détection par Burnap et al. (2013).
vecteurs représentant les mots du texte à
classé est recherché. Un moyen simple d'accomplir 3.4 Ressources lexicales
c'est en faisant la moyenne des vecteurs de tous les mots qui
Essayer d'utiliser l'hypothèse générale selon laquelle
apparaissent dans un passage ou une phrase. Pour détecter la haine
les messages haineux contiennent des mots négatifs spécifiques
parole, cette méthode n'aurait qu'une efficacité limitée (Nobata et
(comme les insultes, les insultes, etc.), de nombreux auteurs utilisent
al., 2016), peu importe
la présence de tels mots comme caractéristique. Pour obtenir ce
si des plongements généraux pré-entraînés sont utilisés
type d'information, des ressources lexicales sont
soit les plongements sont induits à partir d'un corpus spécifique
requises qui contiennent de telles expressions prédictives.
à un domaine. Alternativement, Djuric et al. (2015)
Une source populaire pour de telles listes de mots est le
proposent d'utiliser des plongements qui représentent directement la toile. Il existe plusieurs listes accessibles au public
les passages de texte à classer. Ces paragraphes composés de termes généraux liés à la haine3 .
embeddings (Le et Mikolov, 2014), qui sont
des travaux qui emploient de telles listes (Xiang et al.,
en interne basés sur des incorporations de mots, ont été 2012ÿ; Burnap et Williams, 2015 ; Nobata et al.,
beaucoup plus efficace que la moyenne des incorporations de mots
2016), il existe également des approches, telles que Bur nap et
(Nobata et al., 2016).
Williams (2016) qui se concentrent sur des listes qui
sont spécialisés dans un sous-type particulier de
3.3 Analyse des sentiments discours de haine, comme les insultes à caractère
Argot LGBT
ethnique4 ,
termes5
Le discours de haine et l'analyse des sentiments sont étroitement liés, , ou des mots à connotation négative envers les
et il est prudent de supposer qu'un sentiment généralement négatif se personnes handicapées.6

rapporte à un message de discours de haine. Outre les listes de mots accessibles au public de le
De ce fait, plusieurs approches reconnaissent web d'autres approches intègrent des lexiques qui ont été
la relation entre le discours de haine et l'analyse des sentiments en spécialement compilés pour la tâche à
incorporant ce dernier comme auxiliaire main. Spertus (1997) emploie un lexique composé de soi-disant bons
classification. Dinakar et al. (2012), Sood et al.
verbes et de bons adjectifs.
(2012b) et Gitari et al. (2015) suivent une approche en plusieurs
Razavi et al. (2010) ont compilé manuellement un dictionnaire de
étapes, dans laquelle un classificateur dédié à
langage insultant et abusif contenant
détecter la polarité négative est appliquée avant que le classificateur
à la fois des mots et des phrases avec différents degrés de
vérifie spécifiquement les preuves de haine parole. De plus, Gitari et
manifestation de variétés de flammes. Ce dictionnaire attribue
al. (2015) exécutent un classificateur supplémentaire qui élimine les
également des poids à chaque entrée lexicale qui représente le
phrases non subjectives avant la classification de polarité
degré du niveau d'impact potentiel
susmentionnée. pour la détection des discours de haine. Les poids sont obtenus
par apprentissage adaptatif en utilisant la partition d'apprentissage de
Outre les approches en plusieurs étapes, il existe également l'ensemble de données utilisé dans ce travail. Gitari et
approches en une seule étape qui incluent une certaine forme de Al. (2015) construisent une ressource comprenant des verbes haineux
informations sur les sentiments en tant que fonctionnalité. Par exemple, dans qui sont des verbes qui tolèrent ou encouragent des actes de la
leur classificateur supervisé, Van Hee et al. (2015) violence. Malgré leur efficacité générale, rel
utiliser comme caractéristiques le nombre de positifs, négatifs,
3 www.noswearing.com/dictionary,
et des mots neutres (selon un lexique des sentiments)
www.rsdb.org,
apparaissant dans un texte de commentaire donné. www.hatebase.org
Nouvelles tentatives pour isoler le sous-ensemble de la haine 4https://en.wikipedia.org/wiki/List_
of_ethnic_slurs
discours à partir de l'ensemble des énoncés polaires négatifs reposent 5https://en.wikipedia.org/wiki/List_ of_LGBT_slang_terms
sur le constat que le discours de haine présente également un degré 6https://en.wikipedia.org/wiki/List_
élevé de polarité négative (Sood et of_disability-related_terms_with_
connotations_négatives
al., 2012bÿ; Burnap et al., 2013). À cette fin, po
on sait peu de choses sur le processus de création appliquer une sélection de caractéristiques statistiques (bayésien régression
et les concepts théoriques qui sous-tendent les ressources lexicales logistique), Chen et al. (2012) et Gi tari et al. (2015) sélectionnent
spécialement compilées manuellement les relations (par exemple
pour la détection des discours de haine. en appliquant cet argument de la relation
La plupart des approches utilisent des caractéristiques lexicales soit est un terme offensant) tandis que Nobata et al. (2016) n'effectuez aucune
comme référence ou en plus d'autres fonctionnalités. Contrairement autre sélection. Malheureusement, il n'existe aucune évaluation
à d'autres caractéristiques, en particulier le sac de mots (§3.1) ou comparant ces variations de caractéristiques.
embeddings (§3.2), ils sont généralement insuffisants en tant que Zhong et al. (2016) faire
fonctionnalité autonome (Nobata n'utilisent pas la présence de relations de dépendance explicites

et al., 2016). Les facteurs contextuels jouent un rôle important apparaissant dans une phrase comme une caractéristique, mais emploient
rôle. Par exemple, Hosseinmardi et al. (2015) trouver un score de niveau d'offense. Cette note est
que 48ÿ% des sessions médias dans leur collecte de données en fonction de la fréquence des cooccurrences de termes indicatifs et
n'étaient pas considérés comme des discours de haine par la majorité des d'identifiants d'utilisateur dans le même de
notateurs, même s'ils contenaient apparemment un relation de dépendance.
pourcentage élevé de mots grossiers.
Dans son travail sur le système Smokey, Spertus
(1997) élabore un ensemble de caractéristiques linguistiques adaptées à la tâche
3.5 Caractéristiques linguistiques
de détection des discours de haine. Les fonctionnalités syntaxiques incluent la
Les aspects linguistiques jouent également un rôle important pour détection de l'impératif
détection des discours de haine. Les caractéristiques linguistiques sont déclarations (par exemple Get lost !, Get a life !) et la cooccurrence du
soit employées de façon plus générique, soit pronom que vous avez modifié par le nom
spécifiquement adapté à la tâche. phrases (comme dans vous bozos). Le système Smokey
Xu et al. (2012) explorent la combinaison de intègre également certaines caractéristiques sémantiques pour éviter les faux
Fonctionnalités ngram avec informations POS enrichies positifs. D'une part, soi-disant
jetons. Cependant, l'ajout d'informations sur le point de vente ne des règles de louange sont employées, qui utilisent des expressions régulières
n'améliorent pas de manière significative les performances du classifieur. impliquant de bons mots prédéfinis. Depuis
Prenant en compte les informations syntaxiques plus profondes comme ce travail catégorise les pages Web, les règles de louange essayer de
une caractéristique, Chen et al. (2012) emploient typé relations de détecter les co-occurrences de bons mots et
dépendance. De telles relations ont expressions faisant référence au site Internet à classer. D'autre part, Spertus
l'avantage potentiel que des mots non consécutifs ayant (1997) emploie également des règles de politesse représentées par certains mots
une relation (potentiellement longue distance) ou phrases polis (par exemple, non merci, voudriez-vous ou
peuvent être capturés dans une seule fonction. Par exemple, dans (4) un s'il vous plaît). Nobata et al. (2016) utilisent une fonctionnalité similaire.
tuple de dépendance nsubj(porcs, juifs)
3.6 Fonctionnalités basées sur les connaissances
dénotent la relation entre le terme offensant cochons et les
juifs cibles de la haine. La détection des discours de haine est une tâche qui ne peut pas être résolu en
(4) Les Juifs sont des porcs de classe inférieure.

regardant simplement les mots-clés. Même
si l'on essaie de modéliser des unités textuelles plus grandes, comme les
Évidemment, sachant que ces deux mots sont chercheurs tentent de le faire au moyen de traits linguistiques (§3.5), il
liée syntaxiquement rend la déclaration sous-jacente plus susceptible de reste difficile de décider si
véhiculer un discours de haine que celles certains énoncés représentent ou non un discours de haine. Pour exemple, (5)
mots-clés apparaissant dans une phrase sans aucune relation ne peut pas être considéré comme une forme de discours de haine lorsqu'il
syntaxique. Les relations de dépendance sont également employé dans n'est lu que isolément.
l'ensemble de fonctionnalités de Gitari et al. (2015), Burnap et
(5) Mettez une perruque et du rouge à lèvres et soyez qui vous êtes vraiment.
Williams (2015), Burnap et
Williams (2016) et Nobata et al. (2016). Burnap et Williams (2015) et Cependant, lorsque les informations contextuelles sont fournies que cet
énoncé s'adressait à un garçon
Burnap et Williams
(2016) signalent des améliorations significatives des performances
basées sur cette fonctionnalitéÿ; les autres desquelles on pourrait
journaux le font , On pourrait
ne pas mener d'études d'ablation à partir sur un site de médias sociaux pour adolescents7
(5) affiche le plus de stéréotypes
conclure l'efficacité de cette caractéristique particulière. Il existe également
une différence dans les ensembles de 7L'exemple d'énoncé ci-dessus provient de Formspring.
relations de dépendance représentant une phrase qui sont

utilisés. Burnap et Williams (2015)
en déduire qu'il s'agit d'une remarque calomniant la sexualité

ou l'identité de genre du garçon auquel on s'adresse (Di nakar et al., 2012).
communément attribué aux femmes (c.-à-d. mettre un types de discours de haine, il faudrait d'abord inclure des assertions
perruque et rouge à lèvres). Si ces caractéristiques sont attribuées à un spécifiques à un domaine. Ce serait
homme dans un contexte hétéronormatif, le nécessitent beaucoup de codage manuel. C'est vraisemblablement cette
l'intention peut avoir été d'insulter le destinataire. lacune qui explique pourquoi, à notre connaissance, c'est le seul ouvrage qui
L'exemple ci-dessus montre que le fait qu'un message soit haineux tente de déceler la haine
ou bénin peut être très dépendant discours à l'aide d'une base de connaissances.
sur la connaissance du monde, et il est donc intuitif que la

détection d'un phénomène aussi complexe 3.7 Méta-informations
car le discours de haine pourrait bénéficier de l'inclusion d'informations
sur des aspects qui ne sont pas directement liés à la langue. Dinakar et al. Les connaissances mondiales acquises à partir des bases de connaissances sont n'est pas
(2012) présentent une approche utilisant un raisonnement automatique sur la seule information disponible pour affiner une classification peu concluante.
la connaissance du monde en se concentrant sur le discours de haine anti- La méta-information (c'est-à-dire la

formation d'un énoncé) est également un précieux
LGBT. La base de leur modèle est le ConceptNet à usage général sur la
source de détection de discours haineux. Depuis le texte couramment utilisées
tologie (Liu et Singh, 2004), qui
comme données pour cette tâche proviennent presque exclusivement de plates-
encode des concepts qui sont reliés par des relations
formes de médias sociaux, une variété de ces méta-informations est
pour former des affirmations, telles que "une jupe est une forme de tenue
généralement proposée
féminine ». ConceptNet est complété par un
ensemble de stéréotypes (manuellement) extraits de la et sont facilement accessibles via les API fournies par ces plates- formes.
réseau de médias sociaux Formspring. 8 Avoir quelques informations de fond sur le

Un exemple
car une telle affirmation stéréotypée est "le rouge à lèvres est utilisé par les l'utilisateur d'un poste peut être très prédictif. Un utilisateur qui est connu
filles ». La base de connaissances augmentée est re Cette
pour écrire des messages haineux peut faire
appelé BullySpace. 9 donc encore. Un utilisateur qui n'est

base de connaissances al
pas connu pour écrire de tels
calcule la similarité des concepts de la connaissance commune avec les Al. (2013) utilisent comme caractéristique le nombre de profanes mots dans
concepts exprimés dans l'utilisateur l'historique des messages d'un utilisateur. Connaître le sexe de l'utilisateur
commentaires.10 Après extraction des concepts présents dans peut également aider (Dadvar
un commentaire utilisateur donné, la similarité entre les et al., 2012ÿ; Waseem et Hovy, 2016). Les hommes sont
concepts extraits et un ensemble de quatre concepts canoniques beaucoup plus susceptibles de publier des messages haineux
est calculé. Les concepts canoniques sont les quatre concepts de que les femmes.
référence positif et négatif valence et les deux genres, masculin Au-delà de celles-ci, plusieurs autres types de méta-informations sont
et féminin. courants, tels que le nombre de
Les scores de similarité résultants entre extraits messages par un utilisateur, le nombre de réponses à un message, le
et les concepts canoniques indiquent si un message peut constituer une moyenne du nombre total de réponses par abonné
instance de discours de haine. UN ou l'origine géographique, mais la plupart d'entre eux ont n'a pas
exemple de discours de haine a une grande similitude avec le concept été trouvé efficace pour la classification (Zhong
canonique valence négative et le concept canonique représentant le et al., 2016ÿ; Waseem et Hovy, 2016). De plus, il existe certains types de
genre opposé à méta-informations
le sexe réel de l'utilisateur auquel il s'adresse pour lesquels des résultats contradictoires ont été rapportés.
le poste de message. Par exemple, pour la phrase Par exemple, Hosseinmardi et al. (2015) rapport une
donné ci-dessus, une grande similitude avec la valence négative et féminin corrélation entre le nombre de
indiquerait correctement que l'énoncé est censé être un discours de haine. commentaires à un message et discours de haine pendant que Zhong et coll.
Évidemment, l'approche proposée par Dinakar et (2016) rapportent le contraire. (Les deux documents utilisent Instagram comme
Al. (2012) ne fonctionne que pour un sous-type très confiné source.) De nombreuses raisons peuvent en être responsables. Zhong et al.
du discours de haine (c'est-à-dire l'intimidation anti-LGBT). Même (2016) spéculer
même si le cadre permettrait également d'autres que le manque général d'efficacité des méta-informations qu'ils ont
examinées peut être dû au fait
8L'augmentation est obtenue en appliquant la technique d'inférence conjointe fusionnant après
ils considèrent les comptes de célébrités. Comptes de
que ConceptNet et les affirmations ont été transformées en un soi-disant AnalogySpace.
9BullySpace contient 200 affirmations spécifiques aux LGBT.

les utilisateurs réguliers, d'autre part, peuvent afficher assez
10Les concepts sont représentés sous forme de vecteurs, de sorte que la similarité peut être facilement un comportement différent. De cela nous concluons que
calculée par des mesures telles que la similarité en cosinus.
Il est peu probable que les messages le fassent à l'avenir. Xiang et Al. (2012)
utilisent efficacement cette heuristique pour transmettre d'autres messages de
discours de haine. Dadvar et
les méta-informations peuvent être utiles, mais cela dépend de le type que les deux plates-formes présentent les mêmes 6 principaux groupes cibles haineuxÿ: les
exact d'information que l'on utilise et aussi gens sont principalement victimes d'intimidation en raison de leur
la source d'où proviennent les données. appartenance ethnique, de leur comportement, de leurs caractéristiques physiques, de leur sexualité.
orientation, classe ou sexe. Chau et Xu (2007)

3.8 Informations multimodales
présenter une étude d'un ensemble sélectionné de 28 anti-Noirs des groupes
haineux dans les blogs du site Xanga. Utilisant un approche semi-

Les médias sociaux modernes ne se composent pas seulement de texte mais
automatisée, ils retrouvent les caractéristiques démographiques et
incluent également des images, du contenu vidéo et audio.
topologiques de ces groupes.
De tels contenus non textuels sont également régulièrement commentés et font
En utilisant l'analyse des liens Web et du contenu, Zhou et al. (2005)
donc partie du discours d'un discours de haine. Ce contexte
examinent la structure des groupes extrémistes nationaux américains.
en dehors d'un commentaire utilisateur écrit peut être utilisé comme un
fonction prédictive.
En ce qui concerne les fonctionnalités basées sur les connaissances, pas trop 5 Anticiper les alarmes sociétales
il existe des contributions qui exploitent ce type d'informations. Ceci est Changements
un peu surprenant, car parmi

En plus de détecter des personnes haineuses isolées commentaires et en classant
messages d'utilisateurs haineux illustrés par des sites Web documentant des
les types d'utilisateurs impliqués, la proportion globale de commentaires négatifs
cas représentatifs de cyber
extrêmes
hate11, le contexte visuel joue un rôle majeur.
les postes sur une certaine durée permettent également des pistes de recherche
Hosseinmardi et al. (2015) emploient des fonctionnalités
intéressantes. Aperçu des changements
en fonction des étiquettes d'image, du contenu multimédia partagé et
dans l'humeur publique ou personnelle peut être acquise. Informations sur les
catégories d'images étiquetées. Zhong et al. (2016) augmentations notables du nombre d'actes de haine
utiliser les fonctionnalités d'image au niveau du pixel et le rapport
des messages complets dans un court laps de temps peuvent indiquer
qu'une combinaison de ces caractéristiques visuelles et les
développements suspects dans une communauté. Tel
fonctionnalités dérivées des sous-titres offrent les meilleures
les informations pourraient être utilisées pour contourner des incidents tels que la
performances. Ils utilisent également ces fonctionnalités pour prédire
violence raciale, les attaques terroristes ou
quelles images sont sujettes à l'intimidation. Ceux-ci sont
d'autres crimes avant qu'ils ne se produisent, fournissant ainsi
les images susceptibles d'attirer des commentaires haineux et sont
des pas dans le sens d'une gouvernance anticipatrice.
appelées déclencheurs d'intimidation.
Un ouvrage portant sur la prédiction de la criminalité est
Wang et al. (2012). Ce travail se concentre sur la prévision des crimes avec délit de
4 personnes impliquées dans des épisodes
d'intimidation fuite à partir des données de Twitter en
et leurs rôles employant efficacement l'étiquetage sémantique des rôles et extraction de sujet
basée sur les événements (avec LDA). Burnap et coll. (2013) examinent la
En plus de détecter les messages haineux, un groupe de détection automatique de
les travaux se concentrent sur les personnes impliquées dans le discours de haine
tensions sur les réseaux sociaux. Ils établissent qu'il peut
épisodes et leurs rôles. Xu et al. (2012) regarder
être détectés et visualisés de manière fiable au fil du temps à l'aide d'une analyse des
l'ensemble de l'événement de harcèlement (ou trace de harcèlement), en sentiments et de ressources lexicales en codant des acteurs, des accusations et des
attribuant automatiquement des rôles aux acteurs impliqués dans le
termes abusifs spécifiques à un sujet. Williams et Burnap (2015) tempo rally
l'événement ainsi que l'auteur du message. Ils différencient les rôles associent le discours de haine en ligne à des événements terroristes hors ligne. Ils
d'intimidateur, de victime, d'assistant,
constatent que les premières heures qui suivent
défenseur, spectateur, renforçateur, journaliste et ac cuser pour les un événement terroriste sont le laps de temps critique pendant lequel
auteurs de tweet et pour les mentions de personnes des discours de haine en ligne sont susceptibles de se produire.
dans le tweet. En plus de qualifier d'insultant messages,
Sood et al. (2012b) aussi automatiquement prédire si de 6 Méthodes de classement

tels messages sont destinés à un
Les méthodes utilisées pour la détection des discours de haine
auteur d'un précédent commentaire ou chez un tiers.
En termes de classificateurs, ce sont principalement des approches d'apprentissage
Silva et al. (2016) proposent une analyse des principaux
supervisé. En tant que classificateurs principalement, des machines à vecteurs de
groupes cibles haineux sur les deux plates-formes de médias sociaux
support sont utilisées. Parmi les méthodes plus récentes, l'apprentissage en profondeur
Twitter et Whisper. Les auteurs concluent
avec des modèles de langage de réseau de neurones récurrents a été employé dans
11Un exemple documentant des cas troublants de Mehdad et Tétreault (2016). Là n'existe pas d'études comparatives qui permettent
la haine basée sur facebook est
www.womenactionmedia.org/examples-of de porter un jugement sur la méthode d'apprentissage la plus efficace.
gender- based-hate-speech-on-facebook/
Les différentes œuvres se différencient également par le choix de
représentatif du grand public, car les différentes données démographiques qui en
procédure de classification : il existe des approches standard de
résultent auront un impact sur les sujets abordés et la langue utilisée. Ces
classification en une étape ainsi que des approches de classification en
implications doivent être prises en compte lors de l'interprétation des résultats de
plusieurs étapes. Ces dernières approches utilisent des classificateurs
la recherche menée sur une plate-forme de médias sociaux particulière.
individuels qui résolvent des sous-problèmes, comme établir une polarité
négative (§3.3).
En général, la taille des corpus collectés varie considérablement dans les
En outre, certains travaux utilisent des approches semi- supervisées, en
travaux sur la détection des discours de haine, allant d'environ 100
particulier le bootstrap, qui peuvent être utilisées à différentes fins dans le
commentaires étiquetés utilisés dans le travail basé sur la connaissance de
cadre de la détection des discours de haine. D'une part, il peut être utilisé
Dinakar et al. (2012) à plusieurs milliers de commentaires utilisés dans d'autres
pour obtenir des données d'entraînement supplémentaires, comme cela est
travaux, comme Van Hee et al. (2015) ou Djuric et al. (2015). Outre l'approche
par exemple fait dans Xiang et al. (2012). Dans ce travail, un ensemble
de classification adoptée, une autre raison de ces différences de taille réside
d'utilisateurs de Twitter est d'abord divisé en bons et mauvais utilisateurs, en
dans le simple fait que l'annotation des discours de haine est une entreprise
fonction du nombre
extrêmement chronophage: il y a beaucoup moins de commentaires haineux que
de termes offensants présents dans leurs messages. Ensuite, tous
de commentaires bénins présents dans les données échantillonnées au hasard, et
les tweets existants de ces mauvais utilisateurs sont sélectionnés et
donc un grand nombre de commentaires. il faut annoter pour trouver
ajoutés à
l'ensemble d'entraînement en tant qu'instances de discours de haine.

un nombre considérable de cas de discours de haine.
De plus, le bootstrapping peut également être utilisé pour construire
Cette distribution biaisée rend généralement difficile et coûteuse la
des ressources lexicales utilisées dans le cadre du processus de détection.
construction d'un corpus équilibré en termes de propos haineux et inoffensifs.
Gitari et al. (2015) appliquent cette méthode pour remplir leur lexique des
La taille d'un ensemble de données doit toujours être prise en considération lors de
verbes haineux, en commençant par une petite liste de verbes germes et en
l'évaluation de l'efficacité de certaines fonctionnalités ou méthodes
l'élargissant de manière itérative en fonction des relations WordNet, en
(d'apprentissage) qui lui sont appliquées.
ajoutant tous les synonymes et hypernymes de ces verbes germes.
Leur efficacité – ou leur absence – peut être le résultat d'une taille de données
7 Données et annotations particulière. Par exemple, les fonctionnalités qui traitent de la généralisation des
mots (§3.2) sont extrêmement importantes lorsqu'il s'agit de petits ensembles de
Pour pouvoir réaliser des expérimentations sur la détection des discours données, tandis que sur de très grands ensembles de données, elles deviennent
de haine, l'accès à des corpus étiquetés est indispensable. Puisqu'il n'y a moins importantes car la rareté des données est moins problématique.
pas de corpus de référence communément accepté pour la tâche, les Nous n'avons connaissance d'aucune étude examinant la relation entre la taille des
auteurs collectent et étiquettent généralement leurs propres données. Les données d'entraînement étiquetées et les caractéristiques/classificateurs pour la
sources de données utilisées incluent : Twitter détection des discours de haine.
(Xiang et al., 2012 ; Xu et al., 2012 ; Burnap et al., 2013 ; Burnap et al., Afin d'augmenter la part des messages de discours de haine tout en
2014 ; Burnap et Williams, 2015 ; Silva et al., 2016 ), Instagram maintenant la taille des instances de données à annoter à un niveau raisonnable,
(Hosseinmardi et al., 2015 ; Zhong et al., 2016), Yahoo! (Nobata et al., Waseem et Hovy (2016)14 proposent de
2016ÿ; Djuric et al., 2015ÿ; Warner et Hirschberg, 2012), YouTube présélectionner les instances de texte à annoter en interrogeant un site pour les
(Dinakar et al., 2012), ask.fm (Van Hee et al., 2015), Formspring (Dinakar top ics qui sont susceptibles de contenir un degré plus élevé de discours de haine
et al. ., 2012), Usenet (Razavi et al., 2010), Whisper12 (par exemple la terreur islamique). Bien que cela augmente la proportion de
(Silva et al., 2016) et Xanga13 (Chau et Xu, 2007). Étant donné que ces messages de discours de haine sur les ensembles de données résultants, cela
sites ont été créés à des fins différentes, ils peuvent avoir des concentre l'ensemble de données résultant sur des sujets spécifiques et certains
caractéristiques particulières et peuvent donc afficher différents sous- types sous- types de discours de haine (par exemple, le discours de haine ciblant les
de discours de haine. Par exemple, sur une plateforme spécialement créée musulmans).
pour les adolescents, il faut s'attendre à bien dif Afin d'annoter manuellement un ensemble de données, soit des annotateurs
experts sont utilisés, soit des services de crowdsourcing
différents types de discours de haine que sur un service utilisé par un échantillon
12http://whisper.sh 13http://xanga.com
14Les données de ce travail sont
disponibles sous
http://github.com/zeerakw/hatespeech
vices, comme Amazon Mechanical Turk (AMT), tous ces cas, on ne sait pas si les méthodes
sont employés. Le crowdsourcing présente des avantages que nous décrivons dans cette enquête reconnaîtrait correctement ces
économiques et organisationnels évidents, notamment pour une remarques comme un discours de haine.
tâche aussi chronophage que celle à accomplir, mais la qualité Dans (6) une femme est ridiculisée pour sa voix. Là n'y a pas
des annotations pourrait souffrir de l'emploi d'annotateurs non d'évaluation explicite de sa voix mais c'est une
experts. Nobata et al. (2016) inférence évidente d'être comparé à Ker mit la grenouille. Dans (7),
comparez les annotations participatives effectuées à l'aide de l'AMT avec un musulman est accusé de bestialité. Encore une fois, il n'y a pas
les annotations créées par des annotateurs experts et trouvez de grandes d'accusation explicite. La
le locuteur de cet énoncé s'appuie sur son destinataire
différences d'accord.
En plus des problèmes mentionnés ci-dessus, être conscient des préjugés stéréotypés contre l'islam. Enfin, dans (8), le
dans une certaine mesure, remettre en question la comparabilité des les locuteur de cet énoncé
recherches menées sur divers ensembles de données, veut offenser certaines filles en suggérant qu'elles sont
fait qu'aucune définition communément acceptée de la haine la peu attrayant. Encore une fois, il n'y a aucune mention explicite de être peu
parole existe exacerbe encore cette situation. attrayant mais défier quelqu'un d'autre
Les travaux antérieurs restent assez flous lorsqu'il s'agit Le point de vue opposé peut être interprété de cette façon.
en vient aux directives d'annotation que leurs annotateurs ont reçues pour
(6) Kermit la grenouille a appelé et il veut récupérer sa voix.
leur travail. Ross et al. (2016)
(7) Votre chèvre appelle.
souligner que c'est particulièrement un problème pour détection des (8) Qui était chargé de convaincre ces filles qu'elles
discours de haine. Bien qu'ils aient fourni aux étaient si jolies ?
annotateurs une définition du discours de haine, dans leur travail
les annotateurs ne parviennent toujours pas à produire une annotation à Ces exemples sont certes des cas difficiles
un niveau de fiabilité acceptable.

et nous ne connaissons pas une méthode individuelle
qui ferait face à tous ces exemples. Ce reste à voir
8 défis si, à l'avenir, de nouveaux
les approches informatiques peuvent réellement résoudre ces problèmes

Comme le suggère la section précédente, la communauté ou si le discours de haine est une recherche problème similaire au
bénéficierait considérablement d'une donnée de référence sarcasme où seuls certains
défini pour la tâche de détection des discours de haine sous-jacente à un
il a été démontré que les sous-types sont automatiquement détectés à l'aide de
définition communément admise de la tâche. la PNL (Riloff et al., 2013).
A l'exception du néerlandais (Van Hee et al.,
2015) et allemand (Ross et al., 2016), nous ne sommes pas au 9 Conclusion
courant de toute recherche importante en cours sur
détection du discours de haine autre que sur les données en langue Dans cet article, nous avons présenté une enquête sur la détection automatique
anglaise. Nous pensons qu'en particulier une perspective multilingue du du discours de haine. Cette tâche est généralement présentée comme un problème
discours de haine peut valoir la peine. Contrairement à d'autres tâches en d'apprentissage supervisé. Équitablement les caractéristiques génériques, telles
PNL, le discours de haine peut que sac de mots ou embeddings, donnent systématiquement des performances
ont de fortes implications culturelles, c'est-à-dire qu'en fonction de de classification raisonnables. Les approches au niveau des personnages
l'origine culturelle d'une personne, un énoncé peut être perçu comme fonctionnent mieux que les approches au niveau des jetons. Lexical ressources,
offensant ou non. Il reste à voir dans quelle mesure les approches établies telles que la liste des liaisons, peuvent aider à la
pour détester la détection des discours examinés sur l'anglais sont tout aussi classification, mais généralement uniquement en combinaison avec d'autres types de
efficace sur d'autres langues. fonctionnalités. Diverses fonctionnalités complexes utilisant
Bien que dans les sections précédentes, nous avons également décrit des plus de connaissances linguistiques, telles que des informations
approches qui tentent d'intégrer les d'analyse de dépendance ou des fonctionnalités spécifiques à la modélisation
contexte du discours de haine en employant certains les constructions linguistiques, telles que les impératifs ou la politesse, se sont
des fonctionnalités spécifiques à base de connaissances (§3.6), des méta- également révélées efficaces. Les informations
informations (§3.7) ou des informations multimodales dérivées du texte peuvent ne pas être le seul indice suggérant la
(§3.8), nous pensons toujours qu'il y a eu relativement peu de travaux sur présence de discours de haine. C'est possible
ces types de fonctionnalités. Dans ce qui suit, nous illustrons la nécessité complétées par des méta-informations ou des informations provenant d'autres
d'incorporer une telle connaissance du contexte avec l'aide de modalités (par exemple, des images jointes à
trois cas difficiles de discours de haine. Pour messages). Porter des jugements sur le général l'efficacité de
nombreuses fonctionnalités complexes est
8
difficiles car, dans la plupart des cas, ils ne sont évalués que sur des haine, comme l'intimidation de personnes particulières minorités ethniques.
ensembles de données individuels, dont la plupart ne sont pas Pour une meilleure comparabilité des différentes caractéristiques et méthodes,
accessibles au public et ne traitent souvent que d'un sous-type de discours de nous préconisons un ensemble de données de référence pour la détection des
discours de haine.

A Survey On Hate Speech Detection Using Natural Language Processing

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

A Survey On Hate Speech Detection Using Natural Language Processing

Transféré par

Droits d'auteur :

Formats disponibles

Machine Translated by Google

Résumé considéré comme un message de discours de haine peut être influencé

regarder plus loin jetons. Mehdad et Tétreault (2016)

caractéristiques de surface (Chen et al., 2012ÿ; Nobata et al.,

majuscules, mots qui ne peuvent pas être

puisque ce qui différencie un discours haineux d'un discours inoffensif n'est

hautement prédictif. Pourtant, dans de nombreux travaux, les

et il est prudent de supposer qu'un sentiment généralement négatif se personnes handicapées.6

fonctionnalité autonome (Nobata n'utilisent pas la présence de relations de dépendance explicites

(4) Les Juifs sont des porcs de classe inférieure.

relations de dépendance représentant une phrase qui sont

en déduire qu'il s'agit d'une remarque calomniant la sexualité

sur la connaissance du monde, et il est donc intuitif que la

la connaissance du monde en se concentrant sur le discours de haine anti- La méta-information (c'est-à-dire la

réseau de médias sociaux Formspring. 8 Avoir quelques informations de fond sur le

appelé BullySpace. 9 donc encore. Un utilisateur qui n'est

9BullySpace contient 200 affirmations spécifiques aux LGBT.

orientation, classe ou sexe. Chau et Xu (2007)

haineux dans les blogs du site Xanga. Utilisant un approche semi-

en dehors d'un commentaire utilisateur écrit peut être utilisé comme un

un peu surprenant, car parmi

Sood et al. (2012b) aussi automatiquement prédire si de 6 Méthodes de classement

l'ensemble d'entraînement en tant qu'instances de discours de haine.

un niveau de fiabilité acceptable.

8 défis si, à l'avenir, de nouveaux

les approches informatiques peuvent réellement résoudre ces problèmes

Vous aimerez peut-être aussi