Académique Documents
Professionnel Documents
Culture Documents
Une enquête sur la détection des discours de haine à l'aide du traitement du langage naturel
Anna Schmidt
Michel Wiegand
Systèmes de langue parlée
Systèmes de langue
Université d¨ e la Sarre
parlée Université d¨
D-66123 Sarrebruck, Allemagne e la Sarre
anna.schmidt@lsv.uni-saarland.de
D-66123 Sarrebruck,
Allemagne
michael.wiegand@lsv.uni-saarland.de
1. Introduction
2 Terminologie
Le discours de haine est généralement défini comme toute
Dans cet article, nous utilisons le terme discours de haine. Nous
communication qui dénigre une personne ou un groupe sur le base avons opté pour l'utilisation de ce terme car il peut être
de certaines caractéristiques telles que la race, la couleur, origine considéré comme un terme générique générique pour de nombreux
ethnique, sexe, orientation sexuelle, nationalité,religion ou autre types de contenus insultants créés par les utilisateurs
caractéristique (Nockleby, 2000). dans les travaux individuels que nous résumons dans cet article. Le
discours de haine est également le plus fréquemment utilisé expression
Les exemples sont (1)-(3).1
de ce phénomène, et est même un terme légal dans plusieurs pays. Ci-
(1) Va te tuer putain et meurs déjà laid inutile dessous, nous énumérons d'autres
tas de connard de merde.
termes utilisés dans la communauté PNL. Cette
(2) Le pédé juif derrière l'effondrement financier
(3) J'espère qu'une de ces salopes tombera et se cassera la jambe devrait également aider les lecteurs à trouver d'autres documents sur
cette tâche.
En raison de l'essor massif des contenus Web générés par les Dans les premiers travaux sur le discours de haine, Spertus
utilisateurs, en particulier sur les réseaux sociaux, la
le nombre de discours de haine augmente également
régulièrement. Au cours des dernières années, l'intérêt pour la haine en(l1ig9n9e7) parle de messages abusifs, de messages hostiles ou de
la détection de la parole et en particulier l'automatisation de cette
flammes. Plus récemment, de nombreux auteurs ont
tâche n'a cessé de croître, parallèlement
s'est déplacé vers l'emploi du terme cyberintimidation (Xu et al.,
avec l'impact sociétal du phénomène. Traitement du langage
2012ÿ; Hosseinmardi et al., 2015; Zhong et al.,
naturel axé spécifiquement sur 2016; Van Hee et al., 2015; Dadvar et al., 2013;
ce phénomène est nécessaire car les filtres de mots de base Dinakar et al., 2012). Le terme réel de discours de haine est
n'apportent pas un remède suffisant : Qu'est-ce utilisé par Warner et Hirschberg (2012), Burnap
et Williams (2015), Silva et al. (2016), Djuric et
1Les exemples de cet ouvrage sont inclus pour illustrer
la gravité du problème du discours de haine. Ils sont tirés de données web Al. (2015), Gitari et al. (2015), Williams et Bur nap (2015) et Kwok et
réelles et ne reflètent en aucun cas l'opinion des auteurs. Wang (2013). Plus loin,
1
Machine Translated by Google
Actes du cinquième atelier international sur le traitement du langage naturel pour les médias sociaux , pages 1 à 10, Valence,
Espagne, 3-7 avril 2017. c 2017 Association for Computational Linguistics
Machine Translated by Google
Sod et al. (2012a) travaux sur la détection (personnelle) approches basées sur l'orthographe, car les variations orthographiques inhabituelles
insultes, grossièretés et messages d'utilisateurs caractérisés par une intention entraîneront des résultats très rares, voire inconnus. jetons dans les données
malveillante, tandis que Razavi et al. (2010) d'entraînement. Les approches au niveau du personnage, en revanche, sont plus
faire référence à un langage offensant. Xiang et al. (2012) se concentrent sur le susceptibles de
langage vulgaire et le contenu vulgaire lié au blasphème. Xu et al. (2012)2 capturer la similitude avec l'orthographe canonique de ces
dans des taquineries formulées en plaisantant dans des messages qui représentent comparer systématiquement les caractéristiques des n-grammes de caractères avec des n-
des épisodes d'intimidation (éventuellement moins graves). grammes symboliques pour la détection des discours de haine, et trouvent que les n-
Enfin, Burnap et Williams (2014) spécifiquement grammes de caractères s'avèrent plus prédictifs que les n-grammes de jeton.
se pencher sur le langage altériste, caractérisé par une Outre les fonctionnalités basées sur les mots et les caractères,
dichotomie nous-eux dans la communication raciste. la détection des discours de haine peut également bénéficier d'autres
Comme c'est souvent le cas avec la classification Mentions d'URL et ponctuation, commentaires et longueurs de ken,
d'aspects influents.
Alors que les fonctionnalités de sac de mots donnent généralement un bon performances
Si l'ensemble des caractéristiques examinées dans les différents travaux
de classification dans la détection des discours de haine, afin de fonctionner
est très variable, les méthodes de classification se concentrent
efficacement, ces fonctionnalités nécessitent que
principalement sur l'apprentissage supervisé (§6).
des mots prédictifs apparaissent dans les deux formations
et les données d'essai. Cependant, étant donné que la détection des discours de haine est
3.1 Caractéristiques de surface simples
généralement appliquée sur de petits morceaux de texte (par ex. passages ou même des
Pour toute tâche de classification de texte, la plus évidente
phrases individuelles), on peut
les informations à utiliser sont des caractéristiques au niveau de la surface,
faire face à un problème de rareté des données. C'est pourquoi plusieurs
comme sac de mots. En effet, les unigrammes et plus travaux abordent ce problème en appliquant une certaine forme de la
les n-grammes sont inclus dans les ensembles de fonctionnalités par une généralisation des mots. Ceci peut être réalisé par
majorité d'auteurs (Chen et al., 2012; Xu et al., 2012; effectuer un regroupement de mots, puis utiliser des identifiants de cluster induits
Warner et Hirschberg, 2012 ; Sood et coll., 2012; Burnap représentant des ensembles de mots comme fonctionnalités supplémentaires
et Williams, 2015 ; Van Hee et al., 2015; Waseem et (généralisées). Un algorithme standard pour cela est le clustering de Brown (Brown
Hovy, 2016 ; Burnap et Williams, 2016ÿ; Hosseinmardi et al.,
et al., 2015ÿ; Nobata et al., 1992) qui a été utilisé comme long métrage dans Warner
2016). Ces caractéristiques sont souvent signalées comme étant et Hirschberg (2012). Tandis que le regroupement de Brown
2Les données de ce travail sont disponibles sous http:// corpus de texte (non étiqueté). De telles représentations vectorielles ont
recherche.cs.wisc.edu/intimidation l'avantage que des sémantiques différentes
Machine Translated by Google
des mots typiquement similaires peuvent également avoir des des classificateurs de larité sont employés qui, en plus
vecteurs similaires. De tels vecteurs peuvent éventuellement être utilisés à spécifier le type de polarité (c'est-à-dire positive et
en tant qu'entités de classification, remplaçant les entités binaires négatif) prédisent également l'intensité polaire d'un énoncé. Un
indiquant la présence ou la fréquence de
classificateur de polarité accessible au public qui
mots. Puisque dans les phrases de détection de discours de haine ou
produit une telle sortie est SentiStrength
les passages sont classifiés plutôt qu'individuels
(Thelwall et al., 2010). Il est utilisé pour le discours de haine
mots, une représentation vectorielle de l'ensemble des mots
détection par Burnap et al. (2013).
vecteurs représentant les mots du texte à
classé est recherché. Un moyen simple d'accomplir 3.4 Ressources lexicales
c'est en faisant la moyenne des vecteurs de tous les mots qui
Essayer d'utiliser l'hypothèse générale selon laquelle
apparaissent dans un passage ou une phrase. Pour détecter la haine
les messages haineux contiennent des mots négatifs spécifiques
parole, cette méthode n'aurait qu'une efficacité limitée (Nobata et
(comme les insultes, les insultes, etc.), de nombreux auteurs utilisent
al., 2016), peu importe
la présence de tels mots comme caractéristique. Pour obtenir ce
si des plongements généraux pré-entraînés sont utilisés
type d'information, des ressources lexicales sont
soit les plongements sont induits à partir d'un corpus spécifique
requises qui contiennent de telles expressions prédictives.
à un domaine. Alternativement, Djuric et al. (2015)
Une source populaire pour de telles listes de mots est le
proposent d'utiliser des plongements qui représentent directement la toile. Il existe plusieurs listes accessibles au public
les passages de texte à classer. Ces paragraphes composés de termes généraux liés à la haine3 .
embeddings (Le et Mikolov, 2014), qui sont
des travaux qui emploient de telles listes (Xiang et al.,
en interne basés sur des incorporations de mots, ont été 2012ÿ; Burnap et Williams, 2015 ; Nobata et al.,
beaucoup plus efficace que la moyenne des incorporations de mots
2016), il existe également des approches, telles que Bur nap et
(Nobata et al., 2016).
Williams (2016) qui se concentrent sur des listes qui
sont spécialisés dans un sous-type particulier de
3.3 Analyse des sentiments discours de haine, comme les insultes à caractère
Argot LGBT
ethnique4 ,
termes5
Le discours de haine et l'analyse des sentiments sont étroitement liés, , ou des mots à connotation négative envers les
approches en une seule étape qui incluent une certaine forme de Al. (2015) construisent une ressource comprenant des verbes haineux
informations sur les sentiments en tant que fonctionnalité. Par exemple, dans qui sont des verbes qui tolèrent ou encouragent des actes de la
leur classificateur supervisé, Van Hee et al. (2015) violence. Malgré leur efficacité générale, rel
utiliser comme caractéristiques le nombre de positifs, négatifs,
3 www.noswearing.com/dictionary,
et des mots neutres (selon un lexique des sentiments)
www.rsdb.org,
apparaissant dans un texte de commentaire donné. www.hatebase.org
Nouvelles tentatives pour isoler le sous-ensemble de la haine 4https://en.wikipedia.org/wiki/List_
of_ethnic_slurs
discours à partir de l'ensemble des énoncés polaires négatifs reposent 5https://en.wikipedia.org/wiki/List_ of_LGBT_slang_terms
sur le constat que le discours de haine présente également un degré 6https://en.wikipedia.org/wiki/List_
élevé de polarité négative (Sood et of_disability-related_terms_with_
connotations_négatives
al., 2012bÿ; Burnap et al., 2013). À cette fin, po
Machine Translated by Google
on sait peu de choses sur le processus de création appliquer une sélection de caractéristiques statistiques (bayésien régression
et les concepts théoriques qui sous-tendent les ressources lexicales logistique), Chen et al. (2012) et Gi tari et al. (2015) sélectionnent
spécialement compilées manuellement les relations (par exemple
pour la détection des discours de haine. en appliquant cet argument de la relation
La plupart des approches utilisent des caractéristiques lexicales soit est un terme offensant) tandis que Nobata et al. (2016) n'effectuez aucune
comme référence ou en plus d'autres fonctionnalités. Contrairement autre sélection. Malheureusement, il n'existe aucune évaluation
à d'autres caractéristiques, en particulier le sac de mots (§3.1) ou comparant ces variations de caractéristiques.
embeddings (§3.2), ils sont généralement insuffisants en tant que Zhong et al. (2016) faire
communément attribué aux femmes (c.-à-d. mettre un types de discours de haine, il faudrait d'abord inclure des assertions
perruque et rouge à lèvres). Si ces caractéristiques sont attribuées à un spécifiques à un domaine. Ce serait
homme dans un contexte hétéronormatif, le nécessitent beaucoup de codage manuel. C'est vraisemblablement cette
l'intention peut avoir été d'insulter le destinataire. lacune qui explique pourquoi, à notre connaissance, c'est le seul ouvrage qui
L'exemple ci-dessus montre que le fait qu'un message soit haineux tente de déceler la haine
ou bénin peut être très dépendant discours à l'aide d'une base de connaissances.
(2012) présentent une approche utilisant un raisonnement automatique sur la seule information disponible pour affiner une classification peu concluante.
référence positif et négatif valence et les deux genres, masculin Au-delà de celles-ci, plusieurs autres types de méta-informations sont
et féminin. courants, tels que le nombre de
Les scores de similarité résultants entre extraits messages par un utilisateur, le nombre de réponses à un message, le
et les concepts canoniques indiquent si un message peut constituer une moyenne du nombre total de réponses par abonné
instance de discours de haine. UN ou l'origine géographique, mais la plupart d'entre eux ont n'a pas
exemple de discours de haine a une grande similitude avec le concept été trouvé efficace pour la classification (Zhong
canonique valence négative et le concept canonique représentant le et al., 2016ÿ; Waseem et Hovy, 2016). De plus, il existe certains types de
genre opposé à méta-informations
le sexe réel de l'utilisateur auquel il s'adresse pour lesquels des résultats contradictoires ont été rapportés.
le poste de message. Par exemple, pour la phrase Par exemple, Hosseinmardi et al. (2015) rapport une
donné ci-dessus, une grande similitude avec la valence négative et féminin corrélation entre le nombre de
indiquerait correctement que l'énoncé est censé être un discours de haine. commentaires à un message et discours de haine pendant que Zhong et coll.
Évidemment, l'approche proposée par Dinakar et (2016) rapportent le contraire. (Les deux documents utilisent Instagram comme
Al. (2012) ne fonctionne que pour un sous-type très confiné source.) De nombreuses raisons peuvent en être responsables. Zhong et al.
du discours de haine (c'est-à-dire l'intimidation anti-LGBT). Même (2016) spéculer
même si le cadre permettrait également d'autres que le manque général d'efficacité des méta-informations qu'ils ont
examinées peut être dû au fait
8L'augmentation est obtenue en appliquant la technique d'inférence conjointe fusionnant après
ils considèrent les comptes de célébrités. Comptes de
que ConceptNet et les affirmations ont été transformées en un soi-disant AnalogySpace.
Il est peu probable que les messages le fassent à l'avenir. Xiang et Al. (2012)
utilisent efficacement cette heuristique pour transmettre d'autres messages de
discours de haine. Dadvar et
Machine Translated by Google
les méta-informations peuvent être utiles, mais cela dépend de le type que les deux plates-formes présentent les mêmes 6 principaux groupes cibles haineuxÿ: les
exact d'information que l'on utilise et aussi gens sont principalement victimes d'intimidation en raison de leur
la source d'où proviennent les données. appartenance ethnique, de leur comportement, de leurs caractéristiques physiques, de leur sexualité.
fonction prédictive.
En ce qui concerne les fonctionnalités basées sur les connaissances, pas trop 5 Anticiper les alarmes sociétales
il existe des contributions qui exploitent ce type d'informations. Ceci est Changements
Wang et al. (2012). Ce travail se concentre sur la prévision des crimes avec délit de
4 personnes impliquées dans des épisodes
d'intimidation fuite à partir des données de Twitter en
et leurs rôles employant efficacement l'étiquetage sémantique des rôles et extraction de sujet
basée sur les événements (avec LDA). Burnap et coll. (2013) examinent la
En plus de détecter les messages haineux, un groupe de détection automatique de
les travaux se concentrent sur les personnes impliquées dans le discours de haine
tensions sur les réseaux sociaux. Ils établissent qu'il peut
épisodes et leurs rôles. Xu et al. (2012) regarder
être détectés et visualisés de manière fiable au fil du temps à l'aide d'une analyse des
l'ensemble de l'événement de harcèlement (ou trace de harcèlement), en sentiments et de ressources lexicales en codant des acteurs, des accusations et des
attribuant automatiquement des rôles aux acteurs impliqués dans le
termes abusifs spécifiques à un sujet. Williams et Burnap (2015) tempo rally
l'événement ainsi que l'auteur du message. Ils différencient les rôles associent le discours de haine en ligne à des événements terroristes hors ligne. Ils
d'intimidateur, de victime, d'assistant,
constatent que les premières heures qui suivent
défenseur, spectateur, renforçateur, journaliste et ac cuser pour les un événement terroriste sont le laps de temps critique pendant lequel
auteurs de tweet et pour les mentions de personnes des discours de haine en ligne sont susceptibles de se produire.
dans le tweet. En plus de qualifier d'insultant messages,
7 Données et annotations particulière. Par exemple, les fonctionnalités qui traitent de la généralisation des
mots (§3.2) sont extrêmement importantes lorsqu'il s'agit de petits ensembles de
Pour pouvoir réaliser des expérimentations sur la détection des discours données, tandis que sur de très grands ensembles de données, elles deviennent
de haine, l'accès à des corpus étiquetés est indispensable. Puisqu'il n'y a moins importantes car la rareté des données est moins problématique.
pas de corpus de référence communément accepté pour la tâche, les Nous n'avons connaissance d'aucune étude examinant la relation entre la taille des
auteurs collectent et étiquettent généralement leurs propres données. Les données d'entraînement étiquetées et les caractéristiques/classificateurs pour la
sources de données utilisées incluent : Twitter détection des discours de haine.
(Xiang et al., 2012 ; Xu et al., 2012 ; Burnap et al., 2013 ; Burnap et al., Afin d'augmenter la part des messages de discours de haine tout en
2014 ; Burnap et Williams, 2015 ; Silva et al., 2016 ), Instagram maintenant la taille des instances de données à annoter à un niveau raisonnable,
(Hosseinmardi et al., 2015 ; Zhong et al., 2016), Yahoo! (Nobata et al., Waseem et Hovy (2016)14 proposent de
2016ÿ; Djuric et al., 2015ÿ; Warner et Hirschberg, 2012), YouTube présélectionner les instances de texte à annoter en interrogeant un site pour les
(Dinakar et al., 2012), ask.fm (Van Hee et al., 2015), Formspring (Dinakar top ics qui sont susceptibles de contenir un degré plus élevé de discours de haine
et al. ., 2012), Usenet (Razavi et al., 2010), Whisper12 (par exemple la terreur islamique). Bien que cela augmente la proportion de
(Silva et al., 2016) et Xanga13 (Chau et Xu, 2007). Étant donné que ces messages de discours de haine sur les ensembles de données résultants, cela
sites ont été créés à des fins différentes, ils peuvent avoir des concentre l'ensemble de données résultant sur des sujets spécifiques et certains
caractéristiques particulières et peuvent donc afficher différents sous- types sous- types de discours de haine (par exemple, le discours de haine ciblant les
de discours de haine. Par exemple, sur une plateforme spécialement créée musulmans).
pour les adolescents, il faut s'attendre à bien dif Afin d'annoter manuellement un ensemble de données, soit des annotateurs
experts sont utilisés, soit des services de crowdsourcing
différents types de discours de haine que sur un service utilisé par un échantillon
12http://whisper.sh 13http://xanga.com
14Les données de ce travail sont
disponibles sous
http://github.com/zeerakw/hatespeech
vices, comme Amazon Mechanical Turk (AMT), tous ces cas, on ne sait pas si les méthodes
sont employés. Le crowdsourcing présente des avantages que nous décrivons dans cette enquête reconnaîtrait correctement ces
économiques et organisationnels évidents, notamment pour une remarques comme un discours de haine.
tâche aussi chronophage que celle à accomplir, mais la qualité Dans (6) une femme est ridiculisée pour sa voix. Là n'y a pas
des annotations pourrait souffrir de l'emploi d'annotateurs non d'évaluation explicite de sa voix mais c'est une
experts. Nobata et al. (2016) inférence évidente d'être comparé à Ker mit la grenouille. Dans (7),
comparez les annotations participatives effectuées à l'aide de l'AMT avec un musulman est accusé de bestialité. Encore une fois, il n'y a pas
les annotations créées par des annotateurs experts et trouvez de grandes d'accusation explicite. La
le locuteur de cet énoncé s'appuie sur son destinataire
différences d'accord.
En plus des problèmes mentionnés ci-dessus, être conscient des préjugés stéréotypés contre l'islam. Enfin, dans (8), le
dans une certaine mesure, remettre en question la comparabilité des les locuteur de cet énoncé
recherches menées sur divers ensembles de données, veut offenser certaines filles en suggérant qu'elles sont
fait qu'aucune définition communément acceptée de la haine la peu attrayant. Encore une fois, il n'y a aucune mention explicite de être peu
parole existe exacerbe encore cette situation. attrayant mais défier quelqu'un d'autre
Les travaux antérieurs restent assez flous lorsqu'il s'agit Le point de vue opposé peut être interprété de cette façon.
en vient aux directives d'annotation que leurs annotateurs ont reçues pour
(6) Kermit la grenouille a appelé et il veut récupérer sa voix.
leur travail. Ross et al. (2016)
(7) Votre chèvre appelle.
souligner que c'est particulièrement un problème pour détection des (8) Qui était chargé de convaincre ces filles qu'elles
discours de haine. Bien qu'ils aient fourni aux étaient si jolies ?
annotateurs une définition du discours de haine, dans leur travail
les annotateurs ne parviennent toujours pas à produire une annotation à Ces exemples sont certes des cas difficiles
8
Machine Translated by Google
difficiles car, dans la plupart des cas, ils ne sont évalués que sur des haine, comme l'intimidation de personnes particulières minorités ethniques.
ensembles de données individuels, dont la plupart ne sont pas Pour une meilleure comparabilité des différentes caractéristiques et méthodes,
accessibles au public et ne traitent souvent que d'un sous-type de discours de nous préconisons un ensemble de données de référence pour la détection des
discours de haine.