29988-Article Text-111380-1-10-20220623

Machine Translated by Google
356 Technologie de l'information et contrôle 2022/2/51
Détection des discours homophobes et haineux à l'aide de MultilingualBERT

ITC 2/51 Modèle sur les réseaux sociaux turcs
Technologie de l'information
et contrôle
Reçu 2021/10/18 Accepté après révision 2022/02/22
Vol. 51 / Non. 2 / 2022
pages
356375 DOI 10.5755/j01.itc.51.2.29988 http://dx.doi.org/10.5755/j01.itc.51.2.29988
COMMENT CITER : Karayiğit, H., Akdagli, A., Aci, C. İ. (2022). Détection des discours homophobes et haineux à l'aide du modèle multilingueBERT
sur les réseaux sociaux turcs. Technologie de l'information et contrôle, 51(2), 356375. http://dx.doi.org/10.5755/j01.itc.51.2.29988
Homophobe et haineux
Détection de la parole à l'aide
Modèle multilingueBERT sur
les médias sociaux turcs
Habibe Karayiğit, Ali Akdagli Département de
génie électrique et électronique, Université de Mersin, 33343, Turquie ; emails :
d2014242@mersin.edu.tr, akdagli@mersin.edu.tr
Cigdem Inan Aci

Département de génie informatique, Université de Mersin, 33343, Turquie ; email : caci@mersin.edu.tr
Auteur correspondant : d2014242@mersin.edu.tr
Les expressions homophobes sont une forme d'insulte à l'orientation sexuelle ou à la personnalité des personnes. Des traumatismes
psychologiques graves peuvent survenir chez les personnes exposées à ce type de communication. Il est important de développer
des systèmes de classification automatique basés sur des modèles linguistiques pour examiner le contenu des médias sociaux et
distinguer les discours homophobes. Cette étude vise à présenter un modèle de représentations d'encodeurs bidirectionnels
multilingues provenant de transformateurs (MBERT) préformé qui peut détecter avec succès si les commentaires turcs sur les
médias sociaux contiennent des commentaires haineux homophobes ou connexes (c'estàdire des expressions sexistes,
d'humiliation sévère et de défécation). ). Les commentaires de l'ensemble de données HomophobicAbusive Turkish Comments
(HATC) ont été collectés à partir d'Instagram pour former les modèles de détection. L'ensemble de données HATC a été étiqueté
manuellement au niveau de la phrase et combiné avec l'ensemble de données Abusive Turkish Comments (ATC) qui a été
développé dans notre étude précédente. L'ensemble de données HATC a été équilibré à l'aide de la méthode de rééchantillonnage
et deux formes de l'ensemble de données (c'estàdire, resHATC et HATC d'origine) ont été utilisées dans les expériences. Par la
suite, le modèle MBERT a été comparé aux modèles basés sur DL (c.àd. Mémoire à long terme, Mémoire à long terme bidirectionnelle (BiLSTM), Ga
Technologie de l'information et contrôle 2022/2/51 357
Unit), des classificateurs d'apprentissage automatique traditionnel (TML) (c'estàdire, Support Vector Machine, Naive Bayes, Random
Forest) et des classificateurs d'ensemble (c'estàdire, Adaptive Boosting, eXtreme Gradient Boosting, Gradient Boosting) pour la
meilleure sélection de modèles. Les performances des modèles de détection ont été évaluées à l'aide des mesures de performance du
score F1, de la précision et du rappel. Les résultats ont montré que les meilleures performances (score F1 homophobe : 82,64 %, score
F1 haineux : 91,75 %, score F1 neutre : 96,08 %, score F1 moyen : 90,15 %) ont été obtenues avec le modèle MBERT sur l'ensemble
de données HATC. . Le modèle de détection MBERT peut augmenter l'efficacité des filtres dans la détection des discours de haine
homophobes turcs et connexes dans les réseaux sociaux. Il peut être utilisé pour détecter les discours de haine homophobes et
apparentés pour différentes langues puisque le modèle MBERT dispose de données préformées multilingues.
MOTSCLÉS : détection de la parole homophobe, BERT multilingue, apprentissage par transfert, apprentissage en profondeur, médias
sociaux turcs, analyse des sentiments, classification de texte.
1. Introduction
Les médias sociaux offrent aux gens une plateforme gratuite pour soi chez les personnes ou les groupes exposés à la haine. La
exprimer librement leurs sentiments. Les utilisateurs peuvent dépression et les tendances suicidaires sont d'autres
partager, diffuser leurs points de vue et rédiger des commentaires comportements identifiés chez les personnes faisant l'objet de
sur d'autres publications sur les réseaux sociaux [44]. Il y a des discours de haine [55]. Même si cela se fait sur les réseaux
commentaires constructifs adressés aux gens sur les réseaux sociaux, il faut contrôler les discours avant qu'ils ne se transforment
sociaux, ainsi que des discours de haine inquiétants. L'expérience en actes. Par conséquent, des modèles de langage automatiques
quotidienne d'un grand nombre de partages ou d'interactions sur devraient être développés pour détecter et prévenir les contenus
les réseaux sociaux et la structure décentralisée des réseaux inappropriés offensifs pour les gens [55].
sociaux sont parmi les raisons les plus importantes de Le réseau Instagram a été créé le 6 octobre 2010 et le nombre
l'augmentation des discours de haine [15, 11, 25]. D'autres d'utilisateurs actifs mensuels dans le monde dépasse le milliard.
discours rencontrés dans la société ont été déplacés vers ces Dans le monde, environ deux personnes sur trois âgées de 18 à
plateformes avec l'utilisation fréquente des médias sociaux [17]. 29 ans utilisent Instagram [82]. 95 millions de partages sont
L'altérité avec le discours de haine est une forme d'humiliation effectués quotidiennement sur Instagram, et des commentaires
grave en termes de race, d'ethnie, de religion, de sexe, d'orientation peuvent être faits sur les contenus partagés [88]. La recherche de
sexuelle, de handicap ou de maladie [67]. Le discours de haine sentiments dans un certain but peut être effectuée et interprétée
homophobe est un discours de haine fondé sur l'identité sexuelle en collectant les commentaires d'Instagram. Les réseaux sociaux
dans lequel différentes orientations sexuelles sont marginalisées tels qu'Instagram et Facebook suppriment les commentaires qui
[31]. L'homophobie, en tant que mot, est un état de dédain et de ressemblent à des discours de haine dans leurs bases de données
préjugé envers les personnes ayant des orientations sexuelles pour lutter contre les discours de haine tels que l'homophobie.
différentes pour des raisons religieuses, sociales et médicales Supprimer ou bloquer des commentaires ne signifie pas qu'ils ne
[71]. Les personnes exposées à des propos homophobes sur les sont pas un crime. La mesure de l'insulte est punissable, et il est
réseaux sociaux ne sont pas toujours insultées en raison de leur obligatoire d'être suivi par les forces de sécurité. Cependant, le
orientation sexuelle ou de leur comportement. Par exemple, les suivi manuel est coûteux et prend du temps. Développer un
joueurs de football peuvent être exposés à des propos homophobes système qui détecte et analyse automatiquement le langage
de leurs supporters après avoir perdu des matchs [49]. Les négatif est essentiel [51].
discours homophobes sont également utilisés dans le sens de
tricherie, d'être immoral, peu fiable, perfide, traître, vulgaire,
Cette étude se concentre sur la détection des commentaires
malhonnête, sans caractère et bavard.
haineux homophobes et connexes à l'aide de l'ensemble de
Le discours de haine, qui inclut le discours homophobe, est un données Homopho bicAbusive Turkish Comments (HATC) [48].
comportement de discrimination, de dévalorisation et de création L'ensemble de données HATC se compose de 10 237
d'ennemis. En conséquence, cela conduit à la dépersonnalisation, commentaires haineux, 1 226 homophobes et 19 827
au harcèlement, à l'avilissement, à l'intimidation, à l'ignorance et à commentaires neutres sur Instagram qui ont été recueillis par les
la brutalité des personnes ou des groupes exposés à la haine. chercheurs. 256 des 1 226 commentaires homophobes ont été
Encore une fois, il y a des cas de silence et de refus de les exprimer tirés de l'ensemble de données Abusive Turkish Comments (ATC) qui
a été développé dans notre précédente étude [48]. L'ensemble de

données HATC a été équilibré avec la méthode de rééchantillonnage,
2. Travaux connexes
et les commentaires homophobes ont été déterminés en évaluant Les études sur les discours d'insultes sévères dans les médias
deux formes de l'ensemble de données (c'estàdire HATC et sociaux ont été analysées sous différents noms et catégories :
resHATC) à l'aide du modèle MBERT (Multilingual Bidirectional analyse du discours de haine [4, 30, 19, 94], détection du harcèlement
Encoder Representations from Transformers), basé sur l'apprentissage [41, 35], détection abusive [49], détection de l'agression [20],
en profondeur (DL). classificateurs (c'estàdire, mémoire à long misogynie. détection [72], détection de racisme [56], détection de
terme (LSTM), unité récurrente fermée (GRU) et mémoire flamme [12] et détection offensive [97, 27].
bidirectionnelle à long terme (BiLSTM)), classificateurs basés sur Le tableau 1 résume chronologiquement les études récentes sur le
l'apprentissage automatique traditionnel (TML) (c'estàdire, Naive discours de haine concernant l'homophobie et l'orientation sexuelle
Bayes (NB), Sup Port Vector Machine (SVM), Random Forest (RF)) sur les plateformes de médias sociaux.
et classificateurs d'ensemble (c.àd. Adaptive Boosting (Ad aBoost),
L'analyse du langage homophobe est généralement classée avec
eXtreme Gradient Boosting (XGBoost) et Gradient Boosting).
d'autres catégories de haine dans les études menées sous les
rubriques discours de haine, offensant et agressivité. Dans une étude
d'analyse de la haine [79], les expressions haineuses obtenues à
Les contributions de cet article peuvent être résumées comme suit : partir de Twitter [91] et de Whisper [95] ont été classées en six
catégories de haine (c.àd. origine ethnique, comportement,
1 Un nouvel ensemble de données homophobes turc est présenté caractéristiques physiques, orientation sexuelle, classe et sexe) . Il
[50]. est analysé que les catégories étaient similaires sur les deux
2 Il n'y a pas eu d'étude antérieure pour distinguer les commentaires plateformes de médias sociaux.
homophobes en turc à notre connaissance. Dans une autre étude [27] sur la détection du langage abusif, les
tweets ont été étiquetés comme homophobes et racistes. Les
Il s'agit de la première étude en termes à la fois de jeux de
données obtenus à partir des données homophobes d'Instagram expressions sexistes ont été qualifiées d'offensantes. Dans une
et d'identification des commentaires homophobes turcs en les étude [29] menée pour la détection du langage offensant en
portugais, les données offensantes ont été classées en racisme,
distinguant des multicatégories.
sexisme, homophobie, xénophobie, intolérance religieuse et abus.
3 Outre les expressions homophobes, les émojis liés à l'homophobie
Dans une étude sur le discours de haine en italien [2], un ensemble
ont également été pris en compte dans l'annotation du jeu de
de données contenant du sexisme, du racisme et des expressions
données.
homophobes a été classé comme homophobe ou non homophobe.
4 Le modèle MBERT préformé a obtenu un très bon score F1 par Dans une étude [93] dans laquelle le discours de haine a été classé
rapport aux autres modèles en termes de valeurs de toutes les comme origine ethnique, religion, sexe ou orientation sexuelle, le
classes de sentiments (c'estàdire homophobie, haineux et discours de haine a été détecté à l'aide de modèles de fonctionnalités.
neutre). Le modèle MBERT a le potentiel d'être un candidat Aussi, des catégories de racisme, de sexisme et d'homophobie ont
approprié pour le modèle de détection de l'homophobie à utiliser été identifiées sous le nom de discours de haine en ligne en utilisant
dans les filtres de commentaires turcs.
des approches lexicales et sentimentales. Une combinaison de
méthodes d'algorithmes basés sur un dictionnaire et d'approches
5 Le modèle MBERT utilisé dispose de ressources préformées d'apprentissage automatique a été présentée pour prédire le
dans 104 langues, et puisqu'il peut prendre en compte le format discours de haine dans les catégories du racisme, du sexisme et de
de différentes langues de texte, il peut être utilisé dans des études l'homophobie dans un ensemble de données composé de tweets en
sur les discours homophobes et haineux dans d'autres langues. anglais [93] Dans une étude [8], l'analyse de la paternité et de
l'agression ont fait pour les tweets espagnols mexicains dans lesquels
Le reste de cet article est organisé comme suit : la section 2 traite la catégorie de l'humiliation politique, du sexisme, de l'homophobie
des travaux antérieurs et des ensembles de données actuels sur et de la discrimination était définie comme agressive, et l'autre
les insultes homophobes et apparentées. La section 3 présente le catégorie était étiquetée comme non agressive.
matériel et les méthodes utilisés dans l'étude.

La section 4 présente l'étude expérimentale et discute des résultats. Lorsque nous examinons la source des données utilisées par les
Enfin, les conclusions sont présentées dans la section 5. études précédentes sur l'homophobie, nous constatons que la plupart
des données ont été obtenues à partir de Twitter [94, 20, 75]. Données
Tableau 1
Études antérieures sur la détection des discours de haine à l'aide de catégories homophobes
Papier Réf. Juste. Base de données Catégorie Perf.
Yahoo! et le Race, origine ethnique, sexe,

Juif américain Orientation sexuelle,
[93] Anglais2012 0,63 score F1
Congrès (AJC) (1 Nationalité, religion ou autre
000 paragraphes) Caractéristique
Twitter, Whisper (20 Origine ethnique, comportement, physique

[79] Anglais2016 305 tweets et 7 604 Caractéristiques sexuelles Non défini
chuchotements) Orientation, classe ou sexe
Twitter
[27] Anglais2017 Racisme, sexisme, homophobie 0,90 F1score
(24 802 tweets)
Site d'actualités Racisme, sexisme, homophobie,

du Brésil
[29] (10 336 commentaires Xénophobie, Religieux 0,70 F1score
Portugais2017
postés pour 115 news) Intolérance, Injure
Twitter
[62] Anglais2018 Racisme, Sexisme, Homophobie 80.56% Précision
(975 tweets)
Twitter (1
[2] Italien2019 Homophobe, pas homophobe 0,80 F1score
859 tweets)
Origine, Genre, Sexuel

anglais, français et Twitter 0,86
[70] orientation, religion,
Arabe2019 (13 014 tweets) MacroF1
Handicap, Autre
Twitter Politique, Sexisme, Homophobie, 0,65

[8] Espagnol2019
(10 856 tweets) Discrimination MacroF1
des ensembles de Facebook [9], Instagram [49], YouTube [76] et d'autres La méthode de logique floue utilisée dans le discours de haine consiste
plateformes Web [97, 6, 28] sont également disponibles. en une logique de catégorisation des valeurs entre 0 et 1. Dans la plupart
Lorsque nous examinons les études précédentes en termes de méthodes des problèmes de langage, des algorithmes de logique floue sont utilisés
utilisées, Bag of Words (BoW), ngrams, DL based (c'estàdire, pour lever l'ambiguïté et obtenir des résultats de classification précis.
Convolutional Neural Network, Recurrent Neural Network (RNN), LSTM, Il existe des études sur les discours de haine qui ont utilisé les types
GRU et BiLSTM) et TML algorithmes (c.àd., régression logistique, NB, Fuzzy Rule Based [38, 87], Fuzzy MultiTask Learning [58] et Association
arbre de décision (DT), RF et SVM) ont été fréquemment utilisés dans la Rule [92].
détection de l'homophobie [94, 56, 27, 29, 2, 93, 63]. En raison du succès
élevé de la classification, les algorithmes basés sur DL ont été
principalement préférés pour la détection de l'homophobie [33, 32, 10,
100]. De plus, des modèles préformés basés sur des mécanismes de
3. Matériels et méthodes
transformateur ont eu des succès de classification significatifs dans Cette section présente les détails des ensembles de données (c'està
l'analyse du discours de haine [34, 101, 13]. dire HATC et resHATC) utilisés pour les expériences et un résumé des
algorithmes de classification.
3.1. L'ensemble de données Homophobic

Les études multilingues, qui utilisent généralement des algorithmes de
Abusive Turkish Comments (HATC)
classification TML et DL pour la détection des discours de haine, évaluent
la robustesse des modèles proposés dans plusieurs langues La langue turque appartient à la sousdivision altaïque de la famille des
simultanément sans expérimenter dans un environnement multilingue langues ouraloaltaïques [54]. Les langues turques, composées de 40
[26, 70, 85]. Le langues, sont parlées comme
une langue maternelle par près de 165 à 200 millions de personnes Tableau 2
dans le monde. Des mots ayant des significations différentes sont Statistiques sur 18 mots turcs fréquemment utilisés [68]
obtenus en ajoutant des morphèmes tels que "perles sur une chaîne"
Mot Morphèmes Ambiguïté
à un mot racine dans la langue turque agglutinante [68].
Les mots turcs peuvent prendre de nombreux suffixes flexionnels et 1 Un 1 4

dérivés dans une phrase. Les expressions qui changent en prenant
2 ce 1 2
un suffixe de conjugaison en turc peuvent correspondre à une
3 et 1 1
phrase en anglais. gör+ebil+ecek+se+k
4 pour 1 4
→ si nous pourrons voir
5 de 1 2
La figure 1 montre que le mot turc « clé » peut prendre racine cinq
dérivés ou plus et finir comme un modificateur après cinq dérivations. 6 Beaucoup
1 1
7 avec 1 2
8 dans 1 1
Figure 1
Processus de dérivation dans un mot turc 9 plus 1 1
dix beaucoup 1 2
11 ou 1 3
12 comme 1 1
13 était 1 2
14 c'est 1 2
15 après 1 2
16 alors que 1 2
17 O 1 2
18 d'abord 1 1
Le tableau 2 montre les 18 mots les plus fréquemment utilisés dans l'ensemble de données ATC a été collecté à partir de comptes qui
un grand corpus turc, ainsi que le nombre de morphèmes dans le sont plus susceptibles de trouver des commentaires haineux tels que
mot et l'ambiguïté morphologique pour chacun. La plupart des mots les comptes Instagram de la page du magazine turc, les équipes de
à haute fréquence ont une ambiguïté morphologique relativement football et les comptes de certains joueurs de football. Le tableau 3
élevée, ce qui correspond au fait d'avoir des racines de discours montre les mots turcs haineux avec la fréquence la plus élevée dans
différentes pour les mots avec un morphème. Dans cette étude, une l'ensemble de données ATC.
liste de 201 mots qui entraîneraient une incertitude morphologique
Les expressions de haine en turc sont généralement des formes
élevée a été créée et supprimée de l'ensemble de données HATC.
racine. Dans les mots haineux qui ont un suffixe de déclinaison, le
sens change lorsque la radicalisation est effectuée.
Les ensembles de données utilisés dans les études de traitement du
Par exemple; Le mot "şerefsiz (malhonnête)" est odieux car il a un
langage naturel (TAL) sont très importants pour améliorer les
suffixe "siz". La racine du mot « şerefsiz (déshonnête) » est « şeref
performances de classification. L'ensemble de données HATC se
(honneur) ». Le sens du mot « şeref (honneur) » est différent de «
compose de commentaires Instagram obtenus à partir de certains
şerefsiz (malhonnête) » et ne contient pas de haine. Par conséquent,
comptes susceptibles de contenir des propos homophobes (c'està
le processus de radicalisation n'a pas été appliqué dans l'ensemble
dire @utandiran_paylasimlar, @kerimcandurmaz, @sametlicina)
de données HATC.
ainsi que des commentaires Instagram abusifs dans l'ensemble de
données ATC qui a été développé dans notre précédent étude [48]. Les commentaires homophobes ont été extraits des commentaires
Les commentaires abusifs dans l'ensemble de données ATC ont des étiquetés in sult dans l'ensemble de données ATC, combinés avec
expressions sexistes, homophobes, d'humiliation sévère et de des commentaires homophobes obtenus à partir d'Insta gram, et
défécation [49]. Les commentaires dans étiquetés manuellement comme la catégorie homophobe.
,
Machine Translated by permettant
données Google l'extraction et l'édition appropriées dans la direction opposée. Le ROS consiste à
des données appartenant aux comptes accessibles reproduire au hasard des exemples de la classe
avec un compte utilisateur. minoritaire. Comme pour le cas précédent, le
Technologie de l'information et contrôle nombre d'exemples générés réduit le taux de 361
déséquilibre 2022/2/51 [46].
Tableau 4
Nombre de catégories d'ensembles de données HATC (c'està

dire,
Tableau 3 homophobe, haineux, neutre) Figure Figure
2 2
Mots turcs haineux avec une fréquence élevée dans l'ensemble de données Mots
dans homophobes
Mots fréquemment utilisés
le homophobes dans l'ensembleutilisés
fréquemment de données HATC
ATC Ensemble de données Nombre de Nombre de Nombre
Jeu de données HATC
homophobes haineux (c.àd. de neutre
Type de haine Commentaires
Commentaires de mots sexiste, sur la fréquence
grave
1 Merde Sexiste 1182
humiliation et
2 heures Sexiste 917
expressions
3 chienne Sexiste 791
de défécation)
1 226 10 237 19 827 Expressions de
4 bok HATC défécation 523 (3,9 %) (32,7 %) (63,4 %)
5 déshonorant Humiliations graves 451
L'étiquetage
6 en direct deSexiste
l'ensemble de données 405
homophobes a été réalisé par deux chercheurs
7 choses Sexiste 310
selon le Big Slang Dictionary [3] concernant la Les performances de classification peuvent
8 Société linguistique turque [89]. Comme le298 à la fois s'améliorer et le surajustement
montre la figure 2, l'expression homophobe la données
baséspeutsurdéséquilibrés
Comme être
les le réduit
plusmontre sur larééchantillonnés
fréquemmentdes
figure ensembles
2,
utilisés.
les modèlesde
à l'aide
Dans les de DL [89].
9 plus aqsikeyim sexiste
Sexiste fréquemment utilisée en 288 réseaux
homophobe
plus de
basésballes"
sur
DL suréchantillonnés,
et
le
enses
topturc
fonctionnent
dérivés
est le mot l'expression
(c'estàdire,
"mieux,
les algorithmes
sont
topitoş,
turc est le mot dire
topitop,
"top/ball"
topitoş,et ses dérivés (c'està
260 moinstopitop,
il sera totoş,
homophobes
ibne/faggot sélectif,
toplar/balles)
et sont
» et également
overfit . apprend
Des
[80].utilisés
mots plus
"lavuk"telsvite,
pour
sont
que et
unreli
« puşt,
totoş, toplar/balls). Des mots comme « puşt, ibne/ Dans cette étude, l'ensemble de données
HATC est divisé en personnes capables et trompeuses.
faggot »pour
également
utilisés et « les
lavuk » sont homophobes
personnes trompeuses etet sont
peu
240 De plus,
l'attention s'est portée sur un ensemble de tests de
fiables . De plus, une attention a été portée à formation utilisant une croix de(Figure
10 fois payée
12 l'analyse
ta mère Sexiste 207 pour analyser
chaque contiennent
ensemble d'abord
pas
de données
deles validation
commentaires
d'expressions qui3).
neDans
des commentaires qui ne contiennent homophobes de sont
formation mais d'expression
d'homophobie
commentaires
emojis. Les,emojis
lecommentaires
nombre d'homophobes
augmentés
qui ont au
deshasard,
avec certains
tels
pas d'expressions homophobes mais expriment 185 qu'ils ont étéemojis
étiquetés comme homophobes,
l'homophobie Homophobic 13 top avec quelques emojis. Lesdonnées(suréchantillonnage)
temps, de les
commentaires
autres
commentaires jusqu'à
haineux.
ont été
ce qu'il
Dans
supprimés
emojis neutres de
soit
le égal
mêmedu au
jeu
nombre
14 mk Sexist tels que est réduit de HATC. qui
manière nombre ont des
aléatoire de données
L'ensemble de données
159
ceux qui ont , été, étiquetés comme homophobes, HATC est déséquilibré comme on le voit dans
le tableau ,
4., Il existe
égal à(souséchantillonnage) de
( c.nombreuses
au niveau jusqu'àdes ce qu'il soit
méthodes
approches)
1516
autres
yavşak
emojis
mal ontSevere
L'ensemble Humiliation
été données
supprimés
de données
HATC.
de l'ensemble
HATC estde156
utilisé pour
HATCdea rééchantillonnage équilibrer
été équilibré par des l'ensemble
: desensembles
techniquesde données
dededonnées
Humiliations graves 146 rééchantillonnage auensemble
niveau des données
déséquilibré, comme le montre le tableau 4. De sont
distributions
classification
utilisées
appelé
données
resHATC resHATC
catégorielles
des
et
déséquilibré.
ont
le ensembles
nouvel
été pour
comparés
dans
normaliser
Lesdeun
résultats
données
. ensemble
de les
données
de
HATC
la
de et
est
Le code 17 est sexiste
nombreuses méthodes (c'estàdire des 131
approches
approches
au aul'algorithme)
niveau de niveau des données et des
sont utilisées . dans
108
des ensembles de données déséquilibrés. En
égorie. Humiliation sexiste, sévère et défécation
ex algorithmes de rééchantillonnage, les
échantillons sont des pressions réduites dans les échantillons
Dans les algorithmes
sont séparément
de rééchantillonnage,
dans les expériences.
l'ensemble de données ATC ont été étiquetés Comme
HATCaprès
échantillonnage)indiqué
contenant
avoir plus dans
divisé
dans réduit (c'estàdire
d'échantillons
les
l'ensemble
catégoriesdedans
de
données sous
lal'ensemble
figure 3,
comme haineux (c'estàdire sous échantillonnage)
dans les catégories contenant des commentaires. de données
croisés,
l'ensemble
contenant
le nombre d'apprentissage,
de données
moins
d' échantillons
d'échantillons oudans
d'apprentissage
des avec
estle10
catégories plis
augmenté
Les commentaires
d'apprentissage,
étaient
d'échantillons
31 290
homophobes, restants
commentaires
ou
danscomme
10 ont étéde
l'ensemble
237
Instagram étiquetés
neutres.
étaient dont
haineux
En
données plus
conséquence,
1 226et 19
827 neutres ont été collectés pour former l'ensemble notre(c'estàdire suréchantillonné)aléatoire
étude, le suréchantillonnage [90]. Dans
de données HATC (tableau 4). L'interface de

programmation d'application Instagram [1] et le
langage de programmation Python ont été utilisés
Tableau 4
pour collecter des données homophobes à partir
d'Instagram. Instagram fournit des données non Nombre de catégories d'ensembles de données HATC (c'estàdire
homophobes, haineux, neutres)
structurées open source qui permettent une extraction
et une édition appropriées des données appartenant Nombre d'expressions
Nombre Nombre de
à des comptes accessibles avec un haineuses (c'estàdire
neutre
Base de données d'homophobes
compte d'utilisateur. sexistes, d'humiliation grave
commentaires commentaires
et de défécation)
L'étiquetage de l'ensemble de données homophobes a
été effectué par deux chercheurs selon le Big Slang 1 226 19 827
CHAC 10 237 (32,7 %)
(3,9 %) (63,4 %)
Dic tionary [3] concernant la Turkish Linguistic Society
(ROS) et Random UnderSampling (RUS) ont été utilisés pour équilibrer dans la rame est de 1 104, le nombre de commentaires haineux est de
l'ensemble de données. RUS consiste à supprimer au hasard des 9 214 et le nombre de commentaires neutres est de 17 845.
exemples de la classe majoritaire. Le nombre d'exemples supprimés
réduit le taux de déséquilibre et peut équilibrer l'ensemble de données, Après application de la technique de rééchantillonnage, le nombre de
voire le déséquilibrer dans le sens opposé. Le ROS consiste à reproduire commentaires homophobes est de 9 214, le nombre de commentaires
au hasard des exemples de la classe minoritaire. Comme dans le cas haineux est de 9 214 et le nombre de commentaires neutres est de 9
précédent, le nombre d'exemples générés réduit le taux de déséquilibre 214. Dans l'ensemble de test, le nombre de commentaires homophobes
[46]. est de 122, le nombre de commentaires haineux est de 1 023 et le nombre
de commentaires neutres est de 1 982.
Les performances de classification peuvent à la fois s'améliorer et le
surajustement peut être réduit sur des ensembles de données
déséquilibrés rééchantillonnés à l'aide de modèles basés sur DL. Dans
3.2. Méthodes
les réseaux suréchantillonnés, les algorithmes basés sur DL fonctionnent Dans cette section, les algorithmes utilisés pour la détection des
mieux, sont plus sélectifs, apprennent plus rapidement et moins ils seront surajustés [80].
commentaires haineux homophobes et connexes sont brièvement
Dans cette étude, l'ensemble de données HATC est divisé en un ensemble présentés. Les méthodes de ngrammes, Term Frequency Inverse
de tests d'entraînement utilisant d'abord une validation croisée de 10 fois Document Frequency (TFIDF) et Global Vectors (GloVe) ont été adoptées
(Figure 3). Dans chaque ensemble de données d'apprentissage, le nombre pour l'extraction de caractéristiques vectorisées. Les algorithmes SVM,
de commentaires homophobes est augmenté de manière aléatoire (sur NB et RF ont été utilisés comme algorithmes TML. AdaBoost, XGBoost et
échantillonnage) jusqu'à ce qu'il soit égal au nombre de commentaires Gradient Boosting ont été utilisés comme classificateurs d'ensemble. Les
haineux. Dans le même temps, le nombre de données neutres est réduit méthodes LSTM, BiLSTM et GRU ont été développées pour la
aléatoirement (souséchantillonnage) jusqu'à ce qu'il soit égal au nombre classification basée sur DL.
de commentaires haineux. Ainsi, l'ensemble de données HATC a été
Les commentaires homophobes dans le train sont de 1 104, le nombre de commentaires haineux est de 9 214 chiffre
équilibré par rééchantillonnage et le nouvel ensemble de données est Le modèle de base multilingue a été utilisé comme modèle BERT. Ainsi,
appelé l'ensemble de donnéeset le nombre
resHATC. de commentaires neutres est de 17 845. pling, sélection de sousensembles de fonctionnalités et
Classification un total de 22 combinaisons de resam Pour
les résultats des ensembles de données HATC et resHATC ont été
classification
comparés séparément dans les expériences. Comme le montre la figure des modèles ont été entraînés et validés pour classer les commentaires
3, après avoir divisé l'ensemble de données HATC avec 10 plis croisés,
figure 3 homophobes. La représentation schématique des méthodes utilisées
le nombre de commentaires homophobes dans cette étude est donnée à la figure 4.
Le
Équilibrer le nombre de commentaires dans le BER
figure 3
Jeu de
Équilibrer le nombre de commentaires données
dans HATC
l'ensemble de par
données rééchantillonnage
HATC par rééchantillonnage
de
classe
r vali
L'utilisé
3.2.
Dans
le hachage
de données
mar
ceux
OMS
Après application de la technique de rééchantillonnage, le nombre
OMS
de commentaires homophobes est de 9 214, le nombre de
commentaires haineux est de 9 214 et le nombre de commentaires
neutres est de 9 214. Dans le test
3.2.
,
Machine Translated by Google L'extraction de caractéristiques TFIDF avec un
La fréquence (TFIDF) et les vecteurs globaux (GloVe) ont
été adoptés pour l'extraction de caractéristiques vectorisées. unigramme de mot, qui est une représentation
Les algorithmes SVM, NB et RF ont été utilisés comme vectorielle creuse, a été utilisée dans cette étude
pour
Technologie de l'information et contrôle
algorithmes TML. AdaBoost, XGBoost et Gradient Boosting la sélection de 363 caractéristiques avant d'appliquer
2022/2/51
les modèles TML et Ensemble Classifier.
ont été utilisés comme classificateurs d'ensemble.
Les méthodes LSTM, BiLSTM et GRU ont été développées Les incorporations de mots, qui sont des
pour la
classification basée sur DL. représentations numériques de mots, visent à améliorer
Architecture homophobe et haineuse
3.2.1. Prétraitement Les algorithmes de calcul transportent des informations sémantiques
Dans la phase de prétraitement, l'ensemble de données HATC a été tout en représentant des mots et en encodant la relation entre les mots
[33]. Dans cette étude, la méthode GloVe word em bedding, qui crée
nettoyé en supprimant les URL, les hashtags, les caractères
des incorporations de mots en collectant une matrice globale de
numériques, les signes de ponctuation et les emojis (à l'exception des
cooccurrence motmot, a été utilisée avec des classificateurs basés sur
homophobes) dans les commentaires. Les commentaires dans
DL. L'algorithme GloVe utilisé dans cette étude est entraîné sur
l'ensemble de données ont été séparés en jetons et les mots vides ont
été supprimés. Common Crawl [24]. Il y a 253 000 mots dans le vocabulaire et la taille
de la dimension est de 300. Les données d'entraînement sont du texte
3.2.2. Extraction de caractéristiques multilingue exploré sur le Web avec 2 736 000 jetons. La taille du corpus
est de 21 Go.
L'extraction de caractéristiques est l'étape de représentation des textes
en les convertissant en vecteurs numériques [74]. La représentation
des caractéristiques ngrammes crée un vocabulaire de mots groupés. 3.2.3. Modèles d'apprentissage automatique traditionnels
Le vocabulaire composé de structures de mots uniques est appelé le
Le classificateur SVM est un algorithme très efficace et bien connu qui
modèle motunigramme. Le TF est le nombre de fois qu'un mot apparaît
peut donner de bons résultats dans les processus de classification de
dans un document tandis que l'IDF est de savoir si un mot est commun
texte [39]. L'algorithme SVM n'a pas besoin d'une grande quantité de
ou rare à travers
données pour produire des résultats de classification réussis. Le but de
tous documents [53]. L'extraction de caractéristiques TFIDF avec word
l'algorithme SVM est de trouver un hyperplan optimal pour séparer les
unigram, qui est une représentation vectorielle creuse, a été utilisée
classes, et c'est un classifieur avec des bases théoriques solides [77]. Il
dans cette étude pour la sélection des caractéristiques avant d'appliquer réduit l'erreur de généralisation par une séparation efficace des deux
les modèles TML et Ensemble Classifier. classes d'hyperplan au point d'entraînement le plus proche [40]. Le
Les incorporations de mots, qui sont des représentations numériques classificateur NB est un classificateur simple largement utilisé dans les
de mots, visent à améliorer la précision de la classification avec un problèmes de PNL tels que le discours de haine et donne de bons
grand nombre de textes préformés plutôt que de former un petit résultats.
ensemble de données à utiliser [18]. Mot intégré
Le principe de ce classificateur est basé sur la probabilité bayésienne 3.2.4. Modèles d'ensemble
et suppose que les probabilités des caractéristiques sont indépendantes AdaBoost adopte une approche itérative pour créer des classificateurs
les unes des autres. En supposant que toutes les fonctionnalités puissants en apprenant des erreurs de classificateur des apprenants
sont indépendantes, il est facile d'utiliser des sélections de faibles. Dans la première étape, les DT sont utilisés par Ada Boost
fonctionnalités telles que la notation BoW. Le classificateur NB est
comme classificateurs faibles, et des valeurs pondérées de manière
extrêmement rapide dans les tests et les estimations [98]. égale sont données aux données. Les valeurs de poids sont mises
Le classificateur RF est essentiellement une approche d'apprentissage à jour en fonction des résultats obtenus lors de la première itération [36].
d'ensemble. L'algorithme RF est une méthode DT avancée qui est AdaBoost réduit ainsi les erreurs de classification [69]. Les
fréquemment utilisée dans les études PNL. L'algorithme DT a un algorithmes d'amplification de gradient sont des classificateurs
problème instable dû à une forte variance. efficaces pour résoudre les problèmes de classification et de
Le classificateur RF a été utilisé pour résoudre ce problème. régression qui traitent les données de manière flexible sans avoir
RF crée de nombreux DT différents, faisant la moyenne des scores besoin de valeurs manquantes. Le surajustement et la variance
obtenus par les DT et réduit le biais avec le surajustement [16]. élevée des DT sont significativement réduits par l'amplification du
gradient en utilisant un groupe d'arbres [66]. XGBoost est une
L'algorithme de recherche de grille est un algorithme qui détermine
méthode d'apprentissage d'ensemble qui applique une variante de
les paramètres les plus appropriés pour un modèle en préclassifiant
gradient boosting basée sur les DTs [21]. XGBoost combine plusieurs
les données [14]. Gridsearch applique différentes valeurs de
apprenants DT de base pour créer un modèle plus robuste. Chaque
paramètres dans des plages spécifiées par l'utilisateur à chaque
modèle pour la sélection de la meilleure combi algorithme d'apprentissage de base apprend de l'apprentissage de
base précédent et réduit son erreur. En conséquence, le dernier
nation des valeurs des paramètres. Dans cette étude, la sélection des
apprenant a un biais et une variance minimaux.
paramètres des modèles de classification a été effectuée par une
technique de recherche sur grille utilisant une validation croisée de Les valeurs des paramètres testés pour les classificateurs d'ensemble
10 fois, et les valeurs des paramètres de SVM ont été définies comme ont été définies comme suit : n_estimators ={10, 20, 50, 100,
suit ; le paramètre de coût (C)={0.01, 0.1, 1, 10, 10.01, 10.1, 100, 500,1000, 2000, 3000}. Le nombre optimal de valeurs d'estimateurs a
100.01, 100.1} et kernel={rbf, line earSVC}. Tester les valeurs C été sélectionné à 3000 par recherche de grille et il a été appliqué à
petites et grandes est une approche bien connue dans la littérature tous les modèles de classificateur d'ensemble.
[7, 5] pour obtenir la meilleure version du classifieur SVM. La

3.2.5. Modèles d'apprentissage en
motivation de mise à l'échelle derrière le processus de recherche de
profondeur RNN est largement utilisé dans diverses tâches telles que
grille consiste à effectuer une évaluation complète des paramètres C
la classification de séquences, l'étiquetage de séquences et la
des marges souples (petite valeur C) aux marges dures (grande
génération de séquences [57]. RNN est un réseau neuronal dans
valeur C). Le modèle SVM a donné les meilleurs résultats avec les
lequel la sortie de l'étape précédente est transmise en tant que
valeurs C=10.01 et kernel=linearSVC. Dans l'algorithme NB, le NB
données d'entrée à l'étape actuelle. Les données d'entrée sont traitées
multinomial utilisé pour les catégories multiclasses a été choisi et la
en fonction de la série temporelle et la sortie résultante est utilisée
valeur Alpha a été déterminée à 0,1.
comme entrée pour l'état suivant [83]. Bien que RNN soit durable
dans la modélisation séquentielle, il souffre de gradients qui
Pour l'algorithme RF, la valeur n_estimators a été sélectionnée à 50.
disparaissent et explosent à long terme. L'algorithme LSTM a été créé
Les valeurs optimales des paramètres pour tous les algorithmes TML
pour résoudre ce problème via Forget, Input et Output Gates. Forget
utilisés sont données dans le tableau 5.
Gate décide quoi cacher des étapes précédentes. Input Gate décide
des informations à inclure après l'étape en cours, et Output Gate
Tableau 5 détermine quel sera le prochain état caché [61]. Des unités GRU
Paramètres optimaux des classificateurs TML similaires à l'algorithme LSTM sont également utilisées pour résoudre
les problèmes de gradient de fuite. L'algorithme GRU a deux portes,
Classificateur Paramètres optimaux
la porte de mise à jour et une porte de réinitialisation. La porte de
SVM C=10.01, noyau=linéaire mise à jour agit de la même manière que l'oubli et la porte d'un LSTM,
elle décide quelles informations conserver et lesquelles supprimer et
N.B. Alpha=0.1, MultinomialNB quelles nouvelles informations ajouter. La porte de réinitialisation est
utilisée
RF Nombre d'estimateurs=50
Machine Translated by Google les architectures de réseau et les paramètres optimaux pour tous bidirec
les classificateurs basés sur DL sont donnés à la figure 5. BERT a
commencé
Technologie de l'information et contrôle 2022/2/51
la formation
Figure 5 classifi
Figure 5
365 classifi
Architectures réseau et paramètres optimauxréseau
Architectures des classificateurs basés suroptimaux
et paramètres DL des classificateurs
basés sur DL approche
du
modèle
li. c'est
facile mêm
Le B
méfiezvo
structu
relatio
basic t
encoder
décider de la quantité d'informations précédentes qui sera oubliée (unité=256) Couche abandonnée Couche dense. La structure du
[22]. L'unité BiLSTM qui essaie de capturer des contextes de texte réseau pour le modèle BiLSTM est définie comme suit : Couche BiL
consiste en des unités LSTM avant et arrière LSTM. Cette structure STM (unité = 256) Couche de décrochage Couche dense.
permet net Dropout supprime de manière aléatoire les entrées entre les couches.
fonctionne pour avoir des informations sur la séquence à partir de L'abandon récurrent élimine les entrées entre les pas de temps. Le
deux directions opposées à chaque étape, à la fois vers l'arrière et décrochage et le décrochage récurrent ont un effet régulier et
vers l'avant [47]. peuvent empêcher le surapprentissage. Pour tous les modèles
basés sur DL, différentes valeurs d'abandon (c'estàdire 0,2, 0,3, 0,4
Dans cette étude, les valeurs des paramètres pour les algorithmes
et 0,5) ont été essayées et la valeur d'abandon optimale a été
basés sur DL ont été déterminées par la méthode d'essai et d'erreur.
trouvée à 0,2. De même, la valeur optimale de décrochage récurrent
Des vecteurs GloVe à 300 dimensions ont été utilisés pour
a été utilisée comme 0,5. L'optimiseur Adaptive Moment Estimation
représenter les mots dans l'ensemble de données. Les détails des
(Adam) a été utilisé dans les modèles basés sur DL ; le taux
architectures de réseau et des paramètres optimaux pour tous les
d'apprentissage était de 1 × 10–3 et la perte était
classificateurs basés sur DL sont donnés à la Figure 5.
categorical_crossentropy. Pendant la formation, la taille du lot est de
Cela a été essayé en augmentant le nombre de couches dans les 64 ; le nombre d'époques est le modèle LSTM1 = 5, le modèle LSTM2
modèles DL et le succès de la classification n'a pas diminué si seul le
= 6, le modèle GRU = 8 et le modèle BiLSTM = 6, respectivement.
modèle LSTM a deux couches.
Par conséquent, deux modèles, un LSTM en couches (modèle
LSTM1) et deux LSTM en couches (modèle LSTM2), ont été créés à 3.2.6. Modèle MBERT
partir du modèle LSTM. La structure du réseau pour le modèle Le modèle BERT est un réseau neuronal bidirectionnel profond non
LSTM1 est définie comme suit : Couche LSTM (unité = 256) supervisé qui implémente une architecture de transformateur
Couche de décrochage Couche dense. La structure de travail en bidirectionnel. Une approche d'apprentissage par transfert basée sur
réseau pour le modèle LSTM2 est définie comme suit : le BERT a commencé à être fréquemment utilisée dans les études de
Couche LSTM (unité = 256) Couche de décrochage 2. Couche classification de la haine, car elle conduit à une meilleure performance
LSTM (unité = 256) Couche dense. La structure du réseau pour le de classification et à une réduction du temps de formation [78].
modèle GRU est définie comme suit : Couche GRU L'approche d'apprentissage par transfert fournit également des
apprentissage efficace à partir de données étiquetées limitées avec Le processus de création a été répété dix fois. Neuf sousensembles ont
un modèle préformé. Un modèle de langage préentraîné facilite la été utilisés comme ensembles de données d'apprentissage et un comme
compréhension du langage actuel, même dans les sources de ensemble de données de test. Un résultat moyen de dix fois a été accepté
données avec peu d'étiquettes. comme taux de précision de la classification finale.
La logique du modèle BERT est basée sur le mécanisme d'attention, Le choix du nombre d'époques optimal pour l'entraînement est une
c'estàdire la structure du transformateur, qui apprend les relations autre mesure de performance. Lorsque le nombre d'époques est
contextuelles entre les mots d'un texte. Une structure de élevé dans les modèles basés sur MBERT et DL, cela peut conduire
transformateur de base se compose d'un encodeur qui lit les entrées à un surajustement et le modèle d'entraînement peut perdre sa
de texte et d'un décodeur qui génère des prédictions pour la tâche. capacité de généralisation [42]. Ces dernières années, des
Le modèle BERT prend une séquence de moins de 512 jetons techniques telles que la sauvegarde du meilleur modèle ou l'arrêt
comme données d'entrée et donne une représentation des données précoce pendant l'entraînement ont été fréquemment utilisées pour
en sortie. réduire le risque de surajustement par les études basées sur DL
La tokenisation est accomplie en deux étapes (la normalisation [64, 52, 84]. Dans notre étude, la technique d'arrêt précoce a été
préliminaire du texte et le fractionnement de la ponctuation) avec le utilisée pour déterminer les valeurs d'époque de la manière la plus
token WordPiece [45]. La séquence tokenisée est obtenue en appropriée. Après chaque époque, les performances du modèle ont
ajoutant un jeton [CLS] au début de chaque phrase et un jeton [SEP] été évaluées selon la métrique de précision, et il a été décidé
à la fin de chaque phrase. Le modèle BERT effectue une classification d'arrêter ou non l'entraînement. La phase d'apprentissage était
de texte en utilisant le dernier état h caché du premier jeton [CLS] terminée lorsque l'augmentation du critère de précision s'arrêtait ou
comme représentation des séquences de jetons résultantes [81]. que le nombre maximal d'époques autorisé était atteint. Plus
précisément, le rappel d'arrêt précoce a été utilisé pour arrêter
l'entraînement si la précision du modèle n'améliorait pas plus de 10
Le modèle MBERT est un modèle de langage préformé formé dans époques consécutives. Dans notre étude, bien que nous ayons
le corpus Wikipedia de 104 langues [73]. défini un entraînement de 20 époques comme paramètre initial, le
La réalisation la plus importante de ce modèle est qu'il est préformé modèle LSTM1 s'est arrêté à la 5ème époque ; les modèles LSTM2
sur 104 corpus multilingues différents et qu'il fonctionne assez bien et BiLSTM se sont arrêtés à la 6ème époque ; le modèle GRU s'est
même dans les langues à faibles ressources. De plus, le modèle M arrêté à la 8ème époque, et le modèle MBERT s'est arrêté à la
BERT effectue un apprentissage en tenant compte des structures 3ème époque.
de toutes les langues [37]. Dans cette étude, un modèle MBERT

préformé prenant en charge 104 langues, dont le turc, avec 12 Cette approche contribue à éviter le surajustement dans les modèles.
blocs Transformer empilés, des dimensions cachées 768, 12 têtes

d'autoattention et 110 000 000 paramètres au total a été utilisé. Le La précision, le rappel et le score F1 ont été utilisés pour évaluer les
modèle MBERT utilisé est capable de prendre en compte le format performances des modèles de classification proposés, car ils sont
des différentes langues textuelles en examinant les données de fréquemment utilisés dans l'analyse des discours de haine [27, 29,
différentes langues [81]. 2, 93, 62, 8, 70]. La matrice de confusion résume le nombre
d'échantillons vrais et faux prédits par le classifieur [60]. Le vrai
négatif (TN) est le nombre de négatifs (réels) qui sont correctement
Dans le modèle BERT utilisé dans notre étude, il y a deux couches classés comme négatifs. Le faux négatif (FN) est le nombre de
denses avec la fonction d'activation ReLU, deux couches d'abandon positifs (réels) qui sont incorrectement classés comme négatifs. Le
(0,2) et une couche dense avec la fonction d'activation softmax vrai positif (TP) est le nombre de positifs (réels) qui sont correctement
comme dernière couche. Le modèle BERT a été optimisé à l'aide de classés comme positifs.
l'optimiseur Adam et formé sur une combinaison de modèle BERT

avec une taille de lot (32), 3 époques et un taux d'apprentissage Les faux positifs (FP) sont le nombre de (réels) négatifs qui sont
1e5. incorrectement classés comme positifs [99].
La mesure de précision est le rapport entre les échantillons positifs

3.2.7. Indicateurs de performance
correctement classés (TP) et tous les échantillons classés comme
Une méthode de validation croisée en dix volets a été utilisée pour positifs (TP+FP) (Équation (1)).
cette étude. Lors de l'exécution de ce processus, l'ensemble de
données HATC a été divisé en dix sousensembles, et chaque classifica Précision = TP/(TP+FP). (1)
La métrique de rappel est le rapport entre les positifs correctement Tableau 6
classés (TP) et tous les échantillons positifs (TP+FN) dans l'ensemble Comparaison des performances des modèles de classification pour la
de données (équation (2)). catégorie homophobe
Rappel = TP/(TP+FN). (2) Catégorie homophobe

Modèle
Produit Rappel Note F1
La métrique F1Score est trouvée par la moyenne harmonique des (%) (%) (%)
métriques Précision et Rappel (équation (3)).
HATC+unigramme+TFIDF+SVM 81,51 61,32 69,99
F1Score = 2*Rappel*Précision/(Rappel+Précision). (3) HATC+unigramme +TFIDF+ NB 96,52 33,40 49,63
HATC+unigramme+TFIDF+RF 85,31 49,30 62,49

La méthode de moyenne F1_macro a été utilisée dans cette étude.
La macromoyenne F1 fournit une valeur mesurée pour chaque étiquette HATC+unigramme+TFIDF+
59,32 47,03 52,46
et calcule la moyenne en fonction du nombre d'étiquettes dans AdaBoost
l'ensemble de données (équation (4)).
HATC+unigramme+TFIDF+
81,93 53,94 65,05
XGBoost
(4) HATC+unigramme+TFIDF+
76,34 61,31 68,00
Amplification du dégradé
HATC+Gant+ LSTM1 78,61 61,40 68,95
HATC+Gant+ LSTM2 74,52 62,31 67,87
4. Résultats et discussions HATC+Gant+GRU 72,93 66,72 69,69
Les classificateurs proposés ont été testés sur les ensembles de HATC+GloVe+ BiLS™ 75,62 67,52 71,34
données équilibrés HATC et resHATC. Toutes les routines de formation
HATC+MBERT 90,81 76,29 82,64
et de test ont été effectuées sur le service gratuit Colab oratory de
Google [23]. Les modèles de classification se composent d'une méthode resHATC+unigram+TFIDF+ SVM 62,31 66,01 64,11
d'extraction de caractéristiques et d'un classifieur. Le tableau 6 montre
resHATC+unigram +TFIDF+ NB 36,52 63,52 46,38
les mesures de performance des modèles de classification avec
différentes combinaisons pour détecter les expressions homophobes. resHATC+unigram+TFIDF+ RF 58,71 58,20 58,45
resHATC+unigram+TFIDF+
45,22 54,14 49,28
AdaBoost
Comme le montre le tableau 6, le meilleur score F1 est obtenu à partir
du modèle MBERT dans les deux ensembles de données. Le plus im resHATC+unigram+TFIDF+
50,73 67,83 58,05
C'est une raison importante pour laquelle la structure du transformateur XGBoost
et le mécanisme d'attention peuvent mieux capturer les informations resHATC+unigram+TFIDF+

56,22 67,52 61,35
sur les sentiments et avec plus de précision. Utilisant les mégadonnées Amplification du dégradé
et la diversité du vocabulaire dans différentes langues préformées, le
resHATC+Gant+ LSTM1 69,21 72,91 71,01
modèle MBERT a surpassé toutes les approches.
Le deuxième meilleur modèle est BiLSTM dans l'ensemble de données resHATC+Gant+ LSTM2 69,21 68,51 68,86
resHATC. Bien que les modèles LSTM1 et LSTM2 allègent les resHATC+Gant+GRU 55,23 76,51 64,15
problèmes de disparition de gradient, le modèle BiLSTM a pu capturer
ResHATC+GloVe+ BiLS™ 78,71 69,50 73,82
les informations sémantiques de contexte plus efficacement que les
modèles LSTM. Le modèle BiLSTM a permis d'apprendre les resHATC+ MBERT 77,00 86,37 80,88
dépendances bidirectionnelles à long terme entre les directions
temporelles avantarrière et d'extraire de meilleures fonctionnalités des
modèles LSTM et du modèle GRU. Le modèle SVM riche en dans le jeu de données HATC. Les modèles AdaBoost, XGBoost et
fonctionnalités a montré des performances de score F1 très proches Gradient Boosting ont donné de meilleurs résultats de score F1 dans
avec les modèles LSTM1, LSTM2 et GRU l'ensemble de données HATC que dans l'ensemble de données resHATC. Le
méthode de rééchantillonnage n'a eu aucun effet sur le TML et En
semble classificateurs en termes de F1score. Performance Tableau 8

les résultats des modèles de classification pour la catégorie Comparaison des performances des modèles de classification pour
haineux sont présentés dans le tableau 7. Selon le tableau 7, le la catégorie neutre
meilleur modèle pour la classification des dis haineux
Catégorie neutre
Tableau 7 Modèle
Rappel Note F1
Comparaison des performances des modèles de classification pour Précision (%) (%) (%)
la catégorie haineuse
HATC+unigramme+TFIDF+SVM 91,13 95,81 93,41
Catégorie haineuse HATC+unigramme +TFIDF+ NB 91,21 95,22 93,17

Modèle
Rappel Score F1
HATC+unigramme+TFIDF+ RF 89,61 96,86 93,09
Précision (%) (%) (%)
HATC+unigramme+TFIDF+SVM 90,8 84,12 87,33 87,42 94,68 90,91
AdaBoost
HATC+unigramme +TFIDF+ NB 85,4 86,23 85,81 HATC+unigramme+TFIDF+

88,63 98,01 93,08
XGBoost
HATC+unigramme+TFIDF+ RF 92,12 76,18 83,40
HATC+unigramme+TFIDF+ 85,32 97,68 91,08
86,31 74,61 80,03 Amplification du dégradé
AdaBoost
HATC+Gant+ LSTM1 90,81 95,08 92,90
94,9 80,22 86,94
XGBoost HATC+Gant+ LSTM2 92,22 95,59 93,87
HATC+unigramme+TFIDF+ HATC+Gant+GRU 93,02 92,62 92,82

95,31 79,21 86,52
HATC+GloVe+ BiLS™ 93,51 94,61 94,06
HATC+Gant+ LSTM1 90,61 87,32 88,92
HATC+MBERT 94,56 97,67 96,08
HATC+Gant+ LSTM2 91,71 85,61 88,56
91,71 91,59 91,65
HATC+Gant+GRU 87,5 88,82 88,16 SVM
HATC+GloVe+ BiLS™ 89,01 88,84 88,92 resHATC+unigramme +TFIDF+

93,42 83,89 88,40
N.B.
HATC+MBERT 94,02 89,65 91,75
resHATC+unigram+TFIDF+ RF 89,44 93,21 91,29
84.01 84.11 84.06
SVM resHATC+unigram+TFIDF+
88,23 91,42 89,80
AdaBoost
resHATC+unigramme +TFIDF+
76,51 85,32 80,68
N.B.
89,52 93,40 91,42
XGBoost
resHATC+unigram+TFIDF+ RF 86,42 79,71 82,93
resHATC+unigram+TFIDF+ 89,61 94,41 91,95
82,62 75,51 78,91 Amplification du dégradé
AdaBoost
90,22 78,91 84,19
XGBoost resHATC+Gant+ LSTM2 93,71 92,62 93,16
resHATC+unigram+TFIDF+ resHATC+Gant+GRU 94,72 89,61 92,09

90,81 79.1 84,55
resHATC+ MBERT 95,16 93,17 93,99
resHATC+Gant+GRU 82,82 87,11 84,91 courses est le modèle MBERT dans les deux ensembles de
ResHATC+GloVe+ BiLS™ 89,35 88,5 88,92 données. Les modèles LSTM1 et LSTM2 ont produit des valeurs
F1 proches du deuxième meilleur modèle BiLSTM dans
resHATC+ MBERT 88,97 89,86 89,06 l'ensemble de données HATC. Le tableau 8 montre les modèles de classification'
Tableau 9 Ensemble de données HATC, tout comme les résultats des autres catégories.
Comparaison des performances pour une classification Le modèle BiLSTM a produit le deuxième meilleur score de
moyenne à trois classes
classification F1 dans l'ensemble de données resHATC. Les
résultats de performance moyens pour les trois catégories (c.àd.
Performances moyennes
homophobes, haineux et neutres) sont présentés au tableau 9.
Modèle
Précision Rappel Score F1
La comparaison des performances globales des modèles de
(%) (%) (%)
classement est donnée cidessous :
HATC+unigramme+TFIDF+SVM 87,81 80,42 83,95 _ Le modèle MBERT ayant les meilleures performances de
HATC+unigram +TFIDF+ NB 91,04 71,62 80,17 classement (c'estàdire, catégorie homophobe F1score :
82,64 %, catégorie haineuse F1score : 91,75 %, catégorie
HATC+unigramme+TFIDF+RF 89,01 74,11 80,88
neutre F1score : score : 96,08 %) parmi tous les modèles utilisés
HATC+unigramme+TFIDF+ dans les expériences, la performance moyenne du score F1
77,68 72,11 74,79
AdaBoost
(c'estàdire 90,15 %) est meilleure que celle des autres modèles.
88,49 77,39 82,57
XGBoost
_ Le modèle MBERT segmente l'espace pour mieux refléter les
HATC+unigramme+TFIDF+ relations linguistiques et évolutives entre différentes langues
85,66 79,40 82,41
Amplification du dégradé dans les couches profondes. Il est aligné à l'aide de dictionnaires
HATC+Gant+ LSTM1 86,68 81,27 83,89 entre les langues, et les incorporations interlinguistiques peuvent
être apprises de manière collaborative dans des méthodes
HATC+Gant+ LSTM2 86,15 81,17 83,59
totalement non supervisées. Le modèle MBERT a été formé
HATC+Gant+GRU 84,48 82,72 83,59 pour l'apprentissage par transfert entre des langues à ressources
élevées (70 %) et à ressources faibles (30 %) avec des
HATC+GloVe+ BiLS™ 86,05 83,66 84,84
incorporations de mots multilingues et différents niveaux de
HATC+MBERT 93,13 87,87 90,15 contrôle.
Dans le modèle MBERT, la langue turque appartient au groupe
79,34 80,57 79,95
SVM des langues à ressources élevées. Il a été prouvé que le succès
de classification d'autres langues avec des langues sources
resHATC+unigram +TFIDF+ NB 68,82 77,58 72,94
élevées avec le modèle MBERT est proche du succès de
resHATC+unigram+TFIDF+ RF 78,19 77,04 77,61 classification du modèle turc MBERT [96]. Par conséquent, le
modèle MBERT utilisé dans nos expériences peut être utilisé
72,02 73,69 72,85
AdaBoost pour d'autres langues et est recommandé.
76,82 80,05 78,40
XGBoost
_ Le modèle MBERT a donné des valeurs de performance F1 plus
78,88 80,34 79,60 élevées dans l'ensemble de données HATC par rapport à
l'ensemble de données resHATC dans toutes les catégories. On
pense que le modèle MBERT ne prend pas en compte le
resHATC+Gant+ LSTM2 82,58 82,75 82,66 problème du déséquilibre de classe, car il s'agit d'un modèle
resHATC+Gant+GRU 77,59 84,41 80,86 avec suffisamment de données turques préformées.

_ Lorsque nous considérons la performance moyenne des résultats
du score F1 des trois catégories, le deuxième meilleur modèle
resHATC+ MBERT 87,05 89,80 87,98
est le modèle BiLSTM dans l'ensemble de données resHATC.
Le modèle BiLSTM, qui traite les données dans les deux sens, a
mesures de performance pour la catégorie neutre. Il a été observé peutêtre mieux fonctionné en raison de sa capacité à modéliser
que les modèles produisaient des valeurs de score F1 plus efficaces les dépendances séquentielles d'un morceau de texte à partir de
pour déterminer la catégorie neutre que pour détecter d'autres contextes précédents et consécutifs. Le troisième meilleur
catégories (c'estàdire homophobes et haineux). Le meilleur modèle modèle de classification est le
est le modèle MBERT dans le Modèle LSTM1 dans le jeu de données resHATC.
_ Le modèle BiLSTM a donné des valeurs de performance F1 plus version d'Adam conçue pour être plus efficace dans la gestion des
élevées dans l'ensemble de données resHATC par rapport à mises à jour clairsemées [84]. AdamW est une variante d'Adam où
l'ensemble de données HATC dans toutes les catégories. la réduction de poids n'est effectuée qu'après avoir contrôlé la taille
Bien que l'intégration de mots préformés GloVe soit utilisée comme du pas par paramètre [59]. Cependant, l'utilisation des méthodes
séquences d'entrée dans les modèles basés sur DL, l'équilibrage de d'optimisation LazyAdam et AdamW dans notre étude n'a pas affecté
l'ensemble de données a un impact positif sur le succès de la les résultats. LazyAdam n'a pas augmenté les résultats de
classification pour le modèle BiLSTM. classification dans les modèles basés sur DL, mais a provoqué une
diminution des résultats de classification par rapport à l'optimisation
_ Les résultats du score F1 du modèle SVM dans l'ensemble de données
d'Adam dans le modèle MBERT. De plus, aucune amélioration n'a
HATC sont proches des résultats des modèles basés sur DL. Le
été observée dans les performances des deux modèles lorsque la
les performances du modèle SVM dans l'ensemble de données
méthode AdamW a été utilisée à la place d'Adam.
resHATC sont pires que les résultats dans le HATC
base de données. Le nombre d'échantillons dans chaque catégorie
n'affecte pas beaucoup la limite de classe, car les hyperplans entre
les catégories dans l'algorithme SVM sont calculés en fonction des
vecteurs de support. Par conséquent, SVM est connu pour être
5. Conclusions
potentiellement moins sensible au problème de déséquilibre de
classe [86, 43]. Cependant, il a été prouvé que l'algorithme SVM Dans cette étude, les performances des modèles MBERT, TML, DL et
donne de bons résultats de classification sur certains jeux de Ensemble Classifier ont été étudiées pour détecter les discours de
données de rééchantillonnage [49, 65]. L'équilibrage de l'ensemble haine homophobes et connexes sur les réseaux sociaux turcs.
de données avec des algorithmes de rééchantillonnage peut donner L'architecture du système de détection proposé consiste en des phases
des résultats de classification variables (meilleurs ou pires) dans les de collecte de données, de prétraitement, d'extraction de caractéristiques
classificateurs TML et Ensemble. L'équilibrage de l'ensemble de et de classification. Tout d'abord, un ensemble de données liées à
données HATC dans cette étude a diminué les performances du l'homophobie a été obtenu d'Instagram et combiné avec l'ensemble de
score F1 des classificateurs TML et Ensemble. données ATC. L'ensemble de données a été utilisé à la fois dans sa
forme originale et équilibrée. Il a été conclu que le
_ Le meilleur classificateur avec le résultat moyen du score F1 parmi les

Le modèle MBERT réussit mieux que les autres modèles à classer
classificateurs d'ensemble est l'algorithme XGBoost avec 82,57 %
toutes les catégories (c'estàdire homophobe, haineux, neutre). En
dans l'ensemble de données HATC.
résumé, il serait utile d'utiliser le modèle MBERT dans la détection du
_ Le score F1 moyen le plus bas parmi tous les modèles était le discours de haine en turc. Dans de futures études, le succès de la
classificateur NB, avec 80,17 % dans l'ensemble de données HATC. classification multilingue pourra être mesuré en utilisant des ensembles
Le classificateur NB a obtenu le résultat de classification le plus bas,
de données dans d'autres langues. Différentes études peuvent être
avec 72,94 % dans l'ensemble de données resHATC également. réalisées en augmentant les données dans l'ensemble de données
_ L'optimiseur Adam est un substitut à la descente de gradient homophobes et en veillant à ce que l'ensemble de données ATC soit
stochastique pour la formation de modèles basés sur DL. divisé en plusieurs catégories (par exemple, racisme, sexisme,
Les méthodes LazyAdam et AdamW ont également été évaluées humiliation sévère et expressions de défécation).
dans notre étude. LazyAdam est une version améliorée
Les références
1. AbuSalih, B., Wongthongtham, P., Chan, KY, Zhu, D., CredSaT : Intelligence. Springer, Cham, 2019, 588603. https://doi.org/
Classement de crédibilité des utilisateurs dans les mégadonnées 10.1007/9783030351663_41
sociales intégrant l'analyse sémantique et le facteur temporel.
3. Aktunç, H. Grand dictionnaire d'argot turc : (avec wi
Journal des sciences de l'information, 2019, 45(2), 259280.
tnesses). Publications YapıKredi, 2000.
https://doi.org/10.1177/0165551518790424
4. Aljarah, I., et al. Détection intelligente du discours de haine dans le
2. Akhtar, S., Basile, V., Patti, V. Une nouvelle mesure de la réseau social arabe : une approche d'apprentissage automatique.
polarisation dans l'annotation du discours de haine. In: Journal des sciences de l'information, 2021, 47(4), 483501.
Conférence internationale de l'Association italienne pour l'artificiel https://doi.org/10.1177/0165551520917651
5. Almansour, NA, et al. Réseau de neurones et machine à vecteurs de 16. Breiman, L. Forêts aléatoires. Apprentissage automatique, 2001,
support pour la prédiction de l'insuffisance rénale chronique : une 45(1), 532. https://doi.org/10.1023/A:1010933404324
étude comparative. Ordinateurs en Biologie et Médecine, 2019,
17. Cammaerts, B. Pluralisme radical et liberté d'expression dans les
109, 101111. https://doi.or g/10.1016/j.compbiomed.2019.04.017
espaces publics en ligne : le cas des discours d'extrême droite nord
belge. Revue internationale d'études culturelles, 2009, 12(6),
6. Almerekhi, H., Kwak, H., Jansen, BJ, Salminen, J. 555575. https://doi. org/10.1177/1367877909342479
Détecter les déclencheurs de toxicité dans les discussions en ligne.
Dans : Actes de la 30e conférence de l'ACM sur l'hypertexte et les
18. Catelli, R., Casola, V., De Pietro, G., Fujita, H., Esposito, M.
médias sociaux, 2019, 291292. https://doi. org/
Combinant la représentation contextualisée des mots et l'analyse
10.1145/3342220.3344933
au niveau des sousdocuments via l'architecture BiLSTM+ CRF
7. Aoyagi, K., Wang, H., Sudo, H., Chiba, A. Méthode simple pour pour l'anonymisation clinique. Kno
construire des cartes de processus pour la fabrication additive à wledgeBased Systems, 2021, 213, 106649. https://doi. org/10.1016/
l'aide d'une machine à vecteurs de support. Fabrication additive, j.knosys.2020.106649
2019, 27, 353362. https://doi.org/10.1016/j.ad dma.2019.03.013
19. Charitidis, P., Doropoulos, S., Vologiannidis, S., Pa pastergiou, I.,
Karakeva, S. Vers la lutte contre le discours de haine contre les
8. Aragón, ME, Carmona, MAA, MontesyGómez, M., Escalante, HJ, journalistes sur les réseaux sociaux. Réseaux et médias sociaux
Pineda, LV et Moctezuma, D. Vue d'ensemble de MEXA3T à en ligne, 2020, 17, 100071. https://doi. org/10.1016/
IberLEF 2019 : analyse de la paternité et de l'agressivité dans les j.osnem.2020.100071
tweets espagnols mexicains .
20. Chatzakou, D., Leontiadis, I., Blackburn, J., Cristofaro, ED, Stringhini,
Dans : IberLEF@SEPLN. 2019, 478494.
G., Vakali, A., Kourtellis, N. Détecter la cyberintimidation et la
9. Aroyehun, ST, Gelbukh, A. Détection d'agression dans les médias cyberagression dans les médias sociaux.
sociaux : utilisation de réseaux neuronaux profonds, augmentation Transactions ACM sur le Web (TWEB), 2019, 13(3), 151. https://
des données et pseudoétiquetage. Dans : Actes du premier atelier doi.org/10.1145/3343484
sur la pêche à la traîne, l'agression et la cyberintimidation
21. Chen, X., Yuan, Y., Orgun, MA Utilisation des réseaux bayésiens
(TRAC2018), 2018, 9097.
avec des variables cachées pour identifier les utilisateurs dignes
10. Badjatiya, P., Gupta, S., Gupta, M., Varma, V. Deep Learning for de confiance dans les réseaux sociaux. Journal of Information
Hate Speech Detection in Tweets. Dans : Actes de la 26e Science, 2020, 46(5), 600615. https://doi. org/
conférence internationale sur le World Wide Web Companion, 10.1177/0165551519857590
2017, 759760. https://doi. org/10.1145/3041021.3054223
22. Choe, DE, Kim, HC, Kim, MH Modélisation basée sur les séquences
de l'apprentissage en profondeur avec les réseaux LSTM et GRU
11. Banks, J. Réglementation européenne du discours de haine pour la détection des dommages structurels des pales flottantes
transfrontalier dans le cyberespace : les limites de la législation. EUR. d'éoliennes offshore. Énergie renouvelable, 174, 218235. https://
J. Crime Crim. L. & Crim. Juste., 2011, 19, 1. https://doi. org/ doi.org/10.1016/j.renene.2021.04.025
10.1163/157181711X553933
23. « Colaboratoire », 2021. [En ligne]. Disponible : https://colab.
12. Bansal, A., et al. Classification des flammes dans les communications recherche.google.com/. [Consulté : 05déc2021].
assistées par ordinateur. arXiv preprint arXiv:1202.0617, 2012.
24. « Common Crawl », 2021. [En ligne]. Disponible : https://
commoncrawl.org/2021/. [Consulté : 05 juin 2021].
13. Benballa, M., Collet, S., PicotClemente, R. Saagie à Semeval2019
tâche 5 : De Universal Text Embed 25. Çomu, T., Binark M. Discours de haine sur les réseaux de partage
de vidéos : Exemple Youtube. Thèse de doctorat, Université
dings et fonctionnalités classiques à la classification de texte
d'Anka ra, Institut des sciences sociales, Département des femmes,
spécifique à un domaine. Dans : Actes du 13e Atelier international
2012.
sur l'évaluation sémantique, 2019, 469475. https://doi.org/10.18653/
v1/S192083 26. Corazza, M., Menini, S., Cabrio, E., Tonelli, S., Vil lata, S. Une
évaluation multilingue pour la détection des discours de haine en
14. Bergstra, J., Bengio, Y. Recherche aléatoire pour l'optimisation des
ligne. ACM Transactions on Internet Technology (TOIT), 2020,
hyperparamètres. Journal of Machine Learning Research, 2012,
20(2), 122. https://doi. org/10.1145/3377323
13(2).
15. Bilge, R. La construction du discours de haine sur les médias

27. Davidson T., Warmsley D., Macy M., Weber I. Automata ted Hate
sociaux et les réglementations juridiques sur les crimes de haine.
Speech Detection and the Problem of Offensi
Yeni Me dya, 2016, 1, 114.
ve Langue. Dans : Actes de la conférence internationale AAAI sur 39. Hassan, SaeedUl, et al. Analyse des sentiments des tweets via
le Web et les médias sociaux. 2017, 512515. Altmetrics : une approche d'apprentissage automatique.
28. De Gibert, O., Perez, N., GarcíaPablos, A., Cuadros, M. Journal des sciences de l'information, 2021, 47(6), 712726.
Ensemble de données sur le discours de haine d'un forum sur la https://doi.org/10.1177/0165551520930917
suprématie blanche. arXiv preprint arXiv:1809.04444, 2018. https:// 40. Hemmatian F., Sohrabi MK A Survey on Classification Techniques
doi. org/10.18653/v1/W185102 for Opinion Mining and Sentiment Analysis. Examen de
29. De Pelle, RP, Moreira, VP Commentaires offensifs sur le Web l'intelligence artificielle, 2019, 52(3), 14951545. https://doi.org/
brésilien : un ensemble de données et des résultats de base. Un. faire 10.1007/s1046201795996
Travail brésilien. Soc. Réseau Anal. Min., 2017. https://doi. org/
41. Huang, B., Raisi, E. Faible supervision et apprentissage
10.5753/brasnam.2017.3260
automatique pour la détection du harcèlement en ligne. Dans :
30. Djuric, N., Zhou, J., Morris, R., Grbovic, M., Radosavl jevic, V., Harcèlement en ligne. Springer, Cham, 2018, 528. https://doi.
Bhamidipati, N. Hate Speech Detection with Comment Embeddings. org/10.1007/9783319785837_2
Dans : Actes de la 24e Conférence internationale sur le World
42. Ilias, L., Roussaki, I. Détection d'activités malveillantes sur Twitter
Wide Web, 2015, 2930. https://doi.org/10.1145/2740908.2742760
à l'aide de techniques d'apprentissage en profondeur. Informatique
douce appliquée, 2021, 107, 107360. https://doi.org/10.1016/j.
31. Dondurucu, ZB Discours haineux fondé sur l'identité sexuelle asoc.2021.107360
dans les nouveaux médias : Inci Sozluk Sample. Gumushane
Univ. EJournal Fac. Commun., 2018, 6(2), 13761405. https:// 43. Japkowicz, N., Stephen, S. Le problème du déséquilibre des
doi.org/10.19145/egifder.435744 classes : une étude systématique. Analyse intelligente des
données, 2002, 6(5), 429449. https://doi.org/10.3233/IDA
32. Gambäck, B., Sikdar, RoyaumeUni Utilisation de réseaux de
20026504
neurones convolutifs pour classer les discours de haine. Dans :
Actes du premier atelier sur le langage abusif en ligne, 2017, 44. Jenkins, J. A Syllabus de prononciation basé sur la sociolinguistique
8590. https://doi.org/10.18653/v1/W173013 et recherché empiriquement pour l'anglais comme langue
internationale. Linguistique appliquée, 2002, 23(1), 83103. https://
33. Gao L., Huang R. Détection du discours de haine en ligne à l'aide
de modèles sensibles au contexte. arXiv preprint arXiv:1710.07395, doi.org/10.1093/applin/23.1.83
2017. https://doi.org/10.26615/9789544520496_036 45. Johnson, M. et al. Système de traduction automatique neuronale
34. Gertner, AS, Henderson, J., Merkhofer, E., Marsh, A., Wellner, B., multilingue de Google : activation de la traduction ZeroShot.
Zarrella, G. MITRE à SemEval2019 Tâche 5 : Apprentissage par Transactions de l'Association for Computational Linguistics, 2017,
transfert pour la détection multilingue des discours haineux. 5, 339351. https://doi.org/10.1162/ tacl_a_00065
Dans : Actes du 13e Atelier international sur l'évaluation
sémantique, 2019, 453459. https://doi.org/10.18653/v1/S192080
46. UezGil, M., ArnaizGonzález, Á., Rodríguez, JJ, GarciaOsorio,
C. Évaluation expérimentale des classificateurs d'ensemble pour
35. Golbeck, J., et al. Un grand corpus étiqueté pour la recherche sur le déséquilibre dans les mégadonnées. Informatique douce
le harcèlement en ligne. Dans : Actes de la conférence ACM 2017 appliquée, 2021, 108, 107447. https://doi.org/10.1016/j.
sur la science du Web, 2017, 229233. https://doi. org/ asoc.2021.107447
10.1145/3091478.3091509
47. KapočiūtėDzikienė, J., Tesfagergish, SG Senait Ge bremichael.
36. Gupta, N., Jindal, V., Bedi, P. LIOIDS : gestion du déséquilibre Étiquetage de la partie de la parole via des réseaux de neurones
des classes à l'aide de LSTM et de la technique améliorée un profonds pour les langues nordéthiopiennes : Étiquetage POS
contre un dans le système de détection d'intrusion. Réseaux via DNN pour les langues nordéthiopiennes. Technologies de
informatiques, 2021, 192, 108076. https://doi.org/10.1016/j. l'information et contrôle, 2020, 49(4), 482494. https://doi.org/
comnet.2021.108076
10.5755/j01.itc.49.4.26808 48. Karayiğit, H., İnan
37. Guven, ZA Comparaison des modèles BERT et des méthodes
Acı, Ç., Akdagli, A. «Commentaires abusifs sur Instagram en turc |
d'apprentissage automatique pour l'analyse des sentiments sur
Ensembles de données Novice | Kaggle »
les tweets turcs. En : 2021 6e Conférence internationale sur
2020. [En ligne]. Disponible : https://www.kaggle.com/ha
l'informatique et l'ingénierie (UBMK). IEEE, 2021, 98101. https://
bibekarayiit/datasets. [Consulté : 8 août 2021].
doi.org/10.1109/UBMK52708.2021.9559014
49. Karayiğit, H., İnan Acı, Ç., Akdagli A. Détection des commentaires
38. Analyse des sentiments de Haque MA en utilisant la logique floue.
Instagram abusifs en turc à l'aide d'un réseau neuronal convolutif
arXiv preprint arXiv:1403.3185, 2014. https://doi. org/10.5121/
et de méthodes d'apprentissage automatique.
ijcseit.2014.4104
Systèmes experts avec applications, 2021, 174, 114802. https:// (ETCM). IEEE, 2021, 16. https://doi.org/10.1109/
doi.org/10.1016/j.eswa.2021.114802 50. Karayiğit, H., ETCM53643.2021.9590681
İnan Acı, Ç., Akdagli A. https://www. kaggle.com/habibekarayiit/hatc 60. Luque, A., Carrasco, A., Martín, A., de Las Heras, A. L'impact du
dataset (mot de passe : HATC). 2021. déséquilibre de classe dans les mesures de performance de
classification basées sur la matrice de confusion binaire.
Reconnaissance de formes, 2019, 91, 216231. https://doi.or g/
51. Kasakowskij, T., Furst, J., Fischer, J., Fietkiewicz, K.J.
10.1016/j.patcog.2019.02.023
L'application du réseau comme approbation de la dénonciation ?
Une étude critique sur l'application de la loi dans les médias sociaux. 61. Mansoor, M., Ur Rehman, Z., Shaheen, M., Khan, M.
Télématique et informatique, 2020, 46, 101317. https://doi.org/10.1016/ A., Habib, M. Détection de similarité sémantique basée sur
j.tele.2019.101317 l'apprentissage profond à l'aide de données textuelles. Technologies

de l'information et contrôle, 2020, 49(4), 495510. https://doi. org/
52. Kazi, MK, Eljack, F., Mahdi, E. Modèles ANN prédictifs pour la
10.5755/j01.itc.49.4.27118
variation de la teneur en charge des composites fibre de coton/PVC
basés sur des courbes de déplacement de charge expérimentales. 62. Martins, R., Gomes, M., Almeida, JJ, Novais, P., Hen
Structures composites, 2020, 254, 112885. https://doi.org/10.1016/ riques, P. Classification du discours de haine dans les médias sociaux
à l'aide de l'analyse émotionnelle. En : 2018 7e Conférence
j.compstruct.2020.112885
brésilienne sur les systèmes intelligents (BRACIS). IEEE, 2018,
53. Khan, HU, Nasir, S., Nasim, K., Shabbir, D., Mahmo od, A. Twitter
6166. https://doi.org/10.1109/BRACIS.2018.00019
Trends: A Ranking Algorithm Analysis on Real Time Data. Systèmes
63. Mehdad, Y., Tetreault, J. Les personnages abusentils plus que les
experts avec applications, 2021, 164, 113990. https://doi.org/10.1016/
mots ? Dans : Actes de la 17e réunion annuelle du Groupe d'intérêt
j.
spécial sur le discours et le dialogue, 2016, 299303. https://doi.org/
nouveau.2020.113990
10.18653/v1/W163638
54. Kılınç, D., Özçift, A., Bozyigit, F., Yıldırım, P., Yucalar, F., Borandag,
E. TTC3600 : Une nouvelle référence pour la catégorisation des
64. Montenegro, C., Santana, R., Lozano, JA Analyse de la sensibilité de
textes turcs. Journal des sciences de l'information, 2017, 43(2),
la tâche de détection de fin de tour aux erreurs générées par le
174185. https://doi. org/10.1177/0165551515620551
processus de reconnaissance automatique de la parole. Applications
d'ingénierie de l'intelligence artificielle, 2021, 100, 104189. https://
55. Kumar, A., Abirami, S., Trueman, TE, Cambria, E. doi.org/10.1016/j. engappai.2021.104189
Commentaire Détection de la toxicité via une unité récurrente à
déclenchement bidirectionnel convolutif multicanal.
65. Moraes, R., Valiati, JF, Neto, WPG Classification des sentiments au
Neuroinformatique, 2021, 441, 272278. https://doi.or g/10.1016/
niveau du document : une comparaison empirique entre SVM et ANN.
j.neucom.2021.02.023 Systèmes experts avec applications, 2013, 40(2), 621633. https://
56. Kwok, I., Wang, Y. Localisez la haine : détection des tweets contre les doi.org/10.1016/j.
Noirs. Dans : Vingtseptième conférence AAAI sur l'intelligence nouveau.2012.07.059
artificielle, 2013. 66. Morris, C., Yang, JJ Une canalisation de modèle d'apprentissage
57. Liu, X., Qi, F. Recherche sur le contenu publicitaire Reco automatique pour détecter l'état de la chaussée mouillée à partir de
Allumage basé sur le réseau neuronal convolutif et le réseau neuronal scènes en direct de caméras de circulation. Apprentissage
récurrent. Revue internationale de automatique avec applications, 2021, 5, 100070. https://doi.org/
Sciences et ingénierie computationnelles, 2021, 24(4), 398404. 10.1016/j. mlwa.2021.100070
https://doi.org/10.1504/IJCSE.2021.117022 67. Mossie, Z., Wang, JH Identification des communautés vulnérables à
58. Liu, H., Burnap, P., Alorainy, W., Williams, ML Apprentissage multitâche l'aide de la détection du discours de haine sur les réseaux sociaux.
flou pour l'identification du type de discours de haine. Dans : La Traitement et gestion de l'information, 2020, 57(3), 102087. https://
conférence World Wide Web, 2019, 30063012. https://doi.org/ doi.org/10.1016/j.ipm.2019.102087
10.1145/3308558.3313546 68. Oflazer, K., Saraçlar, M. Le turc et ses défis pour le traitement du
langage et de la parole. Dans : Traitement du langage naturel turc.
59. Llugsi, R., El Yacoubi, S., Fontaine, A., Lupera, P. Comparaison entre
Springer, Cham, 2018, 119. https://doi.org/10.1007/9783319901657_1
les optimisateurs Adam, AdaMax et Adam W pour mettre en œuvre
une prévision météorologique basée sur des réseaux de neurones
pour la ville andine de Quito. Dans : 2021 IEEE Fifth Ecuador 69. Onan, A. Un schéma d'ensemble basé sur la langue
Technical Chapters Mee Analyse des fonctions et ingénierie des fonctionnalités
pour la classification des genres de texte. Journal d'info 80. Simpson, AJ Suréchantillonnage dans un réseau neuronal profond.
mation Science, 2018, 44(1), 2847. https://doi. org/ arXiv preprint arXiv:1502.03648, 2015.
10.1177/0165551516677911 81. Smetanin, S., Komarov, M. Bases d'apprentissage par transfert en

70. Ousidhoum, N., Lin, Z., Zhang, H., Song, Y., Yeung, D. profondeur pour l'analyse des sentiments en russe. Traitement et
Y. Analyse du discours de haine multilingue et multiaspects. arXiv gestion de l'information, 2021, 58(3), 102484. https://doi.org/10.1016/
preprint arXiv:1908.11049, 2019. https://doi. org/10.18653/v1/D191474 j.ipm.2020.102484
82. «Utilisation des médias sociaux en 2021 | Centre de recherche Pew »,

2021. [En ligne]. Disponible : https://www.pewresearch. org/internet/
71. «Dictionnaires d'Oxford Learner | Trouvez des définitions, des
2021/04/07/socialmediausein2021/.
traductions et des explications grammaticales dans Oxford Learner's
[Consulté : 8 août 2021].
Dictionaries », 2021. [En ligne]. Disponible : https://
www.oxfordlearnersdictionaries.com/. [Consulté : 09août2021]. 83. Song, T., Jiang, J., Li, W., Xu, D. Une méthode d'apprentissage en
profondeur avec des réseaux de neurones LSTM fusionnés pour la
prédiction SSHA. IEEE Journal of Selected Topics in Applied Earth
72. Pamungkas, EW, Basile, V., Patti, V. Misogyny Detecti on in Twitter:
Observations and Remote Sensing, 2020, 13, 28532860. https://
A Multilingual and CrossDomain Study.
doi.org/10.1109/JSTARS.2020.2998461
Traitement et gestion de l'information, 2020, 57(6), 102360. https://
doi.org/10.1016/j.ipm.2020.102360 84. SowinskiMydlarz, V., Li, J., Ouazzane, K., Vassilev, V.
Threat Intelligence à l'aide de la dissection de paquets d'apprentissage
73. Pires, T., Schlinger, E., Garrette, D. Dans quelle mesure le BERT
automatique. Transactions sur la science computationnelle et
multilingue estil multilingue ? arXiv preprint arXiv:1906.01502, 2019.
l'intelligence computationnelle, 2021.
https://doi.org/10.18653/v1/P191493
85. L. Stappen, F. Brunn, B. Schuller. prétirage arXiv arXiv:2004.13850,
74. Qi, X., Zhang, Y., Qi, J., Lu, H., Apprentissage de la représentation
2020.
guidée par l'autoattention pour l'appariement imagetexte.
Neuroinformatique, 2021, 450, 143155. https://doi.or g/10.1016/
j.neucom.2021.03.129
86. Sun, YP, Wang, YF, Zheng, XJ Analyse de la hauteur de la zone
75. Sadiq, S., Mehmood, A., Ullah, S., Ahmad, M., Choi, GS, On, BW conduite par l'eau du toit de veine de charbon basée sur
Aggression Detection Through Deep Neural Model sur Twitter. Future GASVR. Journal de la société chinoise du charbon, 2009, 34(12),
Generation Computer Systems, 2021, 114, 120129. https://doi.org/ 16101615.
10.1016/j.futu
87. Tashtoush, YM, Orabi, DAAA Tweets Emotion Prediction en utilisant le
re.2020.07.050
système de logique floue. Dans : 2019 Sixth International Conference
76. Salminen, J., Almerekhi, H., Milenković, M., Jung, SG, An, J., Kwak, H., on Social Networks Analysis, Management and Security (SNAMS),
Jansen, BJ Anatomie de la haine en ligne : développer une taxonomie IEEE, 2019, 8390. https://doi.org/10.1109/SNAMS.2019.8931878
et des modèles d'apprentissage automatique pour identifier et classer
La haine dans les médias d'information en ligne. Dans : Douzième
88. Thejas, GS, Kumar, K., Iyengar, SS, Badrinath, P., Su nitha NR AI
conférence internationale AAAI sur le Web et les médias sociaux, 2018.
NLP Analytics : une enquête comparative approfondie sur la marque
des universités indoaméricaines sur la plateforme de médias sociaux
77. Saric, M., Dujmic, H., Russo, M. Extraction de texte de scène dans tendance "Instagram".
l'espace colorimétrique Ihls à l'aide d'une machine à vecteurs de En : 2019 4th International Conference on Computati onal Systems
support. Technologie et contrôle de l'information, 2015, 44(1), 2029. and Information Technology for Sustai nable Solution (CSITSS).
https://doi.org/10.5755/j01.itc.44.1.5757 IEEE, 2019, 18. https://doi. org/10.1109/CSITSS47250.2019.9031050
78. Sharma, A., Kabra, A., Jain, M. (2022). Cesser la haine avec Moh :
Détection du discours de haine en langue hindianglais à commutation 89. «Dictionnaires des institutions de langue turque», 2021.
de code. Traitement et gestion de l'information, 2022, 59(1), 102760. [En ligne]. Disponible : https://sozluk.gov.tr/. [Consulté : 8 août 2021].
https://doi.or g/10.1016/j.ipm.2021.102760
90. Tolba, M., Ouadfel, S., Meshoul, S. Approches d'ensembles hybrides
pour la détection du harcèlement en ligne dans des données très
79. Silva, L., Mondal, M., Correa, D., Benevenuto, F., Weber, I. Analyse
déséquilibrées. Systèmes experts avec applications, 2021, 175,
des cibles de la haine dans les médias sociaux en ligne.
Dans : Dixième Conférence internationale AAAI sur le Web et les 114751. https://doi.org/10.1016/j.
nouveau.2021.114751
médias sociaux, 2016.
91. « Twitter », 2021. [En ligne]. Disponible : https://twitter. com/home? 98. Xiang, ZL, Yu, XR, Hui, AWM, Kang, DK Novel Naive Bayes basé sur
lang=tr. [Consulté : 6 juin 2021]. la pondération des attributs dans l'estimation de la densité du noyau.
92. Wadhwa, P., Bhatia, MPS Classification des messages radicaux sur Dans : 2014 Joint 7th International Conference on Soft Computing
Twitter à l'aide d'associations de sécurité. and Intelligent Systems (SCIS) and 15th International Symposium
Études de cas sur l'informatique sécurisée : réalisations et tendances, on Advanced Intelligent Systems (ISIS). IEEE, 2014, 14391442.
2014, 273294.
https://doi.org/10.1109/SCISISIS.2014.7044787
93. Warner, W., Hirschberg, J. Détecter le discours de haine sur le World
Wide Web. Dans : Actes du deuxième atelier sur le langage dans les
médias sociaux, 2012, 1926. 99. Zeng, G. Sur la matrice de confusion dans la notation du crédit et ses
propriétés analytiques. Communications en statistiquethéorie et
94. Waseem, Z., Hovy, D. Symboles haineux ou personnes haineuses ?
méthodes, 2020, 49(9), 20802093. https://doi.org/
Fonctionnalités prédictives pour la détection des discours haineux
sur Twitter. Dans : Actes de l'atelier de recherche des étudiants de 10.1080/03610926.2019.1568485
la NAACL, 2016, 8893. https://doi.org/10.18653/v1/N162013 100.Zhang, Z., Luo, L. Détection du discours de haine : un problème
résolu ? Le cas difficile de Long Tail sur Twitter. Web sémantique,
95. « Murmure », 2021. [En ligne]. Disponible : http://chuchotement. 2019, 10(5), 925945. https://doi. org/10.3233/SW180338
sh/. [Consulté : 6 décembre 2021].
96. Wu, S., Dredze, M. Toutes les langues sontelles créées égales dans
101. Zhang, H., Wojatzki, M., Horsmann, T., Zesch, T. ltl. unidue à
le BERT multilingue ? arXiv preprint arXiv:2005.09093, 2020. https://
SemEval2019 Tâche 5 : Fonctions lexicosémantiques simples
doi.org/10.18653/v1/2020.repl4nlp1.16
mais efficaces pour détecter le discours de haine sur Twitter. Dans :
97. Wulczyn, E., Thain, N., Dixon, L. Ex Machina : Attaques personnelles
Actes du 13e Atelier international sur l'évaluation sémantique, 2019,
vues à grande échelle. Dans : Actes de la 26e Conférence
internationale sur le World Wide Web, 2017, 13911399. https:// 441446. https://doi.org/10.18653/v1/S192078
doi.org/10.1145/3038912.3052591
Cet article est un article en libre accès distribué selon les termes et conditions de la licence
Creative Commons Attribution 4.0 (CC BY 4.0) (http://creativecommons.org/licenses/by/4.0/).

29988-Article Text-111380-1-10-20220623

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

29988-Article Text-111380-1-10-20220623

Transféré par

Droits d'auteur :

Formats disponibles

Machine Translated by Google

356 Technologie de l'information et contrôle 2022/2/51

Détection des discours homophobes et haineux à l'aide de Multilingual­BERT

Cigdem Inan Aci

Auteur correspondant : d2014242@mersin.edu.tr

Technologie de l'information et contrôle 2022/2/51 357

358 Technologie de l'information et contrôle 2022/2/51

a été développé dans notre précédente étude [48]. L'ensemble de

matériel et les méthodes utilisés dans l'étude.

Technologie de l'information et contrôle 2022/2/51 359

Papier Réf. Juste. Base de données Catégorie Perf.

Yahoo! et le Race, origine ethnique, sexe,

Twitter, Whisper (20 Origine ethnique, comportement, physique

Site d'actualités Racisme, sexisme, homophobie,

Origine, Genre, Sexuel

Twitter Politique, Sexisme, Homophobie, 0,65

3.1. L'ensemble de données Homophobic­

360 Technologie de l'information et contrôle 2022/2/51

Les mots turcs peuvent prendre de nombreux suffixes flexionnels et 1 Un 1 4

Nombre de catégories d'ensembles de données HATC (c'est­à­

5 déshonorant Humiliations graves 451

de données HATC (tableau 4). L'interface de

362 Technologie de l'information et contrôle 2022/2/51

3.2.1. Prétraitement Les algorithmes de calcul transportent des informations sémantiques

364 Technologie de l'information et contrôle 2022/2/51

[7, 5] pour obtenir la meilleure version du classifieur SVM. La

366 Technologie de l'information et contrôle 2022/2/51

BERT effectue un apprentissage en tenant compte des structures 3ème époque.

de toutes les langues [37]. Dans cette étude, un modèle M­BERT

blocs Transformer empilés, des dimensions cachées 768, 12 têtes

l'optimiseur Adam et formé sur une combinaison de modèle BERT

1e­5. incorrectement classés comme positifs [99].

La mesure de précision est le rapport entre les échantillons positifs

Technologie de l'information et contrôle 2022/2/51 367

La métrique de rappel est le rapport entre les positifs correctement Tableau 6

Rappel = TP/(TP+FN). (2) Catégorie homophobe

F1­Score = 2*Rappel*Précision/(Rappel+Précision). (3) HATC+unigramme +TF­IDF+ NB 96,52 33,40 49,63

HATC+unigramme+TF­IDF+RF 85,31 49,30 62,49

HATC+Gant+ LSTM1 78,61 61,40 68,95

HATC+Gant+ LSTM2 74,52 62,31 67,87

4. Résultats et discussions HATC+Gant+GRU 72,93 66,72 69,69

et le mécanisme d'attention peuvent mieux capturer les informations resHATC+unigram+TF­IDF+

368 Technologie de l'information et contrôle 2022/2/51

semble classificateurs en termes de F1­score. Performance Tableau 8

Catégorie haineuse HATC+unigramme +TF­IDF+ NB 91,21 95,22 93,17

HATC+unigramme +TF­IDF+ NB 85,4 86,23 85,81 HATC+unigramme+TF­IDF+

HATC+unigramme+TF­IDF+ HATC+Gant+GRU 93,02 92,62 92,82

HATC+GloVe+ BiLS™ 89,01 88,84 88,92 resHATC+unigramme +TF­IDF+

resHATC+unigram+TF­IDF+ resHATC+Gant+GRU 94,72 89,61 92,09

Technologie de l'information et contrôle 2022/2/51 369

resHATC+Gant+GRU 77,59 84,41 80,86 avec suffisamment de données turques pré­formées.

ResHATC+GloVe+ BiLS™ 87,59 84,20 85,86

370 Technologie de l'information et contrôle 2022/2/51

_ Le meilleur classificateur avec le résultat moyen du score F1 parmi les

Technologie de l'information et contrôle 2022/2/51 371

15. Bilge, R. La construction du discours de haine sur les médias

372 Technologie de l'information et contrôle 2022/2/51

Technologie de l'information et contrôle 2022/2/51 373

j.tele.2019.101317 l'apprentissage profond à l'aide de données textuelles. Technologies

https://doi.org/10.1504/IJCSE.2021.117022 67. Mossie, Z., Wang, JH Identification des communautés vulnérables à

conférence World Wide Web, 2019, 3006­3012. https://doi.org/ doi.org/10.1016/j.ipm.2019.102087

374 Technologie de l'information et contrôle 2022/2/51

10.1177/0165551516677911 81. Smetanin, S., Komarov, M. Bases d'apprentissage par transfert en

Détection des discours homophobes et haineux à l'aide de MultilingualBERT

3.1. L'ensemble de données Homophobic

Nombre de catégories d'ensembles de données HATC (c'està

de toutes les langues [37]. Dans cette étude, un modèle MBERT

1e5. incorrectement classés comme positifs [99].

F1Score = 2RappelPrécision/(Rappel+Précision). (3) HATC+unigramme +TFIDF+ NB 96,52 33,40 49,63

HATC+unigramme+TFIDF+RF 85,31 49,30 62,49

et le mécanisme d'attention peuvent mieux capturer les informations resHATC+unigram+TFIDF+

semble classificateurs en termes de F1score. Performance Tableau 8

Catégorie haineuse HATC+unigramme +TFIDF+ NB 91,21 95,22 93,17

HATC+unigramme +TFIDF+ NB 85,4 86,23 85,81 HATC+unigramme+TFIDF+

HATC+unigramme+TFIDF+ HATC+Gant+GRU 93,02 92,62 92,82

HATC+GloVe+ BiLS™ 89,01 88,84 88,92 resHATC+unigramme +TFIDF+

resHATC+unigram+TFIDF+ resHATC+Gant+GRU 94,72 89,61 92,09

resHATC+Gant+GRU 77,59 84,41 80,86 avec suffisamment de données turques préformées.

conférence World Wide Web, 2019, 30063012. https://doi.org/ doi.org/10.1016/j.ipm.2019.102087

preprint arXiv:1908.11049, 2019. https://doi. org/10.18653/v1/D191474 j.ipm.2020.102484

https://doi.org/10.5755/j01.itc.44.1.5757 IEEE, 2019, 18. https://doi. org/10.1109/CSITSS47250.2019.9031050