Vous êtes sur la page 1sur 65

Mastère in Artificial Intelligence and Management

Mémoire de Recherche :

Détection des fausses informations sur les réseaux sociaux

IA M2 DA

SANOGO Aboubacar Sidik

Année Scolaire 2022 – 2023


TABLE DES MATIERES
RESUME ............................................................................................................................................... 3
ABSTRACT ........................................................................................................................................... 4
REMERCIEMENT............................................................................................................................... 5
LISTE DES FIGURES ......................................................................................................................... 6
INTRODUCTION GENERALE ......................................................................................................... 7
CHAPITRE 1 ........................................................................................................................................ 9
1.1. INTRODUCTION................................................................................................................... 10
1.2. CONTEXTE DES RESEAUX SOCIAUX ............................................................................. 10
1.2.1. Définition des réseaux sociaux sur internet .................................................................... 10
1.2.2. Évolution des réseaux sociaux .......................................................................................... 11
1.2.3. L'utilisation des réseaux sociaux ..................................................................................... 11
1.2.4. Les recettes des réseaux sociaux ...................................................................................... 11
1.2.5. Montée en puissance des fausses informations sur les réseaux sociaux ....................... 12
1.3. LES ENJEUX DES FAUSSES INFORMATIONS ............................................................... 13
1.3.1. Impact sur l'opinion publique et la démocratie ............................................................. 13
1.3.2. Conséquences sur la santé publique ................................................................................ 14
1.3.3. Répercussions sur la crédibilité et l'économie ................................................................ 15
1.4. Conclusion ................................................................................................................................ 16
CHAPITRE 2 ...................................................................................................................................... 17
2.1. Introduction .............................................................................................................................. 18
2.2. Définition d’une fake news ...................................................................................................... 18
2.3. Sources de Désinformation...................................................................................................... 20
2.3.1. Principaux Acteurs Impliqués dans la Fabrication de Fake News ............................... 20
2.3.2. Formes de désinformations .............................................................................................. 22
2.3.3. Principaux logiciels et réseaux utilisés dans la diffusion des fakenews ........................ 24
2.4. Les stratégies actuelles pour lutter contre les fake-news ...................................................... 26
2.5. Les méthodes automatiques de vérification des fake-news .................................................. 27
2.5.1. La Détection de Spam : Analogies avec la Détection de Fake News. ............................ 28
2.5.2. Etapes de détection de fake-news .................................................................................... 29
2.5.3. Techniques de détection................................................................................................... 29
2.6. Conclusion ................................................................................................................................ 31
CHAPITRE 3 ...................................................................................................................................... 32
3.1. Introduction .............................................................................................................................. 33

1
3.2. IA, ML et DL dans la détection des fakes news..................................................................... 33
3.2.1. L’intelligence artificielle (IA) ........................................................................................... 33
3.2.2. Machine Learning (ML) ................................................................................................... 34
3.2.3. Deep Learning (DL) .......................................................................................................... 37
3.3. Natural Language Processing (NLP)...................................................................................... 40
3.3.1. L’apprentissage automatique et l’apprentissage profond dans le NLP ....................... 41
3.3.2. Techniques de vectorisation ............................................................................................. 41
3.3.3. Quelques exemples de modèles de deep learning orientés NLP .................................... 43
3.4. Acquisition des données ........................................................................................................... 43
3.4.1. Source de données : Politifact et Gossipcop .................................................................... 43
3.4.2. Présentation de la Base de Données : Réseau Social Twitter. ....................................... 44
3.5. Conclusion ................................................................................................................................ 45
CHAPITRE 4 ...................................................................................................................................... 47
4.1. Introduction .............................................................................................................................. 48
4.2. Présentation des outils utilisés ................................................................................................ 48
4.3. La préparation des données .................................................................................................... 50
4.3.1. Bibliothèques importées ................................................................................................... 50
4.3.2. La répartitions des informations ..................................................................................... 51
4.3.3. La séparation des ensembles (Train Test Split) ............................................................. 52
4.3.5. Le prétraitement des données .......................................................................................... 53
4.4. Implémentation du modèle...................................................................................................... 55
4.4.1. Définir l'architecture du modèle ...................................................................................... 55
4.4.2. Définir la fonction d'entraînement et d'évaluation ........................................................ 56
4.4.3. Entraînement du modèle .................................................................................................. 56
4.4.4. La performance du modèle .............................................................................................. 56
4.5. Conclusion ................................................................................................................................ 58
CONCLUSION GENERALE ............................................................................................................ 59
BUDGET.............................................................................................................................................. 60
BIBLIOGRAPHIE.............................................................................................................................. 61

2
RESUME

Le phénomène des fausses nouvelles, amplifié par la diffusion rapide sur Internet, est devenu
particulièrement préoccupant. Dans ce contexte, notre étude se concentre sur la détection des
fausses informations, utilisant des méthodes avancées de traitement du langage naturel (NLP)
pour analyser et classifier ces contenus trompeurs. Les fausses nouvelles présentent des risques
pour la société, notamment en termes de manipulation de l'opinion publique. Notre objectif est
de créer des outils efficaces pour repérer ces informations erronées, en se concentrant
principalement sur les plateformes en ligne, telles que les réseaux sociaux.

Nous mettons en œuvre des techniques d'apprentissage automatique et d'apprentissage profond


pour analyser le contenu textuel des nouvelles, en exploitant les avantages du NLP. Notre
démarche vise à différencier automatiquement les informations correctes des fausses nouvelles
en utilisant des modèles prédictifs.

Mots clés : les fausses nouvelles, le traitement automatique du langage naturel (NLP).

3
ABSTRACT

The phenomenon of fake news, amplified by the rapid spread on the Internet, has become
particularly worrying. In this context, our study focuses on the detection of false information,
using advanced methods of natural language processing (NLP) to analyze and classify these
misleading contents. Fake news poses risks to society, particularly in terms of manipulating
public opinion. Our goal is to create effective tools to spot this misinformation, focusing
primarily on online platforms, such as social media.

We have implemented machine learning and deep learning techniques to analyze the textual
content of news, exploiting the benefits of NLP. Our approach aims to automatically
differentiate corrected information from fake news using predictive models.

Keywords : fake news, natural language processing (NLP).

4
REMERCIEMENT

Je tiens à exprimer ma profonde gratitude envers ma famille pour leur inébranlable soutien
tout au long de ce parcours.

Mes chaleureux remerciements vont également à mes camarades de classe pour leur
encouragement et leur collaboration dans nos travaux de groupe.

Je souhaite également exprimer ma reconnaissance envers nos intervenants pour leur


enseignement de haute qualité, qui a été à la fois stimulant et formateur.

Mes remerciements s'étendent également aux différents pôles du groupe GEMA pour leur suivi
attentif et leur contribution à mon cheminement.

5
LISTE DES FIGURES

Figure 1: Social network graph analysis ............................................................................. 10


Figure 2: Taux de pénétration des réseaux sociaux dans le monde en janvier 2023, par
région ....................................................................................................................................... 12
Figure 3 : Fake news sur les réseaux sociaux ...................................................................... 18
Figure 4: Types de fake-news selon Verstraete et al. (2017) .............................................. 19
Figure 5: principaux supports qui propagent les fakenews ............................................... 24
Figure 6: Le fonctionnement de l’IA .................................................................................... 34
Figure 7: Distinction entre IA, ML et DL ............................................................................ 34
Figure 8: Exemple d’apprentissage supervisé .................................................................... 35
Figure 9: Exemple d’apprentissage non supervisé ............................................................. 36
Figure 10 : Exemple d’apprentissage semi-supervisé ......................................................... 37
Figure 11:Exemple de Deep Learning.................................................................................. 37
Figure 12: Perceptron multi-couches ................................................................................... 38
Figure 13: Cellule LSTM....................................................................................................... 39
Figure 14 : CNN model general architecture ...................................................................... 40
Figure 15: Machine Learning et Deep Learning dans le NLP ........................................... 41
Figure 16: Concatenation - Data Analysis & Processing with Pandas ............................ 44
Figure 17 : Dataframe avant analyse ................................................................................... 45
Figure 18: Quelques bibliothèques importées ..................................................................... 51
Figure 19: La répartition des informations ......................................................................... 52
Figure 20: Train Test Split .................................................................................................... 52
Figure 21 : l'histogramme du nombre de mots dans le "titre".......................................... 53
Figure 22 : Fonctionnalité de Bert Tokenizer ..................................................................... 53
Figure 23: Conversion des listes en tenseurs ....................................................................... 54
Figure 24: DataLoader .......................................................................................................... 54
Figure 25: Architecture du model ........................................................................................ 55
Figure 26: Entrainement du model ...................................................................................... 56
Figure 27: Précision du modèle ............................................................................................ 57
Figure 28: Prédiction et test .................................................................................................. 58

6
INTRODUCTION GENERALE

L'avènement d'Internet a transformé profondément notre façon de communiquer et d'accéder à


l'information. Les réseaux sociaux ont joué un rôle prépondérant dans cette révolution
numérique, permettant à chacun, indépendamment de son niveau d'éducation et de ses intérêts,
de participer activement à la diffusion et à la consommation de contenus diversifiés tels que
messages, vidéos, photos, événements et tweets. Ces plateformes ont ouvert de nouvelles
possibilités pour exprimer des sentiments, partager des opinions et accéder à des actualités en
temps réel, faisant des médias sociaux des incontournables de la vie quotidienne.

Cependant, cette démocratisation de l'information s'accompagne d'un défi majeur : la


propagation incontrôlée de fausses informations, communément appelées fakes news. Fort est
de constater que cette propagation incontrôlée des fake news a entraîné la naissance et
l'émergence des deep fakes. Ainsi, avec la rapidité et la facilité de partage sur les réseaux
sociaux, il devient de plus en plus difficile pour les utilisateurs et les entreprises de discerner
la véracité des informations et de contrôler la propagation des rumeurs.

Dans ce contexte, ce mémoire de recherche vise à aborder le problème de la détection des fake
news sur les réseaux sociaux en adoptant une approche fondée sur l'intelligence artificielle et
le traitement du langage naturel. Nous nous intéresserons également à l'intégration de
compétences en gestion pour élaborer des stratégies holistiques de contrôle de la
désinformation sur les plateformes en ligne.

Pour atteindre ces objectifs, ce travail est structuré en plusieurs chapitres :

 Le premier chapitre présentera le contexte des réseaux sociaux, la problématique des


fausses informations, et les enjeux sociétaux et économiques liés à leur propagation.

 Le second chapitre sera un état de l'art des fake news, examinant les différentes formes
de désinformation, ainsi que les méthodes existantes de détection et de vérification des
informations.

7
 Le troisième chapitre se concentrera sur les techniques d'apprentissage approfondi et de
traitement du langage naturel utilisées dans la détection des fake news, explorant les
avancées technologiques qui ont permis d'améliorer les capacités de détection.

 Le quatrième chapitre décrira nos modèles proposés, les outils utilisés pour leur
développement, et les résultats obtenus dans le cadre de nos expérimentations.

8
CHAPITRE 1
Contexte des réseaux sociaux et enjeux
des fausses informations

9
1.1. INTRODUCTION

L'avènement des réseaux sociaux a révolutionné notre manière de communiquer et d'interagir


avec le monde qui nous entoure. Ces plateformes ont offert des opportunités sans précédent
pour partager des informations, exprimer des opinions et se connecter avec des individus de
tous horizons. Cependant, la propagation des fausses informations est devenue un défi
majeur. Ce chapitre jettera les bases pour une meilleure compréhension du contexte des
réseaux sociaux et des enjeux liés aux fausses informations.

1.2. CONTEXTE DES RESEAUX SOCIAUX


1.2.1. Définition des réseaux sociaux sur internet

Les réseaux sociaux sont des applications Web connues sous le nom de « services de réseautage

social en ligne », plus couramment appelées « réseaux sociaux ». Ce terme a été utilisé pour la

première fois en 1954 dans l’article « Class and committees in a Norwegian island parish » de

l’anthropologue social anglais J. A. Barnes [1]. Ces applications permettent de constituer et

d’entretenir un réseau social virtuel tant pour échanger des informations que pour s’y mettre

en valeur. Ils offrent non pas à des personnes, mais à des identités virtuelles, partageant des

centres d’intérêt divers moyens pouvant faciliter, par exemple, la gestion des carrières

professionnelles, la distribution et la visibilité artistique ou les rencontres privées [2].

Figure 1: Social network graph analysis [3]

10
1.2.2. Évolution des réseaux sociaux
Il y a plus de 4,2 milliards d'utilisateurs de réseaux sociaux dans le monde. La diversification
du nombre de plateformes sociales a permis de toucher de plus en plus d'utilisateurs à travers
le monde, on prévoit une augmentation de 35 % entre 2017 et 2025 du nombre d'utilisateurs.
Les applications sont utilisées pour des raisons différentes, de manières différentes et dans des
montants horaires différents selon les régions du monde et l'âge de la population. La croissance
du nombre d'entreprises dans le secteur a aussi augmenté la concurrence sur ce marché, où les
entreprises doivent lutter et innover afin de rester dans la course [4].

1.2.3. L'utilisation des réseaux sociaux


Les réseaux sociaux sont présents partout dans le monde mais certaines régions les utilisent
plus que d'autres. Le taux de pénétration en Europe et en Amérique est de plus de 75 %, tandis
qu'il est inférieur à 45 % dans toute l'Afrique.
Le temps passé sur les réseaux sociaux par les utilisateurs a augmenté de 37,9 % entre 2012 et
2020, en moyenne ils passaient un peu moins de 2h 30mn sur les réseaux sociaux par jour en
2020.
Selon les régions du monde certains réseaux sociaux sont plus populaires que d'autres. En effet,
Twitter est principalement utilisé aux États-Unis et au Japon, tandis que la plus grande part des
utilisateurs de Facebook se trouvent en Inde. Quant à l'application TikTok, nommé Douyin en
Chinois, elle recensait plus de 600 millions d'utilisateurs quotidiens en Chine en août 2020.
L'utilisation des réseaux sociaux dépend également de critères démographiques comme le sexe
des utilisateurs. Ainsi, en 2021, la majorité des utilisateurs de Snapchat étaient des femmes,
tandis que plus de 70 % des utilisateurs de Twitter étaient des hommes. En outre, certains
réseaux sociaux sont plus utilisés que d'autres selon la tranche d'âge. Par exemple Facebook
était utilisé principalement par les 25-34 ans aux États-Unis en 2021, tandis que les adolescents
préféraient utiliser Snapchat ou TikTok.

1.2.4. Les recettes des réseaux sociaux


Le modèle économique est différent d'un réseau social à l'autre mais une grande partie des
revenus est réalisée grâce à la diffusion de publicité. C'est le cas par exemple du chiffre
d'affaires de Twitter qui provient en quasi-totalité des revenus de la pub. En revanche, sur
TikTok, les utilisateurs peuvent réaliser des achats de jetons virtuels pour soutenir les

11
influenceurs sur lesquels TikTok prend une commission. Fin 2021 les utilisateurs avaient
dépensé plus de 824 millions de dollars sur l'application.
Certaines plateformes font payer la publicité sur leurs réseaux plus cher que d'autres. La plus
chère est LinkedIn, où le coût par clic des publicités s'élèvent à 5,26 dollars, soit plus de 5 fois
le coût que propose Facebook. Cependant la plateforme la plus efficace pour le marketing
d'influence est Intragram.
Facebook, l'entreprise renommée Meta en 2021 reste le leader du marché en termes de revenus.

Figure 2: Taux de pénétration des réseaux sociaux dans le monde en janvier 2023, par
région [5].

Toutefois, de nos jours, face à l'évolution et l’importance des réseaux sociaux, il devient de
plus en plus difficile de déterminer la nature des informations qui y sont divulguées.

1.2.5. Montée en puissance des fausses informations sur les réseaux sociaux
Le succès des fake-news s’explique d’une part, par une conjonction de différents facteurs :

 L’irruption massive des réseaux sociaux dans la vie quotidienne,

12
 Des algorithmes qui favorisent l’échange viral : les réseaux sociaux ont tendance à
mettre en avant les informations les plus sensationnelles, les plus partagées,
 Le recul des médias d’information traditionnels, notamment chez les jeunes
générations,
 Le discrédit de certains journalistes et experts jugés trop proches des élites politiques
(voir notre article sur les élites en France),
 L’accélération de l’information, qui pousse certains médias ou politiques à reprendre
des informations sans même avoir eu le temps de les vérifier,
 Un terreau propice : crise, sentiment d’injustice, baisse du niveau de vie, frustration…

D’autre part, le statut de journaliste professionnel est aujourd’hui concurrencé : tout internaute
ou blogueur peut se dire journaliste (même s’il ne sera pas reconnu à proprement parler comme
journaliste « professionnel » et n’aura pas de carte de presse), sans pour autant avoir été formé,
ni connaître le code de déontologie journalistique et l’importance de la vérification des faits
[6].

1.3. LES ENJEUX DES FAUSSES INFORMATIONS

1.3.1. Impact sur l'opinion publique et la démocratie

 Polarisation de l'opinion publique

Les fake news alimentent des narratives biaisées qui renforcent les croyances existantes,
conduisant à une division plus profonde de la société. Les individus sont davantage exposés à
des informations qui correspondent à leurs opinions préexistantes, ce qui peut renforcer les
clivages sociaux et politiques.

Les fake news peuvent également être interprétées comme des prises de parole publiques, qui
contiennent un discours politique et s’inscrivent dans des dynamiques de politisation. Dans le
cas des théories du complot, qui diffèrent des fausses nouvelles à proprement parler tout en
ayant en commun un certain nombre de caractéristiques, la production d’informations
alternatives est un coup médiatique pour des “entrepreneurs de cause” (acteurs qui tentent de
problématiser et placer une thématique politique ou sociale sur la scène publique), leur
permettant de “requalifier publiquement des informations factuelles relatives à des événements
donnés, pour en faire des enjeux à la signification discutée et interpeller la population et les
acteurs politiques à leur sujet” (Emmanuel Taïeb, “Logiques politiques du conspirationnisme”,

13
Sociologie et sociétés, vol. 42, n° 2, 2010). Ce type d’intervention serait particulièrement prisé
des catégories de population qui se sentent exclues de l’espace médiatique, dans la mesure où
cela leur permet d’intervenir dans le débat public. Selon le politiste Emmanuel Taïeb, “les
théories du complot sont donc moins les marques d’une crise de la rationalité de l’espace public
démocratique, que son utilisation sous une forme narrative particulière par des acteurs
politiques qui s’en jugent les nouveaux parias” (article cité).

 Menace pour la démocratie

La propagation de fake news peut avoir un impact majeur sur les processus démocratiques. En
influençant l'opinion publique, les fake news peuvent biaiser les résultats des élections et mettre
en danger l'intégrité des systèmes politiques démocratiques.

C’est ainsi par exemple que le candidat à la présidentielle américaine Donald J. Trump relaya
lui-même l’information depuis longtemps réfutée selon laquelle un lien entre vaccination et
autisme existait [7], car il l’avait vu sur les réseaux sociaux.

En dépit de cela, il est bien connu que le bon fonctionnement d’une démocratie dépend, entre
autres, d’une population éduquée et bien informée. Les processus par lesquels les individus se
forment des croyances et des opinions politiques, sociales ou médicales sont ainsi d’un intérêt
public évident. Si une majorité de la population est susceptible de croire en une information
factuellement erronée, les fake-news peuvent alors être à l’origine de décisions sociétales allant
à l'encontre des intérêts des individus. Par exemple, suite à la controverse sur le lien entre
vaccination et autisme dans les années 1990, l’Angleterre a vu son taux de couverture vaccinale
chuter de 92% à 84% en 2002, allant jusqu’à 61% dans certains quartiers londoniens (Hussain
et al., 2018). S’en est suivie une nouvelle épidémie de rougeole à la fin des années 2000 en
Angleterre, mais aussi en France et aux Etats-Unis.

1.3.2. Conséquences sur la santé publique


 Risques pour la santé publique

La diffusion de fausses informations sur des sujets liés à la santé, comme les traitements
médicaux ou les maladies, peut entraîner des conséquences graves pour la santé publique. Les
individus peuvent adopter des comportements nuisibles à leur santé en se basant sur des
informations erronées.

14
Une nouvelle analyse de l’OMS montre qu’une interprétation incorrecte des informations
relatives à la santé, plus fréquente en cas de flambée épidémique ou de catastrophe, influence
souvent négativement la santé mentale des individus et augmente la réticence face aux vaccins,
et peut retarder l’apport de soins de santé [8]. Infodémie et désinformation dans le domaine de
la santé : analyse systématique d’études (2022)

 Adoption de traitements inefficaces et résistance aux vaccins

En effet les fake news peuvent encourager l'adoption de traitements inefficaces ou non prouvés,
mettant ainsi en danger la santé des individus. De plus, la désinformation sur les vaccins peut
entraîner une baisse de la couverture vaccinale et augmenter les risques de maladies évitables

1.3.3. Répercussions sur la crédibilité et l'économie

 Atteintes à la réputation

Les individus, les entreprises et les institutions visés par des fake news peuvent subir des
dommages considérables à leur réputation et à leur crédibilité. La diffusion de fausses
informations peut entraîner une perte de confiance du public envers ces entités.

Aussi les consommateurs peuvent éviter d'acheter des produits ou des services de marques
associées à des informations trompeuses.

 Coûts et instabilité

La détection, la vérification et la suppression des fake news peuvent nécessiter des ressources
importantes, tant pour les entreprises que pour les gouvernements. Cela peut engendrer des
coûts élevés pour la mise en place de stratégies de lutte efficaces.

Par ailleurs, la propagation de fausses informations sur les marchés financiers peut entraîner
des fluctuations indésirables des prix des actifs, créant ainsi une instabilité économique et des
incertitudes pour les investisseurs.

15
1.4. Conclusion
Après avoir étudié le contexte des réseaux sociaux et les enjeux liés à la propagation des fausses
informations, nous sommes désormais prêts à approfondir nos connaissances en explorant l'état
de l'art des fake news et les méthodes de détection dans le chapitre suivant. La sensibilisation
à ces problématiques est cruciale pour élaborer des stratégies de gestion efficaces et mettre en
place des outils technologiques pertinents dans notre lutte contre les désinformations en ligne.
En combinant ces connaissances avec les avancées technologiques, nous serons mieux équipés
pour contrer le phénomène des fake news et préserver l'intégrité de l'information sur les
plateformes numériques.

16
CHAPITRE 2
État de l'Art des Fake News :
Formes de Désinformation et
Méthodes de Détection

17
2.1. Introduction
La désinformation, qui consiste à diffuser intentionnellement des informations erronées ou
trompeuses (fake news), est devenue omniprésente sur ces plateformes numériques. Nous
examinerons les différentes formes de désinformation ainsi que les méthodes de détection
spécifiques utilisées pour contrer ce phénomène de désinformation dans l'environnement
numérique en constante évolution.

Figure 3 : Fake news sur les réseaux sociaux

2.2. Définition d’une fake news


La notion de fake news et d'informations vraies peut être abordée à travers différentes
approches conceptuelles. Entre désinformation, mésinformation et informations déformées
volontairement ou involontairement, nous sommes confrontés à une constellation de termes
distincts les uns des autres. Toutefois, les fake news ont été définies de manière à dissiper toute
ambiguïté. Elles sont décrites comme des informations fabriquées qui imitent le contenu
médiatique dans la forme, mais qui ignorent leur intention ou processus organisationnel
caractéristique (traduit de Lazer et al., 2018).

Les fake news se soustraient aux normes éditoriales et échappent à toute vérification de leur
fiabilité, précision ou crédibilité. À l'inverse, la mésinformation peut être définie comme une
information manipulée dans un but précis, tandis que la désinformation vise à tromper ses
lecteurs.

18
Les normes entourant le contenu médiatique ont émergé dans les années 1920, à la suite des
campagnes de propagande médiatique lors de la Première Guerre mondiale. À cette époque,
les premiers canulars radio ont également fait leur apparition, comme le faux bulletin
d'information créé par le Père Ronald Arbuthnott Knox qui annonçait de fausses attaques
communistes à Londres, provoquant une panique relativement limitée dans le pays.

En relation avec les autres termes couramment utilisés pour désigner les fake news, Verstraete
et al. (2017) ont proposé une matrice distinguant la satire, le canular, la propagande, le trolling
et la parodie. Selon leur classification, il y a quatre types de fake news : la satire, le canular, la
propagande et le trolling. La satire est une forme d'humour qui utilise l'exagération pour
ridiculiser des défauts ou des faiblesses. Le canular est une fausse information créée pour
tromper les gens. La propagande est une information fausse ou trompeuse destinée à influencer
l'opinion publique. Le trolling est une forme d'activisme en ligne visant à susciter des réactions
émotionnelles chez les autres utilisateurs.

Cette matrice permet une lecture claire sur deux axes, facilitant la compréhension des
différentes facettes des fake news (figure 3). Bien qu'il existe d'autres classifications possibles,
celle-ci offre une vision claire et simple de ces formes de désinformation.

Figure 4: Types de fake-news selon Verstraete et al. (2017)

Les satires et les parodies font ainsi partie des fake-news dont l’intention n’est pas de duper.
Toutefois, le but de site web satiriques comme le Gorafi ou TheOnion sont bien d’avoir un
impact sociétal, en proposant des critiques plus ou moins pertinentes de faits de société. Par

19
exemple, un de leurs articles, au sein d’une controverse sur la qualité de vie des étudiants titrait
: « Emmanuel Macron aux étudiants : ‘Je n’adore pas le mot de précarité car cela donne
l’impression que vivre dans la pauvreté est pénible’ ». Les parodies n’ont quant à elles aucune
ambition financière ou sociétale, comme l’illustrent plusieurs comptes parodiques sur Twitter
(@dieuoff, @ComplotsFaciles, @JonyIveParody…).

En dehors des fake news ayant des motivations financières ou sociétales, on retrouve la
propagande. Cette désinformation délibérément biaisée vise à promouvoir une cause politique
ou un point de vue sans que la cible en soit consciente. Un exemple illustratif est l'affirmation
de Trump sur les personnes noires responsables du meurtre des blancs mentionnée en
introduction.

D'autre part, les trolls cherchent à tromper le plus grand nombre sans en tirer de bénéfice direct.
Un exemple marquant de trolling s'est produit lors d'une campagne promotionnelle de
MacDonald’s en Suisse, où les participants du forum 15-18 de jeuxvideo.com ont réussi à faire
figurer les « McOnche » et le « Classic1518 » parmi les finalistes, des références internes
compréhensibles uniquement pour les utilisateurs du forum. Ces références étaient des "private
jokes", des blagues propres à la communauté qui seule était en mesure de les comprendre. Dans
la plupart des cas, l'objectif principal du trolling est l'humour, satisfaisant ainsi le créateur.

Cependant, ces dimensions ne sont pas fixes, et elles ne sont pas à l'abri de critiques. L'intention
et la finalité restent deux axes essentiels à prendre en compte dans la qualification d'un type de
fake news. Cette variabilité souligne la complexité du phénomène de désinformation et la
nécessité d'adopter une approche nuancée dans son analyse.

2.3. Sources de Désinformation

2.3.1. Principaux Acteurs Impliqués dans la Fabrication de Fake News


 Activistes politiques membres de réseaux ou de groupuscules

Dans ce cadre, différents acteurs jouent un rôle essentiel dans la fabrication et la diffusion de
désinformation. Parmi les fabricants de fake news, on retrouve des activistes politiques
appartenant à des réseaux ou des groupuscules, souvent d'extrême-droite mais pas
exclusivement. Ces individus utilisent la désinformation pour propager leur idéologie ou
défendre des causes particulières. Des sites et blogs tels que Riposte Laïque, Egalité et

20
Réconciliation, Dieudosphère, Fdesouche, sont des exemples de plateformes qui relaient
régulièrement des informations trompeuses pour promouvoir leurs agendas.

 Partis politiques, y compris les partis extrémistes

Nous avons aussi les partis politiques, notamment les partis extrémistes, sont également des
acteurs importants dans la diffusion de fake news. En France, le Rassemblement National
(anciennement Front National) est souvent pointé du doigt pour la propagation de
désinformation. Ils utilisent ces informations erronées pour influencer l'opinion publique et
gagner du soutien.

 Particuliers adeptes des réseaux sociaux

Avec la facilité de création et de partage de contenu sur les réseaux sociaux, de simples
particuliers peuvent également devenir des acteurs de la fabrication de fake news. Il devient de
plus en plus courant de voir des individus créer de fausses informations et les diffuser dans leur
entourage ou plus largement sur les plateformes en ligne.

 Gouvernements et dirigeants

Les gouvernements et les dirigeants politiques peuvent également être impliqués dans la
création de fake news. Ils peuvent utiliser la désinformation pour justifier une décision ou
manipuler l'opinion publique. Par exemple, le gouvernement américain a été accusé d'avoir
fabriqué de fausses preuves pour justifier la seconde guerre d'Irak.

 Gouvernements étrangers

Certains gouvernements étrangers cherchent également à influencer les affaires publiques


d'autres États en propageant des fakes news. La Russie, par le biais de sites tels que Sputnik et
RT, a été fréquemment citée comme étant à l'origine de campagnes de désinformation visant à
déstabiliser d'autres pays.

 Médias traditionnels

Bien que les médias traditionnels (journaux, radios, télévision) ne soient généralement pas les
fabricants de fake news, il peut arriver qu'ils relaient involontairement des informations
trompeuses. Certains médias ont été critiqués pour avoir propagé des informations non vérifiées
ou basées sur des sources douteuses.

21
 Entreprises ou réseaux mafieux

Enfin, certaines entreprises ou réseaux mafieux peuvent créer des fake news dans le but de
générer des revenus publicitaires ou de tirer profit de la désinformation. Ils exploitent ainsi les
vulnérabilités des systèmes de diffusion de l'information en ligne pour atteindre leurs objectifs
financiers.

2.3.2. Formes de désinformations


Les fake news peuvent adopter diverses formes pour tromper le public et propager la
désinformation. Parmi ces formes, on retrouve :

Des vidéos avec sous-titrage détourné, les vidéos authentiques peuvent être altérées en ajoutant
des sous-titres trompeurs pour déformer le sens de ce qui est dit ou montré, induisant ainsi les
spectateurs en erreur. Il est possible que cela se produise sur des plateformes de partage de
vidéos telles que YouTube ou TikTok avec comme concept “le buzz”.

Aussi des photos ou images avec légende détournée : Des images authentiques peuvent être
utilisées avec des légendes mensongères pour donner une fausse impression de la situation ou
raconter une histoire inventée. Et pire encore de fausse image, vidéo créée sur la base d'une
vraie (deepfake) : Les deepfakes, ou hypertrucage est une technique de synthèse multimédia
reposant sur l'intelligence artificielle. Elle peut servir à superposer des fichiers vidéo ou audio
existants sur d'autres fichiers vidéo (par exemple changer le visage d'une personne sur une
vidéo) ou audio (par exemple reproduire la voix d'une personne pour lui faire dire des choses
inventées). Cette technique peut être utilisée pour créer des infox et des canulars malveillants
Le terme deepfake est un mot-valise formé à partir de deep learning (« apprentissage profond
») et de fake (« faux », « contrefait ») [10]

Ces contenus peuvent être utilisées pour diffuser de fausses informations. C’est le cas de Enora
Malagré, victime de deepfake: « J’ai été choquée, traumatisée »

Enora Malagré n’avait pas conscience qu’elle était la cible de deepfake. Ce sont les journalistes
de l’émission « Complément d’enquête », qui réalisaient un numéro sur le cyberharcèlement,
qui l’ont informée. « J’ai été choquée, traumatisée », commente-t-elle.

22
Elle décrit les minutes qui ont suivi cette découverte : « J’ai commencé à regarder l’image. En
fait, au bout de 30 à 40 secondes, on a l’impression que c’est quand même vous. On sait que
ce n’est pas son corps, mais on assimile ce corps comme étant le sien. » Rapidement happée
par « ces images violentes », elle décrit ce qu’elle a ressenti. « On a un traumatisme et un choc
qui, je crois, s’apparente de loin à une agression sexuelle », confie-t-elle.

En France, Enora Malagré est la première à prendre la parole et à s’exprimer sur ce phénomène
inquiétant [11]. En outre, récemment une image se propage de façon virale sur le web : une
photo du pape, vêtu d’une longue doudoune blanche digne des rappeurs américains les plus
opulents. Le souverain pontife va-t-il lancer sa carrière dans le hip-hop ? Il n’en est rien. En
réalité, cette image a été créée de toute pièce par l’IA de génération d’images MidJourney. À
l’origine, elle a été publiée le 24 mars 2023 par un Américain dénommé Pablo Xavier sur le
forum Reddit dédié à cet outil.

Par la suite, cette photo hilarante s’est répandue sur Twitter et les autres réseaux sociaux.
D’abord partagée comme une simple photo, l’image est ensuite devenue le symbole de
l’avènement de l’ère du DeepFake. À l’instar de nombreux internautes, le mannequin
américain Chrissy Teigen explique ainsi avoir pensé que cette photo était réelle et ne pas en
avoir douté. Honteuse d’avoir été si crédule, elle craint de « ne pas survivre au futur de la
technologie » [12]. Le président français Emmanuel Macron n’échappe pas à ce phénomène
lors qu’il apparait sur des images assis sur des poubelles près de la Tour Eiffel, debout devant
des déchets en feu en pleine rue ou habillé d’un gilet orange tel un éboueur. Bien entendu, ces
photos ne sont pas réelles, ce n’est pas non plus un montage. Photoshop n’a pas été utilisé. Ce
n’est pas le fruit du travail d’un humain, mais d’une appli qui repose sur de l'intelligence
artificielle [13].

Ainsi, nous constatons que les fake news sont de plus en plus sous forme de deepfake propagées
via et les réseaux sociaux.

Les faux communiqués de presse : Des communiqués de presse inventés peuvent être publiés
pour propager de fausses informations ou induire en erreur les médias et le public.

Il faut aussi signaler comme forme des fausses statistiques : Des données statistiques inventées
ou manipulées peuvent être utilisées pour étayer de fausses informations ou créer une fausse
perception de la réalité.

23
Ces différentes formes de fake news représentent un défi majeur pour la détection et la
vérification des informations, car de nos jours elles utilisent des techniques sophistiquées pour
semer la confusion et induire en erreur.

2.3.3. Principaux logiciels et réseaux utilisés dans la diffusion des fakenews


Les réseaux sociaux sont l’un des principaux canaux de diffusion des fake news. Facebook et
Twitter ont développé des outils pour améliorer leurs algorithmes face à la montée des fake
news depuis les élections présidentielles américaines de 2016.

En 2019, une étude menée par Allcott, H., Gentzkow, M., & Yu, C. a quantifié la présence des
fake news sur les réseaux sociaux. Les fake news auraient tendance à diminuer sur Facebook
depuis 2016 alors qu’elles auraient tendance à augmenter sur Twitter pour la même période.
Globalement, Facebook reste un important réseau pour la diffusion des fake news, bien
davantage que Twitter.

En France, selon un sondage de 2019, 85 % des sondés estimaient que la plus grande source de
propagation des fake news étaient les réseaux sociaux, notamment Facebook et Twitter.

Enfin, une relation d’interdépendance s’est installée entre réseaux sociaux et médias. Les
médias ont besoin des réseaux sociaux pour toucher un public plus large et les réseaux sociaux
ont besoin des médias pour produire du contenu.

Figure 5: principaux supports qui propagent les fakenews

24
Ce sondage interroge les Français sur les supports qui relayent selon eux le plus les
informations fausses ou truquées que l'on peut trouver sur Internet en 2019. Cette année-là,
on remarque que 85 % des sondés estimaient que la plus grande source de propagation des
fake news étaient les réseaux sociaux, notamment Facebook et Twitter.

Facebook en chiffre :

Twitter en chiffre :

En ce qui concerne les logiciels sophistiqués utilisés pour la propagation avancée des fakes
news (les deepfakes). Ils reposent sur la technique des GANs ou réseaux antagonistes
génératifs. Il s’agit d’une technique de Machine Learning consistant à mettre en compétition
deux algorithmes. À partir d’images fournies en amont, le premier algorithme ‘générateur’
cherche à créer de fausses imitations aussi crédibles que possible. Le second algorithme
‘discriminateur’, quant à lui, cherche à détecter les faux le plus efficacement possible. Au fil
du temps, les deux algorithmes progressent dans leurs tâches respectives. Le premier continue
à produire de fausses vidéos jusqu’à ce que le second ne puisse plus déceler la supercherie. En
résultent, au final, des ‘fakes’ suffisamment réalistes pour tromper même les humains… Plus
les données fournies à l’algorithme au début du processus sont nombreuses, plus celui-ci sera
capable d’apprendre à créer des faux facilement. C’est la raison pour laquelle les anciens

25
présidents américains et les stars d’Hollywood sont souvent utilisés pour créer des deepfakes :
de nombreuses vidéos d’archives sont en libre accès et peuvent être utilisées pour nourrir les
modèles de Machine Learning [14].

Il n’y a pas d’IA dangereuse pour le deepfake en soi. Cependant, il est possible que certaines
IA soient plus performantes que d’autres dans la création de deepfakes.

Cependant, selon une liste de deepswap.ai, de nos jours, les meilleurs logiciels de deepfake en
fonction des besoins sont DeepSwap, DeepFaceLab et FakeApp pour les applications.

Description de DeepSwap

Description de Deepfacelab

2.4. Les stratégies actuelles pour lutter contre les fake-news


Dans la partie précédente, il a été mentionné que les plateformes de réseaux sociaux,
principalement Facebook et Twitter, sont les plus utilisées dans la propagation des fakes-news.
Malgré que ces plateformes utilisent une méthode semi-automatisée de détection des fake
news, basée notamment sur le signalement des utilisateurs pour étiqueter une information
comme fausse ou non. Cependant, cette approche n'est pas la seule ni toujours la plus efficace

26
dans tous les contextes. Pour s'adapter à la taille et à la diversité des plateformes, d'autres
approches sont mises en œuvre.

Une approche implique une intervention humaine et professionnelle, où l'information est


vérifiée et corrigée par des vérificateurs de faits. Des initiatives telles que l'International Fact
Checking Network permettent de signaler les articles en anglais et en allemand qui propagent
de fausses informations. D'autres médias ont également mis en place des sites Web de
vérification de l'information, tels que le Washington Post Fact Checker, les New York Times
Fact Checks, Checknews du Journal Libération, Les observateurs de France 24 ainsi que les
Décodeurs du journal Le Monde et le site Factuel de l'Agence France Presse en France.

Une autre approche repose sur l'intervention automatique des algorithmes qui analysent le
contenu, la propagation et utilisent l'apprentissage continu. Cependant, une analyse de la
chronologie de la vérification des faits en France indique qu'il reste beaucoup à faire pour le
contenu en français. Certaines rédactions commencent à créer des équipes de vérification des
faits, mais des problèmes subsistent. Si aucune automatisation n'est mise en place, le temps
nécessaire pour détecter une information fausse ou vraie sera plus long, ce qui laisse davantage
de marge aux fake news pour se propager. De plus, cela indique que le fact-checking en
profondeur n'est pas systématique, et des contenus non vérifiés peuvent être publiés par des
journalistes qui ne font pas partie de l'équipe de fact-checking.

En France, l'outil de vérification de contenu le plus courant est le Décodex, qui repose sur
l'URL d'un site préalablement catégorisé manuellement comme propageant régulièrement de
faux contenus ou étant un site parodique. Bien que cette méthodologie permette un tri rapide
et efficace, elle peut néanmoins être aveugle aux articles propageant des fake news sur des sites
fiables. Ces différentes approches montrent que la lutte contre les fake-news nécessite des
efforts continus pour développer des méthodes plus efficaces et adaptées aux différents
environnements en ligne.

2.5. Les méthodes automatiques de vérification des fake-news


La détection automatique des fake news est définie comme un processus de catégorisation des
informations selon leur véracité, avec une mesure de certitude associée. Grâce à la disponibilité
croissante d'ordinateurs dotés d'une puissance de calcul significative à des prix abordables, la
qualité des algorithmes de machine learning a considérablement progressé, permettant
d'obtenir de bons résultats dans la classification d'images, la détection de voix et le traitement

27
du langage. Depuis des événements marquants tels que l'élection de Donald J. Trump aux États-
Unis ou le vote en faveur du Brexit, la détection automatique des fake news est devenue un
enjeu majeur de la recherche, et de nombreux algorithmes sont désormais développés pour
prévenir la diffusion de contenus falsifiés.

2.5.1. La Détection de Spam : Analogies avec la Détection de Fake News.


La détection d'e-mails de spam a été l'une des premières applications des algorithmes
automatiques de détection de contenu frauduleux. Ces algorithmes utilisent des techniques de
machine learning pour classifier du texte comme étant du spam ou du contenu légitime. Ils
impliquent le pré-traitement du texte, l'extraction de caractéristiques (souvent appelées
features) via des méthodes comme les sacs de mots, et la sélection de ces features basée sur
celles qui conduisent aux meilleures performances de l'algorithme sur un jeu d'entraînement.
Ces features sont ensuite classifiées en utilisant divers classifieurs tels que les K Nearest
Neighbours (KNN), les Support Vector Machines (SVM) ou les Naive Bayes Classifiers.

Tout comme pour la détection de fake news, l'objectif de ces algorithmes est de distinguer des
exemples de textes véridiques d'exemples de textes fallacieux. Parmi les différents algorithmes,
le classifieur naïf de Bayes obtient de bons résultats, bien que sa difficulté réside dans son
adaptation à de nouveaux types de spams, pour lesquels l'utilisation des KNN permettait une
adaptation rapide du modèle en obtenant des résultats similaires à ceux obtenus avec des
algorithmes robustes en traitement du langage, comme les SVM.

Cependant, plusieurs études publiées rapportant l'efficacité des algorithmes de détection de


spam ne donnaient que les résultats sans fournir d'indications sur le contenu permettant aux
algorithmes de classifier un e-mail comme étant un spam ou non. On peut alors considérer que
ces algorithmes pourraient également contribuer à la détection de fake news, car ce dernier
reste un problème de traitement automatique de langage caractéristique d'une intention de
tromperie. Par le passé, certains épisodes de fake news ont même été qualifiés de "spam social".

Toutefois, une différence fondamentale réside dans le fait que le spam est un contenu non
sollicité et générateur d'agacement, tandis que les fake news sont un contenu suscitant un fort
attrait en raison de leur valeur émotionnelle et de leur proximité avec l'actualité sociétale. De
plus, le spam est souvent lié à des questions financières, visant à obtenir les informations
bancaires des victimes. En revanche, comme nous l'avons vu précédemment, les fake news ont
un but manipulateur et trompeur qui peut occasionnellement servir des objectifs mercantiles,

28
tels que la vente de produits déguisés sous l'appellation de médecines alternatives, mais pas
uniquement.

2.5.2. Etapes de détection de fake-news


La méthode de résolution des fake news comprend quatre sous-tâches :

 Détection des fake news : Identifier les réclamations avec une valeur de véracité plutôt
qu'une simple opinion.
 Suivi des fakes news : Rassembler les sources et les opinions sur une fausse information
au fur et à mesure de son évolution.
 Classification des fake news : Déterminer l'attitude des sources ou des utilisateurs
envers la véracité des fake news.
 Vérification des fake news : Prédire la valeur de véracité des fake news, constituant
l'étape finale du processus.

2.5.3. Techniques de détection


Les techniques adoptées pour réaliser les tâches énoncées sont classées en trois familles selon
les principales approches :

 Les approches contextuelles


 Approches basées sur le contenu textuel :
Dans cette approche, un ensemble de caractéristiques est extrait du contenu des messages, des
propriétés de leur diffusion et des profils des utilisateurs. En utilisant des algorithmes de
classification supervisée, ces caractéristiques permettent de prédire la véracité des messages
[15][16][17][18]. La qualité des caractéristiques extraites joue un rôle crucial dans l'obtention
de résultats de classification fiables.

 Approches basées sur la structure de propagation ou l'optimisation des graphes :


Contrairement aux méthodes de la première famille, ces approches évaluent la crédibilité des
messages et des événements dans leur ensemble. Elles créent un graphe de crédibilité où les
entités impliquées dans la détection de la rumeur, telles que les messages et les utilisateurs,
constituent les nœuds, et les relations entre ces entités sont représentées par les arêtes. Chaque
entité possède une valeur initiale de crédibilité, puis ces valeurs sont propagées dans le graphe
jusqu'à convergence pour évaluer la crédibilité finale de chaque entité [19][20][21]. Cependant,
cette approche ignore le contenu textuel des messages.
29
 Approches basées sur l'apprentissage profond :
Ces méthodes utilisent principalement deux structures de réseaux de neurones : les réseaux de
neurones récurrents (RNN), qui modélisent les données textuelles des messages sous forme de
séquences [22][23][24], et les CNN, qui apprennent la représentation textuelle latente des
données de la rumeur et améliorent la précision de la classification [25][26]. Grâce à leur
capacité à apprendre des représentations profondes des données de la rumeur, ces approches
améliorent significativement les performances de prédiction par rapport aux deux familles
d'approches précédentes.

 Approches basées sur les sources

Deux approches utilisant des sources pour la prédiction des fausses informations sont
identifiées : Link-media (LK) et Verifying Multimedia Use (VMU).
Ces deux approches se fondent sur une liste de sources de confiance, mais VMU ajoute
également une source de non-confiance à sa prédiction. Il est à noter que les deux listes de
sources de confiance ne sont pas identiques, ce qui permet une complémentarité entre elles.
Une autre différence entre ces approches réside dans le choix de la classe à attribuer en cas
d'absence de source. VMU choisit la classe "faux", qui est la classe majoritaire de l'ensemble
d'apprentissage, tandis que la prédiction LK opte pour la classe "inconnu". Ce choix garantit
une haute précision pour les messages classés comme vrais ou faux (respectivement 100 % et
92-97 %) au détriment du rappel (respectivement 41-22 % et 87-47 %).

 Approches multimédia
Analyse de la manipulation visuelle :
 Algorithme de détection de retouche d'images : Utilisation de techniques de traitement
d'images telles que le forensics pour détecter des altérations ou des distorsions suspectes
dans les images.
 Algorithme de détection de deepfakes : Utilisation de modèles d'apprentissage
automatique, tels que les réseaux de neurones convolutionnels (CNN), pour distinguer
les vidéos synthétiques des vidéos authentiques.
 Détection de deepfakes :

30
 Algorithme de deep learning : Utilisation de modèles de réseaux de neurones récurrents
(RNN) et de CNN spécialement formés pour identifier les caractéristiques des
deepfakes et les différencier des vidéos authentiques.
 Vérification multimédia :
 Algorithme de reconnaissance d'objets : Utilisation de modèles de réseaux de neurones
convolutifs (CNN) pour identifier les objets et les éléments présents dans une image ou
une vidéo et les comparer à des bases de données de sources fiables.
 Algorithme de recherche d'images similaires : Utilisation de techniques de recherche
d'images pour comparer une image ou une vidéo donnée avec des contenus similaires
connus pour vérifier son authenticité.
 Analyse de la diffusion :
 Algorithme d'analyse de propagation : Utilisation d'algorithmes d'apprentissage
automatique pour analyser les schémas de diffusion des contenus multimédias sur les
réseaux sociaux et détecter des comportements de propagation caractéristiques des fake
news.

2.6. Conclusion
En résumé, ce chapitre a exposé l'étendue du problème des fake news et souligné l'impératif de
développer des méthodes de détection robustes et efficaces. La recherche se poursuit pour
explorer de nouvelles approches visant à mieux appréhender et contrer les formes de
désinformation en constante évolution. L'objectif ultime est de favoriser un environnement
d'information plus fiable et crédible, préservant ainsi l'intégrité de notre société face aux défis
posés par les fausses informations.

31
CHAPITRE 3
Approches Algorithmiques et
Acquisition de Données pour la
Détection des Fake News.

32
3.1. Introduction
Dans ce chapitre, nous aborderons les approches algorithmiques utilisées pour la détection des
fake news, en mettant l'accent sur l'apprentissage profond et le traitement du langage naturel.
Nous explorerons comment ces techniques permettent d'analyser efficacement les données
textuelles pour identifier les informations trompeuses.
Nous présenterons les principaux algorithmes d'apprentissage profond et de traitement du
langage naturel que nous avons utilisés dans notre étude. Leur adaptabilité à la détection des
fake news sera expliquée en détail.
De plus, nous discuterons de l'importance de l'acquisition de données de haute qualité pour
former et évaluer nos modèles de détection. Nous aborderons les sources de données utilisées
et les méthodes de collecte pour garantir la fiabilité de nos résultats.
En combinant l'apprentissage profond et le traitement du langage naturel, nous nous engageons
à lutter contre la désinformation en ligne et à promouvoir un environnement d'information plus
crédible.

3.2. IA, ML et DL dans la détection des fakes news


3.2.1. L’intelligence artificielle (IA)
 Définition

Historiquement, l'idée d'intelligence artificielle semble émerger dans les années 1950 quand
Alan Turing se demande si une machine peut « penser ». Dans l'article « Computing Machinery
and Intelligence » (Mind, octobre 1950), Turing explore ce problème et propose une expérience
(maintenant dite test de Turing) visant à trouver à partir de quand une machine deviendrait «
consciente ». Cependant, le terme « intelligence artificielle », créé par John McCarthy, est
souvent abrégé par le sigle « IA » (ou « AI » en anglais, pour artificial intelligence). McCarthy
définit l'IA ainsi : « C'est la science et l'ingénierie de la fabrication de machines intelligentes,
en particulier de programmes informatiques intelligents...observables ». Plus simplement, l’IA
est un ensemble de théories et de techniques visant à réaliser des machines capables de simuler
l'intelligence humaine [27].

33
Figure 6: Le fonctionnement de l’IA

 Distinction entre l’IA, ML et DL

L'apprentissage automatique (ML) est une partie de l'IA qui aide à créer des applications basées
sur l'IA. Le Deep Learning (DL) fait à nouveau partie de l'apprentissage automatique qui forme
un modèle avec des algorithmes complexes et de vastes volumes de données. Les cadres
d'apprentissage automatique et d'apprentissage en profondeur en sont les composants clés.
Alors que ML fait partie de l'IA, DL est l'un de ses sous-domaines [28][29].

Figure 7: Distinction entre IA, ML et DL

3.2.2. Machine Learning (ML)


L'apprentissage automatique en anglais machine learning, litt. « apprentissage machine »
apprentissage artificiel ou apprentissage statistique est un champ d'étude de l'intelligence
artificielle qui se fonde sur des approches mathématiques et statistiques pour donner aux
ordinateurs la capacité d’apprendre à partir de données, c'est-à-dire d'améliorer leurs
performances à résoudre des tâches sans être explicitement programmés pour chacune.

34
L'apprentissage automatique comporte plusieurs méthodes d’apprentissage à savoir
l’apprentissage partiellement supervisé, l’apprentissage auto-supervisé, l’apprentissage
par renforcement, l’apprentissage par transfert. Mais est généralement utilisé par :

 Apprentissage supervisé
L'apprentissage supervisé est une tâche d'apprentissage automatique consistant à apprendre une
fonction de prédiction à partir d'exemples annotés. [30]
Pour créer un modèle d'apprentissage supervisé, on peut recourir à différents algorithmes
comme [31] :
 La régression linéaire : y = c + b * x
 La régression logistique : h (x) = 1 / (1 + e^-x)
 L’arbre de décision avec différentes variables de sortie
 La machine à vecteur de support (SVM)

Dans l'apprentissage supervisé, on a deux types d'algorithmes [32] :


 Les algorithmes de régression, qui cherchent à prédire une valeur continue, une
quantité.
 Les algorithmes de classification, qui cherchent à prédire une classe/catégorie.

Figure 8: Exemple d’apprentissage supervisé [33]

 Apprentissage non supervisé


L'apprentissage non supervisé est une branche du machine learning. Cette technique consiste à
entraîner des modèles sans réaliser d'étiquetage manuel ou automatique des données au
préalable [34]. Les algorithmes regroupent les données en fonction de leur similitude, sans

35
aucune intervention humaine [35]. L'approche de l'apprentissage non supervisé est basée sur
l'utilisation de données non étiquetées pour former un modèle.
Les algorithmes d'apprentissage non supervisé :

 Clustering : fractionnement de l'ensemble de données en groupes en fonction de la


similarité.
 Détection d'anomalies : identification de points de données inhabituels dans un
ensemble de données.
 Exploration d'associations : identification d'ensembles d'éléments dans un ensemble de
données qui se produisent fréquemment ensemble.
 Réduction de la dimensionnalité : réduction du nombre de variables dans un ensemble
de données.

Figure 9: Exemple d’apprentissage non supervisé

 Apprentissage semi-supervisé
L'apprentissage semi-supervisé est une classe de techniques d'apprentissage automatique qui
utilise un ensemble de données étiquetées et non étiquetées [36][37]. Il se situe entre
l'apprentissage supervisé qui n'utilise que des données étiquetées et l'apprentissage non
supervisé qui n'utilise que des données non étiquetées. Cette méthode d'apprentissage combine
une petite quantité de données étiquetées avec une grande quantité de données non étiquetées
pendant l'entraînement [38].

36
Il peut intervenir dans les domaines comme la traduction automatique, la détection de fraude
etc...

Figure 10 : Exemple d’apprentissage semi-supervisé

3.2.3. Deep Learning (DL)


Selon [39], Le deep learning ou apprentissage profond est un type d'intelligence artificielle
dérivé du machine learning (apprentissage automatique) où la machine est capable d'apprendre
par elle-même, contrairement à la programmation où elle se contente d'exécuter à la lettre des
règles prédéterminées.
Le deep Learning s'appuie sur un réseau de neurones artificiels s'inspirant du cerveau humain.
Ce réseau est composé de dizaines voire de centaines de « couches » de neurones, chacune
recevant et interprétant les informations de la couche précédente. Le système apprendra par
exemple à reconnaître les lettres avant de s'attaquer aux mots dans un texte, ou détermine s'il y
a un visage sur une photo avant de découvrir de quelle personne il s'agit.

Figure 11:Exemple de Deep Learning

37
À TRAVERS UN PROCESSUS D’AUTOAPPRENTISSAGE, LE DEEP LEARNING EST
CAPABLE D’IDENTIFIER UN CHAT SUR UNE PHOTO. À CHAQUE COUCHE DU
RÉSEAU NEURONAL CORRESPOND UN ASPECT PARTICULIER DE L’IMAGE. ©
MAPR, C.D, FUTURA

Nous détaillerons les réseaux de neurones convolutionnels (CNN) et les réseaux de neurones
récurrents (RNN) et (LSTM), deux architectures largement utilisées pour le traitement de
l'information textuelle.

 Recurrent Neural Networks (RNNs)


Les réseaux de neurones récurrents sont utilisés pour le traitement de série temporelle. Ils
peuvent être utilisé pour diverse applications tels que la prédiction du cours des d'actions, la
reconnaissance vocales, ou encore la reconnaissance d'actions dans des vidéos.
Ce type de réseau, se distingue des autres types de réseaux neuronaux de par sa capacité à
retenir les observations qui lui ont précédemment été soumise et à en déduire la réponse en
fonction des information extraites de ces observations. Il est l'équivalent donc de la mémoire
de travaille à court-terme que nous avons. Cette propriété de rétention d'information lui est
permise de par sa topologie particulière qui n'est pas orienté comparativement au réseau feed
foward classique tels que le perceptron multi-couche ou l'information circule de l'entrée vers
la sortie. Mais surtout du fait qu'un neurone récurrent comme son nom l'indique est connecté à
lui-même et donc son état peut évoluer au fur et à mesure de la réception des informations
induisant ainsi l'effet mémoire.[40]

Figure 12: Perceptron multi-couches

38
 Long Short-Term Memory (LSTM)
LSTM, est une cellule composée de trois « portes » : ce sont des zones de calculs qui régulent
le flot d’informations (en réalisant des actions spécifiques). On a également deux types de
sorties (nommées états).

 Forget gate (porte d’oubli)


 Input gate (porte d’entrée)
 Output gate (porte de sortie)
 Hidden state (état caché)
 Cell state (état de la cellule)

Figure 13: Cellule LSTM

 Convolutional Neural Networks (CNN)


En apprentissage automatique, un réseau de neurones convolutifs ou réseau de neurones à
convolution (en anglais CNN ou ConvNet pour convolutional neural networks) est un type de
réseau de neurones artificiels acycliques (feed-forward), dans lequel le motif de connexion
entre les neurones est inspiré par le cortex visuel des animaux.
Les CNN s'appliquent beaucoup plus au traitement d'images, aussi au traitement du langage
naturel « NLP » et à d'autres types de tâches cognitives.

39
Figure 14 : CNN model general architecture.[41]

3.3. Natural Language Processing (NLP)

 Définition
Le NLP, ou traitement du langage naturel, est une composante de l’intelligence artificielle qui
permet aux programmes informatiques de comprendre le langage humain [42][43][44]. Cette
technologie vise à permettre aux machines de lire, de déchiffrer, de comprendre et de donner
sens au langage humain. Le NLP est une branche de l’intelligence artificielle qui s’attache à
donner la capacité aux machines de comprendre, générer ou traduire le langage humain tel qu’il
est écrit et/ou parlé.

 Les défis
Le langage humain est un système complexe. Selon les scientifiques, il s’agit d’un système de
signalisation discret, symbolique et catégorique. En d’autres termes, il comprend des symboles
qui permettent aux humains de transmettre le même sens de différentes manières. En outre, il
existe une infinité de possibilités pour agencer les mots dans une phrase. Un mot peut avoir
plusieurs significations en fonction du contexte dans lequel il est placé. D’autre part, le langage
comporte de nombreuses règles et subtilités difficiles à comprendre pour les ordinateurs. Par
exemple, la notion de pluralité ou de sarcasme est difficile à percevoir pour une machine. Cela
signifie que pour comprendre le langage humain, le NLP doit comprendre les mots et les
différents concepts.

40
3.3.1. L’apprentissage automatique et l’apprentissage profond dans le NLP

Dans le Traitement du Langage Naturel (NLP), il existe deux approches principales : les
techniques classiques et les techniques de Deep Learning. Dans les techniques classiques, les
données subissent un prétraitement initial, puis des fonctionnalités sont générées à partir de ces
données. Ces fonctionnalités sont utilisées pour entraîner un modèle d'apprentissage
automatique (ML). En cas de performances insatisfaisantes, certains paramètres de l'algorithme
sont ajustés pour améliorer les résultats.
En revanche, les techniques de Deep Learning pour le NLP impliquent un prétraitement de
base des données, suivi de la conversion des entrées textuelles en vecteurs denses. Ces vecteurs
denses sont ensuite utilisés pour alimenter un réseau de neurones profond (DNN) spécifique à
chaque tâche de NLP. Contrairement aux approches classiques, les techniques de Deep
Learning n'utilisent pas de fonctionnalités artisanales, mais apprennent directement à partir des
données via le DNN. Ces approches de Deep Learning ont montré des résultats prometteurs
dans la détection des fake news en traitant efficacement les données textuelles pour identifier
les informations trompeuses.

Figure 15: Machine Learning et Deep Learning dans le NLP [45]

3.3.2. Techniques de vectorisation


Les techniques de vectorisation utilisées dans le traitement automatique du langage naturel
varient en fonction des outils NLP utilisés.
 Word2Vec : Cette technique développée par Google permet de représenter les mots
sous forme de vecteurs denses en utilisant des algorithmes de réseaux de neurones.

41
Word2Vec attribue des valeurs numériques à chaque mot en fonction de son contexte
d'utilisation, ce qui permet de capturer les relations sémantiques entre les mots.
 GloVe (Global Vectors for Word Representation) : Cette technique utilise des
statistiques de co-occurrence pour représenter les mots sous forme de vecteurs denses.
GloVe est conçu pour capturer les relations de co-occurrence entre les mots et est
particulièrement utile pour les tâches de sémantique distributionnelle.
 FastText : Cette approche développée par Facebook étend Word2Vec en ajoutant des
sous-mots (subword) aux mots. Cela permet de mieux représenter les mots rares ou
inconnus en décomposant les mots en sous-unités significatives.
 BERT (Bidirectional Encoder Representations from Transformers) : BERT est un
modèle de traitement du langage naturel basé sur les transformers qui permet de
représenter les mots et les phrases en prenant en compte le contexte bidirectionnel de
chaque mot. Il a été développé par Google et a révolutionné le domaine du NLP en
offrant des représentations de mots pré-entrainées très performantes.
 TF-IDF est l'abréviation de terme fréquence – fréquence du document inverse. Il est
conçu pour refléter l'importance d'un mot pour un document dans une collection ou un
corpus. La valeur TF-IDF augmente proportionnellement au nombre de fois qu'un mot
apparaît dans le document et est compensée par le nombre de documents dans le corpus
qui contiennent le mot, ce qui permet d'ajuster le fait que certains mots apparaissent
plus fréquemment en général.
Pour un terme « i » dans un document « j » :
��,� = ���,� ∗ ��( � /�� )
Où : �,� ��� nombre d'occurrence de i dans j
��� ��� le nombre de document contenant i ;
N est le nombre total des documents.

Ces techniques de vectorisation sont essentielles pour convertir les données textuelles en
vecteurs numériques qui peuvent être utilisés par les modèles d'apprentissage automatique dans
la détection des fake news. Chaque approche a ses propres avantages et est adaptée à des tâches
spécifiques en fonction des besoins de l'application NLP.

42
3.3.3. Quelques exemples de modèles de deep learning orientés NLP
Si le traitement du langage naturel existe depuis longtemps, les progrès réalisés récemment
dans ce domaine sont considérables. Les projets de NLP orientés intelligence artificielle se
sont notamment multipliés chez les géants du numérique. Parmi les modèles les plus en
pointe, on peut citer :
 Les modèles BERT et ALBERT de Google AI,
 Les modèles dérivés de cette première famille comme RoBERTa (Facebook),
StructBERT (Alibaba), DeBERTa (Microsoft), DistilBERT (Hugging Face),
 Les modèles alternatifs comme GPT-2 et GPT-3 (OpenAI), XLNet (Université
Carnegie Mellon), UniLM (Microsoft), et Reformer (Google).

3.4. Acquisition des données

3.4.1. Source de données : Politifact et Gossipcop


Politifact et Gossipcop sont deux sources de vérification de faits qui ont joué un rôle essentiel
dans la lutte contre les fakes news. Au fil des ans, ils ont gagné en notoriété et en crédibilité en
tant que sources fiables de vérification des faits et de détection des rumeurs.
Politifact a été fondé en 2007 par le Tampa Bay Times, un journal basé en Floride, aux États-
Unis. Il s'est rapidement imposé comme l'une des principales sources de vérification des faits
politiques aux États-Unis. Politifact utilise un système de notation de "vérité" allant de "Vrai"
à "Pantalon en feu" pour évaluer la véracité des déclarations politiques et des informations
circulant dans l'espace public. Leur approche est basée sur un processus rigoureux de
vérification des faits, en examinant les preuves disponibles et en s'appuyant sur des experts et
des sources crédibles.
Gossipcop, quant à lui, a été créé en 2009 en réponse à la prolifération des rumeurs et des
informations non vérifiées dans le monde du divertissement et des célébrités. Gossipcop se
concentre sur la vérification des histoires et des rumeurs concernant les célébrités et les
personnalités publiques. Ils examinent les articles et les affirmations publiées par les médias
de divertissement et utilisent des sources officielles et des représentants des célébrités pour
confirmer ou réfuter les informations. Leur approche vise à fournir des informations exactes et
crédibles sur les événements impliquant des personnalités publiques.
Ces deux sources fournissent des données textuelles riches en informations factuelles et en
rumeurs, ce qui en fait des ressources précieuses pour entraîner des modèles d'apprentissage
43
automatique dans le domaine de la détection des fake news. En utilisant ces données, nous
pouvons développer des algorithmes et des modèles capables d'identifier les informations
trompeuses et de distinguer les faits des rumeurs.
3.4.2. Présentation de la Base de Données : Réseau Social Twitter.
L'ensemble de données utilisé pour notre analyse a été obtenu en utilisant des techniques de
scrapping de nos sources, principalement à partir des médias sur Twitter. Cependant, en raison
des politiques de confidentialité de Twitter et des droits de copie des éditeurs de journaux, nous
ne pouvons pas distribuer l'ensemble de données complet.
Néanmoins, nous avons pu concaténer les dataframes provenant de différentes sources, y
compris les informations véridiques et fausses, pour permettre aux algorithmes d'être plus
performants et précis dans leurs prédictions.

Figure 16: Concatenation - Data Analysis & Processing with Pandas

Cet ensemble de données pour la classification des informations binaires comprend de base 44
898 entrées et 4 colonnes différentes. Afin de poursuivre notre analyse nous avons effectué des
ajouts qui sont :
 Ajout de la colonne "Target" aux DataFrames distinctes (vraies et fausses
informations).
 Fusion des deux DataFrames pour créer une DataFrame globale et complète, incluant à
la fois les informations vraies et fausses.
 Ajout de la colonne "label" via la colonne "Target" en tant qu'étiquette pour identifier
chaque information.

44
Résultat final : La DataFrame finale comportera un total de 6 colonnes, englobant l'ensemble
des informations nécessaires pour la classification et à pour colonnes principales : "Texte" et
"label".
 La colonne "Texte" contient le contenu textuel des informations.
 La colonne "label" contient les étiquettes associées à chaque information. Les étiquettes
sont des valeurs binaires : 0 pour les informations positives et 1 pour les informations
négatives.
 Chaque article est accompagné d'un titre représenté par la colonne ‘title’.
 La colonne ‘subject’ qui fais référence au sujet traité dans l’article ainsi que la colonne
‘date’ pour la date de publication.

La dataframe ressemble à ceci :

Figure 17 : Dataframe avant analyse

3.5. Conclusion
Ce chapitre a mis en lumière l'essence des approches algorithmiques déployées dans la
détection des fausses nouvelles, en mettant en avant l'efficacité de l'apprentissage profond et
du traitement du langage naturel. À travers cette exploration, nous avons saisi comment ces

45
techniques sophistiquées ont la capacité d'analyser minutieusement des données textuelles afin
de repérer les informations trompeuses dissimulées.

Les principaux acteurs de cette démarche, les algorithmes d'apprentissage profond et de


traitement du langage naturel, ont été présentés en profondeur, démontrant leur adaptation
subtile à l'énigmatique tâche de détection des fake news. Leur flexibilité et leur aptitude à
démystifier le langage humain ont été mis en exergue, illustrant leur rôle essentiel dans la
distinction entre réalité et tromperie.

En outre, la dimension cruciale de l'obtention de données de qualité a été évoquée, soulignant


l'importance vitale de ces données pour façonner et évaluer nos modèles de détection. Les
sources d'information utilisées ainsi que les méthodologies rigoureuses de collecte ont été
scrupuleusement discutées, garantissant ainsi la solidité et la validité de nos résultats.

En fusionnant ces deux domaines novateurs, l'apprentissage profond et le traitement du langage


naturel, nous relevons le défi de contrer la propagation de la désinformation en ligne.

46
CHAPITRE 4
Implémentation

47
4.1. Introduction
Nous orientons notre étude vers un objectif primordial : la détection des fausses informations.
Pour y parvenir, notre choix s'est porté sur l'analyse textuelle en utilisant des techniques
avancées de traitement du langage naturel (NLP) afin de classifier ces informations trompeuses.
Les fausses nouvelles, également appelées "fake news", constituent une forme de
désinformation ou de manipulation de l'information, se propageant largement sur les réseaux
sociaux dans le but de tromper l'opinion publique, de porter atteinte à des individus ou de
discréditer des institutions. Face à la prolifération croissante de fausses nouvelles ces dernières
années et à l'absence de mécanismes efficaces pour détecter ces rumeurs, il devient impératif
de développer des méthodes intelligentes pour démystifier les dernières informations.
Notre travail s'inscrit dans cette perspective, visant à concevoir des approches novatrices de
détection des fausses informations afin d'assister les utilisateurs dans l'identification de diverses
formes de nouvelles falsifiées.

4.2. Présentation des outils utilisés

 Langage de programmation

Pourquoi le choix de Python ?


Le choix de Python découle de trois facteurs essentiels :
 Simplicité : Python est préféré pour sa simplicité, étant souvent le premier langage de
programmation choisi. Sa documentation riche facilite la résolution de tâches

48
complexes comparé à d'autres langages. La flexibilité de Python permet d'aborder des
problèmes avec diverses approches.
 Polyvalence : Python excelle par sa polyvalence, compatible avec tous les systèmes
d'exploitation, contrairement à d'autres langages spécifiques. Il s'applique à une variété
de projets, du développement web aux réseaux de neurones, y compris les logiciels
graphiques. Des entreprises célèbres comme YouTube et Instagram l'utilisent, ainsi que
dans des domaines tels que la robotique et les systèmes embarqués.
 Communauté active : La force de Python réside dans sa riche collection de
bibliothèques et dans sa communauté dynamique. Cette abondance de projets rend
probable que quelqu'un a déjà créé une fonction dont vous avez besoin, accélérant ainsi
le développement de votre projet.

Quelle est la version utilisée ?


Dans notre analyse nous avons utilisé la dernière version de python qui est le 3.11.4, elle offre
une multitude de packages mis à jour, pour une analyse plus complète.

 IDE (Environnement de Développement Intégré)

Un IDE, ou Environnement de Développement Intégré, est un logiciel qui réunit divers outils
de développement au sein d'une interface graphique unifiée. Les composants clés d'un IDE
incluent :
 Éditeur de Code : Il facilite la rédaction avec des repères visuels, la complétion
automatique et la détection d'erreurs dans le code.
 Automatisation de Version Locale : Cette fonctionnalité automatise les tâches courantes
et reproductibles lors de la création d'une version locale du logiciel pour le développeur.
Cela peut inclure la compilation du code source en code binaire, le packaging et
l'exécution de tests automatisés.
 Débogueur : Il permet de repérer et de corriger les bogues en affichant l'emplacement
précis des problèmes dans le code source.

Dans notre étude, comme IDE nous avons utilisé :

49
 Matériel

Toutes les expériences ont été réalisées sur une machine qui offre des performances
acceptables. Voici la configuration du matériel utilisé dans notre implémentation :

4.3. La préparation des données

4.3.1. Bibliothèques importées


Au cours de notre progression à travers les différentes phases de travail, nous avons rapidement
reconnu la nécessité impérative d'intégrer des bibliothèques spécialisées. Cette prise de
conscience a été particulièrement prépondérante dès la phase initiale de pré-traitement des

50
données. À ce stade, l'incorporation de bibliothèques telles que Pandas et matplotlib s'est avérée
essentielle pour structurer, nettoyer et traiter efficacement les données, jetant ainsi les bases
d'un ensemble de données préparé de manière optimale pour les étapes à venir.
De manière tout aussi critique, l'importance des bibliothèques a persisté et s'est même amplifiée
lors de la phase d'entraînement du modèle. Dans ce contexte, des outils tels que TensorFlow et
Scikit-learn ont joué un rôle crucial en fournissant des moyens sophistiqués pour la création,
la formation et l'évaluation de modèles complexes. Leur intégration a été déterminante pour
maximiser les performances du modèle et pour exploiter pleinement les avantages de
l'apprentissage automatique.

Figure 18: Quelques bibliothèques importées

4.3.2. La répartitions des informations


Les données présentent une répartition relativement équilibrée, avec environ 52.3%
d'informations fausses et 47.3% d'informations correctes.

51
Figure 19: La répartition des informations

4.3.3. La séparation des ensembles (Train Test Split)

Figure 20: Train Test Split

Ici nous effectuons une division des données en ensembles d'entraînement, de validation et de
test en utilisant la bibliothèque scikit-learn (sklearn).
train_text, temp_text, train_labels, temp_labels: Les données textuelles (titres) sont divisées en
deux parties. train_text contiendra les données pour l'ensemble d'entraînement, tandis que
temp_text contiendra les données pour la validation et le test. Les étiquettes (labels)
correspondantes sont également divisées en train_labels et temp_labels.
train_test_split(data['title'],data['label'],random_state=2018,test_size=0.3,stratify=data['Target
']) : Cette fonction divise initialement les données en deux ensembles : un ensemble
d'entraînement (70 % des données) et un ensemble temporaire (30 % des données).

52
4.3.5. Le prétraitement des données

 Préparer les données d'entrée


L'étape "Prepare Input Data" consiste à préparer les données textuelles pour qu'elles soient
compatibles avec le modèle BERT.
Nous allons effectuer un histogramme, l'objectif est d'obtenir un aperçu visuel de la distribution
du nombre de mots dans les titres du jeu de données d'entraînement. Cette visualisation peut
aider à comprendre comment les titres sont répartis en fonction de leur longueur en mots, ce
qui peut fournir des informations utiles pour la préparation des données et la modélisation.

Figure 21 : l'histogramme du nombre de mots dans le "titre".

 Tokenisation et encodage des données à l'aide du tokenizer BERT.

Figure 22 : Fonctionnalité de Bert Tokenizer

53
Ce code illustre l'utilisation de la fonctionnalité de tokenizer de BERT pour encoder un
ensemble de données d'exemple. L'encodage de texte avec BERT tokenizer convertit les
phrases en identifiants numériques (input_ids) qui peuvent être traités par le modèle BERT.

 Conversion des données encodées en tenseurs PyTorch

Dans ce code ci-dessous, les séquences d'entrée encodées (identifiants de tokens), les masques
d'attention et les labels sont convertis en tenseurs PyTorch. Ces tenseurs seront utilisés pour
alimenter le modèle BERT lors de l'entraînement et de l'évaluation. Chaque ensemble de
données (entraînement, validation, test) est ainsi préparé sous forme de tenseurs pour être
utilisé dans le processus d'apprentissage.

Figure 23: Conversion des listes en tenseurs

 Définition des chargeurs de données (DataLoader)

Figure 24: DataLoader

54
La définition de la structure du chargeur de données (data loader) pour le modèle BERT :
 Importation des bibliothèques requises.
 Définition de la taille du lot (batch size) à 32.
 Création des ensembles de données Tensor pour les données d'entraînement et de
validation.
 Configuration des échantillonneurs (samplers) : utilisation de RandomSampler pour
l'entraînement et SequentialSampler pour la validation.
 Création des chargeurs de données (DataLoader) distincts pour les ensembles
d'entraînement et de validation.

4.4. Implémentation du modèle


Nous avons figé les couches du modèle (Freeze Layers), qui consiste à parcourir l'ensemble
des paramètres du modèle BERT et définit l'attribut requires_grad à False, ce qui indique que
les gradients ne doivent pas être calculés pour ces paramètres pendant le processus
d'entraînement. Nous allons par la suite :

4.4.1. Définir l'architecture du modèle

Figure 25: Architecture du model

55
Ce code définit une architecture de modèle basée sur BERT pour la classification de texte
binaire, où le modèle BERT pré-entraîné est suivi de couches linéaires et d'activations pour
effectuer la classification.

4.4.2. Définir la fonction d'entraînement et d'évaluation


Cette étape consiste à définir des fonctions d'entraînement (train) et d'évaluation (evaluate)
personnalisées.
Dans la fonction d'entraînement, itérer à travers les lots, calculer la perte, effectuer la
rétropropagation et mettre à jour les paramètres.
Dans la fonction d'évaluation, évaluer les performances du modèle sur l'ensemble de validation.

4.4.3. Entraînement du modèle


Ce code effectue l'entraînement de votre modèle sur plusieurs époques et enregistre le modèle
avec la meilleure perte de validation. Les pertes d'entraînement et de validation sont stockées
dans des listes pour une analyse ultérieure. Assurez-vous d'ajuster les paramètres selon vos
besoins et d'adapter le code à votre configuration.

Figure 26: Entrainement du model

4.4.4. La performance du modèle

56
Figure 27: Précision du modèle

 Interprétation des mesures de performance du modèle de prédiction :

 Précision (Precision) : Nous avons une précision élevée pour la classe des "bonnes
informations" (classe 0). Cette précision indique que lorsque le modèle prédit que
l'information est correcte, il a raison dans 84% des cas. Cela suggère que le modèle est
bon pour identifier les vraies informations.
 Rappel (Recall) : Le rappel élevé pour la classe des "fausses informations" (classe 1)
signifie que le modèle réussit à capturer 92% de toutes les fausses informations
présentes dans les données. Cela montre que le modèle est sensible à la détection des
fausses informations.
 F1-Score : Le F1-score élevé pour les deux classes indique que votre modèle parvient
à trouver un équilibre entre la précision et le rappel, ce qui est important pour une tâche
comme la détection de fausses informations. Cela signifie que le modèle est capable de
bien performer dans les deux aspects de la classification.
 Accuracy (Précision globale) : L'accuracy de 0.88 démontre que votre modèle prédit
correctement environ 88% de toutes les instances.
 Macro Avg et Weighted Avg : Les valeurs pour "macro avg" et "weighted avg" étant
égales à 0.88, cela renforce l'idée d'une performance globale équilibrée de notre modèle.

 Prédiction des fausses informations


Dans cette dernière partie de notre analyse nous effectuons un test, le code ci-dessous est utilisé
pour tester notre modèle de détection de fausses informations sur des données non vues
auparavant. Nous fournissons une liste de phrases “nouveau_texte” que nous souhaitons tester.
Le tokenizer convertit ces phrases en séquences d'entrée et génère des masques d'attention.
Ensuite, le modèle effectue des prédictions sur ces séquences. La variable preds contient les
prédictions du modèle (0 pour vraie information, 1 pour fausse information) pour chaque

57
phrase dans la liste. Cela nous permet d'évaluer la performance de notre modèle sur des données
inédites.

Figure 28: Prédiction et test

4.5. Conclusion
Dans cette étude, notre objectif primordial a été la détection des fausses informations. Nous
avons choisi de nous concentrer sur l'analyse textuelle en utilisant des techniques avancées de
traitement du langage naturel (NLP) pour classifier ces informations trompeuses. Les "fake
news", ou fausses nouvelles, sont une forme de désinformation qui se propage largement sur
les réseaux sociaux dans le but de tromper l'opinion publique, de nuire à des individus ou de
discréditer des institutions. En réponse à la croissance exponentielle des fausses nouvelles ces
dernières années et à l'absence de mécanismes fiables pour détecter ces rumeurs, il est impératif
de mettre en place des méthodes intelligentes pour démystifier ces informations.
Nos résultats confirment l'efficacité de notre approche basée sur le traitement du langage
naturel pour la détection des fausses informations. Ils ouvrent la voie à des applications
potentielles pour aider les utilisateurs à filtrer et à vérifier l'information qu'ils rencontrent en
ligne.

58
CONCLUSION GENERALE

En réponse à la diffusion incontrôlée de fausses informations et de deepfakes sur les réseaux


sociaux, ce mémoire a exploré une approche basée sur l'intelligence artificielle et le traitement
du langage naturel pour leur détection. Les chapitres successifs ont révélé la complexité du
problème et l'importance des techniques d'apprentissage approfondi. L'efficacité de l'approche
a été validée par nos modèles et résultats expérimentaux.
Ce mémoire témoigne de l'évolution constante de la lutte contre les fakes news, nécessitant une
approche multidisciplinaire. La convergence de l'IA, du NLP et de la gestion ouvre des
perspectives prometteuses pour garantir l'intégrité de l'information en ligne. À l'avenir, la
recherche continue dans ce domaine offrira des solutions encore plus robustes pour contrer le
défi croissant des informations trompeuses.
Cependant, comme perspectives nous avons :

 Expansion à d'autres langues : Une étape pertinente serait de tester et d'adapter le


modèle pour d'autres langues, comme le français ou l'espagnol. Cela permettrait
d'évaluer sa performance dans des contextes linguistiques variés.
 Exploration des techniques de NLP avancées : L'exploration de techniques
complémentaires de traitement du langage naturel, comme Word2Vec et GloVe,
pourrait renforcer la précision et la généralisation du modèle.
 Variété de classificateurs et fonctionnalités : L'expérimentation avec différents
classificateurs ainsi que l'intégration de nouvelles fonctionnalités pourraient optimiser
les performances en capturant des informations pertinentes pour la classification.
 Classification de classes mixtes : En étendant le modèle pour traiter des classes autres
que simplement positives et négatives, on pourrait mieux répondre aux nuances et aux
complexités des informations trompeuses.
 Interface utilisateur conviviale : Le développement d'une interface graphique
intuitive permettrait aux utilisateurs de bénéficier de façon pratique du modèle, même
sans compétences techniques approfondies.
 Détection de fausses informations multimédia (deepfakes) : Dans le contexte de la
montée en puissance des contenus multimédias falsifiés (deepfakes), une extension du
modèle pour détecter ces formes de désinformation visuelle et auditive constituerait une
avancée cruciale dans la lutte contre les fausses informations.

59
BUDGET

Aucune dépense n'a été engagée dans le cadre de ce projet. Les ressources matérielles utilisées,
y compris un ordinateur personnel (Intel Core i7 de 11e génération), ainsi que les logiciels,
bibliothèques et outils nécessaires pour le traitement du langage naturel (NLP) et
l'apprentissage automatique, étaient déjà disponibles. L'accès à Internet et l'électricité pour
l'utilisation de l'ordinateur personnel ont été inclus dans les ressources existantes. Les
ensembles de données utilisés pour l'entraînement et les tests étaient gratuits et accessibles en
ligne. Aucun service cloud payant n'a été utilisé pour ce projet, et aucune autre dépense
indirecte n'a été nécessaire. Par conséquent, le coût total du projet est évalué à zéro.

60
BIBLIOGRAPHIE

Nous présentons la liste complète des références citées :

[1] : Dajana Kapusova Leconte “ développement d’un logiciel de réseau social comme soutien
à une communauté de pratique ”, Mémoire présenté pour l’obtention du DESS STAF Sciences
et Technologies de l’Apprentissage et de la Formation TECFA, Juin 2008.

[2] : https://fr.wikipedia.org/wiki/R%C3%A9seau_social (le 02/07/2023)

[3] : Figure 1 : Zachary, Wayne W. 1977. « Un modèle de flux d’information pour les conflits
et la fission en petits groupes. » Journal of Anthropological Research 33 (4) : 452-73. [4] :
https://fr.statista.com/themes/9141/les-reseaux-sociaux/#topicOverview (le 02/07/2023)

[5] : https://fr.statista.com/statistiques/570671/media-sociaux-taux-de-penetration-globale-en-
-par-region/ (le 02/07/2023)

[6] : https://www.jepense.org/fake-news-definition/ (le 02/07/2023)

[7] : Trump claims vaccines and autism are linked but his own experts vehemently disagree :

https://www.independent.co.uk/news/world/americas/trump-vaccines-autism-links-anti-
vaxxer-us-president-false-vaccine-a8331836.html

[8] : https://www.who.int/europe/fr/news/item/01-09-2022-infodemics-and-misinformation-
negatively-affect-people-s-health-behaviours--new-who-review-finds (le 03/07/2023)

[9] : Identifying and Countering Fake News by Mark Verstraete, Derek E. Bambauer, Jane R.
Bambauer :: SSRN Add Paper to My Library Identifying and Countering Fake News 73
Hastings L.J. 821 (2022) 40 Pages Posted: 26 Jul 2017 Last revised: 9 Jun 2023 Mark
Verstraete UCLA School of Law Derek E. Bambauer University of Arizona - James E. Rogers
College of Law Jane R. Bambauer University of Arizona - James E. Rogers College of Law;
University of Florida Levin College of Law; University of Florida - College of Journalism &
Communication Date Written: February 1, 2021 Abstract Fake news presents a complex
regulatory challenge in the increasingly democratized and intermediated on-line information
ecosystem.

[10] : https://fr.wikipedia.org/wiki/Deepfake

61
[11] : https://fr.style.yahoo.com/enora-malagr%C3%A9-victime-deepfake-traumatisme-
153000783.html

[12] : https://www.lebigdata.fr/deepfakes-ia-realisme

[13] : https://www.radiofrance.fr/franceinter/les-fausses-images-de-macron-en-eboueur-et-de-
trump-en-prison-montrent-l-incroyable-potentiel-de-l-ia-2140206

[14] : https://www.lebigdata.fr/deepfake-tout-savoir

[15] : Qazvinian, V., E. Rosengren, D. R. Radev, et Q. Mei (2011). Rumor has it :

Identifying misinformation in microblogs. In Proceedings of the CEMNLP, pp.1589–1599.


ACL

[16] : Hamidian, S. et M. Diab (2015). Rumor detection and classification for twitter data. In
SOTICS 2015, pp. 71–77.

[17] : Gupta, A., P. Kumaraguru, C. Castillo, et P. Meier (2014). Tweetcred : Realtime


credibility assessment of content on twitter. In ICSI, pp. 228–243. Springer.

[18] : Castillo, C., M. Mendoza, et B. Poblete (2011). Information credibility on twitter. In


WWW 2011, pp. 675–684. ACM.

[19] : Gupta, M., P. Zhao, et J. Han (2012). Evaluating event credibility on twitter. In
Proceedings of the 2012 SIAM International Conference on Data Mining, pp.153– 164. SIAM

[20] : Gupta, M., P. Zhao, et J. Han (2012). Evaluating event credibility on twitter. In
Proceedings of the 2012 SIAM International Conference on Data Mining, pp. 153–164. SIAM

[21] : Jin, Z., J. Cao, Y.-G. Jiang, et Y. Zhang (2014). News credibility evaluation on microblog
with a hierarchical propagation model. In ICDM 2014, pp. 230–239. IEEE

[22] : Zhao, Z., P. Resnick, et Q. Mei (2015). Enquiring minds : Early detection of rumors in
social media from enquiry posts. In WWWW 2015, pp. 1395–1405.

[23] : Ma, J., W. Gao, P. Mitra, S. Kwon, B. J. Jansen, K.-F. Wong, et M. Cha (2016). Detecting
rumors from microblogs with recurrent neural networks. In IJCAI, pp. 3818–3824

[24] : Chen, T., X. Li, H. Yin, et J. Zhang (2018). Call attention to rumors : Deep attention
based recurrent neural networks for early rumor detection. In PAKDD 2018, pp. 40–52.
Springer.

62
[25] : Jin, Z., J. Cao, Y. Zhang, J. Zhou, et Q. Tian (2017). Novel visual and statistical image
features for microblogs news verification. IEEE transactions on multimedia 19(3), 598–608

[26] : Yu, F., Q. Liu, S. Wu, L. Wang, T. Tan, et al. (2017). A convolutional approach for
misinformation identification. In IJCAI, pp. 3901–3907.

[27] : https://fr.wikipedia.org/wiki/Intelligence_artificielle (le 10/07/2023)

[28] : https://geekflare.com/fr/understanding-al-ml-dl/ (le 10/07/2023)

[29] : https://www.developers.dev/tech-talk/fr/technology/differences-between-ai-ml-and-
dl.html (le 10/07/2023)

[30] : https://fr.wikipedia.org/wiki/Apprentissage_supervis%C3%A9 (le 15/07/2023)

[31] : https://www.journaldunet.fr/web-tech/guide-de-l-intelligence-artificielle/1501311-
apprentissage-supervise/ (le 16/07/2023)

[32] : https://blent.ai/blog/a/apprentissage-supervise-definition (le 18/07/2023)

[33] : https://fr.linedata.com/quest-ce-que-lapprentissage-supervise (le 18/07/2023)

[34] : https://fr.linedata.com/quest-ce-que-lapprentissage-non-supervise (le 18/07/2023)

[35] : https://intelligence-artificielle.com/apprentissage-supervise-et-non-supervise/ (le


18/07/2023)

[36] : https://fr.abcdef.wiki/wiki/Semi-supervised_learning (le 18/07/2023)

[37] : https://askanydifference.com/fr/difference-between-semi-supervised-and-
reinforcement-learning/ (le 18/07/2023)

[38] : https://datafranca.org/wiki/Apprentissage_semi-supervis%25C3%25A9 (le 18/07/2023)

[39] : https://www.futura-sciences.com/tech/definitions/intelligence-artificielle-deep-learning-
17262/ (le 18/07/2023)

[40] : Les CNN s'appliquent beaucoup plus au traitement d'images, aussi au traitement du
langage naturel « NLP » et à d'autres types de tâches cognitives.

[41] : https://www.researchgate.net/figure/CNN-model-general-architecture_fig1_356254358
(le 19/07/2023)

[42] https://intelligence-artificielle.com/nlp-guide-complet/ (le 30/07/2023)

63
[43] : https://www.journaldunet.fr/web-tech/guide-de-l-intelligence-artificielle/1501887-
natural-language-processing-nlp/ (le 02/02/2023)

[44] : https://www.lebigdata.fr/traitement-naturel-du-langage-nlp-definition (le 02/08/2023)

[45] : https://www.tetrel.ai/en/blog/nlp-syntax-and-sematic-analysis/ (le 02/08/2023)

[46] : https://www.educative.io/courses/data-analysis-processing-with-
pandas/NEzEYXJgp5m (le 02/08/2023)

[47] : https://monkeylearn.com/blog/twitter-word-cloud/ (le 03/08/2023)

64

Vous aimerez peut-être aussi