Vous êtes sur la page 1sur 32

République algérienne démocratique et populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scientifique


Université Mohamed Khider – BISKRA
Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie
Département d’informatique

Thèse présentée pour l’obtention du diplôme de :


DOCTORAT EN SCIENCES
Spécialité : Informatique

Thème
Fouille de données dynamique basée sur la stabilité des modèles dynamiques

Présentée par : Directeur de thèse:


Naili Makhlouf Pr. Bourahla Mustapha

1
PLAN

Introduction
La fouille de données
dynamiques

Les modèles de la
fouille de données La fouille de données
dynamiques dynamiques basée sur la
simulation à base d’agents
sociales
Le cas d’étude (l’évacuation
d’un supermarché)

Conclusion
2
INTRODUCTION

3
INTRODUCTION

• Le DM est une partie de processus ECD qui


contient essentiellement la collection, le
prétraitement, la fouille et le posttraitement de
données.
• L’opération de collection de données peut prendre
une longue durée, ou bien les données sont
insuffisantes, manquantes ou erronées.
• Pour résoudre ces problèmes, nous envisageons
une solution basée sur la modélisation des systèmes
à l’aide des modèles dynamiques et d’étudier leur
stabilité.
• Les modèles dynamiques stables nous fournissent
une base pour le Data Mining Dynamique.

4
LA FOUILLE DE DONNÉES
DYNAMIQUES

5
MOTIVATIONS DE LA FOUILLE DE DONNÉES DYNAMIQUES

• Lors de DM, on peut trouver des problèmes concernant les données comme:
• Les données dynamiques, qui se changent continuellement durant le temps.
• L’indisponibilité de données en bon moment ou en bon quantité.
• L’obtention de telles données est souvent fastidieuse, coûteuse et prend beaucoup de
temps.
• La construction de modèle de DM à partir de zéro entraînent la perte de toutes les
informations intelligentes recueillies précédemment.
• La combinaison de données historiques et de nouvelles données n'est pas toujours
possible si les données historiques sont supprimées, perdues ou indisponibles.
• Par conséquent, la fouille de données dynamiques est apparue comme un nouveau
domaine dérivé de la fouille de données conventionnelle, dans laquelle de nouveaux
concepts, méthode et modèles sont développés afin de résoudre ces différents types de
problèmes.

6
APPLICATION DE FOUILLE DE DONNÉES DYNAMIQUE

détection de fraude La gestion dynamique Le E-Commerce[3]


par carte de crédit du trafic routier [2]
[1].

[1] lejournaldejoliette.ca
[2](obamaths.blogspot.com)
[3] algeriaentreprise.com 7
P ROCE SSUS DE L A
FOUI L LE DE DONNÉ E S
DYNAMI QUE
La fouille de données dynamiques
permet de Mettre à jour
dynamiquement les connaissances
acquises lors d’un processus de
fouille de données préliminaire. Ainsi
que, traiter des aspects
dynamiques(Ex: les séries
temporelles et les flux de données)
dans n’importe quelle étape du
processus de la fouille de données
conventionnelles.

8
MODÈLES DE FOUILLES DE
DONNÉES DYNAMIQUES

9
Les modèles de la • Les types de données traitées (multimédias, texte, web, etc.),
fouille de données • Les tâches effectuées (clustering, classification, règles
d’association, etc.)
peuvent être • Les domaines d’application (le commerce électronique, la
classés selon: télécommunication, la biologie, etc.)

Les modèles de la • De plus, ils doivent être aussi pertinents pour adapter avec les
données dynamiques, ce qui engendre également plusieurs
fouille de données types de modèles dynamiques, par exemple : les réseaux
bayésiens dynamiques, les arbres de décision dynamique et les
dynamiques réseaux de neurones dynamiques.

10
EXEMPLES DE MODÈLES DE FOUILLE DE DONNÉES
DYNAMIQUE

La classification • Les modèles de régression ou de classification doivent être mis à jour


et la régression au fil du temps lorsque de nouveaux exemples d’apprentissage
dynamique représentent des modèles différents.

• l'ensemble de données est collecté pendant un intervalle de temps et


Le clustering peut être utilisé pour produire la première configuration de cluster.
dynamique Ensuite, l'état de cet ensemble de données est modifié en raison de
l'ajout, de la suppression ou de la modification de données.

Les réseaux de • Ce qui les distingue des réseaux de neurones plus connus est
l'existence de cycles fermés dans la topologie de connexion ; en
neurones conséquence de ces cycles, ces RNN peuvent présenter une
dynamiques dynamique autonome en l'absence de tout apport.

11
FOUILLE DE DONNÉES DYNAMIQUE
BASÉE SUR LA SIMULATION SOCIALE
À BASE D’AGENTS

12
FOUILLE DE DONNÉES DYNAMIQUE BASÉE SUR LA
SIMULATION SOCIALE À BASE D’AGENTS

• Vu l’importance de l’obtention de données nécessaires pour une étude de fouille de données. Surtout dans
le cas où les données ne sont pas complètes ou ne sont pas encore collectées. La solution proposée est
l’utilisation d’un modèle dynamique qui peut générer cet ensemble de données nécessaires. Ce type de
modèle dynamique est un modèle de simulation sociale.
• Pour surmonter ces défis, nous pouvons utiliser la simulation à base d’agents sociaux pour construire un
modèle de simulation sociale dynamique qui peut refléter très bien les comportements d’une société
donnée en fonction de ceux de ses individus.
• En outre, l'application de la méthode de Monte-Carlo sur le modèle de simulation sociale à base d’agents, à
des fins expérimentales et analytiques peut aider à mieux comprendre les systèmes étudiés. Dans le
chapitre présent, nous discutons ces concepts susmentionnés en plus de détail.

13
LA SIMULATION
INFORMATIQUE
Identifier le système à
étudier
La simulation informatique est le
processus de conception d’un
modèle informatique qui simule
un système puis effectue des Construire un modèle
expériences en utilisant ce Analyser les résultats
conceptuel du système
d’expériences réalisés
modèle pour comprendre le étudié
comportement du système réel
et évaluer des stratégies
différentes d'exploitation. La
simulation informatique contient
généralement les tâches suivantes
:
Conduire des Construire un modèle
expériences en utilisant opérationnel qui simule
le modèle opérationnel ce système

14
LA SIMULATION SOCIALE

• L'un des principaux défis de la simulation sociale est l'étude de l'émergence de macro-propriétés à partir
de micro-interactions ou interactions à un niveau inférieur; c.-à-d. clarifier le lien entre les phénomènes
sociaux considérés au niveau de la société et les phénomènes locaux au niveau d’individus.
• Un autre défi majeur est de présenter l'aspect dynamique de la simulation, c.-à-d. étudier l'importance de
l'évolution du système en tant que système dynamique et le rôle du temps dans les phénomènes sociaux
étudiés.

15
LA MODÉLISATION
La modélisation à base d’agents À B ASE D’AGENTS
est utilisée pour modéliser de
nombreux systèmes dynamiques
et complexes, notamment ceux
qui incluent des individus
autonomes tels que des sociétés
humaines, des sociétés animales,
des robots, des sociétés
d'insectes, etc. Elle nous permet
de représenter l'évolution d'un
ensemble d'agents dans un
environnement où l'organisation
et l'interaction entre agents sont
essentielles.

16
LA STRUCTURE D’UN MODÈLE À BASE D’AGENTS

• Principalement, un modèle à base d’agents consiste en un ensemble organisé d'agents interagissant dans un
environnement commun. Ce système a également une frontière clairement définie avec des entrées et des
sorties bien définies. Un modèle type basé sur les agents comporte généralement trois éléments :
i. Un ensemble d'agents, leurs attributs et leurs comportements.
ii. Un ensemble de relations entre agents et de méthodes d'interaction : Une topologie sous-jacente de la
connectivité définit comment et avec qui les agents interagissent.
iii. L’environnement des agents : les agents interagissent avec leur environnement en plus d’autres agents.
• Pour développer un modèle à base d’agents, il faut identifier, modéliser et programmer ces éléments. Un
modèle opérationnel permettant de simuler les comportements et les interactions d'agent est ensuite
nécessaire pour exécuter le modèle. Une boîte à outils de modélisation à base d’agents, un langage de
programmation ou une autre implémentation fournit cette fonctionnalité.
• Pour exécuter un modèle basé sur un agent, les agents doivent exécuter de manière répétée leurs
comportements et leurs interactions. Ce processus fonctionne souvent sur la base d’un compteur de
temps comme dans des structures de simulation à événements discrets.

17
LA SIMULATION SOCIALE À BASE D’AGENTS

• La simulation en sociologie cherche à


modéliser certains phénomènes observés
dans une
société donnée.
• De plus, l'expressivité du modèle basé sur
les agents facilite le dialogue avec les non-
modélisateurs ou les non-spécialistes des
sciences sociales, et permet d'inclure
explicitement des modèles d'individus au
sens sociologique dans le système
modélisé.
• L'application de l'ABM dans la simulation
sociale est appelée ABSS (Agent-Based
Social Simulation), ou la simulation sociale
à base d’agents. Par conséquent, ce type
de simulation représente une zone
d'intersection de la simulation
informatique, la modélisation à base
d'agents et les sciences sociales.

18
LE CONCEPT D'ÉTAT STABLE DANS L’ABSS

• Selon la théorie des systèmes dynamiques, un


système est à l'état stable si les variables qui
définissent le comportement de ce système ne se
changent pas dans le temps.
• Plus formellement, en temps continu, cela signifie
que pour chaque propriété du système, la dérivée
partielle par rapport au temps est nulle, En temps
discret, cela signifie que la variation de chaque
propriété ̀est nulle.
• Cependant, les points fixes qu'un système peut
posséder peuvent être divisés en trois types, Soit P
un point fixe :

• P est appelé stable, si pour toutes les valeurs de départ


près de P , le système ne reste pas seulement à
proximité de P, mais converge vers P .
• P est appelé marginalement stable ou neutre, si pour
toutes les valeurs de départ près de P , le système reste
près de P mais ne converge pas vers P.
• P est appelé instable s'il n'est ni stable ni marginalement
stable, c.-à-d. il existe des valeurs de départ très
proches de de sorte que le système s'éloigne de P.

19
L’APPLIC ATION DE LA MÉTHODE DE MONTE -C ARLO DANS
L’ABSS

• La méthode de Monte-Carlo est une technique heuristique dans laquelle une grande quantité de nombres
générés aléatoirement est étudiée en utilisant un modèle probabiliste pour trouver une solution
approximative à un problème numérique qui serait difficile à résoudre en suivant d'autres méthodes.
• Afin d'avoir une bonne connaissance du comportement des systèmes sociaux (comme le problème
d’évacuation), qui sont simulés par des modèles dynamiques tels les modèles ABSS, il est nécessaire
d'obtenir des résultats de simulation stables, c'est pourquoi notre proposition profite de la méthode de
Monte-Carlo dans le processus ABSS, afin de tirer des conclusions plus stables et plus générales, en
effectuant un grand nombre d’expériences avec des échantillons aléatoires des paramètres d’entrée. Cet
ensemble d’expériences permet d’avoir des informations statistiques (par exemple, la valeur moyenne et la
variance d’un paramètre de sorties) concernant les résultats finals de la simulation.
• Dans le même contexte, lorsque le nombre d’expériences est suffisamment grande et sur la base du
théorème de la limite centrale, on peut estimer une distribution normale approximative de la valeur
moyenne μ d’une variable aléatoires de résultats.

20
LE CAS D’ÉTUDE

21
LE CAS D’ÉTUDE (L’ÉVACUATION DES SUPERMARCHÉS)

• L'évacuation d'urgence est l'évasion urgente et immédiate de personnes loin d'une zone qui détient une
menace imminente. À titre d'exemple, l'évacuation à petite échelle d'un bâtiment en raison d'une attaque
armée ou d'un incendie ; ou bien l'évacuation à grande échelle des villes en raison d'inondations, de
tornades ou de bombardements. Dans certaines situations comme la propagation d’une épidémie, des
matières dangereuses ou une contamination possible, les personnes évacuées peuvent être décontaminées
avant d'être transportées hors de la zone contaminée.
• Dans cette étude, nous abordons la simulation d'un système d'évacuation de supermarché en cas
d'incendie. Le supermarché est un établissement de vente au détail en libre-service, où le bâtiment contient
différents produits, plusieurs étages, des portes, des caisses, etc. Sur la base du processus de simulation
informatique et des concepts discutés précédemment, les étapes de la simulation d'un système d'évacuation
d'un supermarché sont discutées en plus de détail dans ce qui suit.

22
LA SPÉCIFICATION DU SYSTÈME ÉTUDIÉ

• Les systèmes d'évacuation des supermarchés sont considérés comme des systèmes dynamiques et
complexes. Dans ce type de systèmes, nous devons faire face au problème d’évacuation d'un grand nombre
de personnes de différentes caractéristiques, dans des immeubles ayant des caractéristiques différentes
comme les positions des rangées d'étagères et les positions des portes de sortie.
• Le modèle dynamique proposé dans cette étude est un modèle de simulation sociale à base d’agents. Ce
type de modèles permet de modéliser et visualiser le comportement dynamique du système global via les
comportements de ses entités internes qui interagissent entre eux.
• De plus, nous utilisons deux concepts qui traitent la notion de stabilité, à savoir le concept d’état stable afin
d’obtenir des résultats plus stables des expériences effectuées, où ces résultats avec les données d’entrées
représentent l’ensemble de données initiales pour effectuer une étude de fouille de données dynamiques,
ainsi que la méthode de Monté Carlo pour estimer les caractéristiques globales du modèle via une
approche probabiliste.

23
LA CONCEPTION DU MODÈLE OPÉRATIONNEL

• En raison de sa simplicité et de sa richesse en termes de diagrammes, le langage UML (Unified Modelling


Language) est considéré comme un bon choix pour concevoir le modèle de simulation.
• Dans ce contexte, nous utilisons le diagramme de classes pour décrire les éléments essentiels du système,
tels que les personnes qui se déplacent dans le supermarché et la structure interne du supermarché. De
plus, le diagramme d’états-transitions est utilisé pour décrire les comportements dynamiques des
personnes dans le supermarché. Les comportements des personnes sont divisés en deux types, l'un lié aux
individus indépendants et l'autre aux enfants qui suivent les adultes.

24
L’IMPLÉMENTATION DU MODÈLE OPÉRATIONNEL

• Pour implémenter le modèle opérationnel nous utilisons des outils divers, à savoir, l’environnement NetLogo, l’environnement R
et le package RNetLogo. Nous présentons brièvement ces environnements de développement dans les paragraphes suivants.

La plateforme NetLogo est un environnement de modélisation programmable pour la simulation de phénomènes naturels et
sociaux. Netlogo connait quatre types d’agents, Les tortues (turtles) sont les agents qui peuvent se déplacer dans le monde. Le
monde (world) est un espace à deux dimensions qui est divisé en une grille de patches (plaques, carreaux, cases). Chaque patch
est un morceau carré de « sol » sur lequel les tortues peuvent se déplacer. Les liens (links) sont des agents qui relient deux
tortues. L’observateur (observer) n’a pas de position déterminée (on peut l’imaginer regardant d’en haut le monde des tortues
et des patches).
• Pour ce modèle, les personnes sont représentées par des turtles de formes différentes (adulte, personne âgée ou enfant, selon le
type de personnes). Tandis que les patches colorés en marron représentent les rangées d'étagères, les patches colorés en rouge
représentent les murs et les patches colorés en bleu représentent les portes de sortie. Les courbes dans l’interface montrent les
fréquences des individus dans le modèle, de sorte que le noir indique le nombre de morts, le rouge représente le nombre de
blessés et le vert représente le nombre de survivants.
• Le langage R est un environnement de calcul statistique et graphique qui fournit un langage de programmation, de nombreux
graphiques, des fonctions de débogage et des interfaces avec d'autres langages.
• Tandis que, le package RNetLogo fournit une interface pour intégrer la plateforme de modélisation à base d’agents NetLogo dans
l'environnement R sans le mode GUI (interface graphique utilisateur).

25
26
L'EXPÉRIMENTATION ET L'ANALYSE DE RÉSULTATS

• Les expériences sont faites en modifiant les valeurs des paramètres d'entrée afin d'obtenir des résultats
pour des scénarios différents, puis analyser ces résultats pour tirer des connaissances et des conclusions
sur le système étudié. Parmi les paramètres d’entrée que l’on peut utiliser : l’emplacement de départ de
l'incendie, le nombre initial de personnes et l’existence et l’emplacement de matériaux inflammables.
• En ce qui concerne les expériences faites sur le modèle de simulation, nous pouvons distinguer deux types
d'expériences. D'une part, les expériences directes utilisant des valeurs d'entrée déterminées
manuellement, D'autre part, les expériences faites en utilisant des paramètres d'entrée définis
aléatoirement et automatiquement, dans ce cas on considère les paramètres d’entrées comme étant des
variables aléatoires ayant des distributions de probabilité différentes. De plus, nous abordons l'application
de la méthode de Monte-Carlo pour définir la distribution du nombre de victimes, où cette méthode
nécessite un nombre d’expériences très élevé d’expériences en utilisant R, NetLogo et le paquet
RNetLogo.

27
CONCLUSION

28
CONCLUSION

• Dans le cadre de résoudre certains problèmes sociaux, comme l’évacuation des gens dans un supermarché,
par exemple, on a proposé une nouvelle méthode, qui est basée sur la modélisation des systèmes
complexes à base agents.
• Ces modèles sont simulés en utilisant l’outil RNetLogo afin de générer des résultats (données) pour être
fouillés.
• Nous avons utilisé la méthode Monté Carlo comme une méthode de fouille de données afin de définir des
caractéristiques globales, qui nous aident à établir le modèle efficace (par exemple, l’organisation du
supermarché et la sortie efficace d’évacuation).
• Les résultats de cette contribution sont validés par les publications suivantes:

29
Int. J. Simulation and Process Modelling, Vol. 14, No.
1, 2019

30
Engineering Applications of Artificial
Intelligence 77 (2019) 283–310

31
International Conference of Computing for
Engineering and Sciences.
Istanbul, Turkey: 29 July 2 August 2015

32

Vous aimerez peut-être aussi