FDD Chap 1 12-2-23 PDF

Processus ECD
Le processus ECD est illustré sous la forme d'une séquence itérative des étapes suivantes :
1. Préparation des données (Intégration, Nettoyage, Sélection, Transformation etc….)
2. Modélisation (Fouille de données (Datamining) : Construction des modèles)
3. Évaluation (Identifier les modèles intéressants)
4. Déploiement (Présentation des connaissances)

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 28
Processus ECD
Compréhension du domaine :
L’identification du problème ou de l’opportunité, est
primordiale dans la réalisation du « processus
d’extraction de connaissances », c’est le facteur
clé du succès de toute fouille de données.
La négligence ou la sous estimation de cette étape,
affectera sérieusement les résultats des projets
menés par la fouille de données et qui
compromettra leur développement.
Exemple :
Une entreprise pharmaceutique qui obtient de
mauvais taux de réponses aux mailings qu’elle
envoie peut profiter de certains outils de fouille
de données de manière à mieux cibler son
courrier.
De même une société de commercialisation et de
promotion de produits pharmaceutiques peut,
grâce à des outils de fouille de données des liens,
identifier des paires de clients qui s’appellent
souvent de manière à, par exemple, leur proposer
une offre spéciale.
Préparation des données ?
L’intégration des données :
C’est l’étape qui permet de regrouper et de mettre en forme des
données d'origines diverses au sein d'une seule et même base de
données.
Les données peuvent provenir de différents systèmes de gestion de
bases de données, de fichiers textes, ou bien même de notes
manuscrites.
Le but de l’opération d’intégration est de générer des BDD
spécialisés contenant les données retravaillées pour faciliter leurs
exploitations futures.
Oran
Exemple :
Une pharmacie qui propose des gammes différentes Mascara
de médicaments pour différentes maladies et souhaite
Alger
mieux étudier ses clients en fonction des maladies
traitées pour améliorer sa qualité de services Relizane
(disponibilité des produits).

Architecture d’un Système d'Information Décisionnel (SID)

ETL

ETL

Le reporting est un ensemble d'indicateurs de

résultat, construit a posteriori, de façon
périodique, afin d'informer la hiérarchie des
performances de l'unité.
ETL

Le tableau de bord est un ensemble d'indicateurs de

ETL
pilotage, construits de façon périodique, à l'intention
du responsable, afin de guider ses décisions et ses
actions en vue d'atteindre les objectifs de
performance.
ETLde pilotage, le reporting est un outil de contrôle.

Le tableau de bord est un outil
Le reporting a pour objectif en général de contrôler le travail du subordonné.
Le reporting peut aussi permettre de suivre la performance d’une direction ou d’un
département. Par contre un tableau de bord permet le pilotage, le management et même
Architecture
de gestion du changement d’un
dansSystème d'Information Décisionnel (SID)
une entreprise.
ETL

Le nettoyage des données :
C’est le traitement des données manquantes ou aberrantes.
Certaines données peuvent être absentes et gêner ainsi l’analyse.
Il faut donc définir des règles pour gérer ou pour remplacer ces
données manquantes.
De nombreuses solutions sont proposées, comme le remplacement,
dans le cas des données numériques continues, de toute donnée
manquante par le mode de la distribution statistique (la valeur la plus
fréquente) de l’attribut concerné. Etc…
On peut également chercher à estimer ces valeurs manquantes par des méthodes
d’induction, comme la régression, les réseaux de neurones simples ou multicouches, ou les
graphes d’induction.
Pour le traitement des données aberrantes, il faut d’abord repérer ces données au
moyen d’une règle préétablie. Par exemple, toutes les données numériques dont la valeur
s’écarte de la valeur moyenne plus deux fois l’écart-type, pourraient être considérées
comme des données possiblement aberrantes, et qu’il conviendrait de traiter.

Exemple :
Soit le tableau suivant qui présente une base de données d’une
pharmacie qui propose des gammes différentes de médicaments pour
différentes maladies. Elle souhaite mieux étudier ses clients en
fonction des maladies traitées pour améliorer sa qualité de services

Exemple :

Exemple :

Exemple :

La sélection des données :
Il s’agit de définir un filtre qui permet de sélectionner un sous-
ensemble de lignes (individus) ou de colonnes (attributs).
L’objectif est soit de réduire le nombre de données, soit de
sélectionner les données les plus pertinentes par rapport aux
préoccupations de l’utilisateur.
Les techniques mises en œuvre dans ce but relèvent des méthodes statistiques
d’échantillonnage, de sélection d’instances ou de sélection d’attributs.
Cette sélection peut également s’effectuer selon des conditions exprimées par l’utilisateur.
Par exemple, on peut ne garder que les attributs dont la moyenne est supérieure à un
seuil donné, ou ne conserver que les attributs qui ont un lien statistique significatif avec un
attribut particulier. Ce lien sera évalué à l’aide d’une mesure d’association comme le khi-2 de
Pearson ou le gain informationnel.
La sélection d’attributs est en train de devenir l’un des sujets majeurs de la recherche en
fouille de données.

La sélection des données :
Exemple :
Soit la base de données précédente d’une pharmacie qui propose
des gammes différentes de médicaments pour différentes maladies.
Elle souhaite mieux étudier ses clients en fonction des maladies
traitées pour améliorer sa qualité de services (disponibilité des
produits).
Le tableau suivant présente le résultat de la sélection. Les clients qui ont des
informations manquantes sont supprimés de la base.

La transformation des données :
Il s’agit de transformer un attribut A en une autre variable A’ qui
serait, selon les objectifs de l’étude, plus appropriée.
Différentes méthodes sont pratiquées :
1. La discrétisation qui consiste à transformer des attributs continus
en découpant le domaine D de valeurs de ces attributs en intervalles,
afin d’obtenir des attributs qualitatifs. Il existe à cet effet plusieurs
méthodes de discrétisation supervisées ou non, à intervalles de taille
identiques, ou à intervalles à effectifs constants.
On peut également centrer par rapport à la moyenne, et réduire
par l’écart type les valeurs des variables continues.
2. La construction d’agrégats : Dans certaines situations particulières, il peut s’avérer que
des agrégats d’attributs soient très importants pour la tache d’analyse. Un agrégat d’attribut
est un nouvel attribut obtenu selon une transformation précise.
Par exemple, le prix au mètre-carré d’un appartement, défini par le rapport entre le prix
de l’appartement et la surface totale de l’appartement, fournit une indication assez
pertinente pour comparer les appartements ou les quartiers dans les bases de données
spatiales. On peut imaginer une multitude de façons d’obtenir des agrégats, à savoir ACP,
ACM, etc.
La discrétisation : La méthode de discrétisation CONTRAST a été proposée
par T. Van de Merckt en 1993. Son principe est que, pour discrétiser un
attribut, il faut chercher un point de coupure qui fournit le meilleur
« contraste» entre deux attributs même si les intervalles générés
contiennent des exemples de classes différents, cela revient à trouver les
points de coupure qui maximisent la distance entre deux intervalles tout en
minimisant la distance entre les exemples d‘un même intervalle.





La discrétisation par MDLPC : U. M. Fayyad et K. B. Irani proposent une
méthode de discrétisation binaire dynamique récursive utilisant le Gain
d’Information associé à un critère d’arrêt basé sur le MDLPC (Minimum
Description Lenght Principale Cut).
Le domaine de définition D est découpé, lors de la construction du graphe,
en deux intervalles qui sont à leur tour découpés chacun en deux intervalles,
et ainsi de suite jusqu’à une certaine condition d’arrêt.
Un même attribut ne sera discrétisé et n’apparaîtra qu’une seule fois au
cours de la construction du graphe.


FDD Chap 1 12-2-23 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

FDD Chap 1 12-2-23 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Processus ECD

1. Préparation des données (Intégration, Nettoyage, Sélection, Transformation etc….)

2. Modélisation (Fouille de données (Datamining) : Construction des modèles)

3. Évaluation (Identifier les modèles intéressants)

4. Déploiement (Présentation des connaissances)

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 30

Architecture d’un Système d'Information Décisionnel (SID)

Architecture d’un Système d'Information Décisionnel (SID)

Architecture d’un Système d'Information Décisionnel (SID)

Le reporting est un ensemble d'indicateurs de

Architecture d’un Système d'Information Décisionnel (SID)

Le tableau de bord est un ensemble d'indicateurs de

ETLde pilotage, le reporting est un outil de contrôle.

Architecture d’un Système d'Information Décisionnel (SID)

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 38

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 39

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 40

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 41

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 42

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 43

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 44

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 46

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 47

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 48

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 49

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 50

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 51

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 52

Vous aimerez peut-être aussi