Vous êtes sur la page 1sur 25

Processus ECD

Le processus ECD est illustré sous la forme d'une séquence itérative des étapes suivantes :

1. Préparation des données (Intégration, Nettoyage, Sélection, Transformation etc….)

2. Modélisation (Fouille de données (Datamining) : Construction des modèles)

3. Évaluation (Identifier les modèles intéressants)

4. Déploiement (Présentation des connaissances)


12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 28
Processus ECD
Compréhension du domaine :
L’identification du problème ou de l’opportunité, est
primordiale dans la réalisation du « processus
d’extraction de connaissances », c’est le facteur
clé du succès de toute fouille de données.
La négligence ou la sous estimation de cette étape,
affectera sérieusement les résultats des projets
menés par la fouille de données et qui
compromettra leur développement.

Exemple :
Une entreprise pharmaceutique qui obtient de
mauvais taux de réponses aux mailings qu’elle
envoie peut profiter de certains outils de fouille
de données de manière à mieux cibler son
courrier.
De même une société de commercialisation et de
promotion de produits pharmaceutiques peut,
grâce à des outils de fouille de données des liens,
identifier des paires de clients qui s’appellent
souvent de manière à, par exemple, leur proposer
une offre spéciale.
12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 29
Préparation des données ?
L’intégration des données :
C’est l’étape qui permet de regrouper et de mettre en forme des
données d'origines diverses au sein d'une seule et même base de
données.
Les données peuvent provenir de différents systèmes de gestion de
bases de données, de fichiers textes, ou bien même de notes
manuscrites.
Le but de l’opération d’intégration est de générer des BDD
spécialisés contenant les données retravaillées pour faciliter leurs
exploitations futures.
Oran

Exemple :
Une pharmacie qui propose des gammes différentes Mascara
de médicaments pour différentes maladies et souhaite
Alger
mieux étudier ses clients en fonction des maladies
traitées pour améliorer sa qualité de services Relizane
(disponibilité des produits).

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 30


Préparation des données ?
L’intégration des données :

Architecture d’un Système d'Information Décisionnel (SID)


12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 31
Préparation des données ?
L’intégration des données :

ETL

Architecture d’un Système d'Information Décisionnel (SID)


12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 32
Préparation des données ?
L’intégration des données :

ETL

Architecture d’un Système d'Information Décisionnel (SID)


12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 33
Préparation des données ?
L’intégration des données :

Le reporting est un ensemble d'indicateurs de


résultat, construit a posteriori, de façon
périodique, afin d'informer la hiérarchie des
performances de l'unité.

ETL

Architecture d’un Système d'Information Décisionnel (SID)


12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 34
Préparation des données ?
L’intégration des données :

Le tableau de bord est un ensemble d'indicateurs de


ETL
pilotage, construits de façon périodique, à l'intention
du responsable, afin de guider ses décisions et ses
actions en vue d'atteindre les objectifs de
performance.
Architecture d’un Système d'Information Décisionnel (SID)
12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 35
Préparation des données ?
L’intégration des données :

ETLde pilotage, le reporting est un outil de contrôle.


Le tableau de bord est un outil
Le reporting a pour objectif en général de contrôler le travail du subordonné.
Le reporting peut aussi permettre de suivre la performance d’une direction ou d’un
département. Par contre un tableau de bord permet le pilotage, le management et même
Architecture
de gestion du changement d’un
dansSystème d'Information Décisionnel (SID)
une entreprise.
12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 36
Préparation des données ?
L’intégration des données :

ETL

Architecture d’un Système d'Information Décisionnel (SID)


12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 37
Préparation des données ?
Le nettoyage des données :
C’est le traitement des données manquantes ou aberrantes.
Certaines données peuvent être absentes et gêner ainsi l’analyse.
Il faut donc définir des règles pour gérer ou pour remplacer ces
données manquantes.
De nombreuses solutions sont proposées, comme le remplacement,
dans le cas des données numériques continues, de toute donnée
manquante par le mode de la distribution statistique (la valeur la plus
fréquente) de l’attribut concerné. Etc…

On peut également chercher à estimer ces valeurs manquantes par des méthodes
d’induction, comme la régression, les réseaux de neurones simples ou multicouches, ou les
graphes d’induction.
Pour le traitement des données aberrantes, il faut d’abord repérer ces données au
moyen d’une règle préétablie. Par exemple, toutes les données numériques dont la valeur
s’écarte de la valeur moyenne plus deux fois l’écart-type, pourraient être considérées
comme des données possiblement aberrantes, et qu’il conviendrait de traiter.

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 38


Préparation des données ?
Le nettoyage des données :
Exemple :
Soit le tableau suivant qui présente une base de données d’une
pharmacie qui propose des gammes différentes de médicaments pour
différentes maladies. Elle souhaite mieux étudier ses clients en
fonction des maladies traitées pour améliorer sa qualité de services
(disponibilité des produits).

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 39


Préparation des données ?
Le nettoyage des données :
Exemple :
Soit le tableau suivant qui présente une base de données d’une
pharmacie qui propose des gammes différentes de médicaments pour
différentes maladies. Elle souhaite mieux étudier ses clients en
fonction des maladies traitées pour améliorer sa qualité de services
(disponibilité des produits).

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 40


Préparation des données ?
Le nettoyage des données :
Exemple :
Soit le tableau suivant qui présente une base de données d’une
pharmacie qui propose des gammes différentes de médicaments pour
différentes maladies. Elle souhaite mieux étudier ses clients en
fonction des maladies traitées pour améliorer sa qualité de services
(disponibilité des produits).

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 41


Préparation des données ?
Le nettoyage des données :
Exemple :
Soit le tableau suivant qui présente une base de données d’une
pharmacie qui propose des gammes différentes de médicaments pour
différentes maladies. Elle souhaite mieux étudier ses clients en
fonction des maladies traitées pour améliorer sa qualité de services
(disponibilité des produits).

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 42


Préparation des données ?
La sélection des données :
Il s’agit de définir un filtre qui permet de sélectionner un sous-
ensemble de lignes (individus) ou de colonnes (attributs).
L’objectif est soit de réduire le nombre de données, soit de
sélectionner les données les plus pertinentes par rapport aux
préoccupations de l’utilisateur.

Les techniques mises en œuvre dans ce but relèvent des méthodes statistiques
d’échantillonnage, de sélection d’instances ou de sélection d’attributs.

Cette sélection peut également s’effectuer selon des conditions exprimées par l’utilisateur.
Par exemple, on peut ne garder que les attributs dont la moyenne est supérieure à un
seuil donné, ou ne conserver que les attributs qui ont un lien statistique significatif avec un
attribut particulier. Ce lien sera évalué à l’aide d’une mesure d’association comme le khi-2 de
Pearson ou le gain informationnel.
La sélection d’attributs est en train de devenir l’un des sujets majeurs de la recherche en
fouille de données.

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 43


Préparation des données ?
La sélection des données :
Exemple :
Soit la base de données précédente d’une pharmacie qui propose
des gammes différentes de médicaments pour différentes maladies.
Elle souhaite mieux étudier ses clients en fonction des maladies
traitées pour améliorer sa qualité de services (disponibilité des
produits).

Le tableau suivant présente le résultat de la sélection. Les clients qui ont des
informations manquantes sont supprimés de la base.

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 44


Préparation des données ?
La transformation des données :
Il s’agit de transformer un attribut A en une autre variable A’ qui
serait, selon les objectifs de l’étude, plus appropriée.
Différentes méthodes sont pratiquées :
1. La discrétisation qui consiste à transformer des attributs continus
en découpant le domaine D de valeurs de ces attributs en intervalles,
afin d’obtenir des attributs qualitatifs. Il existe à cet effet plusieurs
méthodes de discrétisation supervisées ou non, à intervalles de taille
identiques, ou à intervalles à effectifs constants.
On peut également centrer par rapport à la moyenne, et réduire
par l’écart type les valeurs des variables continues.
2. La construction d’agrégats : Dans certaines situations particulières, il peut s’avérer que
des agrégats d’attributs soient très importants pour la tache d’analyse. Un agrégat d’attribut
est un nouvel attribut obtenu selon une transformation précise.
Par exemple, le prix au mètre-carré d’un appartement, défini par le rapport entre le prix
de l’appartement et la surface totale de l’appartement, fournit une indication assez
pertinente pour comparer les appartements ou les quartiers dans les bases de données
spatiales. On peut imaginer une multitude de façons d’obtenir des agrégats, à savoir ACP,
ACM, etc.
12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 45
Préparation des données ?
La transformation des données :
La discrétisation : La méthode de discrétisation CONTRAST a été proposée
par T. Van de Merckt en 1993. Son principe est que, pour discrétiser un
attribut, il faut chercher un point de coupure qui fournit le meilleur
« contraste» entre deux attributs même si les intervalles générés
contiennent des exemples de classes différents, cela revient à trouver les
points de coupure qui maximisent la distance entre deux intervalles tout en
minimisant la distance entre les exemples d‘un même intervalle.

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 46


Préparation des données ?
La transformation des données :

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 47


Préparation des données ?
La transformation des données :

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 48


Préparation des données ?
La transformation des données :

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 49


Préparation des données ?
La transformation des données :

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 50


Préparation des données ?
La transformation des données :
La discrétisation par MDLPC : U. M. Fayyad et K. B. Irani proposent une
méthode de discrétisation binaire dynamique récursive utilisant le Gain
d’Information associé à un critère d’arrêt basé sur le MDLPC (Minimum
Description Lenght Principale Cut).
Le domaine de définition D est découpé, lors de la construction du graphe,
en deux intervalles qui sont à leur tour découpés chacun en deux intervalles,
et ainsi de suite jusqu’à une certaine condition d’arrêt.
Un même attribut ne sera discrétisé et n’apparaîtra qu’une seule fois au
cours de la construction du graphe.

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 51


Préparation des données ?

12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 52

Vous aimerez peut-être aussi