Académique Documents
Professionnel Documents
Culture Documents
Le processus ECD est illustré sous la forme d'une séquence itérative des étapes suivantes :
Exemple :
Une entreprise pharmaceutique qui obtient de
mauvais taux de réponses aux mailings qu’elle
envoie peut profiter de certains outils de fouille
de données de manière à mieux cibler son
courrier.
De même une société de commercialisation et de
promotion de produits pharmaceutiques peut,
grâce à des outils de fouille de données des liens,
identifier des paires de clients qui s’appellent
souvent de manière à, par exemple, leur proposer
une offre spéciale.
12/02/2023 Pr. ATMANI Baghdad - M1 IA&IoT 2023 29
Préparation des données ?
L’intégration des données :
C’est l’étape qui permet de regrouper et de mettre en forme des
données d'origines diverses au sein d'une seule et même base de
données.
Les données peuvent provenir de différents systèmes de gestion de
bases de données, de fichiers textes, ou bien même de notes
manuscrites.
Le but de l’opération d’intégration est de générer des BDD
spécialisés contenant les données retravaillées pour faciliter leurs
exploitations futures.
Oran
Exemple :
Une pharmacie qui propose des gammes différentes Mascara
de médicaments pour différentes maladies et souhaite
Alger
mieux étudier ses clients en fonction des maladies
traitées pour améliorer sa qualité de services Relizane
(disponibilité des produits).
ETL
ETL
ETL
ETL
On peut également chercher à estimer ces valeurs manquantes par des méthodes
d’induction, comme la régression, les réseaux de neurones simples ou multicouches, ou les
graphes d’induction.
Pour le traitement des données aberrantes, il faut d’abord repérer ces données au
moyen d’une règle préétablie. Par exemple, toutes les données numériques dont la valeur
s’écarte de la valeur moyenne plus deux fois l’écart-type, pourraient être considérées
comme des données possiblement aberrantes, et qu’il conviendrait de traiter.
Les techniques mises en œuvre dans ce but relèvent des méthodes statistiques
d’échantillonnage, de sélection d’instances ou de sélection d’attributs.
Cette sélection peut également s’effectuer selon des conditions exprimées par l’utilisateur.
Par exemple, on peut ne garder que les attributs dont la moyenne est supérieure à un
seuil donné, ou ne conserver que les attributs qui ont un lien statistique significatif avec un
attribut particulier. Ce lien sera évalué à l’aide d’une mesure d’association comme le khi-2 de
Pearson ou le gain informationnel.
La sélection d’attributs est en train de devenir l’un des sujets majeurs de la recherche en
fouille de données.
Le tableau suivant présente le résultat de la sélection. Les clients qui ont des
informations manquantes sont supprimés de la base.