Vous êtes sur la page 1sur 47

Entrepôt et Fouille de Données

Cours 1

EFD-Master M1 RESIN 2023-2024


1
S. Nait Bahloul
Entrepôt et Fouille de Données
❑ Introduction: Système d’information
❑ L’information: capital immatériel pour toute
organisation
o Les « Data»
o Data (Données)
o Database (Base de données)
o Data warehouse (Entrepôt de données)
o Datamart (Magasin de données)
o Data mining (fouille des données)
EFD-Master M1 RESIN 2023-2024
2
S. Nait Bahloul
Bases de donnée
o Données transactionnelles
o Exemple: données de stock, facturation,…
o Modèle de données Le plus utilisé:
Relationnel
o Normalisation: cohérence et non-
redondance des données
o Requêtes: ponctuelles, fréquentes

EFD-Master M1 RESIN 2023-2024


3
S. Nait Bahloul
Entrepôt de données

EFD-Master M1 RESIN 2023-2024


4
S. Nait Bahloul
Entrepôt de données: Architecture de
système d’information décisionnel

EFD-Master M1 RESIN 2023-2024


5
S. Nait Bahloul
Entrepôt de données

❑ Collecte toutes les informations sur tous les sujets pour


l’organisation

❑ Espace de stockage centralisé qui permet de stocker et


d’historiser des données résumées nécessaires à la prise de
décision
EFD-Master M1 RESIN 2023-2024
6
S. Nait Bahloul
Magasin de données

❑ Extrait de l'entrepôt destiné à une classe de décideurs


❑ Modèle multidimensionnel qui facilite les
traitements décisionnels

EFD-Master M1 RESIN 2023-2024


7
S. Nait Bahloul
Outils ETL

Alimentation de l’entrepôt (1) et extraction des magasins (2)

❑ Extract
❑ Accès aux différentes sources
❑ Selon des règles (déclencheurs) ou requêtes
❑ Périodique

EFD-Master M1 RESIN 2023-2024


8
S. Nait Bahloul
Outils ETL
❑ Transform
❑ Unification des modèles (sources hétérogènes)
❑ Gestion des inconsistances des données sources,
élimination des doubles, etc.
❑ Load
❑ Chargement dans l'entrepôt ou dans les magasins
❑ Périodicité parfois longue

EFD-Master M1 RESIN 2023-2024


9
S. Nait Bahloul
Data mining: Processus KDD

EFD-Master M1 RESIN 2023-2024


10
S. Nait Bahloul
La Suite Décisionnelle: Infrastructure
Data Mining

EFD-Master M1 RESIN 2023-2024


11
S. Nait Bahloul
La Suite Décisionnelle:Infrastructure
Data Mining

EFD-Master M1 RESIN 2023-2024


12
S. Nait Bahloul
Data Mining et aide à la décision
Pyramide Décisionnelle

EFD-Master M1 RESIN 2023-2024


13
S. Nait Bahloul
Evolution
❑ 1960 :
➢ Systèmes de gestion de fichiers, collection de données,
bases de données (modèle réseau)
❑ 1970 :
➢ Émergence du modèle relationnel et de son
implémentation
❑ 1980 :
➢ SGBD relationnels, modèles avancés (relationnel étendu,
OO, déductif, etc.) et orientés application (spatial,
scientifique)
❑ 1990 :
➢ Data mining et entrepôts de données, multimédia, et Web

EFD-Master M1 RESIN 2023-2024


14
S. Nait Bahloul
Data Mining: Union des Disciplines Variées

EFD-Master M1 RESIN 2023-2024


15
S. Nait Bahloul
Data Mining et ECD
Une confusion:
❑ Data Mining « fouille de données », et
❑ Knowledge discovery in data bases (KDD),
« extraction des connaissances à partir des données »
(ECD).
❑ Le data mining est l’un des maillons de la chaîne de
traitement pour la découverte des connaissances à
partir des données.
❑ ECD est un véhicule dont le data Mining est le moteur.
❑ Autres appellations: data/pattern analysis,
information harvesting, business intelligence, etc.

EFD-Master M1 RESIN 2023-2024


16
S. Nait Bahloul
Data Mining et ECD
❑ L’ECD, par le biais du data mining, est alors vue
comme une ingénierie pour extraire des
connaissances à partir des données.
❑ L’ECD est un processus complexe qui se déroule
suivant une série d’opérations.
❑ Des étapes de pré-traitement ont lieu avant le
data mining en tant que tel. Le pré-traitement
porte sur l’accès aux données en vue de construire
des datamarts, des corpus de données spécifiques.

EFD-Master M1 RESIN 2023-2024


17
S. Nait Bahloul
Résumé
❑ Data mining: découverte de motifs intéressants partir de
données massives
• Évolution naturelle des technologies des bases de données,
large demande, beaucoup d’applications
❑ Le processus de découverte implique le nettoyage,
l’intégration, la sélection, la transformation et la fouille
des données, suivies de l’évaluation des motifs extraits et
de leur représentation
❑ La fouille peut s’effectuer sur une grande variété
d’entrepôt de données
❑ Fonctionnalités: caractérisation, discrimination,
association, classification, clustering, analyse des tendances
et des outliers, etc.

EFD-Master M1 RESIN 2023-2024


18
S. Nait Bahloul
Data Mining = Fouille de données

Définition :
Processus ou méthode qui extrait des
connaissances « intéressantes » ou des motifs
(patterns) à partir d’une grande quantité de
données.

EFD-Master M1 RESIN 2023-2024


19
S. Nait Bahloul
Data Mining = Fouille de données

Définition
Extraction d’informations ou de motifs
intéressants (non triviaux, implicites, inconnus
auparavant et potentiellement utiles) à partir
de grandes bases de données

EFD-Master M1 RESIN 2023-2024


20
S. Nait Bahloul
Problématique
❑ Objectif
Améliorer les performances décisionnelles de l'entreprise

Comment ?
en répondant aux demandes d’analyse des décideurs

❑ Exemple
✓ clientèle : Qui sont mes clients ? Pourquoi sont-ils mes clients ?
Comment les conserver ou les faire revenir ? Ces clients sont-ils
intéressants pour moi ?
✓ marketing, actions commerciales : Où placer ce produit dans les
rayons ? Comment cibler plus précisément le mailing concernant ce
produit ?
✓ ...
EFD-Master M1 RESIN 2023-2024
21
S. Nait Bahloul
Problématique
❑ Une grande masse de données :
▪ Distribuée
▪ Hétérogène
▪ Très Détaillée
❑ A traiter :
▪ Synthétiser / Résumer
▪ Visualiser
▪ Analyser
❑ Pour une utilisation par :
▪ Des experts et des analystes d'un métier
▪ NON informaticiens
▪ NON statisticiens

EFD-Master M1 RESIN 2023-2024


22
S. Nait Bahloul
Le système d’information
❑ Moyen d’atteindre ces objectifs :
Le Data Warehouse, un système d’information
dédié aux applications décisionnelles

o En Aval des bases de production


(ie bases opérationnelles)
o En Amont des prises de décision

EFD-Master M1 RESIN 2023-2024


23
S. Nait Bahloul
Analyse du marché
❑ Quelles sources de données ?
▪ Transactions bancaires (CB), coupons de
réduction, service clients (plaintes), et aussi
les études publiques de style de vie
❑ Cible marketing
▪ Trouver des groupes « modèles » de clients
qui partagent les mêmes caractéristiques :
intérêts, revenus, habitudes de
consommation, etc.
EFD-Master M1 RESIN 2023-2024
24
S. Nait Bahloul
Analyse du marché
▪ Déterminer les profils d’achat des clients au cours
du temps
Ex : compte joint après le mariage

▪ Cross-market analysis
▪ Associations/corrélations des ventes entre
produits
▪ Prédictions basées sur les associations
d’information

EFD-Master M1 RESIN 2023-2024


25
S. Nait Bahloul
Analyse du marché
❑ Profils client
▪ Quels types de clients achètent quels produits
(clustering ou classification)

❑ dentifier les besoins des clients


▪ Identifier les meilleurs produits pour des clients
différents
▪ Utiliser la prédiction pour trouver quels facteurs
vont attirer des nouveaux clients

EFD-Master M1 RESIN 2023-2024


26
S. Nait Bahloul
Analyse du marché
❑ Fournir une synthèse de l’information
▪ Rapports multidimensionnels variés
▪ Rapports statistiques (tendance générale des
données et variation)

EFD-Master M1 RESIN 2023-2024


27
S. Nait Bahloul
Analyse du marché
❑ Exemples: Détection de fraude
▪ Assurances : détecter les groupes de
personnes qui déclarent des accidents/vols
pour les indemnités
▪ Blanchiment d’argent : détecter les
transactions suspectes (US Treasury's
Financial Crimes Enforcement Network)
▪ Assurance maladie : détecter les patients
professionnels et les docteurs associés
EFD-Master M1 RESIN 2023-2024
28
S. Nait Bahloul
Motivation
Solution : entrepôts de données et data mining

❑ Data warehousing and on-line analytical


processing (OLAP)

❑ Extraction de connaissances (règles, motifs,


contraintes) à partir de grosses bases de
donnée
EFD-Master M1 RESIN 2023-2024
29
S. Nait Bahloul
Étapes impliquées dans le processus
de découverte de connaissances
❑ Apprentissage du domaine d’application :
▪ Connaissances nécessaires et buts de l’application
❑ Création du jeu de données cible : sélection des données
❑ Nettoyage et prétraitement des données (jusqu’à 60% du travail !)
❑ Réduction et transformation des données
▪ Trouver les caractéristiques utiles, dimensionnalité/réduction des
variables
❑ Choix des fonctionnalités data mining
▪ classification, régression, association, clustering
❑ Choix des algorithmes
❑ Data mining : recherche de motifs (patterns) intéressants
❑ Évaluation des motifs et représentation des connaissances
▪ visualisation, transformation, élimination des motifs redondants, etc.
❑ Utilisation des connaissances découvertes

EFD-Master M1 RESIN 2023-2024


30
S. Nait Bahloul
Traitement des données

Principales étapes dans le prétraitement des données

❑ Nettoyage des données


❑ Intégration des données
❑ Transformation des données
❑ Sélection des données
❑ Réduction des données

EFD-Master M1 RESIN 2023-2024


31
S. Nait Bahloul
Traitement des données

❑ Pourquoi prétraiter les données ?


❑ Données réelles souvent
➢ incomplètes : valeurs manquantes, données simplifiées
➢ bruitées : erreurs et exceptions
➢ incohérentes : nommage, codage

• Résultats de la fouille dépendent de la qualité des


données

EFD-Master M1 RESIN 2023-2024


32
S. Nait Bahloul
Nettoyage des données
Objectif :
• Supprimer les données bruitées ou non pertinentes
Questions :
❑ Que faire si certaines données sont manquantes?
➢ Certains clients n’ont pas donné leur adresse.
❑ Toutes les données sont-elles fiables (problèmes
d’inconsistance) ?

EFD-Master M1 RESIN 2023-2024


33
S. Nait Bahloul
Nettoyage des données
➢ Un même article appartient à différentes catégories
(dans des magasins différents).
➢ Le prix d’un même article est très supérieur à la
normale dans un magasin donné.
❑ Que faire si certaines données sont numériques
dans le cas où la technique d’extraction ne peut
manipuler que des données symboliques ?

EFD-Master M1 RESIN 2023-2024


34
S. Nait Bahloul
Nettoyage de Données
-Données manquantes
❑ Données non disponibles
➢ certains attributs n’ont pas de valeur
❑ Raisons:
➢ mauvais fonctionnement de l’équipement
➢ incohérences avec d’autres données et donc
supprimées
➢ non saisies car non ou mal comprises
➢ considérées peu importantes au moment de la
saisie
❑ Ces données doivent être inférées
EFD-Master M1 RESIN 2023-2024
35
S. Nait Bahloul
Nettoyage des donnée
- Données manquantes-
Solutions :Comment y remédier et remplir le manque?

❑ Ne pas tenir compte des tuples contenant des


données manquantes (valeurs nulles).
❑ Remplir manuellement les champs non remplis.
❑ Utiliser les valeurs connues :
➢ Remplacer un salaire manquant par le salaire
médian des clients.
➢ Prédire les valeurs manquantes, en le déduisant d’autres
paramètres (salaire à partir de l’âge et de la profession).

EFD-Master M1 RESIN 2023-2024


36
S. Nait Bahloul
Données manquantes-
❑ Ignorer le tuple
➢ peu efficace quand le pourcentage de valeurs
manquantes est élevé
❑ Compléter manuellement les données
➢ Acte pénible ou infaisable
❑ Utiliser la moyenne de l’attribut

EFD-Master M1 RESIN 2023-2024


37
S. Nait Bahloul
Nettoyage des données
-Données bruitées-
❑ Bruit : erreur ou variance aléatoire d’une
variable mesurée
❑ Raisons :
➢ Instrument de mesure défectueux
➢ Problème de saisie
➢ Problème de transmission
➢ Limitation technologique
➢ Incohérence dans les conventions de nommage
➢ enregistrement dupliqués
➢ Etc….
EFD-Master M1 RESIN 2023-2024
38
S. Nait Bahloul
Nettoyage des données
-Données bruitées-
❑ Solutions :
❑ Techniques de lissage (data smoothing) :
➢ trier et partitionner les données
➢ lisser les partitions par la moyenne, la médiane, les
bornes, …
❑ Exemple:
➢ - Trier les différentes valeurs de l’attribut considéré .
{4, 8, 15, 21, 21, 24, 25, 28, 34}
- Partitionner l’ensemble résultat.
{{4, 8, 15}, {21, 21, 24}, {25, 28, 34}}

EFD-Master M1 RESIN 2023-2024


39
S. Nait Bahloul
Nettoyage des données
-Données bruitées-
➢ Remplacer les valeurs initiales par de nouvelles
valeurs en fonction du partitionnement réalisé :
- par la valeur moyenne des regroupements réalisés
{9, 22, 29}
- par les min et max des regroupements réalisés.
{{4, 4, 15}, {21, 21, 24}, {25, 25, 34}}
❑ Implique une perte de précision ou d’information.

EFD-Master M1 RESIN 2023-2024


40
S. Nait Bahloul
Nettoyage des données
-Données bruitées-
❑ Techniques de segmentation (clustering) :
➢ Les valeurs similaires sont placées dans une même
classe.
➢ On ne tient pas compte des valeurs isolées (dans
une classe comportant trop peu d’éléments).
(Outliers)

EFD-Master M1 RESIN 2023-2024


41
S. Nait Bahloul
Nettoyage des données
-Données bruitées- Clustering

EFD-Master M1 RESIN 2023-2024


42
S. Nait Bahloul
Nettoyage des données
-Données inconsistantes-
❑ Données inconsistantes dans une base de données :
➢ Contraintes d’intégrités ou dépendances
fonctionnelles non respectées.
Exemples :
➢ Unicité de clés non respectée.
➢ Respect des contraintes d’intégrité

EFD-Master M1 RESIN 2023-2024


43
S. Nait Bahloul
Traitement de données
-Intégration des Données-
But:
❑ Regrouper les données provenant de différentes
sources.
➢ Problématique typique lors de la construction
d’entrepôts de données.

EFD-Master M1 RESIN 2023-2024


44
S. Nait Bahloul
Nettoyage des données
Pourquoi prétraiter et nettoyer les données ?
❑ Dans le monde réel, les données proviennent de plusieurs sources et
processus. Elles peuvent contenir des anomalies ou des valeurs
incorrectes qui compromettent la qualité du jeu de données. Les
problèmes de qualité les plus fréquents sont les suivants :
o Caractère incomplet :des valeurs ou des attributs sont manquants.
o Bruit : les données contiennent des enregistrements erronés ou des
aberrations.
o Incohérence : les données contiennent des enregistrements en conflit ou
des contradictions.
❑ La qualité des données est essentielle pour obtenir des modèles prédictifs
performants.
❑ Pour éviter de traiter des données erronées et améliorer la performance
du modèle, il faut impérativement analyser les données, détecter les
anomalies le plus tôt possible et déterminer les étapes de prétraitement
et de nettoyage appropriées.

EFD-Master M1 RESIN 2023-2024


45
S. Nait Bahloul
Nettoyage des données
❑ Comment gérer les valeurs manquantes ?
o Si vous avez des valeurs manquantes, la première chose à faire est
d’en identifier l’origine. Les méthodes les plus courantes de
traitement des valeurs manquantes sont les suivantes :
o Suppression : supprimer les enregistrements ayant des valeurs
manquantes.
o Remplacement par une valeur factice : remplacer des valeurs
manquantes par une valeur factice : par exemple, inconnu pour
les valeurs catégorielles ou 0 pour les valeurs numériques.
o Remplacement par la moyenne : si les données manquantes sont
numériques, les remplacez par la valeur moyenne.
o Remplacement par l’élément le plus fréquent : si les données
manquantes sont catégorielles, remplacer les valeurs manquantes
par l’élément le plus fréquent.

EFD-Master M1 RESIN 2023-2024


46
S. Nait Bahloul
Nettoyage des données
❑ Comment normaliser les données ?
La normalisation des données restreint les valeurs
numériques à une plage spécifiée. Les méthodes de
normalisation les plus courantes sont les suivantes :
o Normalisation min-max : adapter linéairement les données
à une plage comprise, par exemple, entre 0 et 1. La valeur
minimale est 0 et la valeur maximale est 1.
o Normalisation par le test Z: mettre les données à l’échelle
en fonction de la moyenne et de l’écart standard : diviser la
différence entre les données et la moyenne par l’écart
standard.
o Mise à l'échelle décimale: mettre les données à l’échelle en
déplaçant le séparateur décimal de la valeur de l’attribut.

EFD-Master M1 RESIN 2023-2024


47
S. Nait Bahloul

Vous aimerez peut-être aussi