Vous êtes sur la page 1sur 46

Cours Analyse des données

séquentielles
Dr D. AKROUR

2ème année Master


Systèmes dʼInformation, Optimisation et Décision

2022-2023
1
Plan du cours
● Introduction générale
● Pourquoi le Data Mining
● Objectif de Data Mining
● Processus du Data Mining
● Quel type de données à fouiller
● Analyse descriptive des données

2
Introduction générale

Il y a un grand nombre de
données mais il y a un
manque de connaissances

Données non structurées


(texte, image, …)

3
Introduction générale

4
Pourquoi le data mining

● Définition:
La fouille de données est la science qui permet
dʼextraire des connaissances à partir dʼun grand
nombre dʼinformations pour aider les humains à
prendre les bonnes décisions.

5
Données vs Information vs Connaissance
Données + sens = information

3.34
Que signifient
ces données ???
Connaissance
6
Données vs Information vs Connaissance

● Donnée : est brute, sans contexte et nʼa pas de sens


● Information : est une donnée qui a du sens est qui est
mise dans un contexte
● Connaissance : information cachée et utile obtenue
après une compréhension et une assimilation de
lʼinformation

7
Données, Information et Connaissance dans le
Data Mining

8
input
Algorithme de Data Mining

extraire

Modèle de décision
et connaissance

input
Prise de décision

9
Processus KDD (Knowledge Discovery from Data)

10
Rencontre de plusieurs disciplines

11
Quel type de données fouiller
● Une donnée est :
● Individu
en statistique
● Instance objets
en informatique
● Tuple bases de données
● Point ou vecteur en géométrie
12
Quel type de données fouiller
Deux types
● Numérique : comporte des variables réelles ou entières telles que la
longueur, le poids, l'âge, …
○ relation dʼordre (5 < 7.5)
○ mesure de distance (D(5, 7.5) = 2.5)
○ Calcul de moyenne, variance, ́ecart-type, ...
● catégoriels (appelées aussi symboliques) tel que la couleur, lʼadresse
ou le groupe sanguin
○ Pas de relation dʼordre ( égalité ou différence)
○ Distance spécifique (nombre de caractères en commun,...)
○ Utilisation du mode : la valeur la plus fréquente
13
Les tâches du Data Mining
● La classification
● Lʼestimation
● Le groupement par similitude (règles dʼassociation)
● Lʼanalyse des clusters
● La description

14
Classification
● Tâche la plus commune de la fouille de données
● Etudier les caractéristiques dʼun nouvel objet pour lʼattribuer à une
classe prédéfinie
● Mettre à jours chaque enregistrement dʼune BDD en déterminant la
valeur dʼun champ de classe
● Deux phases
○ Apprentissage : apprend du jeu dʼapprentissage et construit un
modèle.
○ Classification : le modèle appris est employé pour classifier de
nouveaux objets

15
Estimation
● Lʼestimation est similaire à la classification à part que la
variable de sortie est numérique plutôt que catégorique
● Estimer une valeurs en se basant sur la relation entre les
autres valeurs du même enregistrement
● Estimer la tension dʼun passion (à partir de lʼâge du patient,
son genre, son indice de masse corporelle et le niveau de
sodium dans son sang
● Estimer le salaire en fonction de lʼâge, l'ancienneté et les
affectations
16
Groupement par similitude
● Analyse des associations et de motifs séquentiels
● Déterminer quels attributs "vont ensemble" et les corrélations
entre les variables
● Rechercher des associations pour mesurer la relation entre deux
ou plusieurs attributs
○ Forme ”Si <antécédent>, alors <conséquent>”
● Analyse du panier du marché
● Le militaire qui est sergent entre 25 et 30 ans sera lieutenant
colonel entre 45 et 50 ans (fiable à un certain pourcentage)
17
Analyse des clusters
● Le clustering (ou la segmentation)
● regroupement dʼenregistrements ou des observations en classes
dʼobjets similaires
● La tâche de clustering ne classifie pas, nʼestime pas, ne prévoit pas la
valeur dʼune variable sortante.
● Segmenter la totalité de données en des sous groupes relativement
homogènes
● Maximiser lʼhomogénéité à lʼintérieur de chaque groupe et la
minimiser entre les différents groupes.
18
Description
● Expliquer ce qui se passe sur une Base de Données
● Expliquer les relations existantes dans les données
● Pour mieux comprendre les individus, les produit et les processus
● Exemple : ”les femmes supportent le changement plus que les
hommes”
● Exemple: “comment a évolué le nombre de contamination du virus
covid19 au cours de la dernière année ” ou “Dans quelle ville lʼ
épidémie a-t-elle été la plus importante”
● Utilise les outils de visualisation

19
Typologie des méthodes du DM
selon le type d’apprentissage
● Apprentissage supervisé
○ Nombre de classe connu
○ Utilisé principalement en classification et prédiction
● Apprentissage non supervisé
○ Nombre de classe non connu
○ Utilisé principalement en association et segmentation

20
Typologie des méthodes du DM
selon le type du modèle
● Modèle prédictif
○ Utilisé pour classifier et prédire les données
○ Classification, Régression, analyse des séries temporelles, prévision,...
● Modèle descriptif
○ Utilisé pour comprendre et explorer les données
○ Clustering, règles dʼassociation, découverte des séquences, …

21
Processus du Data Mining
En 1996 un groupe dʼanalystes définit le data mining comme étant un processus
composé de cinq étapes sous le standard CRISP-DM (Cross-Industry Standard Process
for Data Mining) comme schématisé ci dessous :

22
1 - Définition et compréhension du problème
● Compréhension indispensable
● La plupart des problèmes sont dus à la mal compréhension du problème
● Généralement, comprendre le domaine dʼapplication (banques, médecine,
biologie, marketing, ...etc)
● La compréhension est cruciale pour lʼexplication des résultats et la
justification des coûts
● Pouvoir évaluer les résultats obtenus et convaincre lʼutilisateur de leur
rentabilité

23
2 - Collecte des données
● Sélection des données à utiliser selon le problème défini
● Attention ! ! plusieurs formats et structures (textes, BDD, pages web,
images, vidéo, ...etc)
● Si la base de données nʼest pas disponible il faut la construire
● Subdiviser les données en deux parties : Données dʼanalyse et données de
test

24
3 - Prétraitement
Qualité des données
● La qualité des résultats fournis par les techniques de datamining
dépendent toujours de la qualité des données utilisées
● Des données erronées ou manquantes ou dupliquées peuvent
conduire à de résultats faux et/ou trompeuses.

25
3 - Prétraitement
Qualité des données
● Souvent, les données utilisées pour le datamining sont des produits
dʼinterventions humaines caractérisées par les erreurs et
lʼincomplétude:
○ mauvaises saisies,
○ manques de données souvent à cause de leur indisponibilité,
○ déformations
○ données bizarres
○ problèmes dus au système lui-même, …
26
3 - Prétraitement
● Le nettoyage dans le prétraitement vise à :
○ remplacer les données manquantes,
○ compléter les données incomplètes,
○ corriger les données erronées et
○ filtrer les données bruitées.

27
3 - Prétraitement
Données manquantes
On remarque que le deuxième enregistrement est incomplet…

28
3 - Prétraitement
Données manquantes
● Le choix dʼune méthode dépend du domaine dʼapplication et ses
spécificités, tel que
○ la précision souhaité,
○ la technique dʼexploration utilisée,
○ les moyens disponibles, ...etc.
● Si le nombre de données manquantes est faible, un
remplacement manuel peut être effectué, sinon des outils
spécifiques tel que les tableurs, les requêtes SQL ou même des
applications dédiées doivent être utilisées 29
3 - Prétraitement
Données manquantes
● Supprimer carrément les données incomplètes, surtout si elles contiennent plusieurs
attributs manquants (supprimer lʼenregistrement 2)
● Les remplacer par une valeur constante, par exemple remplacer lʼenregistrement 2
par un enregistrement prédéfini
● Si les données sont classées, on peut remplacer la donnée manquante par la
moyenne (ou le mode de) lʼattribut correspondant des enregistrements de sa classe.
● Sinon, de lʼattribut correspondant dans toute la base.
● Considérer lʼattribut de la donnée manquante comme une classe puis construire un
modèle de décision pour prédire la donnée manquante
● Laisser les données telles qu'elles et opter pour une technique dʼanalyse résistante
aux manques de données
30
3 - Prétraitement
Elimination du bruits
● enregistrement dupliqués
● données incomplètes (existence dʼune partie de la donnée)
● données incohérentes (Grade = directeur ; Salaire = 20000)
● données étranges (age = 300 !)
● Données qui sortent des intervalles permis : il faut faire la
normalisation : Unification des poids [0,1] ou [0,100]

31
3 - Prétraitement
Elimination du bruits
● Il peut être effectué en plusieurs manières :
○ Par partitionnement (binning)
○ Par clustering en détectant les groupes homogènes et éliminer
les données étranges.
○ Par inspection humaine et informatique combinées : on
détecte les valeurs suspectes et on les vérifie manuellement,
○ Par lʼutilisation dʼune fonction dʼinterpolation (Régression)

32
3 - Prétraitement
Réduction de données
● Permet de réduire le volume des données pour accélérer les calculs
et représenter les données sous un format optimal pour
lʼexploration.
● Techniques de réduction:
○ Lissage (considère les échantillons très proches comme étant le
même échantillon)
○ ACP: Analyse en composante principal
○ Écarter les var moins importantes, ….
33
3 - Prétraitement
Préparation des données
● Préparer les données en ayant une représentation global
○ tendance centrale des données (moyenne, médiane, mode), le
maximum et le minimum, Rang, les quartiles, la variance, ... etc.
● Courbes, diagrammes, graphes,... etc, peuvent aider à la sélection et au
nettoyage des données.
● Stockage des des Entrepôts de données (data warehouse)

34
4 - Estimation du modèle
● Il faut bien choisir la bonne technique dʼextraction de connaissance
○ selon le domaine dʼapplication
○ et lʼobjectif
● Des techniques telles que les réseaux de neurones, les arbres de
décision, les réseaux bayésiens, le clustering, ...

35
5 - Interprétation du modèle et établissement des
conclusion
● Lʼobjectif est de fournir des modèles compréhensibles aux
utilisateur
● Lʼutilisateur a besoin dʼune interprétation afin de prendre une
décision et non le modèle lui même qui peut avoir des pages et des
pages de chiffres
● Modèles simples plus compréhensibles mais moins précis
● Modèles complexes plus précis mais difficiles à interpréter.

36
Description et résumé des données
● Avoir une image globale des données à traiter.
● Tendance centrale
○ La moyenne
○ La médiane
○ Le mode
● Dispersion des données
○ Étendue
○ Variance et écart type
○ Rang interquartiles (RIQ)
○ Résumé interquartile
○ Rang semi-interquartile

37
Moyenne
● La moyenne est un indicateur utile, capable de résumer en un chiffre une
multitude dʼinformations. Il est un indicateur suffisant dans le cas où les données
sont réparties également.
● Sensibilité aux données extrêmes
● Exemple : 14564, 10, 23, 17, 8, 30, 1, 22, 0, 10
● La moyenne arithmétique est : 1468.5 qui est loin de la majorité des valeurs.
● Solution:
● trier les données puis écarter les 10% valeurs supérieures et les 10% valeurs
inférieures: 15.125
● ou la médiane.

38
Médiane
● La valeur positionné au milieu dʼun ensemble de données
● Trier les données puis prendre celle du milieu.
● Exemple :
○ la médiane des données : 0, 1, 8, 10, 10, 17, 22, 23, 30, 14564
est 13.5,
● Inconvénient: on ne peut pas partitionner son calcul. Elle nécessite
toutes les données pour être calculée, ce qui rend son calcul très
coûteux.

39
Mode

● Il représente la valeur la plus fréquente dans un


ensemble de données.
● Cette mesure convient bien pour les attributs
symboliques qui nʼont aucune relation dʼordre.

40
Étendu
● Soustraire le minimum du maximum
● Influencée par la présence dʼune valeur inhabituellement élevée ou
faible à lʼintérieur de lʼéchantillon (une valeur aberrante)
● Inconvénient:
○ ne mesure pas la dispersion de la majorité des valeurs dʼun
ensemble de donnée
○ ne tient compte que de ces deux valeurs et ignore les points de
données entre les deux extrémités de la distribution.
● Rarement utilisé mais sert de supplément à dʼautres mesures

41
Variance et écart type
● Intérêt de lʼécart type: Indicateur de dispersion
● Dans quelle mesure les données varient-elles de la
moyenne
● Si lʼécart type est faible, ça veut dire que les valeurs sont
concentrées autour de la moyenne.
● Si lʼécart type est grand, ça veut dire quʼon a un étalement
de valeurs.

42
Variance et écart type

● Où x barre est la moyenne arithmétique des valeurs,


● lʼécart type est la racine carrée de la variance.
● La variance ne peut être utilisée quʼavec la moyenne (ni
mode ni médiane) et avec des attributs numériques

43
Rand interquartile
● Les quartiles partagent lʼensemble de données ordonné en
4 groupes égaux
● Q2 représente la médiane
● Q1 est la valeur de la variable telle que les données qui lui
sont inférieurs représentent 25 % de la population
● Q3 est la valeur de la variable telle que les données qui lui
sont supérieur représentent 75 % de la population
● Entre les valeurs Q1 et Q3 se trouve 50% de la population.

44
Rand interquartile
● Représente la différence entre le 3eme quartile et le 1er
quartile
● RIQ = Q3-Q1
● Le RIQ donne une idée plus juste de la dispersion des
données.
● Il contient la moitié centrale des observations
● Plus l'écart interquartile est petit, plus les valeurs centrales
de la série se concentrent autour de la médiane.
● Lʼécart semi-interquartile est la moitié de lʼécart
interquartile.

45
BoxPlot (Boite à moustache)
● une façon très utilisée pour visualiser la distribution des
données se basant sur le résumer à cinq valeurs.

46

Vous aimerez peut-être aussi