Vous êtes sur la page 1sur 171

ANALYSE DE DONNÉES

1
Walid Ayadi
2

LES TECHNIQUES DESCRIPTIVES


 Les techniques descriptives :
- visent à mettre en évidence des informations présentes mais
cachées par le volume des données
- il n’y a pas de variable « cible » à prédire

 Analyse factorielle
- Projection du nuage de points sur un espace de dimension
inférieure pour obtenir une visualisation de l’ensemble des liaisons
entre variables tout en minimisant la perte d’information
 Classification
- Trouver dans l’espace de travail des groupes homogènes
d’individus ou de variables
 Détection d’associations entre des objets

Data mining - Walid Ayadi


3

LES DEUX PRINCIPALES TECHNIQUES

Data mining - Walid Ayadi


CLASSIFICATION
4
ACP - CLASSIFICATION

5
QU’EST CE QUE LA CLASSIFICATION?
 Regrouper des objets en groupes, ou classes, ou familles,
ou segments, ou clusters, de sorte que :
- 2 objets d’un même groupe se ressemblent le + possible
- 2 objets de groupes distincts diffèrent le + possible

 Méthode descriptive :
- pas de variable cible privilégiée
- décrire de façon simple une réalité complexe en la
résumant

 Utilisation en marketing, médecine, sciences humaines…


6
EXEMPLE DE CLASSIFICATION

7
LES DIFFÉRENTES MÉTHODES

 Méthodes de partitionnement
- k-means et nuées dynamiques, k-modes, k-prototypes, k-
représentants (k-medoids)
- réseaux de Kohonen

- méthodes basées sur une notion de densité….

 Méthodes hiérarchiques

- ascendantes (agglomératives) basées sur une notion de


distance ou de densité
- descendantes (divisives)

 Analyse floue (fuzzy clustering) :

- C-means flous 8
 Méthodes mixtes
APPLICATIONS DE LA CLASSIFICATION

 Marketing : découper la clientèle en segments dotés


chacun d’une offre et d’une communication spécifique

 Commercial : répartir l’ensemble des magasins d’une


enseigne en établissements homogènes du point de vue
type de clientèle, taille du magasin…

 Médical : déterminer des groupes de patients


susceptibles d’être soumis à des protocoles
thérapeutiques déterminés, chaque groupe regroupant
tous les patients réagissant identiquement
9
APPLICATIONS DE LA CLASSIFICATION
 Sociologie : découper la population en groupes
homogènes du point de vue sociodémographique,
Style de vie, opinions, attentes…

 Détection des profils de clients de banques :


- clients dont on est la 2ème de banque
- clients à tendance « épargne »
- clients à tendance « crédit consommation »
- clients à tendance « crédit habitat »

 Utilisation pour :
- les ciblages des actions commerciales
- l’évaluation du potentiel commercial
- l’affectation des clients aux différents types de commerciaux10
MÉTHODES DE
PARTITIONNEMENT

K-MEANS

11
MÉTHODE DE PARTITIONNEMENT K-MEANS
Algorithme K-moyennes

Entrée : k le nombre de groupes cherché


Début
 Choisir aléatoirement les centres des groupes
Répéter
 Affecter chaque cas au groupe dont il est le plus proche
au son centre (utiliser une distance adéquate)
 Recalculer le centre de chaque groupe
 jusqu‘à ce que (stabilisation des centres) ou (nombre
d'itérations =t) ou (stabilisation de l’inertie totale de la
population)
Fin 12
INERTIE D’UN NUAGE D’INDIVIDUS
 Inertie totale Itot : somme de l’inertie intraclasse IA et de
l’inertie interclasse IR
 Inertie intraclasse IA : somme des inerties totales de
chaque classe
 Inertie interclasse IR : moyenne (pondérée par la somme

des poids de chaque classe) des carrés des distances des


barycentres de chaque classe au barycentre global

 Formule de Huygens : Itot=IA+IR

13
INERTIE ET QUALITÉ D’UNE CLASSIFICATION

 Une classe est homogène ⇔ son inertie est faible


 Deux critères de bonne classification : grande IR, petite IA

 Ces deux critères sont équivalents d’après la formule de


Huygens : ITOT = IA + IR

14
ILLUSTRATION DE K-MEANS
Soit le tableau 1 de sept individus
caractérisés par 2 variables. On
souhaite construire deux groupes
homogènes à partir de ces
individus.
On propose de commencer la
construction à partir des deux Tableau 1
groupes du tableau 2.
Continuer la construction des
groupes en utilisant la distance
euclidienne pour mesurer la
similarité entre individus. Tableau 2

d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 ) : Distance 15


i1 j1 i2 j 2 ip jp euclidienne
entre i et j
ILLUSTRATION DE K-MEANS

Résultat de la première boucle :

16
ILLUSTRATION DE K-MEANS

Résultat de la deuxième boucle :

17

2 groupes stables
MESURES DE QUALITÉ D’UNE CLASSIFICATION
 R² = proportion de la variance expliquée par les classes
▪ Rapport IR / ITOT
▪ Etre le plus proche possible de 1 sans avoir trop de
classes
▪ S’arrêter après le dernier saut important

18
MESURES DE QUALITÉ D’UNE CLASSIFICATION
 Pseudo F = mesure la séparation entre toutes les
classes
▪ Rechercher une grande valeur
▪ Avec n = nb d’observations et c = nb de classes

▪ On a pseudo F =

19
MESURES DE QUALITÉ D’UNE CLASSIFICATION
Question 1 :

- Décrire le critère de silhouette et et l’indice de


Davis-Bouldin afin d’estimer la valeur de K
optimale? (slides)

20
MESURES DE QUALITÉ D’UNE CLASSIFICATION
Evalutation d’un clustering avec K-means sur des données contenant la
variable de classification : matrice de confusion taux de classification
 Matrice de confusion :
Exemple : clusters 1 2

Taux de bonne classification total = (1800+1700) / 4000 = 87,5 %


Taux de bonne classification de la classe A = 1800/2000 = 90 %
Taux de bonne classification de la classe B = 1700/2000 = 85 % 21
ETUDE DE CAS K-MEANS
Etudier la qualité des résultats de K-means dans la construction
de groupes de fleurs selon leurs caractéristiques.

22
ETUDE DE CAS K-MEANS

K-means clustering avec R :

Appliquer K-means avec K=3 :

23
ETUDE DE CAS K-MEANS

Comparer les résultats de K-means avec la classification réelle


:
24
MESURES DE QUALITÉ D’UNE CLASSIFICATION
Question 2 :

Décrire le critère de Rand ajusté et comment on peut


l’utiliser afin de quantifer la qualité des résultats
d’une classification ? (slides)

25
MÉTHODE DE PARTITIONNEMENT K-MEANS

 Principaux inconvénients :
- Le choix de k est subjectif dans le cas où le nombre de
classes est inconnu au sein de l’échantillon.
- L'algorithme du k-means ne trouve pas nécessairement la
configuration la plus optimal correspondant à la fonction
objective minimale.
- Les résultats de l'algorithme du k-means sont sensibles à
l'initialisation aléatoires des centres.

26
MÉTHODE
HIÉRARCHIQUE
ASCENDANTE

27
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Algorithme classification hiérarchique ascendante

Début
1. les classes initiales sont les observations
2. on calcule les distances entre classes
3. les 2 classes les plus proches sont fusionnées et
remplacées par une seule
4. on reprend en 2) jusqu’à n’avoir plus qu’une seule classe,
qui contient toutes les observations
Fin
28
MÉTHODE HIÉRARCHIQUE ASCENDANTE
 Résultat sous forme d’un arbre appelé dendrogramme :

Tableau Individus – Variable quantitatives

Dendrogramme
29
MÉTHODE HIÉRARCHIQUE ASCENDANTE

 Nécessité de définir une distance entre groupes


d’individus (appelé stratégie d’agrégation).

 Nécessite de choisir le nombre de classes à


retenir.

30
MÉTHODE HIÉRARCHIQUE ASCENDANTE

 Stratégie d’agrégation :
✓ Stratégie du saut minimum ou single linkage (la
distance entre parties est la plus petite distance
entre éléments des deux parties):

31
MÉTHODE HIÉRARCHIQUE ASCENDANTE
 Stratégie d’agrégation :
✓ Stratégie du saut maximum ou du diamètre ou
complete linkage (la distance entre parties est la
plus grande distance entre éléments des deux
parties):

32
MÉTHODE HIÉRARCHIQUE ASCENDANTE
✓ La méthode du single linkage occasionne des problème de
chaînage : Très souvent, en effet, on se retrouve avec un
groupe démesurément gros et plusieurs petits groupes
satellites.

Chaînage

✓ Le complete linkage ne présente pas ce problème. Il tend, au


contraire à former des groupes de taille égale. Cependant, la
méthode est très sensible aux points aberrants et est peu33
utilisée en pratique.
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Question 3 :

- Justifier le problème de chainage de la méthode


single linkage et la sensibilité aux données
aberrantes pour la méthode complete linkage en
s’appuiant sur des exemples illustratives.

34
MÉTHODE HIÉRARCHIQUE ASCENDANTE

 Stratégie d’agrégation :
✓ Méthode de Ward :
• Initialisation : 1 classe = 1 individu Inertie inter = 1
• On agrège à chaque itération les classes dont l'agrégation
fait perdre le moins d'inertie interclasse.

Minimiser à chaque itération :


MÉTHODE HIÉRARCHIQUE ASCENDANTE

 Stratégie d’agrégation :
✓ Méthode de Ward :
Regroupe les objets de faible poids et évite l’effet de chaîne
Regroupe des classes ayant des centres de gravité proches

36
MÉTHODE HIÉRARCHIQUE ASCENDANTE
 Choix du nombre de classes:
On décidera de retenir la partition qui semble la meilleure,
généralement :

✓ celle qui précède une valeur de l’inertie interclasse


brutalement plus faible (à chaque agrégation, on perd de
la distance entre les groupes).

37
MÉTHODE HIÉRARCHIQUE ASCENDANTE
 Semi-partial R-squared (SPRSQ) = mesure la perte
d’inertie interclasse (ou de distance) provoquée en
regroupant 2 classes. Le but étant d’avoir une inertie
interclasse maximum, on recherche un faible SPRSQ suivi
d’un fort SPRSQ à l’agrégation suivante : un pic pour k
classes et un creux pour k+1 classes indique une bonne
classification en k+1 classes.

38
MÉTHODE HIÉRARCHIQUE ASCENDANTE
Question 4 :

- Justifier le fait que le regroupement de 2 classes


provoque une perte d’inertie inter-classes

39
MÉTHODE HIÉRARCHIQUE ASCENDANTE
 Résultat sous forme d’un dendrogramme :
- le niveau où l’on coupe l’arbre détermine le nb de classes
- la hauteur d’une branche est proportionnelle à la perte
d’inertie interclasse

40
MÉTHODE HIÉRARCHIQUE ASCENDANTE
EXEMPLE
On s'intéresse au profil de 18 basketteurs de 14 ans. Ils ont passé
un certain nombre de tests relatifs aux qualités physiques
requises pour la pratique de cette discipline.
TAI : taille en cm
VIT : vitesse sur 30 m (en secondes)
DET : détente verticale en cm : sauter le plus haut possible
PAS : passe en mètres : lancer un ballon de basket le plus loin
possible
LEG : endurance: test Le Luc Léger
STA : adresse statique, en nombre de paniers.

Remarque : La variable VIT est codée systématiquement avec un signe


"-" afin que, comme pour les autres variables, une valeur élevée 41
traduise une bonne performance.
MÉTHODE HIÉRARCHIQUE ASCENDANTE
EXEMPLE
Données :

Données centrées et réduites :

42
MÉTHODE HIÉRARCHIQUE ASCENDANTE
E XEMPLE
Etape 1 : matrice des distances euclidiennes entre individus

d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x |2 ) : Distance euclidienne


i1 j1 i2 j 2 ip jp entre i et j
Exemple : distance entre I1 et I2 43
MÉTHODE HIÉRARCHIQUE ASCENDANTE
EXEMPLE
Etape 2 : matrice des distances euclidiennes entre individus

Etape 3 : matrice des distances euclidiennes entre individus

………….44
EXEMPLE
Résultat final : les classes sont ici numérotées de C1 à C35

Dendrogramme des résultats

On choisit par exemple de conserver 4


classes. La partition correspondante est
alors :
Classe 1 = {I1, I4, I5, I6}
Classe 2 = {I7, I8, I9}
Classe 3 = {I2, I10, I3, I18, I11}
Classe 4 = {I12, I13, I14, I15, I17, I16}
45
MÉTHODE HIÉRARCHIQUE ASCENDANTE
 Programmation sous R:
➢ hc=hclust(d, method=)

d= un tableau de distances comme produit par dist() method=


méthode d’agrégation: "ward", 'single", "complete » (méthode
par défaut)

fonction dist(x, method=) : x= tableau sur lequel calculer la


distance method="euclidean", "maximum","manhattan",
"canberra", 'binary" or "minkowski". Par défaut,
euclidienne
46
MÉTHODE HIÉRARCHIQUE ASCENDANTE
 Programmation sous R :
➢ plot(hc, hang=, cex=) # dessine le dendogramme, hang=-
1 pour mettre tous le noms des individus au même niveau,
cex pour baisser la casse
➢ cutree(hc,k=) #attribue la classe de chaque individu

lorsqu’on coupe à k classes


➢ rect.hclust(hc, k=, border=«red ») #dessine les classes
sur le dendogramme

47
ETUDE DE CAS ALGORITHME HIÉRARCHIQUE
ASCENDANTE

Appliquer une classification hiérarchique sur l’échantillon des


fleurs :

Clustering hiérarchique :

48
ANALYSE EN COMPOSANTES
PRINCIPALES
49
50

LES DEUX PRINCIPALES TECHNIQUES


Objectif de l’ACP :

 Représentation assez fidèle des individus d’une population en 2 ou 3


dimensions
 Localisation des grandes masses d’individus
 Détection des individus exceptionnels et d’éventuels groupes isolés
d’individus
 Détection des liaisons entre les variables
 Outil de réduction des dimensions d’un problème :
diminuer le nombre de variables étudiées sans perdre beaucoup
d’information

51
INERTIE - INFORMATION

 On appelle inertie la quantité d’information contenue


dans un tableau de données.

 Une inertie nulle signifie que tous les individus sont


presque identiques.

 L’inertie du nuage sera égale à la somme des variances


des p variables.

52
Objectif de l’ACP :

 L’ACP est une méthode descriptive.

 Son objectif est de représenter sous forme graphique


l’essentiel de l’information contenue dans un tableau de
données quantitatif.

 Dans un tableau de données à p variables, les individus


se trouvent dans un espace à p dimensions

53
Objectif de l’ACP :
Lorsqu’il n’y a que deux dimensions (largeur et longueur par
exemple), il est facile de représenter les données sur un plan

Avec trois dimensions (largeur, hauteur et profondeur par


ex.), c’est déjà plus difficile :

54
Mais au delà de 3 dimensions, il est impossible de représenter les
données sur un plan ou même de les visualiser mentalement.
Objectif de l’ACP :
• Représenter en 2 ou 3 dimensions l’observation de p ≥3
variables.
• Réduire la dimension de manière pertinente : la réduction du
nombre de variables fait perdre de l’information. Comment conserver
l’information essentielle du jeu de données ?
Exemple introductif : sur les effets de la réduction de la
dimension...
Deux objets tridimentionnels (3 dimensions donc 3 variables) ont été
représentés de diverses manières sur nos transparents (2 dimensions
donc 2 variables) :

55
Objectif de l’ACP :
Exemple introductif : sur les effets de la réduction de la dimension...

Deux objets tridimentionnels (3 dimensions donc 3 variables) ont été


représentés de diverses manières sur nos transparents (2 dimensions
donc 2 variables) :

56
Objectif de l’ACP :
Exemple introductif : sur les effets de la réduction de la dimension...

Deux objets tridimentionnels (3 dimensions donc 3 variables) ont été


représentés de diverses manières sur nos transparents (2 dimensions
donc 2 variables) :

57
Objectif de l’ACP :
Exemple introductif : sur les effets de la réduction de la dimension...

Deux objets tridimentionnels (3 dimensions donc 3 variables) ont été


représentés de diverses manières sur nos transparents (2 dimensions
donc 2 variables) :

58
Objectif de l’ACP :

 Selon le point de vue, l’information retenue ne sera pas


la même.

 L’ACP nous propose un point de vue permettant de voir


au mieux les individus d’un tableau

59
Objectif de l’ACP :
Exemple 1 :
Données : plusieurs modèles de voitures caractérisés par des
variables (puissance, vitesse, longueur, hauteur,…)
NOMS PUISS CYLI CoupleMaxi LONG LARG HAUT COFFRE RESE POIDS VITE CONS
ALF 147 1,9 JTD Distinctive 115 1910 28 4,17 1,73 1,44 280 60 1270 191 5,8
ALF 166 2,5 V6 24V Progression 188 2492 22,5 4,72 1,81 1,42 490 72 1490 225 11,9
ASTMAR DB7 Volante 420 5935 55 4,66 1,83 1,26 150 89 1875 265 14
AUD A4 3,0 Quattro Pack 220 2976 30,6 4,55 1,77 1,43 445 66 1515 243 10,5
AUD A8 S8 Pack Avus 360 4172 43,9 5,03 1,88 1,44 525 90 1750 250 14
AUD TT Roadster 1,8 T225 Quattro 225 1781 28,5 4,04 1,76 1,34
270 55 1395 243 9,2
AUDIA4 Cabriolet 2,4 170 2393 23,4 4,57 1,78 1,39 315 70 1600 224 9,7
BEN Continental T 426 6750 88,2 5,22 1,95 1,45 350 100 2450 245 18,7
BMW 316i 115 1796 17,8 4,47 1,74 1,41 440 63 1310 206 7,1
BMW X5 3,0d Pack Luxe 183 2926 41,8 4,67 1,87 1,71 465 93 2085 200 9,7
BMW Z8 400 4941 51 4,4 1,83 1,32 203 73 1585 250 14,5
CAD Seville STS 305 4565 40,8 4,99 1,9 1,43 445 70 1857 241 14,1
CHR Grand Voyager 2,5 CRD Lim ited 140 2500 31,8 5,09 2 1,75 75 580
2000 185 7,7
CHR PT Cruiser 2,0 Classic 140 1995 19 4,29 1,7 1,6 520 57 1412 170 7,8
CIT Berlingo 1,6i 16V SX 110 1587 15,3 4,11 1,72 1,8 664 55 1252 172 7,4
CIT C3 1,4 HDI 70 ch SXPack Clim 70 1398 15,3 3,85 1,67 1,52 305 45 1022 165 4,2
CIT Picasso 1,6i SX 90 1587 14 4,28 1,75 1,64 515 55 1240 168 7,8
CIT Saxo 1,1i Bic 2 60 1124 9,1 3,72 1,59 1,37 280 45 805 162 6,7
CIT Xsara 2,0 Hdi 110 ch Exclusive 110 1997 26 4,19 1,7 4081,4 54 1210 191 5,2
DAE Leganza 2,0 CDX 133 1998 18,8 4,67 1,78 1,44 560 65 1433 206 9,2
DAI Sirion 1,3x 102 1298 12,2 3,67 1,59 1,45 235 40 850 180 5,7
FIA Multipla JTD 115 ELX 115 1910 20,7 3,99 1,87 1,67 430 63 1370 176 6,4
FIA Seicento S 55 1108 8,9 3,32 1,51 1,44 170 35 750 150 5,8
FIA Stilo 1,9 JTD 80 ch Active 80 1910 20 4,25 1,76 1,52 335 58 1305 170 5,5
FOR Fiesta 1,4 TDCi Ghia 68 1398 16,3 3,92 1,68 1,42 284 45 1065 164 4,3
FOR Focus ST 170 172 1989 20 4,17 1,7 1,43 350 55 1283 216 9,1
FOR Ka 1,3 Original 60 1299 10,7 3,62 1,63 1,37 185 42 890 155 6,3
FOR Mondeo 2,0 DTCi 130 ch Ghia 130 1998 33,7 4,73 1,81 1,43
500 56 1501 200 5,9
FOR Pum a 1,6 103
HON Accord 2,3iES 152

+ encore 63 modèles de voitures


Questions : Quelles structures de corrélation entre les variables
caractérisant les modèles de voitures ? Comment caractériser les
60
modèles de voitures au travers de leurs variables ?
Objectif de l’ACP :
 Projection du nuage de points sur un espace de dimension
inférieure définie par des nouvelles variables ( appelée composantes
principales) pour obtenir une visualisation de l’ensemble des liaisons
entre variables tout en minimisant la perte d’information.

61
Données de l’ACP:

Un tableau rectangulaire de mesure dont les colonnes sont des


variables quantitatives (mensurations, taux,…) et dont les lignes
représentent des individus statistiques (unités élémentaires telles
que des êtres humains, des pays, des années…)

62
Données de l’ACP:
Réduction des données
Pour neutraliser le problème des unités on remplace les données
d’origine par les données centrées-réduites :

de moyenne 0 et d’écart-type 1.

63
Construction des composantes principales :
Première composante principale (suite)

Objectif 1 : On cherche l’axe Δ1 passant le mieux possible au


milieu du nuage N*. On cherche à minimiser l’inertie du nuage N*
par rapport à l’axe Δ1 :
64
Construction des composantes principales :
Première composante principale

Objectif 2 : On cherche l’axe d’allongement Δ1 du nuage N*.


On cherche à maximiser l’inertie du nuage N* projeté sur l’axe Δ1 :

65
Construction des composantes principales :
Première composante principale

Objectif 2 : On cherche l’axe d’allongement Δ1 du nuage N*.


On cherche à maximiser l’inertie du nuage N* projeté sur l’axe Δ1 :

66
Construction des composantes principales :
Première composante principale : les objectifs 1 et 2 sont atteints
simultanément.

De :

En déduit:

67
Inertie totale = p = Inertie expliquée par Δ1 + Inertie résiduelle
Maximiser Minimiser
Construction des composantes principales :
Question 5 :

Montrer que les composantes principales sont les


vecteurs propres de la matrice de variance-
covariance (matrice de corrélation si les données sont
centrées et réduites) (slides)

68
Construction de la première composante
 L’axe Δ1 passe par le centre de gravité 0 du nuage
de points N*.

 L’axe Δ1 est engendré par le vecteur normé u1,


vecteur propre de la matrice des corrélations R associé à
la plus grande valeur propre λ1.

 L’inertie du nuage projeté est égal à λ1.

 La part d’inertie expliquée par le premier axe principal


Δ1 est égale à λ1/p.
69
Construction de la deuxième composante

70
Construction de la deuxième composante
 On recherche le deuxième axe principal Δ2 orthogonal à
Δ1 et passant le mieux possible au milieu du nuage.

 Il passe par le centre de gravité 0 du nuage de points et


est engendré par le vecteur normé u2, vecteur propre de
la matrice des corrélations R associé à la deuxième plus
grande valeur propre λ2.

 La deuxième composante principale Y2 est définie par


projection des points sur le deuxième axe principal.

 La deuxième composante principale Y2 est centrée, de


variance λ2, et non corrélée à la première composante 71
principale Y1.
Qualité globale de l’analyse

 Inertie totale = variance totale = p

 Part de variance expliquée par


la première composante principale = λ1/p
 Part de variance expliquée par

la deuxième composante principale = λ2/p


 Part de variance expliquée par

les deux premières composantes principales = (λ1+ λ2)/p

 Et ainsi de suite pour les autres dimensions...


72
Caractéristriques des composantes principales :
À partir de p variables initiales continues, construire m (≤ p)
autres variables, appelées composantes principales, combinaisons
linéaires des variables initiales, telles que :

✓ les CP sont ordonnées selon l’information (variance) qu’elles


restituent, la 1ère étant celle qui restitue le plus d’information

✓ les CP sont des vecteurs indépendants, c’est-à-dire des


variables non corrélées entre elles

73
ACP : exemple 1
Exemple 1 :
Données : plusieurs modèles de voitures caractérisés par des
variables (puissance, vitesse, longueur, hauteur,…)
NOMS PUISS CYLI CoupleMaxi LONG LARG HAUT COFFRE RESE POIDS VITE CONS
ALF 147 1,9 JTD Distinctive 115 1910 28 4,17 1,73 1,44 280 60 1270 191 5,8
ALF 166 2,5 V6 24V Progression 188 2492 22,5 4,72 1,81 1,42 490 72 1490 225 11,9
ASTMAR DB7 Volante 420 5935 55 4,66 1,83 1,26 150 89 1875 265 14
AUD A4 3,0 Quattro Pack 220 2976 30,6 4,55 1,77 1,43 445 66 1515 243 10,5
AUD A8 S8 Pack Avus 360 4172 43,9 5,03 1,88 1,44 525 90 1750 250 14
AUD TT Roadster 1,8 T225 Quattro 225 1781 28,5 4,04 1,76 1,34
270 55 1395 243 9,2
AUDIA4 Cabriolet 2,4 170 2393 23,4 4,57 1,78 1,39 315 70 1600 224 9,7
BEN Continental T 426 6750 88,2 5,22 1,95 1,45 350 100 2450 245 18,7
BMW 316i 115 1796 17,8 4,47 1,74 1,41 440 63 1310 206 7,1
BMW X5 3,0d Pack Luxe 183 2926 41,8 4,67 1,87 1,71 465 93 2085 200 9,7
BMW Z8 400 4941 51 4,4 1,83 1,32 203 73 1585 250 14,5
CAD Seville STS 305 4565 40,8 4,99 1,9 1,43 445 70 1857 241 14,1
CHR Grand Voyager 2,5 CRD Lim ited 140 2500 31,8 5,09 2 1,75 75 580
2000 185 7,7
CHR PT Cruiser 2,0 Classic 140 1995 19 4,29 1,7 1,6 520 57 1412 170 7,8
CIT Berlingo 1,6i 16V SX 110 1587 15,3 4,11 1,72 1,8 664 55 1252 172 7,4
CIT C3 1,4 HDI 70 ch SXPack Clim 70 1398 15,3 3,85 1,67 1,52 305 45 1022 165 4,2
CIT Picasso 1,6i SX 90 1587 14 4,28 1,75 1,64 515 55 1240 168 7,8
CIT Saxo 1,1i Bic 2 60 1124 9,1 3,72 1,59 1,37 280 45 805 162 6,7
CIT Xsara 2,0 Hdi 110 ch Exclusive 110 1997 26 4,19 1,7 4081,4 54 1210 191 5,2
DAE Leganza 2,0 CDX 133 1998 18,8 4,67 1,78 1,44 560 65 1433 206 9,2
DAI Sirion 1,3x 102 1298 12,2 3,67 1,59 1,45 235 40 850 180 5,7
FIA Multipla JTD 115 ELX 115 1910 20,7 3,99 1,87 1,67 430 63 1370 176 6,4
FIA Seicento S 55 1108 8,9 3,32 1,51 1,44 170 35 750 150 5,8
FIA Stilo 1,9 JTD 80 ch Active 80 1910 20 4,25 1,76 1,52 335 58 1305 170 5,5
FOR Fiesta 1,4 TDCi Ghia 68 1398 16,3 3,92 1,68 1,42 284 45 1065 164 4,3
FOR Focus ST 170 172 1989 20 4,17 1,7 1,43 350 55 1283 216 9,1
FOR Ka 1,3 Original 60 1299 10,7 3,62 1,63 1,37 185 42 890 155 6,3
FOR Mondeo 2,0 DTCi 130 ch Ghia 130 1998 33,7 4,73 1,81 1,43
500 56 1501 200 5,9
FOR Pum a 1,6 103
HON Accord 2,3iES 152

+ encore 63 modèles de voitures


Questions : Quelles structures de corrélation entre les variables
caractérisant les modèles de voitures ? Comment caractériser les
74
modèles de voitures au travers de leurs variables ?
ACP : exemple 1
Nuage de points associé aux données

N = {x1, …, xi, …, xn} = Nuage de points associé aux données

Centre de gravité du nuage N :

75
ACP : exemple 1
Inertie totale du nuage de points

76
ACP : exemple 1
Le nuage de points associé aux données réduits

77
ACP : exemple 1
Diagonalisation de matrice de corrélation des variables

78
ACP : exemple 1
Qualité de la première composante principale

 Inertie totale = 11

 Inertie expliquée par le premier axe principal = λ1 = 6.69

 Part d’inertie expliquée par le premier axe principal :

 La première composante principale explique 60.88 % de la


variance totale.
79
 Même principe pour les autres composantes……
ACP : exemple 1
Premier plan factoriel

80
ACP : exemple 1
Cercle de corrélation

81
ACP : exemple 1

Corrélation entre les variables et les composantes

82
ACP : exemple 1
Interprétation de la première composante principale :

83
ACP : exemple 1

84
ACP : exemple 1
Interprétation de la deuxième composante principale :

85
ACP : exemple 2
Les données mesurent la consommation de protéines dans 25
pays européens par rapport à 9 groupes d’aliments

Variables :
VR : viande rouge
VB : viande blanche
Strach : aliments à
base de sucres lents
(pâtes, riz, lentilles,
pois chiche, pommes
de terres,….)

86
ACP : exemple 2

 Deux critères empiriques pour


sélectionner le nombre d’axes :
- Critère du coude : sur l’évolution
des valeurs propres, on observe
un décrochement (coude) suivi
d’une décroissance régulière.
On sélectionne les axes avant le
décrochement
- Critère de Kaiser: on ne retient
les axes associés à des valeurs
propre supérieures à 1

Conclusion :
On retient 4 axes, qui
représentent presque 86%
de l’inertie totale (on
explique 86% de
l’information du tableau) 87
ACP : exemple 2

Construction des nuages de points


 Chaque nuage de points (variables et individus) est construit en
projection sur les plans factoriels : un plan factoriel est un repère
du plan défini par deux des q axes factoriels retenus.

 L’examen des plans factoriels permettra de visualiser les


corrélations entre les variables et d’identifier les groupes
d’individus ayant pris des valeurs proches sur certaines variables.

88
ACP : exemple 2

- Comment interpréter les axes


factoriels ?

- Comment interpréter la
proximité entre les points
(individus et variables) ?

89
ACP : exemple 2

Interprétation des axes


 Pour chaque axe retenu et chaque nuage, on regarde

- Quelles sont les variables qui participent le plus à la formation de


l’axe (ce sont celles qui ont une grande coordonnée en valeur
absolue sur l’axe)
- Quels sont les individus qui participent le plus à la formation de
l’axe.

 Outil de mesure : contributions des points (individus et variables)


à l’inertie de cet axe.

90
ACP : exemple 2
Interprétation des axes
 Contribution de l’individu i à l’inertie de l’axe k :

Pi : poids attribué à l’individu i


Cik : coordonnée de la projection orthogonale de l’individu i sur l’axe k
Λk : valeur propre de l’axe factoriel k

En pratique:
- On retient pour l’interprétation les individus dont la contribution
est > à la contribution moyenne (>1/n)
- Si les individus à poids égaux, les individus contribuant :
91
ACP : exemple 2
Interprétation des axes
 Contribution de la variable j à l’inertie de l’axe factoriel k

djk : coordonnée de la variable j sur l’axe factoriel k

En pratique:
- On retient pour l’interprétation les variables dont la contribution

est > à la contribution moyenne (>1/p)


- En ACP normée, ce sont les variables qui sont proches du bord

du cercle qui contribuent le plus


92
ACP : exemple 2

Interprétation des axes : synthèse


 L’analyse se fera à l’aide des individus et variables contribuant le plus
à l’axe : si une variable a une forte contribution positive à l’axe, les
individus ayant une forte contribution positive à l’axe sont caractérisés
par une valeur élevée de la variable.

N.B. : une contribution trop importante d’un des points à un axe doit
être regardé avec prudence (~25% d’inertie) . Il faut l’enlever s’il est
mal représenté.

93
ACP : exemple 2
Contribution des individus

94
ACP : exemple 2

Contribution des variables

95
ACP : exemple 2

Interprétation axe 1 :

Conclusion :
L’axe 1 oppose les Balkans ayant une forte consommation de noix,
graines et céréales aux pays qui comme l’Irlande consomment plutôt
des protéines animales. 96
ACP : exemple 2

Interprétation axe 2 :

Conclusion :
L’axe 2 caractérise les pays Ibériques, consommant beaucoup de
poisson.

97
ACP : exemple 2

Interprétation axe 3 :

Conclusion :
L’axe 3 oppose la Hongrie, et plus généralement les pays d’europe
centrale, grands consommateur de viande blanche, aux pays qui n’en
consomment pas , comme certains pays Scandinaves et l’albanie .
98
ACP : exemple 2

Interprétation axe 4 :

Conclusion :
L’axe 4 caractérise les pays qui consomment beaucoup de viande rouge
comme certains pays d’europe de l’ouest et méditerranéens.

99
ACP : exemple 2
Etude de proximité entre les points
 Une fois les axes interprétés, on peut regarder les graphiques et
analyser plus finement les proximités entre points.

 Un point est dit bien représenté sur un axe ou un plan factoriel si il


est proche de sa projection sur l’axe ou le plan. S’il est éloigné, on
dit qu’il est mal représenté.

 Indicateur =angle formé entre le point et sa projection sur l’axe : au


plus il est proche de 90 degrés, au moins le point est bien
représenté

100
ACP : exemple 2

Qualité de représentation de l’individu i sur l’axe k :

Lorsque l’angle est proche de 0, c'est-à-dire que l’individu est bien


représenté, le cosinus est proche de 1. Dans le cas inverse, l’angle
est proche de 90° et le cosinus est proche de 0.
101
ACP : exemple 2

Qualité de représentation de la variable j sur l’axe k:

✓ Une variable est d’autant mieux représentée sur un axe qu’elle est
proche du bord du cercle des corrélations et de l’axe, d’autant plus mal
représentée qu’elle est proche de l’origine.

102
ACP : exemple 2

 La proximité dans l’espace entre deux individus bien représentés


traduit la ressemblance de ces deux individus du point de vue des
valeurs prises par les variables. Lorsque la qualité de représentation
de deux individus est bonne, leur proximité observée retrace leur
proximité réelle (dans l’espace).

 La proximité entre deux variables sur un axe donne, si les deux


variables sont bien représentées sur l’axe ( proches de l’axe et du
Bord du cercle) , une approximation de leur corrélation.
– Deux variables proches sont corrélées positivement
– Deux variables qui s’opposent sont corrélées négativement 103
– Deux variables orthogonales sont non corrélées.
ACP : exemple 2

104
ACP : exemple 2

Trois groupe de pays distincts se détachent quant à leurs habitudes de


consommation : les pays ibériques, qui se caractérisent par une
consommation élevée, les balkans ayant une importante
consommation de graines et certains pays d’europe du nord et de 105
l’ouest consommant de la viande des oeufs et du lait
ACP : exemple 2

Pour les pays consommant des protéines animales, La


consommation de viande blanche réduit du sud au nord.
106
Limites de l’ACP

 Principale faiblesse de l’ACP: sensibilité aux points extrêmes.

 L'ACP est inadaptée aux phénomènes non linéaires.

107
108

Recherche d’associations
(analyse du ticket de caisse)
109

LES RECHERCHES D’ASSOCIATIONS

 Rechercher les associations consiste à rechercher les


règles du type :
« Si pour un individu, la variable A = Xa, la variable
B = Xb, etc, alors, dans 80% des cas, la variable Z = Xz, cette
configuration se rencontrant pour 30 % des individus »
 La valeur de 80% est appelée indice de confiance et la
valeur de 30% est appelée indice de support

Par exemple, dans l’ensemble de


transactions ci-contre :
• l’indice de confiance de « B ⇒ E »
=3/4
• l’indice de support de « B ⇒ E » =3/5
Data mining - Walid Ayadi
110

LES ASSOCIATIONS : DÉFINITIONS

 Une règle est donc une expression de la forme :


Si Condition alors Résultat.
Exemple : Si fièvre + Toux alors maladie bronchite

 L’indice de support est la probabilité :


P(condition et résultat).

 L’indice de confiance est la probabilité :


P(condition et résultat) / P(condition).

Data mining - Walid Ayadi


111

INTÉRÊT D’UNE RÈGLE D’ASSOCIATION


 Dans l’exemple précédent, on a :
- indice de confiance de l’association C ⇒ B est 2/3
- indice de support = 2/5.
 Or, probabilité (B) = 0.8, B est présent dans presque tous
les tickets de caisse.

 Cette probabilité est supérieure à l’indice de confiance de


C ⇒ B, ce qui fait que l’on ne gagne rien à utiliser la règle
C ⇒ B pour prédire B.

 Si l’on suppose aléatoirement qu’un ticket de caisse


contient B, on n’a qu’1 chance / 5 de se tromper, contre 1
chance / 3 en appliquant la règle C ⇒ B.

Data mining - Walid Ayadi


112

LIFT D’UNE RÈGLE : MESURE SON INTÉRÊT


 L’amélioration apportée par une règle, par rapport à une
réponse au hasard est appelée « lift » et vaut :
lift (règle) = confiance (règle) / p (résultat)
= p (condition et résultat) / [ p (condition) x p (résultat) ].

 Quand le lift est < 1, la règle n’apporte rien.

 Exemples :
• lift (C ⇒ B) = 5/6 (règle inutile)
• lift (B ⇒ E) = 5/4 (règle utile).

Data mining - Walid Ayadi


113

ALGORITHME PROPOSÉ PAR AGRAWAL ET SRIKANT

 Critère d’extraction des règles


A partir d’un ensemble T de transactions, trouver toutes
les règles avec un support sup>S0 et une confiance
conf> C0 où S0 et C0 sont des seuils fixés a priori par
l’utilisateur

Data mining - Walid Ayadi


114

Algorithme proposé par Agrawal et


Srikant
 Le principe de l’algorithme est de rechercher
l’ensemble L1 de tous les items apparaissant dans
au moins S0 x m transactions.

 Puis, parmi C2 qui est le produit cartésien de L1 avec


lui-même, on construit l’ensemble L2 de tous les
couples d’items apparaissant dans au moins S0 x m
transactions.

 L’algorithme s’arrête quand Lk est vide.

Data mining - Walid Ayadi


115

ETUDE DE CAS DE RECHERCHE D’ASSOCIATIONS


INTÉRESSANTES

Données :

Data mining - Walid Ayadi


116
ETUDE DE CAS DE RECHERCHE D’ASSOCIATIONS
INTÉRESSANTES

Un ensemble I dont les n éléments sont appelés items


I={Farine, Sucre, Lait, Oeuf, Chocolat, Thé}

Data mining - Walid Ayadi


117

ETUDE DE CAS DE RECHERCHE D’ASSOCIATIONS


INTÉRESSANTES

Construction de C1

On décide de retenir un taux de support de 30% et un


taux de confiance de 100%.

Data mining - Walid Ayadi


118

ETUDE DE CAS DE RECHERCHE D’ASSOCIATIONS


INTÉRESSANTES

Construction de C2

L2 contient 4 couples Farine-Sucre, Sucre-Oeuf, Sucre-


Chocolat et Oeuf-Chocolat.

Data mining - Walid Ayadi


119

ETUDE DE CAS DE RECHERCHE D’ASSOCIATIONS


INTÉRESSANTES
Construction de C3

Data mining - Walid Ayadi


120

ETUDE DE CAS DE RECHERCHE D’ASSOCIATIONS


INTÉRESSANTES
 L’ensemble L des sous-ensembles fréquents est l’union
des ensembles L1,…LK.
L1={Farine, Sucre, Oeuf, Chocolat}
L2={(Farine,Sucre), (Sucre,Oeuf), (Sucre,Chocolat),
(Oeuf,Chocolat)}
L3={(Sucre, Oeuf, Chocolat)}

Data mining - Walid Ayadi


121

ETUDE DE CAS DE CONSTRUCTION DE RÈGLES


 Pour chaque ensemble fréquent on construit des règles
vérifiant la contrainte de seuil de confiance.

 Un algorithme simple pour produire des règles à partir


d’un sous-ensemble fréquent f est de considérer tous les
sous ensembles possibles g de f et de produire la règle
g-> (f-g) si la condition sur la confiance est vérifiée.

 Alors on commence par les règles ayant un seul


conséquent, puis sur les règles retenues on génère les règles
ayant deux conséquents.

Data mining - Walid Ayadi


122

TABLEAU DES RÈGLES

Data mining - Walid Ayadi


123
TABLEAU DES RÈGLES INTÉRESSANTES

Liste des règles ayant une confiance égale à 1 et un lift


supérieur à 1 :

Data mining - Walid Ayadi


124

EXERCICE

Soit les tickets de caisse suivant :


Ticket 1 : fromage, beurre, lait
Ticket 2 : fromage, pain, beurre, confiture
Ticket 3 : beurre, pain, confiture
Ticket 4 : beurre, confiture, chocolat

Question : construire les règles intéressantes entre les


aliments à partir des tickets de caisse

Data mining - Walid Ayadi


ANALYSE FACTORIELLE DES
CORRESPONDANCES

125
CADRE GÉNÉRAL
 Plusieurs types de tableau :

Analyse en Composantes Principales : variable quantitatives

Analyse Factorielle des Correspondances : deux variables qualitatives

Analyse des Correspondances Multiples : variables qualitatives

126
DONNÉES
Deux variables qualitatives à I et J modalités
Tableau de contingence :

127
Rôle symétrique des deux variables
EXEMPLE : ENQUÊTE

Etude de la liaison entre deux variables qualitatives


128
OBJECTIF
 Typologie des lignes

 Typologie des colonnes

 Relation entre ces deux typologies :


Etude de la liaison (la correspondance) entre les deux variables

Visualisation des proximités entre modalités et des associations

129
DONNÉES

Figure1 : Tableau de données en AFC 130


DU TABLEAU DE CONTINGENCES AU TABLEAU DE PROBABILITÉS

131
INDÉPENDANCE ENTRE DEUX VARIABLES QUALITATIVES
Modèle d’indépendance :
Evènements indépendants : P(A et B) = P(A) × P(B)

Variables qualitatives indépendantes :

Probabilité conjointe = produit des probabilités marginales

Autres écritures :

132
INDÉPENDANCE ENTRE DEUX VARIABLES QUALITATIVES
Indépendance : fij = fi. f.j

Figure 3 : Illustration de l'indépendance (âge - couleur des yeux) et de la 133


liaison (âge - salaire) entre deux variables à partir des profils
LIAISONS ENTRE DEUX VARIABLES QUALITATIVES

134
COMMENT L’AFC APPRÉHENDE L’ÉCART À L’INDÉPENDANCE ?

135
COMPARAISON DU PROFIL LIGNE AU PROFIL MOYEN

136
COMMENT L’AFC APPRÉHENDE L’ÉCART À L’INDÉPENDANCE ?

137
COMPARAISON DU PROFIL COLONNE AU PROFIL MOYEN

138
NUAGE DES PROFILS LIGNES

139
NUAGE DES PROFILS COLONNES

140
QUE SE PASSE-T-IL S’IL Y A INDÉPENDANCE ?

141
ECART À L’INDÉPENDANCE ET INERTIE

142
REPRÉSENTATION DU NUAGE DES LIGNES (OU DES COLONNES)

143
POURCENTAGES D’INERTIE

144
RÈGLES D’INTERPRÉTATION SUR L’EXEMPLE

145
INERTIES (= VALEURS PROPRES)

146
INERTIES (= VALEURS PROPRES)

147
REPRÉSENTATION SIMULTANÉE

148
BILAN SUR L’EXEMPLE

149
AIDES À L’INTERPRÉTATION : QUALITÉ DE REPRÉSENTATION

150
QUALITÉ DE REPRÉSENTATION : EXEMPLE

151
CONCLUSION

152
ANALYSE FACTORIELLE DES
CORRESPONDANCES MULTIPLE

153
DONNÉES

154
DONNÉES – ONE HOT ENCODING

155
OBJECTIF - PROBLÉMATIQUE

156
TRANSFORMATION DU TABLEAU DISJONCTIF COMPLET

157
NUAGE DES INDIVIDUS

158
AJUSTEMENT DU NUAGE DES INDIVIDUS

159
EXEMPLE : DONNÉES DE LOISIR

160
EXEMPLE : DONNÉES DE LOISIR

161
DIAGRAMME DES INERTIES

162
REPRÉSENTATION DU NUAGE DES INDIVIDUS

163
REPRÉSENTATION DES INDIVIDUS EN FONCTION DU JARDINAGE

164
REPRÉSENTATION DES MODALITÉS DANS LE NUAGE DES INDIVIDUS

165
REPRÉSENTATION DES MODALITÉS DANS LE NUAGE DES INDIVIDUS

166
REPRÉSENTATION DES MODALITÉS DANS LE NUAGE DES INDIVIDUS

167
REPRÉSENTATION DES VARIABLES POUR INTERPRÉTER LES
DIMENSIONS

Le carré du rapport de corrélation est défini :


168
, y variable quantitative
REPRÉSENTATION DES VARIABLES POUR INTERPRÉTER LES
DIMENSIONS
Soient x une variable qualitative à J modalités et y une
variable quantitative.
yij : valeur du i ème individu dans la classe j

Le carré du rapport de corrélation est défini par :

Cet indicateur varie entre 0 (les classes ont exactement la même


moyenne : les variables ne sont pas liées) et 1 (les individus d'une 169
même classe ont exactement la même valeur : les variables sont
parfaitement liées).
REPRÉSENTATION DES VARIABLES POUR INTERPRÉTER LES
DIMENSIONS

170
REPRÉSENTATION DES VARIABLES POUR INTERPRÉTER LES
DIMENSIONS

171

Vous aimerez peut-être aussi