Vous êtes sur la page 1sur 56

Analyse Multidimensionnelle des Données

Master I, Data Science

Richard MOUSSA, PhD


.
Professeur Agrégé d'Economie
Spécialité: Statistique et Econométrie
.
ENSEA-Abidjan

2021-2022

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 1/56


Outline

1 Bibligraphie
2 Introduction
3 Section 1 : Rappel de Statistique Descriptive
4 Section 2 : Analyse en Composantes Principales
5 Section 3 : Analyse Factorielle des Correspondances
6 Section 4 : Analyse des Correspondances Multiples
7 Conclusion

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 2/56


Bibligraphie

Références bibliographiques

Quelques références bibliographiques :


Xavier BRY (1995), Analyses Factorielles Simples, Edition
Economica, ISBN 2-7178-2859-1
Michel VOLLE (1997), Analyse des Données, Edition Economica

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 3/56


Introduction

1 Bibligraphie

2 Introduction

3 Section 1 : Rappel de Statistique Descriptive

4 Section 2 : Analyse en Composantes Principales

5 Section 3 : Analyse Factorielle des Correspondances

6 Section 4 : Analyse des Correspondances Multiples

7 Conclusion

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 4/56


Introduction

Introduction

Les analyses univariée et bivariée sont une étape importante en analyse de


données statistiques.
Cependant, elles ne permettent pas de capter les liaisons multiples entre
variables.
Solution : Les outils d'analyse multidimensionnelle des données (outils
descriptifs mais multidimensionnels).
Il s'agit d'analyser les relations entre un ensemble de variables prises
simultanément. Il existe 3 techniques :
Analyse en Composante Principale (ACP) : un ensemble de variables
toutes quantitatives ;
Analyse Factorielle des Correspondances (AFC) : deux variables
qualitatives ;
Analyse des Correspondances Multiples (ACM) : un ensemble de
variables toutes qualitatives.
Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 5/56
Section 1 : Rappel de Statistique Descriptive

1 Bibligraphie

2 Introduction

3 Section 1 : Rappel de Statistique Descriptive

4 Section 2 : Analyse en Composantes Principales

5 Section 3 : Analyse Factorielle des Correspondances

6 Section 4 : Analyse des Correspondances Multiples

7 Conclusion

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 6/56


Section 1 : Rappel de Statistique Descriptive

Analyse univariée

Objectif : Présenter, résumer, synthétiser l'information dans un indicateur


(chire).
Rappel portant sur les notions de :
Population, Individus, Echantillon ;
Variables, types de variable (qualitative, quantitative) ;
Caractéristiques (tendance centrale, dispersion, forme, concentration).

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 7/56


Section 1 : Rappel de Statistique Descriptive

Analyse univariée : Focus sur la moyenne

Cas de la moyenne arithmétique :


1X
n n
(1)
X
x̄ = xi = pi xi
n
i=1 i=1

Dicultés :
Sensibilité aux valeurs extrêmes ;
Résumé très partiel des distributions (plusieurs distributions diérentes
avec les mêmes moyennes) ;
Exemple 1 :
10 ; 11 ; 9 ; 90
Exemple 2 :
7 ; 8 ; 9 et 1 ; 2 ; 14 ; 15

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 8/56


Section 1 : Rappel de Statistique Descriptive

Analyse univariée : Focus sur la variance

La variance est une moyenne de la quantité (xi − x̄)2 . On a :

1X
n n
σ2 = (xi − x̄)2 = pi (xi − x̄)2 (2)
X
n
i=1 i=1

Mêmes dicultés qu'avec la moyenne.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 9/56


Section 1 : Rappel de Statistique Descriptive

Analyse univariée : Notion de variable centrée et réduite

Une variable x est dite centrée et réduite si sa moyenne vaut 0 et sa


variance vaut 1. Pour toute variable x , on peut donc construire une variable
centrée et réduite correspondant de la manière suivante :
xi − x̄
xi∗ = (3)
σx
Permet d'avoir une échelle identique. Ainsi, quelque soit l'unité de mesure
des variables, elle deviennent comparables.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 10/56


Section 1 : Rappel de Statistique Descriptive

Analyse bivariée

Objectifs : analyser les liaisons entre des variables deux à deux. Trois
situations possibles :
Cas de deux variables quantitatives ;
Cas de deux variables qualitatives ;
Cas d'une variable quantitative et d'une qualitative.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 11/56


Section 1 : Rappel de Statistique Descriptive

Analyse bivariée : la corrélation

Coecient de corrélation : Liaison entre deux variables quantitatives.


Il s'agit de la moyenne du produit de deux variables centrées et réduites.
1X
n
(xi − x̄) (yi − ȳ )
n
(xi − x̄) (yi − ȳ )
(4)
X
ρx,y = = pi
n σx σy σx σy
i=1 i=1

Mêmes dicultés qu'avec la moyenne. De plus,


la corrélation ne capte que les liaisons linéaires ;
la corrélation n'est eective qu'avec un grand nombre de point (int:
deux points issues de deux variables indépendantes ont
une corrélation égale à 1).

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 12/56


Section 1 : Rappel de Statistique Descriptive

Analyse descriptive : Solution aux problèmes de la moyenne

Objectif : Contourner la sensibilité de la moyenne aux valeurs extrêmes.


Solution : Utiliser les rangs au lieu des valeurs observées.
n
1xi ≥xj (5)
X
ri =
j=1

Utilisation :
Moyenne de rang ;
Corrélation de rang.
Exemples...

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 13/56


Section 2 : Analyse en Composantes Principales

1 Bibligraphie

2 Introduction

3 Section 1 : Rappel de Statistique Descriptive

4 Section 2 : Analyse en Composantes Principales

5 Section 3 : Analyse Factorielle des Correspondances

6 Section 4 : Analyse des Correspondances Multiples

7 Conclusion

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 14/56


Section 2 : Analyse en Composantes Principales

Principes

L'Analyse en Composantes Principales (ACP) s'applique aux données


quantitatives.
L'ACP permet de :
repérer les corrélations entre variables et identier les variables non
correlées ;
repérer les individus qui se ressemblent ainsi que les individus
atypiques.
Comment ?
mettre les données initiales sous forme de nuage de points ;
visualiser le nuage obtenu sur les meilleures projections planes
possibles.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 15/56


Section 2 : Analyse en Composantes Principales

Comment se présentent les données

Mettre les données sous la forme d'un tableau (Individus x Variables) ;


c'est-à-dire individus en ligne et variables en colonne.
Soit Xk , k = 1, .., K les K variables sur lesquelles porte l'ACP.
On note Xi,k , i = 1, .., n la valeur de la variable Xk pour l'individu i .
On note X la matrice (le tableau de données) de dimension (n, K )
contenant l'ensemble de l'information.
Remarque :
Toute ligne (individu) ou colonne (variable) de X est dite active ;
Toute ligne ou colonne non incluse dans X mais utilisée dans la suite
de l'analyse est dite illustrative.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 16/56


Section 2 : Analyse en Composantes Principales

Nuage des individus

Soit ei , i = 1, .., n une ligne de la matrice X . On a


ei = (Xi,1 , Xi,2 , .., Xi,K ) ∈ RK (espace direct) qui représente les valeurs des
diérentes variables pour l'individu i .
On a :
L'ensemble des ei est appelé nuage des individus ;
Le centre de gravité de ce nuage est g avec pour coordonnées
(X̄1 , X̄2 , .., X̄K ) ;
La proximité entre deux individus ei et ej est mesurée par :
K
d 2 (ei , ej ) = kei − ej k2 = (Xi,k − Xj,k )2
X

k=1

Deux individus sont proches si leurs K coordonnées sont proches,


c'est-à-dire d 2 (ei , ej ) est proche de 0.
Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 17/56
Section 2 : Analyse en Composantes Principales

Inertie du nuage des individus

L'inertie du nuage des individus (notée Ig ) est la dispersion des individus


autour du centre de gravité. On a :
n
d 2 (ei , g )
X
Ig =
i=1
n XK
(Xi,k − X̄k )2
X
=
i=1 k=1
K
1
n
(Xi,k − X̄k )2
X X
= n
n
k=1 i=1
K
σk2
X
= n
k=1

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 18/56


Section 2 : Analyse en Composantes Principales

Nuage des variables

Soit Xk , k = 1, .., K une colonne de la matrice X . On a


Xk = (X1,k , X2,k , .., Xn,k ) ∈ Rn (espace dual) qui représente les valeurs de
la variable Xk pour chaque individu i .
Les mêmes analyses faites sur le nuage des individus restent valables.
La suite du module se focalise sur le nuage des individus (sans perte de
généralité).

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 19/56


Section 2 : Analyse en Composantes Principales

Distance entre points du nuage : problème d'echelle

Pour rappel :
K
d 2 (ei , ej ) = kei − ej k2 = (Xi,k − Xj,k )2
X

k=1

Ainsi, si les Xk , k = 1, .., K n'ont pas la même echelle, les proximités s'en
trouvent faussées.
Exemple : La taille des individus en mètre ou en centimètre ? Le poids en
gramme ou en kilogramme ? le revenu en CFA ou en Euro ? ...

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 20/56


Section 2 : Analyse en Composantes Principales

Distance entre points du nuage : problème d'echelle

Solution : la normalisation des variables (centrer, réduire et corriger


par la taille d'échantillon)

∗ 1 Xi,k − X̄k
Xi,k =√
n σk

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 21/56


Section 2 : Analyse en Composantes Principales

Distance entre points du nuage : problème d'echelle

Ainsi,
le centre de gravité g du nuage des individus coincide avec l'origine du
repère ;
la norme d'une variable vaut sa distance à l'origine qui est égale à 1
(le nuage des variables est dans la sphère unité) ;
n
kXk∗ k2 = d 2 (0, Xk∗ ) = ∗ 2
) =1
X
(Xi,k
i=1

l'inertie du nuage est égale au nombre de variables.


n n X
K
d 2 (ei∗ , g ) = ∗ 2
X X
Ig∗ = (Xi,k ) =K
i=1 i=1 k=1

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 22/56


Section 2 : Analyse en Composantes Principales

Distance entre points du nuage : problème d'echelle

On a également,
le produit scalaire de deux variables donne la corrélation entre ces
variables.
0 1X
n
Xi,j − X̄j Xi,k − X̄k
ρj,k = (Xj∗ ) Xk∗ =
n σj σk
i=1

Ce qui implique que :


1 un produit scalaire proche de 1 signie que les deux variables sont
fortement corrélées (représentées par des points dans la même direction
si corrélation positive, et dans des directions opposées si corrélation
négative) ;
2 un produit scalaire proche de 0 signie que les deux variables sont
indépendantes (représentées par des points de directions
perpendiculaires).

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 23/56


Section 2 : Analyse en Composantes Principales

Mise en oeuvre de l'ACP

Pour rappel, l'ACP consiste à :


transformer les variables corrélées a priori en un ensemble de variables
non corrélées ou indépendantes (appelées composantes principales) ;
réduire le nombre de variables (rendre l'information moins redondante).
Comment : visualiser le nuage obtenu sur les meilleures projections planes
possibles. Qu'est-ce qu'un bon plan de projection ?
une projection qui déforme le moins les distances ;
une projection qui restitue le plus dèlement l'information ;
une projection qui est telle que l'inertie du nuage projeté est maximale.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 24/56


Section 2 : Analyse en Composantes Principales

Mise en oeuvre de l'ACP

Soit u le vecteur directeur de l'axe de projection dans le nuage des


individus. On a u = (α1 , α2 , .., αK ) ∈ RK .

Les coordonnées de ei∗ = (Xi,∗1 , Xi,∗2 , .., Xi,K


∗ ) sur l'axe de projection sont

K
(6)
X
Fi = ei∗ , u = ∗
Xi,k αk
k=1

Ainsi, F = X ∗ u représente l'ensemble des projetés du nuage des individus.


L'inertie de ce nuage est donnée par :
Ig∗ = kF k2 = F 0 F = u 0 (X ∗ ) (X ∗ )u (7)
0

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 25/56


Section 2 : Analyse en Composantes Principales

Mise en oeuvre de l'ACP

Le meilleur axe de projection de vecteur directeur unitaire u (de norme


kuk2 = u 0 u = 1) est tel que :
0
max Ig∗ = u 0 (X ∗ ) (X ∗ )u
u
s/c u 0 u = 1

Le Lagrangien de ce problème est :


` = u 0 (X ∗ ) (X ∗ )u − λ(u 0 u − 1) (8)
0

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 26/56


Section 2 : Analyse en Composantes Principales

Rappel d'Algèbre

Soit A une matrice carrée de dimension (p, p) et soit v un vecteur de


dimension (p, 1). Soit a un vecteur de dimension (p, 1). On a :
La fonction f (v ) = a0 v a pour gradient :
∂f
5f = =a
∂v
La fonction f (v ) = v 0 Av a pour gradient :
∂f
5f = = (A0 + A)v
∂v
Si A est symétrique, alors on a :
∂f
5f = = 2Av
∂v

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 27/56


Section 2 : Analyse en Composantes Principales

Mise en oeuvre de l'ACP

Le meilleur axe de projection de vecteur directeur unitaire u (de norme


kuk2 = u 0 u = 1) est tel que :
0
max Ig∗ = u 0 (X ∗ ) (X ∗ )u
u
s/c u 0 u = 1

Le Lagrangien de ce problème est :


` = u 0 (X ∗ ) (X ∗ )u − λ(u 0 u − 1)
0

Les conditions de premier ordre (CPO) :


∂`
= 2(X ∗ ) (X ∗ )u − 2λu = 0 (9)
0

∂u

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 28/56


Section 2 : Analyse en Composantes Principales

Mise en oeuvre de l'ACP

On en déduit que : 0
(X ∗ ) (X ∗ )u = λu
Ce qui implique que λ est une valeur propre associée au vecteur propre u
de la matrice (X ∗ ) (X ∗ ).
0

De plus, on a (en pre-multipliant l'équation précédente par u ) :


0

0
u 0 (X ∗ ) (X ∗ )u = λu 0 u = λ

Ce qui signie que l'inertie Ig∗ = u 0 (X ∗ ) (X ∗ )u sur l'axe de projection vaut


0

λ.

Conséquence : Maximiser l'inertie du nuage projeté revient à trouver la


plus grande valeur propre (notée λ1 ) de la matrice (X ∗ ) (X ∗ ).
0

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 29/56


Section 2 : Analyse en Composantes Principales

Mise en oeuvre de l'ACP

Suivant le même raisonnement, on a :


le second meilleur axe de projection est celui dont le vecteur directeur
est le vecteur propre associé à la seconde plus grande valeur propre
(notée λ2 ). Son inertie vaut λ2 ;
le meilleur plan de projection est celui dont les vecteurs directeurs sont
(u1 , u2 ), les vecteurs propres associés aux valeurs propres λ1 et λ2 .
Son inertie vaut λ1 + λ2

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 30/56


Section 2 : Analyse en Composantes Principales

Mise en oeuvre de l'ACP

La matrice (X ∗ ) (X ∗ ) est symétrique donc diagonalisable. On a :


0

λ1 > λ2 > .. > λK > 0 ;


Le nuage des variables a les mêmes valeurs propres que celui des
individus (la dualité). On a :
0
(X ∗ ) (X ∗ )u = λu
 
∗ 0
(X )(X ) (X ∗ )u = λ(X ∗ )u

la valeur propre λ a pour vecteur propre (X ∗ )u .


ce vecteur a 
pour norme
  0
k(X ∗ )uk2 = = u 0 (X ∗ ) (X ∗ )u = λu 0 u = λ ; Ainsi,
0
(X ∗ )u (X ∗ )u

pour avoir un vecteur directeur unitaire, on utilise (X ∗ )u/ λ.
Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 31/56
Section 2 : Analyse en Composantes Principales

Interprétation de l'ACP

Combien d'axes interpréter ?


K
On a K axes factoriels ayant pour inertie total λk = K . On peut donc
P
k=1
calculer pour chaque axe ∆k , la part d'inertie λk /K . Trois techniques pour
choisir :
Taux d'inertie : Choisir les J (J < K ) premiers axes qui permettent
d'atteindre un taux d'inertie jugé satisfaisant (par exemple
J
100
λk ≥ 80%).
P
K
k=1
Critère de Kaiser : Choisir les axes dont l'inertie λk est supérieure à
1.
Critère du coude (Cattell) : Choisir tous les axes avant celui à partir
duquel on a un coude (palier correspondant à une baisse brutale des
valeurs propres).
Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 32/56
Section 2 : Analyse en Composantes Principales

Interprétation de l'ACP

Comment interpréter un axe ?


Il faut trouver un sens au facteur correspondant à cet axe. Comment ?
Analyser les corrélations des variables avec l'axe (coordonnées
factorielles des variables sur l'axe) : Quelles sont les variables
fortement corrélées positivement ou négativement avec l'axe ? Est-ce
que cette structure de corrélation n'est pas identique sur un autre axe ?
Si un axe n'est pas caractérisable par des variables (même
supplémentaires), opter pour une caractérisation par quelques
individus représentatifs de l'axe.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 33/56


Section 2 : Analyse en Composantes Principales

Interprétation de l'ACP

Comment interpréter les graphiques issus de la projection ?


Commenter l'individu moyen :
en ACP normée, il s'agit de l'origine du repère
en ACP non normée, il faudra le caractériser par ses grands traits
L'analyse du nuage se fait toujours par rapport à l'individu moyen.
Il faut ensuite :
Identier les individus atypiques (qui s'éloigne trop de l'individu moyen
S'il en existe, les mettre en individus supplémentaires (i.e. qui ne
participe pas à la formation des axes mais qui peuvent être projetés
sur les axes pour analyse)

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 34/56


Section 2 : Analyse en Composantes Principales

Interprétation de l'ACP

Etant donné qu'il s'agit de projection sur un axe ou un plan, il faut prendre
des précautions pour identier les vraies et les fausses proximités. On utilise
donc le Cosinus carré :
Pour un individu ei∗ sur l'axe ∆ :
F∆ 2 (e ∗ )
2 ∗ i
Cos∆ (ei ) =
d 2 (ei∗ , g )

Pour un individu ei∗ sur le plan (∆1 , ∆2 ) :


2 (e ∗ ) + F 2 (e ∗ )
F∆
2 1 i ∆2 i
Cos∆1 ,∆2 (ei∗ ) =
d 2 (ei∗ , g )

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 35/56


Section 2 : Analyse en Composantes Principales

Interprétation de l'ACP

Comment interpréter le Cosinus carré ?


Cos 2 est compris entre 0 et 1.
−→ −−−−−→
Plus Cos 2 est proche de 1, plus l'angle (gei∗ , gF∆ (ei∗ )) est proche de
0. Donc ei∗ s'éloigne de g dans la direction de l'axe ∆. Ainsi l'axe ∆
caractérise bien l'individu (l'individu est bien représenté sur l'axe ∆).
Plus Cos 2 est proche de 0, l'individu ei∗ s'éloigne de g dans une
direction perpendiculaire à l'axe ∆. Ainsi, l'individu est mal représenté
sur l'axe ∆.
Ainsi, il convient de n'interpréter que les individus avec des Cos 2 proches
de 1 sur un axe ou un plan donné.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 36/56


Section 2 : Analyse en Composantes Principales

Interprétation de l'ACP

Comment interpréter le nuage des variables ?


Le nuage des variables est dans la sphère unité (pour une ACP
normée).
Ainsi, un point en bordure de la sphère et dans la direction d'un axe
est bien représenté sur cet axe.
On peut calculer le Cos 2 comme suit (avec d 2 (Xk∗ , g ) = 1) :
F∆ 2 (X ∗ )
2 2
Cos∆ (Xk∗ ) = k
= F∆ (Xk∗ )
d 2 (Xk∗ , g )

La coordonnée d'une variable sur un axe est égale à la corrélation


entre la variable et la composante principale de cet axe.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 37/56


Section 2 : Analyse en Composantes Principales

Interprétation de l'ACP

L'angle entre deux variables s'interprète en terme de corrélation :


n
 Xk∗ , Xj∗  X
Cos(Xk∗ , Xj∗ ) = = Xk∗ , Xj∗ = ∗
Xi,k ∗
Xi,j
kXk∗ k2 kXj∗ k2
i=1

Ainsi,
Un angle aigu signie une corrélation positive
Un angle obtu (presque plat) signie une corrélation négative
Un angle droit signie une absence de corrélation

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 38/56


Section 2 : Analyse en Composantes Principales

Interprétation de l'ACP

Que représente un individu ou une variable dans la formation d'un axe ?


L'inertie de l'axe ∆ est (dans une ACP normée) :
n K
2 2
X X
I∆ = λ ∆ = F∆ (ei∗ ) = F∆ (Xk∗ )
i=1 k=1

Ainsi la contribution d'un individu ei∗ ou d'une variable Xk∗ à la


formation de l'axe ∆ est donnée par :
F∆2 (e ∗ )
CTR∆ (ei∗ ) = 100 ∗ i
λ∆
F 2 (X ∗ )
CTR∆ (Xk∗ ) = 100 ∗ ∆ k
λ∆

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 39/56


Section 3 : Analyse Factorielle des Correspondances

1 Bibligraphie

2 Introduction

3 Section 1 : Rappel de Statistique Descriptive

4 Section 2 : Analyse en Composantes Principales

5 Section 3 : Analyse Factorielle des Correspondances

6 Section 4 : Analyse des Correspondances Multiples

7 Conclusion

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 40/56


Section 3 : Analyse Factorielle des Correspondances

Présentation

L'objectif de l'Analyse Factorielle des Correspondances (AFC) est d'étudier


le lien entre deux variables "qualitatives" ou encore de données présentées
dans un tableau de contingence an de :
déterminer les modalités des deux variables qui interviennent dans la
liaison
identier le type de liaison (attraction ou répulsion) qu'entretiennent
les modalités qui interviennent dans la liaison.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 41/56


Section 3 : Analyse Factorielle des Correspondances

Données

On dispose d'un tableau de contingence (I , K ). L'analyse de ce tableau se


fait selon un prol (ligne ou colonne) :
Prol ligne : Analyse (conditionnelle) de la distribution de la variable
en colonne pour chaque modalité de la variable en ligne.
1 chaque ligne du prol ligne (∀i = 1, .., I ) est donnée par
li = ( fi,i,.1 , ..,
f fi,k fi,K
fi,. , .., fi,. )
2 la distribution marginale de la variable en colonne est
l = (f.,1 , .., f.,k , .., f.,K )
3 l est le point moyen du prol ligne, en pondérant chaque ligne par fi,.
I
X fi,k
f.,k = fi,. ∗
fi,.
i=1

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 42/56


Section 3 : Analyse Factorielle des Correspondances

Données

Prol colonne : Analyse (conditionnelle) de la distribution de la


variable en ligne pour chaque modalité de la variable en colonne.
1 chaque colonne du prol colonne (∀k = 1, .., K ) est donnée par
0
ck = ( f1.,k,k , .., f.,k
f f
i,k fI ,k
, .., f.,k )
2 la distribution marginale
0
de la variable en ligne est
c = (f1,. , .., fi,. , .., fI ,. )
3 c est le point moyen du prol colonne, en pondérant chaque colonne
par f.,k
K
X fi,k
fi,. = f.,k ∗
f.,k
k=1

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 43/56


Section 3 : Analyse Factorielle des Correspondances

Principe de l'AFC

Faire une ACP sur le tableau des prols lignes (resp. colonne) en
considérant chaque ligne (resp. colonne) comme un "individu" et chaque
colonne (resp. ligne) comme une "variable".
Quelle distance utiliser ? (focus sur le prol ligne, on obtient des
résultats équivalents pour le prol colonne)
On utilise la distance du khi-deux (χ2 ), dénie comme suit :
f
K ( i,k − fj,k 2
2
X fi,. fj,. )
d (li , lj ) =
f.k
k=1

La distance entre un individu et le point moyen est donnée par :


K ( i,k − f )2
f
.,k
2 fi,.
X
d (li , l) =
f.k
k=1

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 44/56


Section 3 : Analyse Factorielle des Correspondances

Principe de l'AFC

L'inertie du nuage est donnée par :


I K ( i,k − f )2
f
X X fi,. .,k
Il = fi,.
f.k
i=1 k=1
I K
X X fi,. fi,k
= ( − f.,k )2
f.k fi,.
i=1 k=1

(fi,k − fi,. f.k )2


XI X K
=
fi,. f.k
i=1 k=1
1
= χ2
n

La part d'inertie associée à l'axe ∆ est donnée par nλ∆


χ2
.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 45/56


Section 3 : Analyse Factorielle des Correspondances

Analyse de l'AFC

L'analyse des nuages se fait par rapport à l'individu moyen (la


distribution marginale). Il faut donc commencer par commenter les
distributions marginales.
Quelles sont les lignes remarquables (qui s'éloignent de la distribution
marginale) par rapport à la distribution de la variable en colonne ?
Quelles sont les colonnes remarquables (qui s'éloignent de la
distribution marginale) par rapport à la distribution de la variable en
ligne ?

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 46/56


Section 3 : Analyse Factorielle des Correspondances

Analyse de l'AFC

Les outils d'analyse sont ceux de l'ACP


Le Cos 2 pour identier les individus ou variables bien représentés sur
un axe.
La CTR pour connaître le poids d'un individu ou d'une variable dans
la formation d'un axe.
Pour le choix du nombre d'axes, on utilise :
Le critère du taux d'inertie
Le critère du coude

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 47/56


Section 4 : Analyse des Correspondances Multiples

1 Bibligraphie

2 Introduction

3 Section 1 : Rappel de Statistique Descriptive

4 Section 2 : Analyse en Composantes Principales

5 Section 3 : Analyse Factorielle des Correspondances

6 Section 4 : Analyse des Correspondances Multiples

7 Conclusion

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 48/56


Section 4 : Analyse des Correspondances Multiples

Principe de l'ACM

Analyser les tableaux de données représentant des individus décrits par


plusieurs variables qualitatives. L'objectif est de :
Identier les individus qui se ressemblent
Identier les liaisons entre les variables

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 49/56


Section 4 : Analyse des Correspondances Multiples

Données

On dispose de n individus décrits par p variables qualitatives notées


Xq , ∀ q = 1, .., p . On note :
Jq l'ensemble des modalités de la variable Xq
p
Jq l'ensemble de toutes les modalités des variables de l'analyse
S
J=
q=1
mq = Card(Jq ) le nombre de modalités de la variable Xq
p
mq le nombre total de modalités.
P
M=
q=1

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 50/56


Section 4 : Analyse des Correspondances Multiples

Données

A partir du tableau initial de données (de dimension n×p), on peut créer


(i) un tableau disjonctif complet ou (ii) un tableau de Burt.
Le tableau disjonctif complet est un tableau de dimension n×M
contenant des 1 et des 0 :
1 chaque modalité de J est transformée en une variable binaire.
2 on a kijq = 1 si l'individu i possède la modalité j , j ∈ J
On a les propriétés suivantes :
mq mq
p P
1 kijq = 1 et kijq = p
P P
j=1 q=1 j=1
n
2 kijq n.jq le nombre d'individu ayant la modalité j de la variable q , et
P
=
i=1
n P mq
p P
kijq = np
P
i=1 q=1 j=1

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 51/56


Section 4 : Analyse des Correspondances Multiples

Données

Le tableau de Burt est un tableau de dimension M×M obtenu en :


1 construisant les p 2 tableaux de contingence croisant les p variables
deux-à-deux
2 puis en juxtaposant ces tableaux.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 52/56


Section 4 : Analyse des Correspondances Multiples

Principe de l'ACM

L'ACM est une AFC sur le tableau disjonctif complet ou sur le tableau de
Burt. On procède comme suit :
transformer le tableau (disjonctif complet ou de Burt) en prol ligne
ou prol colonne
utiliser la distance de χ2
On a :
1 Le poids d'un individu est 1/p et celui d'une modalité est n /(np)
q
.j
n.jq
2 La distance d'une modalité à l'origine est d 2 (j) = n −1
3 l'inertie totale est donnée par I = Mp − 1

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 53/56


Section 4 : Analyse des Correspondances Multiples

Interprétation de l'ACM

Les outils d'analyse sont ceux de l'ACP


Le Cos 2 pour identier les individus ou variables bien représentés sur
un axe.
La CTR pour connaître le poids d'un individu ou d'une variable dans
la formation d'un axe.
Pour le choix du nombre d'axes, on utilise :
Le critère du taux d'inertie
Le critère du coude

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 54/56


Conclusion

1 Bibligraphie

2 Introduction

3 Section 1 : Rappel de Statistique Descriptive

4 Section 2 : Analyse en Composantes Principales

5 Section 3 : Analyse Factorielle des Correspondances

6 Section 4 : Analyse des Correspondances Multiples

7 Conclusion

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 55/56


Conclusion

Conclusion

Les outils d'analyse multidimensionnelle sont d'excellents outils à la fois


descriptifs et exploratoires permettant de comprendre et de caractériser de
grandes bases de données.
L'objectif est la réduction de dimension.
Les applications sont diverses, notamment : la construction
d'indicateur (voir Nardo et al. (2005), Handbook on Constructing
Composite Indicators).
Voir la notion de Consistence Ordinale du Premier Axe (COPA)
factoriel.

Analyse Multidimensionnelle des Données sites.google.com/view/moussakrichard 56/56

Vous aimerez peut-être aussi