Académique Documents
Professionnel Documents
Culture Documents
Introduction
Définition et Problématique
L’Analyse De Données : Ensemble de méthodes qui font un résumé descriptif (état des
lieux) d’un grand nombre de variables, en utilisant des liaisons multiples simultanément
pour faire ressortir des ressemblances, correspondances, le poids des variables, et des
individus particuliers.
L’analyse des données multidimensionnelle peut se définir comme un ensemble de
méthodes permettant la description d’une population, à partir des liaisons multiples
simultanées d’un grand nombre de variables, de manière à faire ressortir les ressemblances
entre les individus, les correspondances entre les catégories, les poids des variables, et les
individus particuliers.
L’intérêt des méthodes d’analyse multidimensionnelle est de dépasser les limites des analyses
descriptives élémentaires, qui traitent les variables de façon individuelle, ou tout au plus en
couple. En réalité, la description d’un phénomène fournit des meilleurs résultats lorsqu’on
tient compte de façon simultanée des relations entre les variables. Par exemple, si on
s’intéresse aux déterminants du revenu sur une population hétérogène, en croisant séparément
le revenu avec : le niveau d’études (le nombre d’années d’étude), l’expérience
professionnelle, le domaine de formation, le secteur d’activités, etc. Chaque croisement
pourrait produire des résultats limités, mais un modèle qui tiendrait compte de façon
simultanée des liaisons entre toutes ces variables donnerait une interprétation bien plus
satisfaisante du phénomène.
En outre, l’analyse multidimensionnelle permet d’éviter la redondance de l’information, tout
en ramenant l’analyse aux variables les plus pertinentes pour décrire le phénomène étudié.
Il y’a donc au moins trois (03) raisons qui justifient les analyses multidimensionnelles :
- Les statistiques croisées des variables 2 à 2 pour analyser la liaison peut devenir
laborieux en cas d’un grand nombre de variables. Pour 17 variables par exemple, on a
136 croisements (corrélations, nuages de points, etc.) ;
- L’étude séparée de plusieurs nuages de points conduit à une redondance de
l’information (multi colinéarité) ;
- Bien souvent, les liaisons bivariées ne fournissent pas la bonne description du
phénomène global.
Finalement, un rapport qui ferait les 136 analyses bivariées serait monotone, donnerait une
impression de répétition, et serait aussi volumineux. Pourtant, le même rapport avec une
analyse factorielle serait succinct, pertinent, synthétique.
AFC, ACM
Cette leçon a pour objectif final de présenter la notion de facteurs ou d’axes principaux.
Puisque ce concept découle de la liaison, une explication approfondie du concept de liaison
est faite au préalable.
(Si Y est fonction de X , on s’interroge de savoir comment est-ce que Y va varier si X varie.
V ( Y^ )
Avec Y i=a X i +b+ ϵ i =Y^i+ ϵ i, on a : R =
2
).
V (Y )
2 V ( Y^ )
Par définition, R = se définit comme le pourcentage des variations de Y qui peuvent
V (Y )
s’expliquer par les variations de X . En effet, lorsque Y =Y^ + ϵ avec Y^ =aX +b, on fait
l’hypothèse qu’on a initialisé le processus, et pour X on connait Y . Si X ne change pas, on
veut être certain que Y ne change pas ; mais si X varie, le modèle sera d’autant plus de bonne
qualité que la variation se répercute sur Y . C’est dans ce sens qu’il faut comprendre le
pourcentage de variation de Y expliquée par les variations de X traduit par le R2 ( R2 %
des variations de X se répercutent sur les variations de Y).
Coefficient de détermination ( R2 ¿ fiable en dessus de 70%.
« Le principe de l’ajustement est utilisé pour interpréter les positions des points individus
dans le nuage, à partir du graphique des variables et cela en transitant par les axes. » Lorsque
les coordonnées des points varient sur un axe, cela signifie que, les valeurs des variables
corrélées à l’axe de même rang dans le graphique des variables varient aussi, sous réserve que
la qualité de l’ajustement ( R2) de la variable par l’axe est bon.
POINTS
Cette leçon déroule le formalisme mathématique de construction de facteurs, ainsi que les
règles générales d’interprétation des résultats.
[ ]
1
2
0 … 0
σ1
D1= 0 ⋱ 0
1
2
σ
0 … 0 2
σp
[ ]
p 2
X 2 j−X j X 1 j− X j
Avec e i=( X i 1 , … , X ip ) , on a : d ( e 1 , e 2 )=∑
T 2
−
j=1 σj σj
Remarques :
D1
- Utiliser la matrice sur les données brutes est équivalent à utiliser le produit
σ2
scalaire euclidien sur les données centrées réduites.
- L’information totale contenue dans la table de données X se mesure par un
indicateur qui agrège les distances entre les points, c’est-à-dire qui traduit
l’étalement qui est la dispersion en dimension supérieure ou égale à 1. Cet indicateur
se calcule par rapport au centre de gravité qui est le point moyen.
[ ]
p 2
X ij −X j
On note g le centre de gravité. d ( e i , g ) =∑ 2
.
j =1 σj
[ ]
n p 2
1 X ij −X j
L’information totale est donc : ∑ ∑
n i=1 j=1 σj
.
( )
p n
1 1
En réécrivant, on a : ∑ 2 ∑ ( X ij −X j ) = p.
2
j=1 σ j n i =1
[ ]
p1 0 0
Dans l’espace des variables R , on considère la matrice diagonale D= 0 ⋱
n
0 , comme
0 0 pn
n
matrice du produit scalaire, avec pi le poids des individus : ∑ pi =1.
i
1 1
En cas d’uniformité, pi= , pour tout i , et D= I n .
n n
Pour simplifier, on va supposer les poids uniformes. Le coefficient de corrélation linéaire
( )( )
Cov ( X j , X k ) 1 n X ij − X j X ik −X k
entre deux variables X j et X k est corr ( X j , X k ) = = ∑ .
σjσk n i σj σk
¿ X ij − X j
Notons X ij = ; On obtient :
σj
n
1 T 1
corr ( X j , X k ) = ∑ X ¿ij X ¿ik =( X ¿1 j ,… , X ¿nj ) ( I n)( X ¿1 k ,… , X ¿nk );
n i n
Ce résultat permet de détecter les associations linéaires, les oppositions, et les indépendances
1
directement sur les graphiques. En particulier, avec la matrice D= I n définissant le produit
n
n D1
scalaire dans R , et la matrice le produit scalaire dans R p , toutes les variables
σ2
n
appartiennent à la sphère unité de R . Par conséquent, en projection dans un plan factoriel,
une variable sera dotant mieux représentée qu’elle se rapprochera du cercle unité.
(Plus la longueur d’une variable dans le plan factoriel est petite, plus il provient d’un espace
qui est orthogonal au plan factoriel, donc plus il y’a indépendance entre cette variable et le
plan factoriel. De ce fait, pour interpréter, on ne tient pas compte de cette variable.)
En effet, la longueur d’une variable représentée dans un plan de projection est le cosinus de
l’angle entre la variable et ce plan. Plus ce cosinus est petit, plus l’angle entre la variable et le
π
plan se rapproche de , et donc la variable provient d’un espace orthogonal au plan, et n’a
2
donc aucune information en commun avec le plan.
L’information portée par notre axe n’est rien d’autre que la variance des coordonnées, c’est-à-
~
‖ ‖
2
dire le carré de la norme du vecteur des projetés : X D 1 u⃗ .
σ
2
D
‖
~
X D 1 u⃗ = ~
2
σ 2 ‖ (
X D 1 u⃗
D σ 2
() 1n I )(~X D ⃗u)= 1n [(⃗u D )( D ~X )(~X D )( D ⃗u)]=(u⃗ D )[ 1n X X ]( D u⃗ )
T
n 1
σ2
T
1
σ
1
σ
T
1
σ
1
σ
T
1
σ
¿ ¿
1
σ
T
¿ ~
D =D 1 × D 1
Avec X = X D 1 , et sachant que 1 σ σ
.
σ σ2
1 ¿ ¿
La matrice X X est la matrice des covariances.
n
)[ n X X ] (D ⃗u )−α (u⃗ D u⃗ )
1
(
T ¿ ¿ T T
Le lagrangien donne : L (u⃗ , α )= u⃗ D 1 1 1
σ σ σ2
( )[ ](
∂L 1 ¿ ¿
On a, avec les CPO :
∂ u⃗
( ⃗u , α )=0 ⟺2 D 1
σ
n σ σ
)
X X D 1 ⃗u−2 α D 1 ⃗u=0
2
Donc D 1
σ
[ 1 ¿ ¿
n σ
](
X X D 1 u⃗ =α D 1 D 1 u⃗ . Comme D 1 est bijectif, il vient :
σ )σ ( σ )
[ 1 ¿ ¿
n σ
](
X X D 1 u⃗ =α D 1 u⃗ ; Par suite, D 1 u⃗ est vecteur propre de la matrice 1 X ¿ X ¿.
σ ) ( σ ) n
On démontre que, partant d’un nombre variables p dans la matrice X , on peut construire
encore p vecteurs D 1 u⃗ , donc p axes factoriels. La quantité d’informations détenue par un axe
σ
dirigé par u⃗ est :
(u⃗ D )[ n X X ] ( ( [ ] )
1 1 ¿ ¿
) ( ) ( )
T ¿ ¿ T T T T T T
1 D1 u
⃗ =⃗u D 1 X X D 1 u
⃗ =⃗u α D 1 u⃗ =α u⃗ D 1 u⃗ =α (en utilisant
σ σ σ
n σ σ σ
2 2
3. Corrélations
Lorsque les variables quantitatives sont centrées réduites, ou ce qui est équivalent, lorsqu’on
D
utilise la matrice 1 , on dit qu’on fait une analyse normée. Dans ce cas, la corrélation
σ2
linéaire entre une variable et un axe est égale à la coordonnée de la variable sur l’axe. Un axe
est illustré par les variables à fortes coordonnées. La coordonnée indique aussi l’importance
de la variable pour le facteur représenté par l’axe.
4. La V. test
La V. test d’une catégorie par rapport à un axe indique si la position des individus qui sont de
la catégorie par rapport à un axe est significativement différente de la position moyenne de
tous les autres individus qui ne sont pas de la catégorie. La procédue utilise un test de Student,
et donc la position moyenne d’une catégorie est significativement différente de celle des
autres si la V. test est hors de l’intervalle ¿−2;2 ¿ (
¿−fractile de la loi de Student à 5 % , fractile de laoi de Student à 5 % ¿)
En ACP, le logiciel fait une dichotomie de la variable qualitative. Il divise la variable en deux
groupes. En quantitatif, on prend les coordonnées.
j =1 j=1 j=1
Le cosinus carré d’un point par rapport à un axe indique la part d’information que l’axe
détient sur le point. Si le cosinus carré est faible, le point projeté vient d’un espace presque
orthogonal à l’axe, c’est-à-dire d’un espace dont l’information n’a rien à voir avec celle
détenue par l’axe. Dans ce cas, on déduit que le point n’est pas ben représenté sur l’axe. Le
(Probabilité que la valeur réelle soit supérieure à la valeur calculée – khi2) = erreur de 1 ère
espèce.