Vous êtes sur la page 1sur 7

L'analyse factorielle 

M1 10 11 12 13
M2 8 6 5 4
M3 3 2 11 15
M4 13 14 15 16

1 - LA MATRICE DE CORRELATION :

Les moyennes :

X bar (M1) = (10+11+12+13) / 4 = 11.5

X bar (M2) = (8+6+5+4) / 4 = 5.75

X bar (M3) = (3+2+11+15) / 4 = 7.75

X bar (M4) = (13+14+15+16) / 4 = 14.5

Variances et écart-types :

Var (M1) = 1.25 écart-type (M1) = 1.12

Var (M2) = 2.18 écart-type (M2) = 1.48

Var (M3) = 29.68 écart-type (M3) = 5.44

Var (M4) = 1.25 écart-type (M4) = 1.12


Matrice de données centrées réduites  :

¯
Xi− X ¿ ¿
6i

10−11.5
= = -1.34
1.12

-1.34 -0.44 0.44 1.34


1.52 0.17 -0.5 -1.18
-0.87 -1.05 0.59 1.33
-1.34 -0.44 0.44 1.34

Matrice transposée :

-1.34 1.52 -0.87 -1.34


-0.44 0.17 -1.05 -0.44
0.44 -0.5 0.59 0.44
1.34 -1.18 1.33 1.34

Matrice de corrélation :

-1.34 -0.44 0.44 1.34 -1.34 1.52 -0.87 -1.34


* 1.52
-0.87
0.17
-1.05
-0.5
0.59
-1.18
1.33
-0.44
0.44
0.17
-0.5
-1.05
0.59
-0.44
0.44
-1.34 -0.44 0.44 1.34 1.34 -1.18 1.33 1.34

0.59 -0.61 -1.63


R= 0.59 0.37 -0.27 -0.69
-0.61 -0.27 0.24 0.63
-1.63 -0.69 0.63 1.68
1 - La matrice de covariance et variance :

Matrice de corrélation :

-1.34 -0.44 0.44 1.34 -1.34 1.52 -0.87 -1.34


1.52 0.17 -0.5 -1.18 -0.44 0.17 -1.05 -0.44
-0.87 -1.05 0.59 1.33 *
0.44 -0.5 0.59 0.44
-1.34 -0.44 0.44 1.34 1.34 -1.18 1.33 1.34

6.65 2.36 -2.45 -6.54


2.36 1.51 -1.09 -2.77
Cov = -2.45 -1.09 0.98 2.55
-6.54 -2.77 2.55 6.75

Valeur et vecteur propres :

Il est habituel, en analyse de données, de travailler sur des endomorphismes (application


linéaire d’un espace vectoriel dans lui-même) ou, pour parler plus simplement, sur
les matrices carrées auxquelles ils sont associés. Considérant la taille de certaines d’entre elles
ou les valeurs élevées qu’elles contiennent parfois, considérant aussi la lourdeur des calculs
quand il s’agit de les élever à une puissance, on cherche à simplifier ce capharnaüm comme
on le ferait avec un changement de variable dans d’autres types d’exercices mathématiques.
Sauf qu'ici, c'est la base qu'il faut changer. La diagonalisation permet cette simplification.
Cette opération se fonde sur les notions de valeur et vecteur propres.
La matrice des nn scalaires qui permettent ce changement de base est diagonale (c'est-à-dire
avec des zéros partout sauf sur sa diagonale). Ces scalaires sont nommées valeurs propres. Ce
sont des nombres réels ou complexes (Cf. page diagonalisation avec complexes), indiqués ci-
dessous par la lettre lambda (λ.λ.) Valeurs et vecteurs propres sont donc intimement liés...
Pour résumer, une valeur propre d’une matrice MM est associée à un vecteur
colonne VV lorsque MV=λV.MV=λV. Ou encore, la valeur propre d’un endomorphisme ff à
laquelle est associé un vecteur propre vv vérifie l’égalité f(v)=λv.
Donc en appliquant ce principe sur notre matrice de corélation et après une suite de calcul en
calculant le déterminant de cette matrice :M- λV et en résulant l’équation det(M- λV)=0, on
obtient les valeurs propres suivantes :

V1 :3,831

V2 :0,163

V3 :0,04

Les apports de l’analyse factorielle :

Avec les classifications, les analyses factorielles (ou en axes principaux) sont des techniques
d'analyse de données qui s’accommodent sans problème de milliers voire de millions
d’observations. Tels des orpailleurs devant brasser des tonnes de terre pour trouver LA pépite,
les data miners vont utiliser ces techniques pour tamiser les données et extraire la super
info… Précisons tout de même que ces techniques ne sont pour la plupart que descriptives.
C'est à l'homme de métier de trouver l'explication des liaisons.

Le point de départ d'une analyse de données se présente toujours de la même façon : un


tableau d'observations. Celui-ci comporte autant de lignes qu'il y a d'individus (ou unités
statistiques, il ne s'agit pas toujours de personnes). En colonnes figurent les valeurs
des variables aléatoires prises par ces unités statistiques. Les variables sont souvent
quantitatives, auquel cas le tableau comprend autant de colonnes qu'il existe de variables
observées. C'est un peu plus compliqué lorsque les critères sont qualitatifs.

Les analyses factorielles permettent de détecter des proximités entre variables, entre individus
et entre variables × individus, mettant à jour des liens ou au contraire des « répulsions ». Pour
une analyse de marché, par exemple, elles assurent l’identification des segments de clientèle à
partir de variables mesurées (CSP, types de commerce habituellement utilisés, revenu,
catégorie de logement…). Le segment apparaît alors comme une dimension supplémentaire,
cachée au départ mais qui sera le critère grâce auquel le produit pourra être positionné. Les
analyses factorielles conduisent aussi à identifier facilement des valeurs aberrantes, qu'il est
alors possible d'éliminer pour reconduire l'analyse. Enfin, elles permettent de hiérarchiser
l'importance de critères éventuellement explicatifs.

L'analyse des données apparaît donc comme une forme TRÈS élaborée de la statistique
descriptive. Comme l'écrit Ludovic Lebart dans l'introduction de l'un des manuels qui font
autorité en la matière, « le passage au multidimensionnel induit un changement qualitatif
important. On ne dit pas en effet que des microscopes ou des appareils radiographiques sont
des instruments de description, mais bien des instruments d'observation ou d'exploration, et
aussi des outils de recherche », in Statistique exploratoire multidimensionnelle, L. Lebart,
M. Piron, A. Morineau, Dunod 2006. Si certaines techniques permettent l'exploration, d'autres
impliquent la confirmation d'une régle préétablie (analyse discriminante décisionnelle).

Derrière tout ça, il y a bien sûr des mathématiques et en particulier de l'algèbre linéaire... Le
passage aux maths s'effectue dès qu'un tableau est considéré comme une matrice.
Visuellement, les kk variables peuvent être représentés par un nuage de points dans un espace
vectoriel de dimension nn et réciproquement, les individus prennent la forme de points dans
l'espace des variables. Bien sûr, au-delà de trois dimensions, une représentation graphique
unique devient impossible et il faut ruser. L'intérêt de l'opération est de visualiser des
proximités. Supposons qu'une enquête a été conduite dans une entreprise. On s'intéresse à
l'espace des salariés. Parmi les points représentatif des variables, on s'aperçoit que le point
« âge » est très proche du point « ancienneté ». Donc, l'entreprise recrute à peu près toujours
au même âge et il ne servait à rien de demander aux salariés leur âge ET leur ancienneté.

Les unités statistiques, comme les variables, se situent dans le même espace qu’avant
(endomorphisme) mais on connaît leurs coordonnées sur de nouveaux axes, orthogonaux entre
eux et triés selon leur capacité à maximiser l’inertie qui est projetée sur eux. Pour dire les
choses moins techniquement, l’analyse factorielle permet de mettre en évidence une grandeur
synthétique abstraite qui différencie au mieux les individus (ou les variables) entre eux, puis
ce qui les différencie dans une moindre mesure et ainsi de suite par ordre décroissant
d’importance. À ces grandeurs il est plus ou moins facile d'associer une notion.
Graphiquement, la proximité de deux points-individus dans l’espace des variables ou de deux
points-variables dans l’espace des individus signifie qu’il existe bien une proximité statistique
au regard des critères étudiés. Surtout, ces grandeurs abstraites sont
totalement indépendantes les unes des autres.

La différence entre corrélation et causalité :

En statistique, la relation ou l’association entre deux variables est appelée corrélation. En


réalité :

La corrélation est une mesure de l’association entre deux variables, plus la corrélation
est élevée, plus les variables sont associées ensemble. En d’autres termes, lorsqu’une de
ces variables change (comme le taux de chômage), l’autre (le taux de criminalité) change
en conséquence. 

Notez que l’un ou l’autre de ces changements peut être positif (en augmentation) ou négatif
(en baisse):

 Lorsqu’ils augmentent ou diminuent simultanément, la corrélation est positive.


 Lorsqu’un changement est négatif et que l’autre est positif, la corrélation est négative.

La corrélation peut également être nulle, ce qui implique qu’il n’y a pas d’association entre
les variables. Cela se produit, par exemple, lorsque les changements dans une variable ne
montrent aucun changement global sur l’autre.

Statistiquement parlant, il existe plusieurs définitions de la corrélation. Ici, nous considérons


la corrélation p dite de Pearson qui est une valeur comprise entre -1 et 1. Elle mesure la
relation linéaire entre les variables. 
La causalité signifie que A cause B, par exemple comme un virus qui déclenche une maladie.
Mais comment l’importation de pétrole pourrait-elle faire tomber les gens du lit? C’est peut-
être par hasard que nous voyons tous les deux augmenter. Ou nos deux variables pourraient
avoir augmenté d’année en année en raison de différentes causes : comme la croissance
économique qui exige d’importer plus de pétrole, et « Trouble du comportement en sommeil
paradoxal » dont la prévalence est d’environ 0,5-2% et peut justifier l’augmentation de la cas
de décès dus à la croissance démographique !

En général, l’étude de la causalité est beaucoup plus compliquée et nécessite également une
conception soignée de votre expérience.

Vous aimerez peut-être aussi