Académique Documents
Professionnel Documents
Culture Documents
M1 10 11 12 13
M2 8 6 5 4
M3 3 2 11 15
M4 13 14 15 16
1 - LA MATRICE DE CORRELATION :
Les moyennes :
Variances et écart-types :
¯
Xi− X ¿ ¿
6i
10−11.5
= = -1.34
1.12
Matrice transposée :
Matrice de corrélation :
Matrice de corrélation :
V1 :3,831
V2 :0,163
V3 :0,04
Avec les classifications, les analyses factorielles (ou en axes principaux) sont des techniques
d'analyse de données qui s’accommodent sans problème de milliers voire de millions
d’observations. Tels des orpailleurs devant brasser des tonnes de terre pour trouver LA pépite,
les data miners vont utiliser ces techniques pour tamiser les données et extraire la super
info… Précisons tout de même que ces techniques ne sont pour la plupart que descriptives.
C'est à l'homme de métier de trouver l'explication des liaisons.
Les analyses factorielles permettent de détecter des proximités entre variables, entre individus
et entre variables × individus, mettant à jour des liens ou au contraire des « répulsions ». Pour
une analyse de marché, par exemple, elles assurent l’identification des segments de clientèle à
partir de variables mesurées (CSP, types de commerce habituellement utilisés, revenu,
catégorie de logement…). Le segment apparaît alors comme une dimension supplémentaire,
cachée au départ mais qui sera le critère grâce auquel le produit pourra être positionné. Les
analyses factorielles conduisent aussi à identifier facilement des valeurs aberrantes, qu'il est
alors possible d'éliminer pour reconduire l'analyse. Enfin, elles permettent de hiérarchiser
l'importance de critères éventuellement explicatifs.
L'analyse des données apparaît donc comme une forme TRÈS élaborée de la statistique
descriptive. Comme l'écrit Ludovic Lebart dans l'introduction de l'un des manuels qui font
autorité en la matière, « le passage au multidimensionnel induit un changement qualitatif
important. On ne dit pas en effet que des microscopes ou des appareils radiographiques sont
des instruments de description, mais bien des instruments d'observation ou d'exploration, et
aussi des outils de recherche », in Statistique exploratoire multidimensionnelle, L. Lebart,
M. Piron, A. Morineau, Dunod 2006. Si certaines techniques permettent l'exploration, d'autres
impliquent la confirmation d'une régle préétablie (analyse discriminante décisionnelle).
Derrière tout ça, il y a bien sûr des mathématiques et en particulier de l'algèbre linéaire... Le
passage aux maths s'effectue dès qu'un tableau est considéré comme une matrice.
Visuellement, les kk variables peuvent être représentés par un nuage de points dans un espace
vectoriel de dimension nn et réciproquement, les individus prennent la forme de points dans
l'espace des variables. Bien sûr, au-delà de trois dimensions, une représentation graphique
unique devient impossible et il faut ruser. L'intérêt de l'opération est de visualiser des
proximités. Supposons qu'une enquête a été conduite dans une entreprise. On s'intéresse à
l'espace des salariés. Parmi les points représentatif des variables, on s'aperçoit que le point
« âge » est très proche du point « ancienneté ». Donc, l'entreprise recrute à peu près toujours
au même âge et il ne servait à rien de demander aux salariés leur âge ET leur ancienneté.
Les unités statistiques, comme les variables, se situent dans le même espace qu’avant
(endomorphisme) mais on connaît leurs coordonnées sur de nouveaux axes, orthogonaux entre
eux et triés selon leur capacité à maximiser l’inertie qui est projetée sur eux. Pour dire les
choses moins techniquement, l’analyse factorielle permet de mettre en évidence une grandeur
synthétique abstraite qui différencie au mieux les individus (ou les variables) entre eux, puis
ce qui les différencie dans une moindre mesure et ainsi de suite par ordre décroissant
d’importance. À ces grandeurs il est plus ou moins facile d'associer une notion.
Graphiquement, la proximité de deux points-individus dans l’espace des variables ou de deux
points-variables dans l’espace des individus signifie qu’il existe bien une proximité statistique
au regard des critères étudiés. Surtout, ces grandeurs abstraites sont
totalement indépendantes les unes des autres.
La corrélation est une mesure de l’association entre deux variables, plus la corrélation
est élevée, plus les variables sont associées ensemble. En d’autres termes, lorsqu’une de
ces variables change (comme le taux de chômage), l’autre (le taux de criminalité) change
en conséquence.
Notez que l’un ou l’autre de ces changements peut être positif (en augmentation) ou négatif
(en baisse):
La corrélation peut également être nulle, ce qui implique qu’il n’y a pas d’association entre
les variables. Cela se produit, par exemple, lorsque les changements dans une variable ne
montrent aucun changement global sur l’autre.
En général, l’étude de la causalité est beaucoup plus compliquée et nécessite également une
conception soignée de votre expérience.