Académique Documents
Professionnel Documents
Culture Documents
Statistique descriptive
ACP
Wafae EL ALEM
welalem@gmail.com
1
Plan
• Introduction
• Principe
• Nature des Données
• Application en psychologie et éducation
2
Méthodes factorielles
• Contexte
➢Régression
➢Classification
4
Apprentissage supervisé
Régression
5
Apprentissage supervisé
Régression
6
Apprentissage supervisé
Prévision du prix des voitures
7
Apprentissage supervisé
Classification
Source : https://www.youtube.com/watch?v=bQI5uDxrFfA&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=2
8
Apprentissage supervisé
Classification
Source : https://www.youtube.com/watch?v=bQI5uDxrFfA&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=2
9
Apprentissage supervisé
Classification
Source : https://www.youtube.com/watch?v=bQI5uDxrFfA&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=2
10
Exercice d’apprentissage
La taille d’un athlète peut jouer un rôle important dans ses résultats en
saut en hauteur. Les données utilisées ici présentent donc la taille et la
performance de 20 athlètes.
11
Apprentissage non supervisé
➢ Analyse
factorielle
➢ Clustring
12
Méthodes factorielles
Principe
Analyse factorielle
Factor analysis
Visualisation des
données dans le
meilleur espace réduit
13
Méthodes factorielles
15
Mise en œuvre d’une ACP et essai d’interprétation
16
Exemple des données : étudiants
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques,
physique, français, anglais)
17
Matrice des corrélations
19
Pertinence d’une ACP
Le test de sphéricité de Bartlett propose une mesure globale en s’appuyant sur une
démarche statistique. Il vise à détecter dans quelle mesure la matrice des corrélations
R=(rij)(p x p) calculée sur nos données (matrice observée) diverge significativement de la
matrice identité (matrice théorique sous hypothèse nulle H0).
Pour mesurer le lien entre les variables, nous calculons le déterminant |R| de la matrice
de corrélation. Sous H0, |R| = 1, s’il y a des colinéarités parfaites nous aurions |R| = 0.
Le test de Bartlett vise justement à vérifier si l’on s’écarte significativement de cette
situation de référence |R| = 1. La statistique de test s’écrit :
20
Pertinence d’une ACP
L’indice KMO nous permet de poursuivre l'ACP ou pas. Le point de départ est toujours la matrice
de corrélation. On sait que les variables sont plus ou moins liées dans la base. La corrélation brute
entre deux variables est influencée par les (p-2) autres. Nous utilisons la corrélation partielle pour
mesurer la relation (nette) entre deux variables en retranchant l’influence des autres. L’indice
cherche alors à confronter la corrélation brute avec la corrélation partielle. Si la seconde est
nettement plus faible (en valeur absolue), cela veut dire que la liaison est effectivement
déterminée par les autres variables. Donc la possibilité de mettre en place une réduction efficace
de l’information. En effet, en ACP, on souhaite que les corrélations soient expliquées par d'autres
variables que celles concernées. Il ne serait pas intéressant d'étudier des variables uniquement
corrélées deux à deux.
21
Pertinence d’une ACP
Grille de lecture
22
Résultats de l’ACP
Si les variables originales sont fortement corrélées entre elles, un nombre réduit de
facteurs permet d’expliquer 80 % à 90 % de la variance totale.
24
Nombre de facteurs à retenir?
25
Nombre de facteurs à retenir?
26
Représentation des individus dans le premier plan principal
29
Représentation des variables dans le premier plan principal
30
Représentation des variables dans le premier plan principal
31
Interprétation
Interprétation
L’extrait de la matrice des corrélations croisant les facteurs
principaux de l’ACP avec les variables est le principal support
de l’interprétation.
Commentaire
Le premier axe principal de l’ACP semble bien fournir le
facteur commun : il est corrélé positivement, fortement et très
significativement avec toutes les variables.
On voit que le premier facteur est corrélé positivement, et assez fortement, avec
chacune des 4 variables initiales : plus un élève obtient de bonnes notes dans
chacune des 4 disciplines, plus il a un score – ou coordonnée – sur l’axe 1 élevé;
réciproquement, plus ses notes sont mauvaises, plus son score est négatif. On peut
ainsi penser que l’axe 1 représente la moyenne générale.
33
Interprétation
34
Interprétation
35
Interprétation
Clustring
36