Vous êtes sur la page 1sur 36

Royaume du Maroc ‫المملكة المغربية‬

Université Mohammed V de Rabat ‫جامعة محمد الخامس بالرباط‬


Faculté des Sciences de l’Education ‫كلية علوم ر‬
‫التبية‬

Statistique descriptive

Statistique descriptive multivariée

ACP

Wafae EL ALEM
welalem@gmail.com

1
Plan

• Introduction
• Principe
• Nature des Données
• Application en psychologie et éducation

2
Méthodes factorielles

• Contexte

✓ Nombre important de variables et d’individus statistiques,


bases de données larges et multi-dimensionnelles;
✓ Pas ou peu de connaissances préalables sur les données,
apprentissage non supervisé.

• Objectifs des méthodes

✓ Réduction des données;


✓ Identification des relations entre les variables;
✓ Identification des groupes d’individus et/ou des types de
comportement.
3
Apprentissage supervisé

➢Régression

➢Classification
4
Apprentissage supervisé
Régression

5
Apprentissage supervisé
Régression

6
Apprentissage supervisé
Prévision du prix des voitures

7
Apprentissage supervisé

Classification

Source : https://www.youtube.com/watch?v=bQI5uDxrFfA&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=2

8
Apprentissage supervisé

Classification

Source : https://www.youtube.com/watch?v=bQI5uDxrFfA&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=2

9
Apprentissage supervisé

Classification

Source : https://www.youtube.com/watch?v=bQI5uDxrFfA&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=2

10
Exercice d’apprentissage
La taille d’un athlète peut jouer un rôle important dans ses résultats en
saut en hauteur. Les données utilisées ici présentent donc la taille et la
performance de 20 athlètes.

Pour un nouveau athlète


de taille x, on souhaite
prédire sa performance.
Est-ce que c’est un
problème de régression
ou de classification ?

11
Apprentissage non supervisé

➢ Analyse
factorielle

➢ Clustring
12
Méthodes factorielles

Principe

Analyse factorielle
Factor analysis

Visualisation des
données dans le
meilleur espace réduit

13
Méthodes factorielles

• Analyse en Composantes Principales (ACP)


S’applique dans le cas où on dispose de d variables quantitatives et n individus.
• Analyse Factorielle des Correspondances (AFC)
S’applique dans le cas où on dispose de 2 variables qualitatives et n individus.
• Analyse des Correspondances Multiples (ACM)
S’applique dans le cas où on dispose de d variables qualitatives et n individus.
14
ACP

L’ACP est une méthode extrêmement puissante de compression et de synthèse de


l’information, très utile lorsque l’on est en présence d’une somme importante de
données quantitatives à traiter et interpréter. Elle permet d’en donner une
représentation géométrique dans le meilleur espace réduit, c'est-à-dire en utilisant un
graphique qui permet de voir les rapprochements et les oppositions entre les
caractéristiques des individus.

15
Mise en œuvre d’une ACP et essai d’interprétation

16
Exemple des données : étudiants
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4 disciplines (mathématiques,
physique, français, anglais)

17
Matrice des corrélations

Etude des individus

Ressemblance entre individus profil de réponse


Existe -t-il des groupes homogènes d’individus ?
Synthèse

Etude des variables

Liaisons entre variables


Liaisons linéaires : coefficient de corrélation
Quelles sont les variables qui sont liées
positivement entre elles ?
Existe-t-il des groupes de variables
corrélées entre elles ?
Indicateur synthétique
18
Pertinence d’une ACP

La qualité d'une ACP

Afin de vérifier la pertinence d’une ACP, deux indicateurs sont proposés :

1. Le test de sphéricité de Bartlett


2. L’indice KMO (Kaiser – Mayer – Olkin)

19
Pertinence d’une ACP

Le test de sphéricité de Bartlett:

Le test de sphéricité de Bartlett propose une mesure globale en s’appuyant sur une
démarche statistique. Il vise à détecter dans quelle mesure la matrice des corrélations
R=(rij)(p x p) calculée sur nos données (matrice observée) diverge significativement de la
matrice identité (matrice théorique sous hypothèse nulle H0).
Pour mesurer le lien entre les variables, nous calculons le déterminant |R| de la matrice
de corrélation. Sous H0, |R| = 1, s’il y a des colinéarités parfaites nous aurions |R| = 0.
Le test de Bartlett vise justement à vérifier si l’on s’écarte significativement de cette
situation de référence |R| = 1. La statistique de test s’écrit :

20
Pertinence d’une ACP

L’indice de Kaiser-Meyer-Olkin (KMO)

L’indice KMO nous permet de poursuivre l'ACP ou pas. Le point de départ est toujours la matrice
de corrélation. On sait que les variables sont plus ou moins liées dans la base. La corrélation brute
entre deux variables est influencée par les (p-2) autres. Nous utilisons la corrélation partielle pour
mesurer la relation (nette) entre deux variables en retranchant l’influence des autres. L’indice
cherche alors à confronter la corrélation brute avec la corrélation partielle. Si la seconde est
nettement plus faible (en valeur absolue), cela veut dire que la liaison est effectivement
déterminée par les autres variables. Donc la possibilité de mettre en place une réduction efficace
de l’information. En effet, en ACP, on souhaite que les corrélations soient expliquées par d'autres
variables que celles concernées. Il ne serait pas intéressant d'étudier des variables uniquement
corrélées deux à deux.

21
Pertinence d’une ACP

Grille de lecture

Mesure KMO Recommandation


≥ 0.90 Excellent
0.80+ Très bien
0.70+ Bien
0.60+ Moyen
0.50+ Médiocre
<0.50 Inacceptable

22
Résultats de l’ACP

L’inertie expliquée par


le premier axe principal
La part d’inertie
La part d’inertie expliquée expliquée par le premier
par le premier axe principal= plan principal=0.99876
Inertie totale = σ𝑝𝑗=1 λ = 4
𝑗
λ1 2.895
= 4 =0.7237
𝑝
23
Nombre de facteurs à retenir?

Objectif : garder un maximum d’information des données initiales.

Mesure de cette information : le % de variance totale expliquée

Si les variables originales sont fortement corrélées entre elles, un nombre réduit de
facteurs permet d’expliquer 80 % à 90 % de la variance totale.

Si par exemple on trouve un pourcentage de variance totale expliquée par le


premier plan principal= 90%, on conçoit clairement que le nuage de points est
presque aplati sur un sous-espace à deux dimensions et qu’une représentation du
nuage dans le plan formé par les deux premiers facteurs principaux sera
satisfaisante.

24
Nombre de facteurs à retenir?

Le coude de Cattell : il constitue un


critère plus sévère pour déterminer le
nombre de facteurs. On ne retient que les
facteurs qui se situent avant le 2 facteurs
changement abrupt de la pente. Les
points qui suivent ce changement, appelé
rupture du coude, semblent former une
ligne droite horizontale.

25
Nombre de facteurs à retenir?

On remarque que les 2 premiers facteurs restituent à eux seuls la quasi-totalité de la


dispersion du nuage 99,876 %, ce qui permet de négliger les autres. Par conséquent, les
graphiques en dimension 2 présentés ci-dessous résument presque parfaitement la
configuration réelle des données qui se trouvent en dimension 4 : l’objectif (résumé
pertinemment des données en petite dimension) est donc atteint.

26
Représentation des individus dans le premier plan principal

Question : Qu’est ce qui oppose Ahmed à Mohammed ?


27
Représentation des individus dans le premier plan principal

Question : Qu’est ce qui oppose Ahmed à Mohammed ?


28
Représentation des variables dans le premier plan principal
Coordonnées des variables
Explique les coordonnées des variables sur les facteurs retenus. Ces valeurs
s’interprètent également comme des corrélations facteurs\variables.

29
Représentation des variables dans le premier plan principal

30
Représentation des variables dans le premier plan principal

31
Interprétation
Interprétation
L’extrait de la matrice des corrélations croisant les facteurs
principaux de l’ACP avec les variables est le principal support
de l’interprétation.

Commentaire
Le premier axe principal de l’ACP semble bien fournir le
facteur commun : il est corrélé positivement, fortement et très
significativement avec toutes les variables.

L’interprétation du deuxième axe est plus délicate. Il possède


des corrélations significatives avec toutes les variables, mais
tantôt positives tantôt négatives. Si l’on associe les variables
selon le signe de leur corrélation avec l’axe « celui-ci pourrait
bien être le porteur d’une opposition « Math & Physique »
contre « Français & Anglais ». Ceci mérite vérification. On va
procéder en créant quelques variables virtuelles.
32
Interprétation

Premier axe principale :

On voit que le premier facteur est corrélé positivement, et assez fortement, avec
chacune des 4 variables initiales : plus un élève obtient de bonnes notes dans
chacune des 4 disciplines, plus il a un score – ou coordonnée – sur l’axe 1 élevé;
réciproquement, plus ses notes sont mauvaises, plus son score est négatif. On peut
ainsi penser que l’axe 1 représente la moyenne générale.

Vérification : si telle est le cas on peut s’attendre à ce que la corrélation entre le


premier axe principale et la moyenne générale des notes soit presque égale à 1. La
matrice des corrélations entre cette variable et le premier facteur va permettre de
confirmer l’ébauche d’interprétation.

33
Interprétation

34
Interprétation

Deuxième axe principale :

Oppose, d’une part, le français et l’anglais


(corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives).
Il s’agit donc d’un axe d’opposition entre disciplines
littéraires et disciplines scientifiques, surtout marqué
par l’opposition entre le français et les
mathématiques. Cette interprétation peut être précisée
avec les graphiques et tableaux relatifs aux individus
que nous présentons maintenant.

35
Interprétation
Clustring

36

Vous aimerez peut-être aussi