Vous êtes sur la page 1sur 97

Analyse des données 1

Université Hassan II
Faculté des sciences Ain Chock
Casablanca

ANALYSE DES DONNÉES


Partie I

Samira EL MOUMEN
selmoumen@yahoo.fr
Analyse des données 2

Introduction

La statistique est une méthode scientifique qui consiste à réunir des données chiffrées
sur des ensembles nombreux, les organiser, les résumer puis les analyser, les
commenter et les critiquer.
Analyse des données 3

Introduction

Statistique

Statistique inferentielle Analyse Exploration des données

Généraliser ce qu’on Extraire l’essentiel de


observe sur un l’information cachée par le
échantillon à toute la volume de données
population
Analyse des données 4

Introduction
Exemple1:
Calculer la durée de vie moyenne des ampoules de certain production

Problème

Population infini
Analyse des données 5

Introduction
Solution

Considérer un échantillon

Calculer sa durée de vie moyenne

 La considère comme approximation (estimation) de durée cherchée


Analyse des données 6

Introduction
Exemple 2:

Tester la conformité de pièces d’une certains productions

Solution:
AD
Evolue
Complexité des données L’évolution de l’outil informatique
Analyse des données 7

Méthodes factorielles
Ce sont des méthodes qui s’applique à des tableaux de type (Individu/Variable)

X1 ……………………………..Xp
1
.
. X(i)
i
.
.
n
Analyse des données 8

Méthodes factorielles
Ces méthodes qui s’applique à des tableaux, cherchent à réduire ces tableaux
synthétiquement en associant des représentations graphiques qui facilite la lecture et
l’interprétation selon:
 La définition de l’information (objectif)
 Type de données
 Et on distinguant:
• Analyse en composantes principales ACP
• Analyse Factorielles des Correspondances AFC
• Analyse des Correspondances Multiple ACM
Analyse des données 9

Méthodes décisionnelles

Variable Explicatives

Prédire la variable
Régression
aléatoire dépendante

Variable à expliquée
(dépendante)
Analyse des données 10

Méthode de classification

Objectif:
Définir des classes homogène au niveau d’individus décrits par des variables
Analyse des données 11

L’outil informatique

Le logiciel SPSS
Analyse des données 12

Méthodes factorielles
Réduction de dimensions

P_Omar P_Fatima P_Mohammed

F1
P_Ahmed P_Marwa P_ Farid P_Kawtar P_Anis P_Nadia

1D

2D
Analyse des données 13

Méthodes factorielles

Réduction de dimensions

3D 2D
Analyse des données 14

Méthodes factorielles

X  IR15714
Analyse des données 15

Méthodes factorielles
Visualisation des données

xi
X  IR1572
Analyse des données 16

Méthodes factorielles
Principe

Analyse factorielle
Factor analysis

Visualisation des
données dans le
meilleur espace réduit
Analyse des données 17

ACP
Nature des Données

x : Tableau de données
Variables quantitatives
1 j p xij : Valeur de la ième observation
pour la jème variable
1
xi :ième observation du tableau

individus X  j : j ème variable du tableau


i xij
n : effectif des individus

p : nombre de variables
n
Analyse des données 18

ACP

Les n individus forment un nuage de


points, appelé nuage des individus
représentées dans un espace à p
dimensions.

Difficulté : cette représentation est


Inaccessible à nos sens.

Question : est- il possible de trouver une


représentation axiale, plane ou de
dimension 3 de ce nuage des individus ?
Analyse des données 19

ACP
1 x j p
1
Notations
• Observation (individu) : xi   IR
p

avec xi  ( xi1 xij xip ) T xi i xi1 xij xip


• Variable (attribut) : x j

Description des données


n
Soit X la matrice des données xi  IR p :

 x11 x12 . x1 p   x1T 


   T 
 x21 x22 . x2 p   x2  
 x1 x 2 . x n  
T
X  
. . . .   . 
   
x xn 2 . xnp   xnT 
 n1
Analyse des données 20

ACP
Nuage des individus NI

x j NI
1 j p p
IR •
1 d 2 ( i, l ) • xl 

• • xi 
•g
• •
xi i xi1 xij xip • • •

O
xj xij xlj j
n

g d 2 ( i, l )   ( xij xlj ) 2
x1 xj xp j


N I  xi  IR p  i 1,.....,n Nuage de points associé aux données.
n
1
g est le centre de gravité du nuage NI , avec g j 
n
x
i 1
ij
Analyse des données 21

ACP
Centrage et réduction
NI
1 j p p
IR

1 •
• • • xi
•g
xi xi1 xij xip • •
i

O
xj xij j
n

g x1 xj xp
Analyse des données 22

ACP
Centrage et réduction
Poids (kg)
Afin de donner aux variables la même importance
on centre et on réduit les variables initiales.

Le centrage permet de comparer les dispersions • N


par rapport à un point de référence unique (la • I

moyenne, qui vaut zéro pour la variable après •
centrage). • O=g Taille (m)

En réduisant les variables, on les neutralise des • •
unités et on leur donne une variance égale à 1. •

X ij  X j
X ij 
Sj
Analyse des données 23

ACP
Centrage et réduction
NI
p
IR
X ij  X j •
X ij 
Sj •
• • • xi
•g
• •
La dispersion du nuage autour de son •
centre de gravité est mesurée par
l’inertie du nuage qui correspond à la O
somme des variances des variables xj xij j
initiales.
Analyse des données 24

ACP

Principe

Soit xi   IR pour i  1,....., n des données centrées.


p

Objectif : trouver un sous-espace de dimension k << p où projeter les


xi de façon à perdre le moins d’informations possibles ou encore à
déformer le moins possible le nuage de points initiale.
Analyse des données 25

ACP
Exemple de réflexion IR p
F2 NI
• u1, u2 : vecteurs orthonormés (axes F1 et
F2). Projeter les données sur l’espace u2 • xi  • F1

engendré par u1 et u2 •
u1 hi
O=g
• • •
• Quel est le meilleur sous-espace de •
dimension 1 ? •

Intuitivement, il s'agit de trouver un sous-espace tel que la distance entre points


( individus ) soit conservée dans le processus de projection sur ce sous-espace.
Ainsi, la ressemblance entre individus est conservée dans cette opération de
projection. Le nuage des individus est déformé le moins possible, l’inertie du
nuage projeté est donc maximale.
Analyse des données 26

ACP
Procédure

• Projection orthogonale de xi  sur U


IR p NI

• xi  • F1
• Contrainte : •
• u1
hi
O=g
1- U T U  I • • •

2- Les vecteurs de la nouvelle base


sont orthogonaux 2 à 2 c’est-à-dire

uiT u j  0  i  j
Analyse des données 27

Axes factoriels et composantes principales


• Soit X la matrice des données et U  IR p . Soit le vecteur c1  IR n tq :
c1  X u1  ( x1Tu1 x2Tu1 ... xnTu1 )T

• On appelle premier axe factoriel de X le vecteur unitaire u1 tel que la


variance de X u1 soit maximale. Le vecteur c1 est appelé première
composante principale.

• Le kième axe factoriel est le vecteur unitaire uk tel que la variance de
ck  X uk soit maximale et que uk soit orthogonal aux k-1 premiers
axes factoriels.
Analyse des données 28

Formulation du problème

On cherche l'axe F1 passant le mieux


possible au milieu du nuage NI. IR p NI
F1
xi • u •
• 1

On cherche à trouver le vecteur unitaire u1 hi
O=g
qui minimise l’erreur d xi , hi  entre le vrai
2
• • •
xi  et sa projection hi sur l’axe F1. •

Analyse des données 29

Formulation du problème

IR p
Trouver u 1 le vecteur directeur de F1 qui NI

• xi  • F1
• u
1 n •
max  Ohi  hi 1
2
u n i 1 O=g
(*) • • •

uT1 u1  1
Analyse des données 30

Formulation du problème

Ohi  PF1 ( xi )  Pu1 ( xi )  uT1 xi

1 n T
max  u1 xi xiTu1
u1 n
i 1
(*) 
sous la contrainte u1u1  1
T

Solution:

Le premier axe factoriel u1 est le vecteur propre associé à la plus grande valeur
propre de la matrice de covariance  .
Analyse des données 31

Formulation du problème
kième axe factoriel

Lemme
Le sous-espace de dimension k minimisant l’erreur quadratique d’estimation des
données contient nécessairement le sous-espace de dimension k -1.

Calcul du deuxième axe factoriel u2 sachant que u1 est connu

On cherche un vecteur unitaire u2 qui maximise la variance uT2  u2 et qui soit
orthogonal au vecteur u1 .

On démontre que u2 est le vecteur propre associé à 2 , la seconde plus grande
valeur propre de  .
Analyse des données 32

Formulation du problème

IR p

Trouver le plan P tel que : NI


P •X i •
1 n •
 Ohi 2
maximum • hi1
u1
n i 1 O=g
• • • j
Plan d’inertie maximum •
• hi2 hi
u 2

u1  P

u2 d’inertie maximum avec u2  u1


Analyse des données 33

Algorithme

X ij  X j
1. Centrer les données et les réduire : X ij 
S
2. Calculer la matrice de covariance j

3. Calculer la décomposition en valeurs propres


4. Ordonner les valeurs propres par ordre décroissant
5. Nouvelle base de représentation des données U:  ( u  1 u  2 ... u  k )
6. Projection de tous les points via U s’obtient matriciellement: C  X U
Analyse des données 34

Propriétés des axes factoriels

• Les valeurs propres de sont positives car est une matrice semi-definie positive;
• L’axe factoriel F1passe par le centre de gravité O du nuage de points NI;
• L'axe F1est engendré par le vecteur normé u,1 vecteur propre de la matrice associé
à la plus grande valeur propre ;
• La variance expliquée par l’axe factoriel F1(homogène à une inertie) est égal à ;
• La variance totale des axes factoriels est
• Pourcentage de variance expliquée par les k premiers axes

j 1
 j

p
. 100
j 1
 j
Analyse des données 35

Propriétés des composantes principales

• Les composantes principales ck  IR n sont centrées et non-corrélées;

• Soit ck  X uk , le vecteur représentant la projection de X sur le kième axe u k . La


variance de la composante principale ck est ;

• cor ( X  j , Ck )  k ukj .


Analyse des données 36

Exercice
10 femmes donnent des notes pour trois produits P1, P2, P3.
Elles donnent 1 pour un produit apprécié, 0 si elles sont indifférentes, et -1 pour un
produit non apprécié
P1 P2 P3
1 1 0 0
2 1 0 0
3 1 0 0
4 1 0 0
5 1 0 0
6 1 0 0
7 1 0 0
8 1 0 0
9 0 1 -1
10 0 -1 1
Analyse des données 37

Exemple
On veut faire une ACP sur ces données
1. Déterminer la matrice X centré et réduit
2. Déterminer la matrice
3. Déterminer ces valeurs propre et vecteurs propre
4. Déterminer les composantes principale associé
Analyse des données 38

1 / 2 0 0 
 
1 / 2 0 0 
1 / 2 0 0 
 
1 / 2 0 0 
1 / 2 0 0 
X  
1 / 2 0 0 
 
1 / 2 0 0 
1 / 2 0 0 
 
2 5  5
 
 2  5 5
Analyse des données 39

• On détermine maintenant les valeurs et vecteurs propre


• On a
Analyse des données 40

• On a
• Donc les valeurs propre sont

• On va prendre 1
Analyse des données 41

• Pour , on détermine le vecteur propre associé

• => =
Analyse des données 42

• Pour , on détermine le vecteur propre associé

• => =
Analyse des données 43

Les nouvelles variables est appelée le l ème composante


principale , ce sont les variables combinaisons
linéaires des (j=1,….,p)

La cordonné de l’individu i sur la l ème axe principale est


Analyse des données 44

• Pour premier composante principale:

Cordonné du 9ème ind sur l’axe 1


• On a
Analyse des données 45

• Pour deuxième composante principale:

Cordonné du 9ème ind sur l’axe 2


• On a
Analyse des données 46

Aide à l’interprétation (individus)


1. L’origine O est la projection de la moyenne de toutes les
variables
2. Qualité de projection
a) Globale
inertie ou information reconstruite par l’axe
principale l
inertie totale

=La proportion de l’inertie restituée par l’axe principale

=La part d’information restituée par le plan principale


Analyse des données 47

Pour l’exemple traité:


Le premier axe restitue 67%
Le deuxième axe restitue 33%
Le premier plan principale restitue 100% de l’information
2ème axe

L’ind 1=2=…=8

1ère axe

L’ind 10 L’ind 9

Projection des individus sur le premier plan principal


Analyse des données 48

Aide à l’interprétation (individus)


b) Qualité de représentation d’un individu sur le lème axe
principale

qualité de représentation de ind i sur


le plan ( )
Analyse des données 49

La contribution de l’individu
Il est très utile de calculer pour chaque axe la contribution apportée par
les divers individus à cet axe.
Considérons la kième composante principale Ck , soit la valeur de
la composante pour le ième individu.

La contribution de l’individu i à la composante n° k est définie par

Remarque : Il n’est pas souhaitable qu’un individu ait une contribution


excessive éliminer les individus dont la contribution est trop
importante.
Analyse des données 50

Aide à l’interprétation (variables)


Cordonnées des variable sur l’axe principale

avec

Qualité de représentation d’une variable sur l’axe principale


Analyse des données 51

Remarque importante
Une valeur de signifie que

Si cor >0 => α>0


Si cor<0 => α<0

Sens d’une composante principale

Les variables les plus corrélées (>0 ou <0) avec


leur donnent un sens
Analyse des données 52

Cercle de corrélation
Il s’agit de représenter sur le plan ( ) les variables repérées
par leur corrélations avec les composantes principale associées:
2ème axe
1

𝑿.𝒋
.

-1 1 1ère axe

-1
Analyse des données 53
Les variables bien représentées sont les variables se
projetant proche du circonférence du cercle de
corrélation
1
Les variables . et . sont
bien représentées
𝑿.𝒌
𝑿.𝒋

-1 1

les variables proche du centre sont


. . signifie que mal représentées
-1
On n’interpréte pas leur position
. .
Analyse des données 54

Interprétation des axes


Deux types de facteurs :
• Effet taille : les variables sont toutes du même coté de
l’axe. (i.e. elles contribuent toutes dans le même sens à la
formation de l’axe)
• Effet forme : Deux groupes de variables opposées : celles
qui contribuent positivement à l’axe, celles qui contribuent
négativement.
Analyse des données 55

Interprétation des axes


Pour chaque axe retenu et chaque nuage, on regarde
• Quelles sont les variables qui participent le plus à la
formation de l’axe
• Quels sont les individus qui participent le plus à la
formation de l’axe Outil de mesure : contributions des
points (individus si non anonymes et variables) à l’inertie
de cet axe.

Ce sont les points dont la contribution est supérieure à la


moyenne qui permettent de donner un sens à l’axe.
Analyse des données 56

Interprétation des axes


L’interprétation des nouvelles variables (des axes factoriel)
se fera à l’aide des individus et variables contribuant le plus
à l’axe avec la règle suivante : si une variable a une forte
contribution positive à l’axe, les individus ayant une forte
contribution positive à l’axe sont caractérisés par une
valeur élevée de la variable.
Analyse des données 57

Résultats numériques d’une ACP


Individus ( )
Cordonnées Qualité

. . . ×
1

n
Analyse des données 58

Résultats numériques d’une ACP


Variable ( )
Cordonnées Donner un sens à 𝐶 et 𝐶 Qualité de représentation

𝜆 𝑢 𝜆 𝑢 𝑐𝑜𝑟 𝑋. , 𝐶 𝑐𝑜𝑟 𝑋. , 𝐶 𝑐𝑜𝑟² 𝑋. , 𝐶 𝑐𝑜𝑟² 𝑋. , 𝐶 𝑐𝑜𝑟² 𝑋. , 𝐶 +


𝑐𝑜𝑟² 𝑋. , 𝐶

.
Analyse des données 59

Exercice
1. Organiser les résultats numériques de l’ACP de tableau de
données précédant, pour l’espace des individus et pour
l’espace des variables
2. Faites les représentations géométriques
3. Interpréter les
Analyse des données 60

Mise en œuvre d’une ACP sous SPSS et essai


d’interprétation
Analyse des données 61

Introduction
Le logiciel SPSS (Statistical Package for the Social Sciences)
a été créé, au tout début, pour les besoins des psychologues. Avec
le temps (cette entreprise existe depuis 1965), on a intégré un
grand nombre de procédures statistiques tout en facilitant le
travail de manipulation des données.
Analyse des données 62

Le fonctionnement
du logiciel SPSS

Le logiciel SPSS fonctionne à partir de fenêtres et de menus.

La figure ci dessus reproduit la fenêtre d’application. Cette fenêtre est


un tableau où les lignes correspondent à des observations et les colonnes, à des
variables.
Analyse des données 63

Le fonctionnement
du logiciel SPSS
La figure ci dessous nous montre la fenêtre servant à la définition des
variables. Chaque variable sera donc définie par dix colonnes contenant les
caractéristiques particulières de chacune des variables.
Analyse des données 64

Les principales commandes

Les principales commandes de SPSS concernent plus particulièrement la


définition des variables et la saisie des données ; sans ces opérations essentielles,
l’analyse des données est impossible.
Analyse des données 65

Le fonctionnement
du logiciel SPSS
Quand une commande est
exécutée, apparaît
automatiquement une fenêtre
qui montre les résultats
obtenus. Nous voyons cette
fenêtre et ces résultats dans la
figure à droite.

Dans le rectangle de
gauche, nous avons la table
des matières des résultats qui
apparaissent dans la surface
de droite.
Analyse des données 66

Exemple des données : étudiants xi  IR 4

Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4


disciplines (mathématiques, physique, français, anglais)
Analyse des données 67

Matrice des corrélations

Etude des individus

Ressemblance entre individus profil de réponse


Existe -t-il des groupes homogènes d’individus ?

Etude des variables

Liaisons entre variables


Liaisons linéaires : coefficient de corrélation
Quelles sont les variables qui sont liées
positivement entre elles ?
Existe-t-il des groupes de variables
corrélées entre elles ?
Analyse des données 68

Pertinence d’une ACP

La qualité d'une ACP

Afin de vérifier la pertinence d’une ACP, deux indicateurs sont proposés :

1. Le test de sphéricité de Bartlett


2. L’indice KMO (Kaiser – Mayer – Olkin)
Analyse des données 69

Pertinence d’une ACP

L’indice de Kaiser-Meyer-Olkin (KMO)


L’indice KMO nous permet de poursuivre l'ACP ou pas. Tester est ce qu’on peut
réduire la dimension ou non.
Grille de lecture
Mesure KMO Recommandation
≥ 0.90 Excellent
0.80+ Très bien
0.70+ Bien
0.60+ Moyen
0.50+ Médiocre
<0.50 Inacceptable
Analyse des données 70

Nombre de facteurs à retenir?

Objectif : garder un maximum d’information des données initiales.

Mesure de cette information : le % de variance totale expliquée

Si les variables originales sont fortement corrélées entre elles, un nombre réduit de
facteurs permet d’expliquer 80 % à 90 % de variance.

Si par exemple on trouve un pourcentage de variance totale expliquée par le


premier plan principal= 90%, on conçoit clairement que le nuage de points est
presque aplati sur un sous-espace à deux dimensions et qu’une représentation du
nuage dans le plan des deux premiers facteurs principaux sera satisfaisante.
Analyse des données 71

Nombre de facteurs à retenir?

Le coude de Cattell : il constitue un


critère plus sévère pour déterminer le
nombre de facteurs. On ne retient que les
facteurs qui se situent avant le 2 facteurs
changement abrupt de la pente. Les
points qui suivent ce changement, appelé
rupture du coude, semblent former une
ligne droite horizontale.
Analyse des données 72

Nombre de facteurs à retenir?

On remarque que les 2 premiers facteurs restituent à eux seuls la quasi-totalité de la


dispersion du nuage 99,876 %, ce qui permet de négliger les autres. Par conséquent, les
graphiques en dimension 2 présentés ci-dessous résument presque parfaitement la
configuration réelle des données qui se trouvent en dimension 4 : l’objectif (résumé
pertinemment des données en petite dimension) est donc atteint.
Analyse des données 73

Représentation des individus dans le premier plan principal

Question : Qu’est ce qui oppose Ahmed à Mohammed ?


Analyse des données 74

Représentation des individus dans le premier plan principal


Analyse des données 75

Représentation des individus dans le premier plan principal

Question : Qu’est ce qui oppose Ahmed à Mohammed ?


Analyse des données 76

Matrice des composantes

Explique les coordonnées des variables sur les facteurs retenus. Nous voyons par
quelles variables sont faits les axes. Ces valeurs s’interprètent également comme des
corrélations facteurs\variables.
Analyse des données 77

Interprétation
Interprétation
L’extrait de la matrice des corrélations croisant les facteurs
principaux de l’ACP avec les variables est le principal support
de l’interprétation.

Commentaire
Le premier axe principal de l’ACP semble bien fournir le
facteur commun : il est corrélé positivement, fortement et très
significativement avec toutes les variables.

L’interprétation du deuxième axe est plus délicate. Il possède


des corrélations significatives avec toutes les variables, mais
tantôt positives tantôt négatives. Si l’on associe les variables
selon le signe de leur corrélation avec l’axe « celui-ci pourrait
bien être le porteur d’une opposition « Math & Physique »
contre « Français & Anglais ». Ceci mérite vérification. On va
procéder en créant quelques variables virtuelles.
Analyse des données 78

Interprétation
Premier axe principale :

On voit que le premier facteur est corrélé positivement, et assez fortement, avec
chacune des 4 variables initiales : plus un élève obtient de bonnes notes dans
chacune des 4 disciplines, plus il a un score – ou coordonnée – sur l’axe 1 élevé;
réciproquement, plus ses notes sont mauvaises, plus son score est négatif. On peut
ainsi penser que l’axe 1 représente la moyenne générale.

Vérification : si telle est le cas on peut s’attendre a ce que la corrélation entre le


premier axe principale est la moyenne générale des notes soit presque égale à 1. La
matrice des corrélations entre cette variable et le premier facteur va permettre de
confirmer l’ébauche d’interprétation.
Analyse des données 79

Interprétation
Analyse des données 80

Interprétation

Deuxième axe principale :

Oppose, d’une part, le français et l’anglais


(corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives).
Il s’agit donc d’un axe d’opposition entre disciplines
littéraires et disciplines scientifiques, surtout marqué
par l’opposition entre le français et les
mathématiques. Cette interprétation peut être précisée
avec les graphiques et tableaux relatifs aux individus
que nous présentons maintenant.
Analyse des données 81

L’élève “le plus haut” sur le graphique, celui qui a la coordonnée la plus élevée sur l’axe 2, est Omar dont
les résultats sont les plus contrastés en faveur des disciplines littéraires (14 et 11.5 contre 7 et 5.5). C’est
exactement le contraire pour Kawtar qui obtient les notes (11 et 10) dans les disciplines scientifiques
mais des résultats très faibles dans les disciplines littéraires (7 et 5.5). On notera que Mohammed et
Ahmed ont un score voisin de 0 sur l’axe 2 car ils ont des résultats très homogènes dans les 4 disciplines
(mais à des niveaux très distincts, ce qu’a déjà révélé l’axe 1).
Analyse des données 82

La procédure d’une ACP sous SPSS


Analyse des données 83

Description des données


Illustration sur les données : temperature_france.sav xi  IR12

On étudie la température moyenne mensuelle de plusieurs ville française pendant une année.
Le fichier, temperature_france.sav, contient 15 lignes et 13 colonnes.
Analyse des données 84

L'ACP des données "température"


Les étapes de l’ACP sous SPSS

Étape 1:
Exploration univariée du jeu de données

Étape 2:
Examen de la matrice des corrélations
Mettre en évidence les relations entre les variables

Étape 3:
Extraction des facteurs
Déterminer le nombre de facteurs à retenir

Étape 4:
Projeter les données dans ce nouvel espace propre
Calculer les coefficients associés à chaque facteur pour
servir à d’autres analyses
Analyse des données 85

Étape 1: Statistique descriptive univariée


Analyse des données 86

Étape 1: Statistique descriptive univariée


L'intérêt principal de ce type de statistiques est d'étudier la variabilité des quantités qui
vont composer l'ACP.

On va réaliser l’ACP du tableau des températures en faisant les choix suivants :


– variables actives = les 12 mois;
– ACP normée : scaled .
Analyse des données 87

Étape 2: Étude des liaisons entre les variables


Analyse de la Matrice des corrélations
Analyse des données 88

Étape 2: Étude des liaisons entre les variables


Analyse des données 89

Étape 2: Étude des liaisons entre les variables


Test de Kaiser Meyer Olkin : KMO

Le critère KMO nous permet de juger de la pertinence de l'ACP, en général un KMO > 0.6 conduit à de
bon résultats.
Test de sphéricité de Bartlett
Permet de tester l'hypothèse nulle selon laquelle la matrice des corrélations est égale à la matrice
identité. Sig < 0.05 permet de rejeter H0, les variables étant suffisamment corrélées entre-elles,
condition nécessaire afin de pouvoir mener une ACP, il paraît pertinent de chercher à synthétiser
l'information en réduisant le nombre de variables en un petit nombre de facteurs deux à deux non
corrélés.
Analyse des données 90

Étape 3: Nombre de facteurs à extraire


Analyse des données 91

Étape 3: Nombre de facteurs à extraire

2 facteurs
Analyse des données 92

Étape 4: Représentation des résultats


Représentation des variables
Analyse des données 93

Étape 4: Représentation des résultats


Représentation des variables
Analyse des données 94

Étape 4: Représentation des résultats


Représentation des individus
Analyse des données 95

Étape 4: Représentation des résultats


Représentation des individus
Analyse des données 96
Analyse des données 97

Étape 4: Représentation des résultats


Représentation des individus

Vous aimerez peut-être aussi