Vous êtes sur la page 1sur 10

Analyse des données Page : 1

qualitatifs éclatés chacun en modalités exhaustives


Chapitre 0 – INTRODUCTION et exclusives les unes des autres.
1 2  j  p
1° Qu’est-ce que l’analyse des données ? 1 
L’analyse des données est une technique 2 
relativement récente (1960-1970). Elle est la forme  
moderne de la statistique descriptive. i nij
    
Par rapport à la statistique qui consiste à formaliser
l’induction, à étudier un seul caractère mesuré sur  
un petit ensemble d’individus, à développer les n 
notions d’estimation et de tests fondés sur des où nij est le nombre d’individus possédant la
hypothèses très restrictives, l’Analyse des Données modalité i du premier caractère et la modalité j du
vise à décrire, à réduire et à classer des deuxième caractère.
observations en s’appuyant sur un outil Exemple : Réparation de l’ensemble des
mathématique. Elle vise donc à mettre en œuvre des enseignants suivant leurs grades et leurs universités
techniques d’analyse sans faire aucune hypothèse d’affectation.
sur les phénomènes observés, tout en permettant
une étude globale des caractères (liaisons entre c) Tableaux logiques et tableaux disjonctifs complets
caractères quantitatifs et/ou qualitatifs, Dans les tableaux logiques, chaque individu
ressemblances, différences, …) appartient à un groupe particulier et à un seul.
1 2  j  P
2° Démarche de l’analyse des données
1 
La démarche de l’Analyse des Données consiste à
2 
ne présenter que les faits bruts, mais en ayant soin
de les examiner sous un angle tel que les tendances  
apparaîtront d’elles-mêmes pour que l’utilisateur I    xij  
puisse trouver des explications aux faits et d’en tirer  
des conséquences ou des principes d’action. n 
où xij = 1 si l’individu i appartient au groupe j et 0
3° Informatique et Analyse des données autrement. Dans chaque ligne, un terme et un seul
L’ordinateur et l’Analyse des Données sont apparus est égal à 1.
presque en même temps. Les méthodes d’Analyse Un tableau disjonctif complet est formé par la
des données ont été élaborées depuis fort juxtaposition de plusieurs tableaux logiques.
longtemps. Par exemple, vers 1930, Hotelling posait Exemple : Prélèvement d’eau d’une rivière effectué
le fondement de l’ACP en développant les travaux en amont ou en aval d’une conserverie.
de Spearman et de Pearson qui dataient du début
du siècle. d) Tableau de données ordinales.
Jusqu’aux années 1960, celles-ci étaient
Ils sont souvent utilisés en techniques commerciales
perfectionnées et s’enrichissaient de variantes mais
ou en général, là où une réponse donnée sous
toutes restaient inabordables car elles nécessitaient
forme d’un classement apporte une information plus
une masse considérable de calculs. C’est
cohérente.
l’apparition et le développement de l’ordinateur qui
1 2  j  p
permirent la vulgarisation des techniques de
l’Analyse des données. 1 
2 
 
4° Les différents types de tableaux de i    xij  
données  
a) Tableaux individus x caractères quantitatifs n 
X1 X2  Xj  Xp j  J , j '  J , i  I , j  j '  xij  xij ' et 1  x ij  p
1  p
p( p  1)
2  Notons que x
k 1
ik 
2
 
i    xij   e) Tableau de distance, de proximités
  En statistique, pour une population statistique I, on
n  appelle :
- Indice de distance : une fonction symétrique à
Exemple : Relevé des notes valeurs réelles et positives entre 2 individus ; plus
b) Tableaux de contingences ces 2 individus se « ressemblent », plus la valeur de
cet indice est faible.
Un tableau de contingence donne la répartition d’une
population statistique suivant deux caractères i  I , i  I . d (i, i)  d (i, i ) et d (i, i)  0
Analyse des données Page : 2

- indice de proximité : une fonction à valeurs réelle - La régression multiple


définie entre 2 individus et symétrique ; plus ces 2 - La régression pas à pas (ou par étape)
individus se « ressemblent », plus la valeur de
l’indice est élevée. 2° Régression simple
Notons que : C’est le cas où il n’y a qu’une variable explicative
- L’indice de distance peut être déduit de l’indice de pour une variable à expliquer.
proximité et réciproquement. a) Objectif
- Souvent, on choisit un indice de proximité compris
entre –1 et +1 par analogie avec le coefficient de L’idée consiste à trouver la droite des moindres
carrés la plus proche du nuage des points formés
corrélation.
par les couples (xi,yi) observés sur les deux
- Les tableaux de distances (ou de proximités) sont
souvent présentés par une matrice symétrique variables X et Y.
Il est clair que trouver cette relation exacte est très
définie positive de diagonale nulle.
difficile, voire impossible. La technique de régression
f) Tableaux mixtes se contente de trouver l’équation d’une courbe de la
Ce sont des tableaux de données multi- forme : y = f(x) + e qui serait la plus proche possible
dimensionnelles dans lesquels les variables sont de du modèle réel. e désigne l’effet secondaire (ou
natures différentes : il d’agit en général d’un erreur ou résidu) indépendant de la variable X et
mélange de variables qualitatives et quantitatives. suit une loi normale centrée.
b) Corrélation simple
5° Les différentes techniques de l’A.D.
On cherche à tracer la droite des moindres carrés à
- La régression : basée sur le principe des droites
travers le nuage des n points (xi,yi). L’équation de
ou des plans des moindres carrés se faufilant aux
cette droite est de la forme :
mieux à travers un nuage de points.
Y = ax + b + e où yi = a.xi + b + ei pour i = 1..n
- L’analyse des variances pour tester l’hypothèse
Hypothèses :
d’égalité des moyennes (hypothèse nulle) de p
- Les ei sont indépendants des xi
populations.
- La variance des erreurs est constante.
- Les analyses factorielles, dont les plus classiques
Les coefficients a et b de la droite se calcule comme
et les plus utilisées sont :
suit
 Analyse en Composantes Principales (ACP) :
basée sur l’étude de la covariance ou de la COV ( X , Y )
a et b  y  ax
corrélation entre les variables, elle peut être utilisée V (X )
sur des tableaux individus x caractères quantitatifs. Le coefficient de corrélation montre le rapport entre
 Analyse Factorielle des Correspondances (AFC) : les deux variables X et Y. Il mesure la qualité de la
basée sur une décomposition du chi-deux de liaison qui existe entre elles et par conséquent la
contingence, elle permet d’étudier la dépendance de fiabilité de la régression :
2 caractères qualitatifs. COV ( X , Y )
 Analyse Factorielle Discriminante (AFD) : qui R
permet d’exploiter, au sens de la régression, une V ( X ).V (Y )
variable qualitative par des caractères quantitatifs. Remarques :
Nous verrons successivement dans les chapitres - Sa valeur se situe entre –1 et 1
suivants ces principales techniques d’Analyse des - Si R=1 ou R=-1, tous les points sont sur la
Données. Elles sont toutes programmables sur droite de régression.
micro-ordinateurs. - Plus la valeur de R s’éloigne de –1 et 1,
- Les méthodes de classification numérique ou moins les points concernés sont concentrés
typologie ou taxinomie qui consiste à regrouper les autour de la ligne (corrélation moins fiable)
individus en un groupe restreint de classes - En fait, la fiabilité est mesurée par le
homogènes. coefficient de détermination D = R2
- Si R<0, on parle de corrélation négative  y
est inversement proportionnel à x
Chapitre 1 – REGRESSION - Si R>0, on parle de corrélation positive  y
est en proportion de x
1° Problématique On ajoute souvent à tous ces coefficients le
Etant donné n observations sur lesquels on mesure coefficient d’erreur standard, noté SE, qui
deux caractères quantitatifs X et Y, comment peut- caractérise l’écart entre le modèle obtenu par la
on trouver une courbe d’équation Y= f(X) qui nous régression et l’observation.
donne la relation exacte entre ces deux caractères.
c) Exemple
X est appelé variable explicative tandis que Y est la
variable à expliquer. Prix des appartements expliqués par leurs surfaces.
Nous verrons dans ce chapitre quatre types de
régression :
- La régression simple
- La régression polynomiale
Analyse des données Page : 3

3° Régression polynomiale laquelle peut s’entendre de 2 manières différentes


conduisant à 2 méthodes de calcul distinctes :
C’est une amélioration de la régression simple. Le
- La première méthode utilise des variables
modèle est construit à l’aide d’un polynôme au lieu
centrées, c’est-à-dire que la première opération
de la droite des moindres carrées.
consiste à transposer l’origine des coordonnées au
Le but est donc d’ajuster les N observations sur les
centre de gravité du nuage. En d’autre termes, on
deux variables (xi,yi) à un polynôme de degré d
calcule pour toutes les variables y x1 x2...xk une
quelconque. Ce polynôme n’est pas forcement
valeur moyenne sur les n observations et on mesure
linéaire. En pratique, on propose quatre modes de
chacune d’entre elles par rapport à cette moyenne
régression polynomiale.
(en plus ou en moins avec le signe correspondant).
Dans ces conditions, la matrice X est de dimensions
Mode de régression Modèle (n,k) et le produit X’X de dimensions (k,k) est
d 1
symétrique (matrice d’inertie). Ce calcul fournit les k
Linéaire – Linéaire y    i x i 1 valeurs A1,A2...Ak, mais ne fournit pas le terme
i 1
d 1
constant y0 qu’il faut calculer à part, ce qui se fait
Logarithmique – Linéaire  i xi1 très facilement en écrivant que l’hyperplan des
y  e i1 moindres carrés passe par le centre de gravité du
i 1 nuage, ce qui revient à écrire
d 1
Linéaire – Logarithmique y    i  Log x  y0  y   A1 x1  A2 x2  Ak xk 
i 1
d 1
les y , x1 , x2  xk étant les valeurs moyennes
Logarithmique – Logarithmique   i  Log x 
i 1
précédemment calculées.
y  e i1 - La deuxième méthode évite de centrer les
Pour chacun de ces quatre types de régression, on variables grâce à un artifice qui consiste à adjoindre
envisage trois modes d’erreurs sur la mesure de yi. une colonne de 1 à gauche de la matrice X non
- mode 0 : mesure sans erreur centrée qui devient ainsi une matrice de dimensions
- mode 1 : erreur d’origine statistique y   y  i
(n,k+1). Le produit X’X est alors une matrice carrée
symétrique de dimensions (k+1,k+1). Le produit X’Y
- mode 2 : erreur expérimentale j (=écart-type) et le résultat A sont alors tous les deux de
Le polynôme résultat est défini par le coefficient i. dimensions (k+1,1) et le premier coefficient du
vecteur A est le terme constant y0. Cette deuxième
4° Régression multiple
méthode paraît plus simple que la première dans la
En régression simple, il n’y a qu’une variable mesure où elle évite un calcul supplémentaire pour
explicative x pour une variable à expliquer y et on la trouver y0 mais en réalité le temps gagné est la
droite des moindres carrés à travers le nuage de n plupart du temps plus qu’entièrement compensé par
points correspondant aux n observations dont on le fait que l’ordinateur manipule des matrices d’ordre
dispose. En régression multiple, on généralise le plus élevé. Par ailleurs, on augmente la précision
procédé : avec 2 variables explicatives x1 et x2, on a générale du calcul en utilisant de petits chiffres
un nuage dans l’espace à trois dimensions et un (différences par rapport aux valeurs moyennes) et
plan des moindres carrés à tracer au mieux à travers on tend à la diminuer en raisonnant sur des valeurs
ce nuage. Au-delà de 2 variables, il faudrait parler non centrées surtout dans la mesure où elles sont
d’hyperplan, etc…, mais ces images géométriques voisines les unes des autres. Pour ces raisons, on
n’apportent pas grand chose à la compréhension : recommande vivement la première méthode. Le
s’il y a k variables explicatives x1 x2 …xk, il faut coefficient de corrélation multiple se calcule comme
trouver k coefficients A1, A2…Ak, plus un terme suit :
constant y0 de façon à bâtir la relation.
y = y0 + A1x1 + A2x2 …. Akxk SCR
R  1
qui se rapproche le plus possible de la réalité des n n

 y  y 
2
observations et qu’on appelle équation de i
régression. Nous supposerons bien entendu qu’il y a i 1

plus d’observations que de variables explicatives et où SCR est la somme des carrées des résidus.
même assez nettement plus pour que le calcul ait un En comparant chaque coefficient avec son écart-
sens. Comme précédemment, on a donc n > k. type, on obtient des renseignements intéressants. Si
Les quantités A1, A2 ...Ak, qu’il s’agit de trouver sont un coefficient est très grand par rapport à son écart-
les coefficients. Ils forment un vecteur colonne A. type, c’est un très bon coefficient et la variable
Les n valeurs de y forment également un vecteur correspondante est importante dans la corrélation.
colonne y tandis que les x1, x2...xk forment une Dans le cas contraire, on peut avoir de sérieux
matrice X(n,k). y0 s’appelle le terme constant. doutes et il convient d’effectuer le test F qu’on va
a) Calcul des coefficients maintenant décrire à propos de la régression pas à
pas.
Le vecteur A des coefficients est donné par la
formule suivante :
A  ( X ' X ) 1 ( X ' Y )
Analyse des données Page : 4

5° Régression pas à pas nominales (c’est à dire appartenant à des


catégories).
Il arrive dans certaines cas que les variables qu’on
L’ANOVA consiste à vérifier l’hypothèse nulle, notée
peut soupçonner d’avoir une influence sur y sont
H0, qui signifie que les moyennes de plusieurs
extrêmement nombreuses et qui plus est, il est fort
populations supposées normales et de même
possible que certaines soient corrélées entre elles,
variance sont identiques.
de telle sorte qu’en les prenant ensemble, on fait en
Il existe plusieurs types d’ANOVA :
quelque sorte double emploi : il y a redondance. Il
 ANOVA à un facteur
est alors indiqué de choisir les variables une par une
 ANOVA à deux facteurs sans interaction
en commençant par les plus significatives, en
s’arrêtant à un seuil de signification donné au-delà  ANOVA à deux facteurs avec interaction
duquel l’addition d’une variable supplémentaire  ANOVA à deux facteurs hiérarchiques.
n’apporte à peu près rien. C’est ce qu’on appelle la
méthode pas à pas (stepwise en anglais) dont les
2° ANOVA à un facteur
étapes sont les suivantes : a) Objectif
1. On pratique une régression simple avec Etant donné k échantillons aléatoires simples et
chacune des variables candidates et on retient indépendants les uns des autres, ce type d’ANOVA
comme première variable celle qui donne le cherche à vérifier l’hypothèse d’égalité des
coefficient R le plus élevé (ou le SCR le plus moyennes :
petit ce qui revient exactement au même). H0 : m1 = m2 = … = mk
2. On fait une régression double avec la première où mi est la moyenne de l’échantillon i.
variable retenue et toutes les variables b) Démarche : décomposition de la variance totale
restantes. Là encore, on choisit celle qui donne
Les moyennes des k échantillons et la moyenne
le SCR minimum…
générale de l’ensemble des observations permettent
3. Et ainsi de suite.
de définir deux types de variation :
Chacune de ces étapes diminue évidemment le
- les écarts entre les différents échantillons
SCR. On peut donc noter à chaque étape la
(variance interclasse ou variance factorielle),
diminution SCR qu’elle permet d’obtenir et former - les écarts existant à l’intérieur des échantillons
la quantité : (variance intra-classe ou variance résiduelle).
SCR SCR
F où S 2   x  x  x  xi 
k ni k ni k
   n x  x
2 2 2
S 2
n  k 1 i 1 j 1
ij
i 1 j 1
ij
i 1
i i

Cette quantité F est comparée au F d’une table de SST  SSE  SSA


Fisher pour (n-k-1) et 1 degré de liberté et on
s’arrête quand ce test devient négatif (F calculé < F DL n 1 nk k 1
de la table). Le rapport de la variance factorielle à la variance
Un raffinement supplémentaire de la méthode pas à résiduelle est une mesure observée du degré
pas consiste, à chaque étape, à réexaminer le cas d’acceptation de l’hypothèse nulle.
des variables antérieures. Il se peut en effet qu’en La valeur élevée de ce rapport correspond au rejet
raison des corrélations mutuelles, l’addition de la de l’hypothèse nulle.
dernière variable rende inutile la présence d’une des On évalue alors les rapports :
précédentes xj mais on ne peut le savoir qu’en SST SSE SSA
calculant le F qu’on aurait obtenu en ajoutant xj pour  s e2  s a2
n 1 nk k 1
avoir le SCR qui est dû au fait qu’on l’ajoute en fin
de liste. On est ainsi amené à faire un certain s a2
On compare le rapport Fe  au coefficient de
nombre de régressions rétroactives d’ordre inférieur s e2
pour en avoir le cœur net. On arrive par cette
méthode au meilleur choix possible avec un Fisher théorique Fth  F ,k 1,n  k pour la valeur de
minimum de variables. l’hypothèse nulle :
H0 : Fe  Fth
c) Présentation des résultats : Tableau d’ANOVA
CHAPITRE II – ANALYSE DES
VARIANCES Sources de Somme Carrés
(ANalysis Of VAriance ou ANOVA) DL F
variance des carrés moyens
Factorielle k-1 SSA SSA s a2
1° Introduction  sa2 Fe  2
L’ANOVA est une des méthodes relativement k 1 se
anciennes de l’AD. Elle ne fait appel à aucun calcul Résiduelle n-k SSE SSE
matriciel et se présente simplement comme une  se2
application du théorème d’Huygens et du test de nk
Fisher. Total n-1
Pour ce type d’analyse, la variable à expliquer est d) Exemple
métrique alors que les variables explicatives sont
Analyse des données Page : 5

3° ANOVA à deux facteurs sans interaction La vérification des hypothèses H0A et H0B se fait
indépendamment pour les deux facteurs.
Le principe de l’ANOVA à un facteur consiste à
diviser la variance totale en deux composantes. d) Exemple
Cette façon de procéder peut être étendue à 2 4° ANOVA à deux facteurs avec interaction
facteurs : la variance totale étant alors divisée en
plus de 2 composantes, l’une résiduelle et les autres a) Objectif
liées aux 2 facteurs. Répondre aux deux questions :
Les deux facteurs considérés peuvent être sans - Est-ce qu’il y a vraiment une interaction entre les
interaction, avec interaction ou hiérarchique. deux facteurs ?
a) Objectif - Les modalités ont-elles des moyennes
Il s’agit de vérifier indépendamment les influences identiques vis-à-vis de chacun des
des deux facteurs sur les observations. facteurs ? (Hypothèses nulles)
b) Démarche : décomposition de la variance totale b) Démarche
Normalement, la variance totale se décompose en 4 Cette fois, il faut considérer dans la décomposition
variances : de la variance totale la part de variance due à
SST = SSA + SSB + SSAB + SSE l’interaction des facteurs (ie SSAB  0).
où SSA est la variation due au premier facteur,
c) Organisation des calculs et présentation des
SSB est celle due au deuxième facteur,
résultats
SSAB est celle due à l’interaction des deux
facteurs et SSE est la variance résiduelle. On suppose que nous avons k modalités du facteur
Mais on suppose dans ce type d’ANOVA que A, l modalités du facteur B et un nombre fixe et
l’interaction est nulle et ainsi SSAB = 0. identique s d’observations dans chaque intersection.
L’effectif total d’observations est N = k.l.s
c) Organisation des calculs et présentation des
k l s
résultats
Soit G   xijr la somme totale des
On suppose que nous avons k modalités du facteur i 1 j 1 r 1
A et l modalités du facteur B, avec une observation observations.
pour chaque intersection. k l s
G2
L’effectif total des observations est N = k.l
k l
La variance totale SST   xijr2  N
peut
G   xij
i 1 j 1 r 1
Soit la somme totale des
i 1 j 1
être décomposée en :
Ti..2 G 2
k
observations, alors la moyenne générale est
SSA   
G i 1 l.s N
x  .
N i T2
G2
k l SSB   j . 
La variance totale SST   ( x
i 1 j 1
ij  x.. ) 2 peut être j 1 k .s N
 k i Tij2. G 2 
décomposée en : SSAB       SSA  SSB
 i 1 j 1 s N 

k l
SSA   ( xi.  x.. ) 2 SSB   ( x. j  x.. ) 2
SSE = SST – SSA - SSB - SSAB
i 1 j 1
Le tableau d’ANOVA est dressé comme suit :
SSE  SST  SSA  SSB
Degré Somme
Source de
Le tableau d’ANOVA est dressé comme suit : variance
de des Carrés moyens F
Somme Liberté carrés
Carrés SSA
Sources D.L. des F
carrés
moyens Facteur A K–1 SSA  sa2
k 1
Facteur A k-1 SSA SSA 2 sa2  sa SSB
Fea  Facteur B I–1 SSB  sb2
k 1 se2 l 1 2
sab
Facteur B l -1 SSB SSAB Feab 
SSB
 sb2 sb2 (k – 1)  sab
2 se2
Feb  Interaction SSAB
l 1 se2
(l – 1)
 l  1 k  1
Résiduelle (k-1) x SSE SSE SSE
(l-1) Résiduelle
kl(s –
SSE  se2
(k  1)(l  1) 1)
kl ( s  1)

Total kl-1 L’existence de l’interaction est vérifiée par la


comparaison de Feab à F  k 1 l 1, kl  s 1
i
Analyse des données Page : 6

Dans le cas où l’interaction existe, on regroupe la En pratique, le point P sera, selon les applications,
variance due à l’erreur et celle due à l’interaction placé soit à l’origine, soit au centre de gravité G du
pour vérifier les hypothèses nulles sur les facteurs. nuage.
Sinon, on néglige la variance due à l’interaction et on Chaque direction de k peut être repérée par un
utilise celle due à l’erreur. vecteur unitaire U de coordonnées u j : on appelle
Exemple

5° ANOVA à deux facteurs hiérarchiques Xi


Ce type d’ANOVA est de même type que celui à
deux facteurs avec interaction. La seule différence U
réside sur le fait que l’évaluation des hypothèses sur
le premier facteur est effectuée à partir de la Zi
P
variance due au second facteur au lieu d’utiliser la
variance due à l’erreur.
InP U    mi Z i  P
2
s2 s2
Fea  a2 et Feb  b2 i
sb se Supposons que P soit à l’origine, on a alors
InP U    mi Z i   X iU 
2 2 2
avec Zi
CHAPITRE III–ANALYSE FACTORIELLE i

D’UN NUAGE DE POINTS QUELCONQUE


Comme X ' U 
i
xu j
i j

Toutes les méthodes d’analyse factorielle alors Z


i 2
  xij xij 'u j u j '
comportent une étape que l’on peut décrire ainsi : ij

étant donné l’espace vectoriel k, dans lequel se


i j
Soit X X ' la matrice (k,k) de terme courant
situe un nuage de N points munis chacun d’une xij .xij ' on peut donc écrire
masse, et dans lequel on définit une métrique,
X ' U
2
calculer l’inertie totale de ce nuage, déterminer ses i
 U ' X i X 'i U et ainsi
axes d’inertie, repérer les points dans la base formés
par les axes d’inertie.  
Les « entrées » d’une analyse factorielle sont donc, In(U )   mU i ' X i X 'i U  U '   mi X i X 'i  U
dans tous les cas, les suivantes : l’espace, les i  i 
points, les masses affectées aux points, la métrique.  U 'VU
Les « sorties » d’une analyse factorielle sont les V est une matrice carrée (k,k) de terme général
axes d’inertie, les coordonnées des points sur ces
v jj '   mi xij xij ' .
axes, et diverses indications annexes d’aide à
i
l’interprétation.
Si on pose B la matrice (N,k) de terme général
D’une méthode d’analyse factorielle à l’autre, seuls
varient les « entrées » : les définitions des points, bij  xij mi
des masses et de la métrique différent selon que l’on
On vérifie que V  B ' B
considère une analyse des correspondances, une
analyse en composantes principales ou une analyse V est une matrice symétrique car v jj '  v j ' j . Elle est
discriminante. Une fois les « entrées » déterminées, donc diagonalisable et de valeurs propres réelles
l’essentiel de la démarche est commun à toutes les (certaines peuvent être multiples ou nulles). On peut
méthodes. de plus constituer une base orthonormée avec les
vecteurs propres de V.
Classons les valeurs propres de V par ordre
1° Matrice d’inertie d’un nuage
décroissant 1 , 2 , 3 ...k .
Considérons un espace k, dans lequel nous avons
i Les valeurs propres d’une matrice d’inertie sont
situé N points X repérés par leurs coordonnées toutes positives ou nulles. En effet, l’inertie expliquée
xij (i=1..N et j = 1..k), chaque point X i étant muni par le vecteur propre U associé à la valeur propre
d’une masse mi . Nous appellerons « nuage de  est
points » cet ensemble de points munis de masses et In(U )  U ' VU  U 2  
nous noterons (I).
Supposons que cet espace soit muni de la métrique et par construction, une inertie ne peut pas être
euclidienne canonique. On appelle Inertie de (I) par négative.
rapport au point P l’expression :
InP   mi X i  P
2

i
Analyse des données Page : 7

2° Recherche du premier axe factoriel L   U 'r VU r  U 'r U r 


Il s’agit de la direction de l’espace qui rend maximale r

l’expression In(U ) . On trouve cette direction par la L


 2(VU r  rU r )  0
méthode de Lagrange : trouver la direction U qui U r

maximise U 'VU sous la contrainte U 'U  1 . Nous U r est donc vecteur propre de V.
devons donc chercher les extrema de
L  U 'VU  U 'U
L U ' VU r r
  r est l'inertie expliquée par
 2(VU  U )  0  V .U   .U r r
U 1 2
(U ,U ,..., U ) p

Le premier axe factoriel est donc forcement l’un des Le sous-espace à p dimensions qui explique la plus
vecteurs propres de V. Le multiplicateur de grande inertie contient les p premiers vecteurs
Lagrange est alors égal à la valeur propre associée
à ce vecteur. propres U1 , U 2 ,..., U p de V. L'inertie expliquée par
Ce premier axe est le vecteur propre U1 ce sous-espace est égale à la somme des valeurs
correspondant à 1 , la plus grande valeur propre de propres correspondant à ces vecteurs propres.
Remarques :
V, l’inertie expliquée par cet axe est 1 . - Si p=k, l'inertie expliquée par U1 , U 2 ,..., U p
Remarque : Si 1 est multiple, on peut évidemment devient l'inertie expliquée par l'espace tout entier
prendre pour premier axe factoriel n’importe quelle k

direction du sous-espace propre à 1 . In( I )   


 1
- L'inertie du nuage est égale à la somme des
3° Recherche des sous-espaces expliquant valeurs propres de V, c'est-à-dire à la trace de V.
- La part de l'inertie totale expliquée par l'axe
la plus grande inertie 
Prolongeons le problème en considérant p vecteurs factoriel de rang α est  
In( I )
orthonormés U , U ,..., U avec p  k .
1 2 p
- La part de l'inertie totale expliquée par le sous-
L'inertie expliquée par ces p vecteurs est : k


In U 1 ,U 2 ,...,U p   mi Z  i 2
où Z i est la espace défini par U 1 ,U 2 ,...,U p est 

1

i
i
projection de X sur ce sous-espace - Lorsqu'on procède à l'analyse factorielle d'un
nuage à partir de son centre de gravité (analyse
factorielle des correspondances et analyse en
composantes principales), on peut dire que les axes
Xi factoriels sont les directions le long desquelles on
conserve la meilleure représentation des distances.
U2
4° Récapitulation de la démarche d'une
Zi analyse factorielle

1. Calcul de la matrice d'inertie V


U 1 2. Recherche des axes factoriels et des valeurs
propres de V qui leur sont associées : cette
opération est la diagonalisation de la matrice V. Le
résultat de cette recherche est la suite ordonnée des
 
p
  X 'i U r
2 2
Zi vecteurs propres de V et des valeurs propres qui
r 1 leur sont associées.
2
X i sur les
    m  X ' U 
p
1 2 p i r 3. Calcul des coordonnées des points
D'où In U , U ,..., U i axes factoriels; elles sont obtenues par :
F (i )  Ui X i   u j xij
i r 1

= U ' VU i r
i
r
4. Représentation graphique : l'Analyse Factorielle
On cherche alors la famille de p vecteurs qui permet de "voir" sur des graphiques plans
maximise 
In U 1 ,U 2 ,...,U p  sous les contraintes accessibles à notre perception les nuages de points
dans un espace de dimension < k.
U 'r U r  1 . Le lagrangien s’écrit :
Analyse des données Page : 8

5° Quelques aides à l'interprétation


a)  est l'inertie expliquée par l'axe U  . Il est CHAPITRE IV – ANALYSE EN
facile de voir que : COMPOSANTES PRINCIPALES
   mi F2 (i)
i L'ACP est la plus ancienne des méthodes d'analyse
Nous pouvons donc mesurer, dans l'inertie expliquée des données (mise au point par Hotelling en 1933).
par U  , la contribution relative du point i : Elle est fondée de double analyse d'un nuage de
points, de recherche des axes d'inertie de ce nuage
mi F2 (i ) et de double projection sur les axes factoriels.
CTR (i ) 
 1° Choix de la métrique
Cette expression est très importante car elle permet
i Deux options sont classiques :
de classer les points X selon le rôle plus ou moins - La métrique canonique : dans ce cas, les relations
grand qu'ils ont joué dans la détermination de U  . considérées entre les variables sont mesurées par
les covariances ; on parle d'ACP canonique ;
b) Soit  l'angle de X i avec U ; alors cos 2  - La métrique normée : dans ce cas, les relations
mesure la qualité de la représentation de i par sa considérées entre les variables sont mesurées par
projection sur l'axe U  . les coefficients de corrélation ; on parle d'ACP
normée.
F2 (i ) L'ACP normée est équivalente à l'ACP canonique
cos 2   2 des variables réduites.
Xi P La covariance est un paramètre qui dépend des
La qualité de représentation du point i par le sous- unités choisies pour mesurer les variables; cela peut
espace à p dimensions formé des p premiers axes créer des difficultés lorsque ces unités sont
factoriels est mesurée par : hétérogènes et l'on a tout intérêt si cela est le cas à
p effectuer une ACP normée.
QLTp (i )   cos 2 (i ) Exemple : Considérons trois individus dont on a
 1 mesuré la taille et le poids :
c) La part d'inertie qui vient du point i dans l'inertie Taille (m) Poids (kg)
totale est 1 1.70 60
2 2 1.70 70
mi X i  P 3 1.60 65
CONTR(i ) 
InP ( I )
a) Cas de la métrique canonique
Les points qui ont de faibles contributions à l'inertie
totale sont soit des points très légers, soit des points Les distances, au sens de cette métrique, entre les
très proches de P. On améliore parfois la clarté de trois individus sont :
l'analyse factorielle en annulant la masse attribuée à d²(1,2)= 100
ces points. Dotés d'une masse nulle, ils d²(1,3)= 25,01
n'interviennent plus dans le calcul de la matrice On a donc d²(1,3)< d²(1,2) Changeons une unité, la
d'inertie et donc dans le positionnement des axes; taille est mesurée en cm et le poids reste en kg.
par contre, leur image figure sur les projections d²(1,2)= 100
graphiques. d²(1,3))= 125
L’ordre des distances est donc inversé :
d) SiZ i est la projection de X i sur le sous-espace d²(1,2) < d²(1,3).
i
à p dimensions, on appelle écart relatif de X au
sous-espace des p premiers axes la quantité : b) Cas de la métrique normée
i 2
mi X  Zi Les distances sont indépendantes des unités et on
ECARTP (i )  a:
m
2
i X i  Zi d²(1,2)= 6 d²(1,3)=6
i
Cet indicateur permet de repérer les points mal
représentés par l'espace à p dimensions d'une façon
2° Analyse du nuage des individus
plus précise que ne le permet l'indicateur QLT. Considérons N individus sur lesquels on observe k
variables. Soit kij la mesure des variables j sur
l’individu i. Soit le nuage centré et réduit formé par
les points
kij  k j
xij 
j
Analyse des données Page : 9

Cette transformation permet d’éliminer l’effet des points variables permet d’interpréter le nuage
arbitraire dû au choix des unités de mesure. des points individus.
Il s’agit maintenant de procéder à l’analyse Remarque : L’image de (I) est forcément centré sur
factorielle de nuage, nous la ferons à partir de son l’origine comme (I) lui-même. Par contre, il n’en est
centre de gravité. pas de même de (J) : il peut se produire que tous
L’analyse factorielle d’un tel nuage nécessite que les points variables soient situés sur un graphique
l’on diagonalise la matrice des variances V. d’un même côté de l’origine.
Reste à identifier les valeurs propres et vecteurs Pour interpréter la relation qui existe entre les
propres de V, et à projeter les points X sur ces
i
projections de (I) et (J), il faut définir le coefficient
vecteurs propres. On pourra alors visualiser de corrélation  U  , j  entre l’axe factoriel U et
aisément le nuage par projection sur les plans
définis par des couples de vecteurs propres. la variable j :
i i' 1
La proximité de deux points X et X signifie que F (i )  (kij  k j )

les valeurs kij et ki ' j sont proches pour tous les j.  U , j   N  G ( j )  u j 
 N
3° Analyse du nuage des variables j 
N
Nous associerons à chaque variable j un point Y j de j
La coordonnée de Y sur l’axe factoriel U  est égale
N
, dont la ième coordonnée est : au coefficient de corrélation de la variance j avec cet
1 k k j axe.
yij  xij  ij - Supposons par exemple que G ( j )  1 . Cela veut
N j N
dire qu’il existe entre les F (i ) et les kij une relation
Il est important de bien interpréter la construction
géométrique du nuage des variables si l’on veut linéaire du type :
pouvoir comprendre les indications fournies par F (i )  a  (kij  k j ) avec a  0
l’ACP.
Considérons dans
N
le point P j dont la ième On peut directement interpréter le facteur F (i )
j comme un classement des individus, le long de l’axe
coordonnée est kij , et le point P dont les  , dans l’ordre des valeurs croissantes de la
coordonnées sont égales à k j . Il est claire que variable j : F (i ) est proportionnel à l’écart entre la
j moyenne de j et la valeur de cette variable constatée
1 j j 2
Pj P
 
2
j P P d’où Y  j sur l’individu i.
- Si G ( j )  1 , les individus sont classés sur l’axe
j
N Pj P
 dans l’ordre des valeurs décroissantes de j.
Y j s’obtient donc à partir de P j par la succession - Si G ( j )  0 , il n’existe pas de relation linéaire
de deux opérations :
- Projection sur le sous- espace à N-1 dimensions entre les F (i ) et les kij .
orthogonal au vecteur dont toutes les composantes
sont égales à 1. a) Interprétation du nuage des variables
- Projection de centre O sur le sphère de centre O et On trouvera assez souvent une configuration
de rayon 1. semblable à celle dessinée ci-dessous :
j
Toutes les Y sont donc situés sur la sphère (0,1) et
dans le sous-espace orthogonal au vecteur (1,1...,1). 2
Le coefficient de corrélation entre les variables j et j’
est III
x
cov( j , j ') x
 jj ' 
 j j '
II x
On remarque que  jj '  Y j 'Y j x xx
xx
x
Conclusion : Le nuage des points-variables doit être x x
I 1
interprété en terme de corrélation entre les variables.

4° INTERPRETATION D’UNE ACP


On peut éditer l’image des projections de (I) et de
x xx
(J) sur des plans formés par des couples d’axes
factoriels. Il est instructif de superposer sur le même IV
graphique l’image de deux nuages sur ces couples
d’axes associés, car la disposition des projections Sur l’axe 1, le groupe de variables figure avec des
coordonnées proches de 1 (Groupe I), un autre
Analyse des données Page : 10

groupe avec des coordonnées proches de -1


(Groupe II).
Un groupe se trouve près du bord du cercle sans
avoir des coordonnées fortes ni sur l’axe 1, ni sur
l’axe 2 (groupe III) ; un groupe a des coordonnées
relativement proches de -1 sur l’axe 2 (groupe IV) ;
enfin quelques variables se projettent à l’intérieur du
cercle.
On dira que l’axe 1 oppose les variables du groupe I
à celle du groupe II. Chacun de ces groupes est
formé de variables corrélées entre elles ;
Le groupe IV est formé de variables dont la
corrélation avec les variables des groupes I et II est
nulle, et qui ont une corrélation négative avec les
variables du groupe III.
Le groupe IV est proche du bord du cercle (mais
moins que les groupes I et II) dans la direction
négative de l’axe 2.
b) Interprétation du nuage des individus
Une fois le nuage des variables interprété, on peut
passer au nuage des individus. On peut remarquer
que, dans ce cas, on n’a pas vraiment besoin
d’utiliser l’aide CTR (i ) :
F2 (i )
CTR (i )  (mi  1)
 F2 (i)
i
Par contre, l’aide à l’interprétation fournie par les
F2 (i )
cos2 (i )  2
est utile. En effet, comme les
Xi P
points individus ne sont pas situés sur une sphère,
2
on ne peut pas lire cos (i ) directement sur le
graphique comme on pouvait le faire pour les points
variables.
On sait que pour l’essentiel, l’axe 1 oppose les
individus pour lesquels les variables du groupe I sont
fortes et celles du groupe II sont faibles (à droite)
aux individus pour lesquels c’est l’inverse (à
gauche).
L’abscisse d’un individu sur l’axe 1 est même une
mesure approchée correcte, à des transformations
linéaires près, des variables de ces deux groupes.
Sur l’axe 2, on trouvera en haut des individus pour
lesquels les variables du groupe IV sont faibles, en
bas des individus pour lesquels elles sont fortes,
mais la relation entre F2 (i ) et ces variables est plus
« floue » que celle qui existe sur l’axe 1.

Vous aimerez peut-être aussi