Partie IV

Analyse des données 1
Université Hassan II
Faculté des sciences Ain Chock
Casablanca
ANALYSE DES DONNÉES

Partie I
Samira EL MOUMEN
selmoumen@yahoo.fr
Introduction
La statistique est une méthode scientifique qui consiste à réunir des données chiffrées
sur des ensembles nombreux, les organiser, les résumer puis les analyser, les
commenter et les critiquer.
Introduction
Statistique
Statistique inferentielle Analyse Exploration des données
Généraliser ce qu’on Extraire l’essentiel de

observe sur un l’information cachée par le
échantillon à toute la volume de données
population
Introduction
Exemple1:
Calculer la durée de vie moyenne des ampoules de certain production
Problème
Population infini
Introduction
Solution
Considérer un échantillon
Calculer sa durée de vie moyenne
 La considère comme approximation (estimation) de durée cherchée

Introduction
Exemple 2:
Tester la conformité de pièces d’une certains productions
Solution:
AD
Evolue
Complexité des données L’évolution de l’outil informatique
Méthodes factorielles
Ce sont des méthodes qui s’applique à des tableaux de type (Individu/Variable)
X1 ……………………………..Xp
1
.
. X(i)
i
.
.
n
Ces méthodes qui s’applique à des tableaux, cherchent à réduire ces tableaux
synthétiquement en associant des représentations graphiques qui facilite la lecture et
l’interprétation selon:
 La définition de l’information (objectif)
 Type de données
 Et on distinguant:
• Analyse en composantes principales ACP
• Analyse Factorielles des Correspondances AFC
• Analyse des Correspondances Multiple ACM
Méthodes décisionnelles
Variable Explicatives
Prédire la variable
Régression
aléatoire dépendante
Variable à expliquée
(dépendante)
Méthode de classification
Objectif:
Définir des classes homogène au niveau d’individus décrits par des variables
L’outil informatique
Le logiciel SPSS
Réduction de dimensions
P_Omar P_Fatima P_Mohammed
F1
P_Ahmed P_Marwa P_ Farid P_Kawtar P_Anis P_Nadia
1D
2D
Réduction de dimensions
3D 2D
X  IR15714
Visualisation des données
xi
X  IR1572
Principe
Analyse factorielle
Factor analysis
Visualisation des
données dans le
meilleur espace réduit
ACP
Nature des Données
x : Tableau de données
Variables quantitatives
1 j p xij : Valeur de la ième observation
pour la jème variable
1
xi :ième observation du tableau
individus X  j : j ème variable du tableau

i xij
n : effectif des individus
p : nombre de variables
n
ACP
Les n individus forment un nuage de

points, appelé nuage des individus
représentées dans un espace à p
dimensions.
Difficulté : cette représentation est

Inaccessible à nos sens.
Question : est- il possible de trouver une

représentation axiale, plane ou de
dimension 3 de ce nuage des individus ?
ACP
1 x j p
1
Notations
• Observation (individu) : xi   IR
p
avec xi  ( xi1 xij xip ) T xi i xi1 xij xip

• Variable (attribut) : x j
Description des données

n
Soit X la matrice des données xi  IR p :
 x11 x12 . x1 p   x1T 

   T 
 x21 x22 . x2 p   x2  
 x1 x 2 . x n  
T
X  
. . . .   . 
   
x xn 2 . xnp   xnT 
 n1
ACP
Nuage des individus NI
x j NI
1 j p p
IR •
1 d 2 ( i, l ) • xl 
•
• • xi 
•g
• •
xi i xi1 xij xip • • •
O
xj xij xlj j
n
g d 2 ( i, l )   ( xij xlj ) 2
x1 xj xp j

N I  xi  IR p  i 1,.....,n Nuage de points associé aux données.
n
1
g est le centre de gravité du nuage NI , avec g j 
n
x
i 1
ij
ACP
Centrage et réduction
NI
1 j p p
IR
•
1 •
• • • xi
•g
xi xi1 xij xip • •
i
•
O
xj xij j
n
g x1 xj xp
ACP
Poids (kg)
Afin de donner aux variables la même importance
on centre et on réduit les variables initiales.
Le centrage permet de comparer les dispersions • N

par rapport à un point de référence unique (la • I
•
moyenne, qui vaut zéro pour la variable après •
centrage). • O=g Taille (m)
•
En réduisant les variables, on les neutralise des • •
unités et on leur donne une variance égale à 1. •
X ij  X j
X ij 
Sj
ACP
NI
p
IR
X ij  X j •
X ij 
Sj •
• • • xi
•g
• •
La dispersion du nuage autour de son •
centre de gravité est mesurée par
l’inertie du nuage qui correspond à la O
somme des variances des variables xj xij j
initiales.
ACP
Principe
Soit xi   IR pour i  1,....., n des données centrées.

p
Objectif : trouver un sous-espace de dimension k << p où projeter les

xi de façon à perdre le moins d’informations possibles ou encore à
déformer le moins possible le nuage de points initiale.
ACP
Exemple de réflexion IR p
F2 NI
• u1, u2 : vecteurs orthonormés (axes F1 et
F2). Projeter les données sur l’espace u2 • xi  • F1
•
engendré par u1 et u2 •
u1 hi
O=g
• • •
• Quel est le meilleur sous-espace de •
dimension 1 ? •
Intuitivement, il s'agit de trouver un sous-espace tel que la distance entre points

( individus ) soit conservée dans le processus de projection sur ce sous-espace.
Ainsi, la ressemblance entre individus est conservée dans cette opération de
projection. Le nuage des individus est déformé le moins possible, l’inertie du
nuage projeté est donc maximale.
ACP
Procédure
• Projection orthogonale de xi  sur U

IR p NI
• xi  • F1
• Contrainte : •
• u1
hi
O=g
1- U T U  I • • •
•
•
2- Les vecteurs de la nouvelle base

sont orthogonaux 2 à 2 c’est-à-dire
uiT u j  0  i  j
Axes factoriels et composantes principales

• Soit X la matrice des données et U  IR p . Soit le vecteur c1  IR n tq :
c1  X u1  ( x1Tu1 x2Tu1 ... xnTu1 )T
• On appelle premier axe factoriel de X le vecteur unitaire u1 tel que la

variance de X u1 soit maximale. Le vecteur c1 est appelé première
composante principale.
• Le kième axe factoriel est le vecteur unitaire uk tel que la variance de
ck  X uk soit maximale et que uk soit orthogonal aux k-1 premiers
axes factoriels.
Formulation du problème
On cherche l'axe F1 passant le mieux

possible au milieu du nuage NI. IR p NI
F1
xi • u •
• 1
•
On cherche à trouver le vecteur unitaire u1 hi
O=g
qui minimise l’erreur d xi , hi  entre le vrai
2
• • •
xi  et sa projection hi sur l’axe F1. •
•
IR p
Trouver u 1 le vecteur directeur de F1 qui NI
• xi  • F1
• u
1 n •
max  Ohi  hi 1
2
u n i 1 O=g
(*) • • •
•
•
uT1 u1  1
Ohi  PF1 ( xi )  Pu1 ( xi )  uT1 xi
1 n T
max  u1 xi xiTu1
u1 n
i 1
(*) 
sous la contrainte u1u1  1
T
Solution:
Le premier axe factoriel u1 est le vecteur propre associé à la plus grande valeur
propre de la matrice de covariance  .
kième axe factoriel
Lemme
Le sous-espace de dimension k minimisant l’erreur quadratique d’estimation des
données contient nécessairement le sous-espace de dimension k -1.
Calcul du deuxième axe factoriel u2 sachant que u1 est connu
On cherche un vecteur unitaire u2 qui maximise la variance uT2  u2 et qui soit
orthogonal au vecteur u1 .
On démontre que u2 est le vecteur propre associé à 2 , la seconde plus grande
valeur propre de  .
IR p
Trouver le plan P tel que : NI

P •X i •
1 n •
 Ohi 2
maximum • hi1
u1
n i 1 O=g
• • • j
Plan d’inertie maximum •
• hi2 hi
u 2
u1  P
u2 d’inertie maximum avec u2  u1

Algorithme
X ij  X j
1. Centrer les données et les réduire : X ij 
S
2. Calculer la matrice de covariance j
3. Calculer la décomposition en valeurs propres

4. Ordonner les valeurs propres par ordre décroissant
5. Nouvelle base de représentation des données U:  ( u  1 u  2 ... u  k )
6. Projection de tous les points via U s’obtient matriciellement: C  X U
Propriétés des axes factoriels
• Les valeurs propres de sont positives car est une matrice semi-definie positive;
• L’axe factoriel F1passe par le centre de gravité O du nuage de points NI;
• L'axe F1est engendré par le vecteur normé u,1 vecteur propre de la matrice associé
à la plus grande valeur propre ;
• La variance expliquée par l’axe factoriel F1(homogène à une inertie) est égal à ;
• La variance totale des axes factoriels est
• Pourcentage de variance expliquée par les k premiers axes
j 1
 j
p
. 100
j 1
 j
Propriétés des composantes principales
• Les composantes principales ck  IR n sont centrées et non-corrélées;
• Soit ck  X uk , le vecteur représentant la projection de X sur le kième axe u k . La

variance de la composante principale ck est ;
• cor ( X  j , Ck )  k ukj .

Exercice
10 femmes donnent des notes pour trois produits P1, P2, P3.
Elles donnent 1 pour un produit apprécié, 0 si elles sont indifférentes, et -1 pour un
produit non apprécié
P1 P2 P3
1 1 0 0
2 1 0 0
3 1 0 0
4 1 0 0
5 1 0 0
6 1 0 0
7 1 0 0
8 1 0 0
9 0 1 -1
10 0 -1 1
Exemple
On veut faire une ACP sur ces données
1. Déterminer la matrice X centré et réduit
2. Déterminer la matrice
3. Déterminer ces valeurs propre et vecteurs propre
4. Déterminer les composantes principale associé
1 / 2 0 0 
 
1 / 2 0 0 
1 / 2 0 0 
 
1 / 2 0 0 
1 / 2 0 0 
X  
1 / 2 0 0 
 
1 / 2 0 0 
1 / 2 0 0 
 
2 5  5
 
 2  5 5
• On détermine maintenant les valeurs et vecteurs propre

• On a
• On a
• Donc les valeurs propre sont
•
• On va prendre 1
• Pour , on détermine le vecteur propre associé
• => =
• Pour , on détermine le vecteur propre associé
• => =
Les nouvelles variables est appelée le l ème composante

principale , ce sont les variables combinaisons
linéaires des (j=1,….,p)
La cordonné de l’individu i sur la l ème axe principale est

• Pour premier composante principale:
Cordonné du 9ème ind sur l’axe 1

• On a
• Pour deuxième composante principale:
Cordonné du 9ème ind sur l’axe 2

• On a
Aide à l’interprétation (individus)

1. L’origine O est la projection de la moyenne de toutes les
variables
2. Qualité de projection
a) Globale
inertie ou information reconstruite par l’axe
principale l
inertie totale
=La proportion de l’inertie restituée par l’axe principale
=La part d’information restituée par le plan principale

Pour l’exemple traité:

Le premier axe restitue 67%
Le deuxième axe restitue 33%
Le premier plan principale restitue 100% de l’information
2ème axe
L’ind 1=2=…=8
1ère axe
L’ind 10 L’ind 9
Projection des individus sur le premier plan principal

Aide à l’interprétation (individus)

b) Qualité de représentation d’un individu sur le lème axe
principale
qualité de représentation de ind i sur

le plan ( )
La contribution de l’individu
Il est très utile de calculer pour chaque axe la contribution apportée par
les divers individus à cet axe.
Considérons la kième composante principale Ck , soit la valeur de
la composante pour le ième individu.
La contribution de l’individu i à la composante n° k est définie par
Remarque : Il n’est pas souhaitable qu’un individu ait une contribution

excessive éliminer les individus dont la contribution est trop
importante.
Aide à l’interprétation (variables)

Cordonnées des variable sur l’axe principale
avec
Qualité de représentation d’une variable sur l’axe principale

Remarque importante
Une valeur de signifie que
Si cor >0 => α>0

Si cor<0 => α<0
Sens d’une composante principale
Les variables les plus corrélées (>0 ou <0) avec

leur donnent un sens
Cercle de corrélation
Il s’agit de représenter sur le plan ( ) les variables repérées
par leur corrélations avec les composantes principale associées:
2ème axe
1
𝑿.𝒋
.
-1 1 1ère axe
-1
Les variables bien représentées sont les variables se
projetant proche du circonférence du cercle de
corrélation
1
Les variables . et . sont
bien représentées
𝑿.𝒌
𝑿.𝒋
-1 1
les variables proche du centre sont

. . signifie que mal représentées
-1
On n’interpréte pas leur position
. .
Interprétation des axes

Deux types de facteurs :
• Effet taille : les variables sont toutes du même coté de
l’axe. (i.e. elles contribuent toutes dans le même sens à la
formation de l’axe)
• Effet forme : Deux groupes de variables opposées : celles
qui contribuent positivement à l’axe, celles qui contribuent
négativement.

Pour chaque axe retenu et chaque nuage, on regarde
• Quelles sont les variables qui participent le plus à la
formation de l’axe
• Quels sont les individus qui participent le plus à la
formation de l’axe Outil de mesure : contributions des
points (individus si non anonymes et variables) à l’inertie
de cet axe.
Ce sont les points dont la contribution est supérieure à la

moyenne qui permettent de donner un sens à l’axe.

L’interprétation des nouvelles variables (des axes factoriel)
se fera à l’aide des individus et variables contribuant le plus
à l’axe avec la règle suivante : si une variable a une forte
contribution positive à l’axe, les individus ayant une forte
contribution positive à l’axe sont caractérisés par une
valeur élevée de la variable.
Résultats numériques d’une ACP

Individus ( )
Cordonnées Qualité
. . . ×
1
n
Résultats numériques d’une ACP

Variable ( )
Cordonnées Donner un sens à 𝐶 et 𝐶 Qualité de représentation
𝜆 𝑢 𝜆 𝑢 𝑐𝑜𝑟 𝑋. , 𝐶 𝑐𝑜𝑟 𝑋. , 𝐶 𝑐𝑜𝑟² 𝑋. , 𝐶 𝑐𝑜𝑟² 𝑋. , 𝐶 𝑐𝑜𝑟² 𝑋. , 𝐶 +

𝑐𝑜𝑟² 𝑋. , 𝐶
.
Exercice
1. Organiser les résultats numériques de l’ACP de tableau de
données précédant, pour l’espace des individus et pour
l’espace des variables
2. Faites les représentations géométriques
3. Interpréter les
Mise en œuvre d’une ACP sous SPSS et essai

d’interprétation
Introduction
Le logiciel SPSS (Statistical Package for the Social Sciences)
a été créé, au tout début, pour les besoins des psychologues. Avec
le temps (cette entreprise existe depuis 1965), on a intégré un
grand nombre de procédures statistiques tout en facilitant le
travail de manipulation des données.
Le fonctionnement
du logiciel SPSS
Le logiciel SPSS fonctionne à partir de fenêtres et de menus.
La figure ci dessus reproduit la fenêtre d’application. Cette fenêtre est

un tableau où les lignes correspondent à des observations et les colonnes, à des
variables.
Le fonctionnement
du logiciel SPSS
La figure ci dessous nous montre la fenêtre servant à la définition des
variables. Chaque variable sera donc définie par dix colonnes contenant les
caractéristiques particulières de chacune des variables.
Les principales commandes
Les principales commandes de SPSS concernent plus particulièrement la

définition des variables et la saisie des données ; sans ces opérations essentielles,
l’analyse des données est impossible.
Le fonctionnement
du logiciel SPSS
Quand une commande est
exécutée, apparaît
automatiquement une fenêtre
qui montre les résultats
obtenus. Nous voyons cette
fenêtre et ces résultats dans la
figure à droite.
Dans le rectangle de
gauche, nous avons la table
des matières des résultats qui
apparaissent dans la surface
de droite.
Exemple des données : étudiants xi  IR 4
Considérons les notes (de 0 à 20) obtenues par 9 élèves dans 4

disciplines (mathématiques, physique, français, anglais)
Matrice des corrélations
Etude des individus
Ressemblance entre individus profil de réponse

Existe -t-il des groupes homogènes d’individus ?
Etude des variables
Liaisons entre variables

Liaisons linéaires : coefficient de corrélation
Quelles sont les variables qui sont liées
positivement entre elles ?
Existe-t-il des groupes de variables
corrélées entre elles ?
Pertinence d’une ACP
La qualité d'une ACP
Afin de vérifier la pertinence d’une ACP, deux indicateurs sont proposés :
1. Le test de sphéricité de Bartlett

2. L’indice KMO (Kaiser – Mayer – Olkin)
Pertinence d’une ACP
L’indice de Kaiser-Meyer-Olkin (KMO)

L’indice KMO nous permet de poursuivre l'ACP ou pas. Tester est ce qu’on peut
réduire la dimension ou non.
Grille de lecture
Mesure KMO Recommandation
≥ 0.90 Excellent
0.80+ Très bien
0.70+ Bien
0.60+ Moyen
0.50+ Médiocre
<0.50 Inacceptable
Nombre de facteurs à retenir?
Objectif : garder un maximum d’information des données initiales.
Mesure de cette information : le % de variance totale expliquée
Si les variables originales sont fortement corrélées entre elles, un nombre réduit de
facteurs permet d’expliquer 80 % à 90 % de variance.
Si par exemple on trouve un pourcentage de variance totale expliquée par le

premier plan principal= 90%, on conçoit clairement que le nuage de points est
presque aplati sur un sous-espace à deux dimensions et qu’une représentation du
nuage dans le plan des deux premiers facteurs principaux sera satisfaisante.
Le coude de Cattell : il constitue un

critère plus sévère pour déterminer le
nombre de facteurs. On ne retient que les
facteurs qui se situent avant le 2 facteurs
changement abrupt de la pente. Les
points qui suivent ce changement, appelé
rupture du coude, semblent former une
ligne droite horizontale.
On remarque que les 2 premiers facteurs restituent à eux seuls la quasi-totalité de la

dispersion du nuage 99,876 %, ce qui permet de négliger les autres. Par conséquent, les
graphiques en dimension 2 présentés ci-dessous résument presque parfaitement la
configuration réelle des données qui se trouvent en dimension 4 : l’objectif (résumé
pertinemment des données en petite dimension) est donc atteint.
Représentation des individus dans le premier plan principal
Question : Qu’est ce qui oppose Ahmed à Mohammed ?


Question : Qu’est ce qui oppose Ahmed à Mohammed ?

Matrice des composantes
Explique les coordonnées des variables sur les facteurs retenus. Nous voyons par
quelles variables sont faits les axes. Ces valeurs s’interprètent également comme des
corrélations facteurs\variables.
Interprétation
Interprétation
L’extrait de la matrice des corrélations croisant les facteurs
principaux de l’ACP avec les variables est le principal support
de l’interprétation.
Commentaire
Le premier axe principal de l’ACP semble bien fournir le
facteur commun : il est corrélé positivement, fortement et très
significativement avec toutes les variables.
L’interprétation du deuxième axe est plus délicate. Il possède

des corrélations significatives avec toutes les variables, mais
tantôt positives tantôt négatives. Si l’on associe les variables
selon le signe de leur corrélation avec l’axe « celui-ci pourrait
bien être le porteur d’une opposition « Math & Physique »
contre « Français & Anglais ». Ceci mérite vérification. On va
procéder en créant quelques variables virtuelles.
Interprétation
Premier axe principale :
On voit que le premier facteur est corrélé positivement, et assez fortement, avec
chacune des 4 variables initiales : plus un élève obtient de bonnes notes dans
chacune des 4 disciplines, plus il a un score – ou coordonnée – sur l’axe 1 élevé;
réciproquement, plus ses notes sont mauvaises, plus son score est négatif. On peut
ainsi penser que l’axe 1 représente la moyenne générale.
Vérification : si telle est le cas on peut s’attendre a ce que la corrélation entre le

premier axe principale est la moyenne générale des notes soit presque égale à 1. La
matrice des corrélations entre cette variable et le premier facteur va permettre de
confirmer l’ébauche d’interprétation.
Interprétation
Interprétation
Deuxième axe principale :
Oppose, d’une part, le français et l’anglais

(corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives).
Il s’agit donc d’un axe d’opposition entre disciplines
littéraires et disciplines scientifiques, surtout marqué
par l’opposition entre le français et les
mathématiques. Cette interprétation peut être précisée
avec les graphiques et tableaux relatifs aux individus
que nous présentons maintenant.
L’élève “le plus haut” sur le graphique, celui qui a la coordonnée la plus élevée sur l’axe 2, est Omar dont
les résultats sont les plus contrastés en faveur des disciplines littéraires (14 et 11.5 contre 7 et 5.5). C’est
exactement le contraire pour Kawtar qui obtient les notes (11 et 10) dans les disciplines scientifiques
mais des résultats très faibles dans les disciplines littéraires (7 et 5.5). On notera que Mohammed et
Ahmed ont un score voisin de 0 sur l’axe 2 car ils ont des résultats très homogènes dans les 4 disciplines
(mais à des niveaux très distincts, ce qu’a déjà révélé l’axe 1).
La procédure d’une ACP sous SPSS

Description des données

Illustration sur les données : temperature_france.sav xi  IR12
On étudie la température moyenne mensuelle de plusieurs ville française pendant une année.
Le fichier, temperature_france.sav, contient 15 lignes et 13 colonnes.
L'ACP des données "température"

Les étapes de l’ACP sous SPSS
Étape 1:
Exploration univariée du jeu de données
Étape 2:
Examen de la matrice des corrélations
Mettre en évidence les relations entre les variables
Étape 3:
Extraction des facteurs
Déterminer le nombre de facteurs à retenir
Étape 4:
Projeter les données dans ce nouvel espace propre
Calculer les coefficients associés à chaque facteur pour
servir à d’autres analyses
Étape 1: Statistique descriptive univariée

Étape 1: Statistique descriptive univariée

L'intérêt principal de ce type de statistiques est d'étudier la variabilité des quantités qui
vont composer l'ACP.
On va réaliser l’ACP du tableau des températures en faisant les choix suivants :

– variables actives = les 12 mois;
– ACP normée : scaled .
Étape 2: Étude des liaisons entre les variables

Analyse de la Matrice des corrélations


Test de Kaiser Meyer Olkin : KMO
Le critère KMO nous permet de juger de la pertinence de l'ACP, en général un KMO > 0.6 conduit à de
bon résultats.
Test de sphéricité de Bartlett
Permet de tester l'hypothèse nulle selon laquelle la matrice des corrélations est égale à la matrice
identité. Sig < 0.05 permet de rejeter H0, les variables étant suffisamment corrélées entre-elles,
condition nécessaire afin de pouvoir mener une ACP, il paraît pertinent de chercher à synthétiser
l'information en réduisant le nombre de variables en un petit nombre de facteurs deux à deux non
corrélés.
Étape 3: Nombre de facteurs à extraire

Étape 3: Nombre de facteurs à extraire
2 facteurs
Étape 4: Représentation des résultats

Représentation des variables

Représentation des variables

Représentation des individus



Partie IV

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Partie IV

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données 1

ANALYSE DES DONNÉES

Statistique inferentielle Analyse Exploration des données

Généraliser ce qu’on Extraire l’essentiel de

Calculer sa durée de vie moyenne

 La considère comme approximation (estimation) de durée cherchée

Tester la conformité de pièces d’une certains productions

P_Omar P_Fatima P_Mohammed

individus X  j : j ème variable du tableau

Les n individus forment un nuage de

Difficulté : cette représentation est

Question : est- il possible de trouver une

avec xi  ( xi1 xij xip ) T xi i xi1 xij xip

Description des données

 x11 x12 . x1 p   x1T 

Le centrage permet de comparer les dispersions • N

Soit xi   IR pour i  1,....., n des données centrées.

Objectif : trouver un sous-espace de dimension k << p où projeter les

Intuitivement, il s'agit de trouver un sous-espace tel que la distance entre points

• Projection orthogonale de xi  sur U

2- Les vecteurs de la nouvelle base

Axes factoriels et composantes principales

• On appelle premier axe factoriel de X le vecteur unitaire u1 tel que la

On cherche l'axe F1 passant le mieux

Ohi  PF1 ( xi )  Pu1 ( xi )  uT1 xi

Trouver le plan P tel que : NI

u2 d’inertie maximum avec u2  u1

3. Calculer la décomposition en valeurs propres

Propriétés des axes factoriels

Propriétés des composantes principales

• Les composantes principales ck  IR n sont centrées et non-corrélées;

• Soit ck  X uk , le vecteur représentant la projection de X sur le kième axe u k . La

• cor ( X  j , Ck )  k ukj .

• On détermine maintenant les valeurs et vecteurs propre

• Pour , on détermine le vecteur propre associé

• Pour , on détermine le vecteur propre associé

Les nouvelles variables est appelée le l ème composante

La cordonné de l’individu i sur la l ème axe principale est

• Pour premier composante principale:

Cordonné du 9ème ind sur l’axe 1

• Pour deuxième composante principale:

Cordonné du 9ème ind sur l’axe 2

Aide à l’interprétation (individus)

=La proportion de l’inertie restituée par l’axe principale

=La part d’information restituée par le plan principale

Pour l’exemple traité:

Projection des individus sur le premier plan principal

Aide à l’interprétation (individus)

qualité de représentation de ind i sur

La contribution de l’individu i à la composante n° k est définie par

Remarque : Il n’est pas souhaitable qu’un individu ait une contribution

Aide à l’interprétation (variables)

Qualité de représentation d’une variable sur l’axe principale

Si cor >0 => α>0

Sens d’une composante principale

Les variables les plus corrélées (>0 ou <0) avec

les variables proche du centre sont

Interprétation des axes

Interprétation des axes

Ce sont les points dont la contribution est supérieure à la

Interprétation des axes

Résultats numériques d’une ACP

Résultats numériques d’une ACP