Académique Documents
Professionnel Documents
Culture Documents
• L’analyse en composantes principales (ACP) est une méthode classique de l’un des grands champs de la
statistique appelé statistique exploratoire multidimensionnelle
La moyenne de la J
ème variable :
L’écart type de la J
ème variable :
• Le tableau des données ou encore la matrice X peut être analysée à travers ses lignes (les individus) ou à travers ses
colonnes (les variables).
→Etude des individus:
On cherche alors à répondre à des questions du type suivant :
• quels sont les individus qui se ressemblent ? Quels sont ceux qui diffèrent ?
• Plus généralement, on souhaite décrire la variabilité des individus. Pour cela, on cherche à mettre en évidence des
groupes homogènes d’individus dans le cadre d’une typologie des individus => Analyse de la ressemblance
→Etude des variables:
On cherche a analyser la ressemblance entre les variables => Analyse de liaisons entre variables
• Analyse de liaisons => Coefficient de corrélation
• Résumer l’ensemble des variables par un petit nombre de variables synthétiques appelées composantes
principales=> Indicateur synthétique
• Ces deux études ne sont pas indépendantes du fait de la dualité inhérente à l’étude d’un tableau rectangulaire : la
structure du tableau peut être analysée à la fois par l’intermédiaire de la typologie des individus et de la
typologie des variables.
• On cherche en général à relier ces deux typologies:
→ On caractérise les classes d’individus par les variables
→On caractérise un groupe de variables liées entre elles par des individus types
En résumé:
• L’ ACP est une méthode de statistiques exploratoires multidimensionnelles qui a pour objet de synthétiser et
hiérarchiser l’information contenue dans un tableau de données multidimensionnelles
→ Elle a donc pour objectifs de trouver des représentations appropriées aux données et de fournir des mesures
permettant de quantifier la proximité entre les individus et la liaison entre les variables
Lorsque la taille est exprimée en mètre l’élève 5 et plus Tableau: Données centrées réduites
proche de l’élève 4 que l’élève 6. Lorsqu’elle est
exprimée en centimètre c’est l’inverse
• Les propriétés géométriques du nuage induisent que leur visualisation permettrait de répondre aux questions posées :
variabilité des individus (via les distances inter-individus dans NK).
• Le problème est que ces nuages évoluent dans des espaces de dimension supérieure à 3 rendant leur visualisation directe
impossible.
➔ L’idée de l’ACP est de fournir une représentation simplifiée des individus. Autrement dit une image simplifiée de ces
individus dans un espace réduit ( 2 ou 3 dimensions)
➔ Il faut chercher la Meilleure Représentation
-Si l’inertie est grande, cela signifie que le nuage est très dispersé = La visualisation du nuage est bonne,
plus particulièrement l’information portée par le nuage est bonne
- Si l’inertie est petite, alors le nuage est très concentré sur son centre de gravité.= La visualisation du
nuage n’est pas claire et donc l’information portée par la nuage n’est pas bonne
➔Un objectif de l’ACP sera de décomposer une quantité dérivant de cette somme (l’inertie) en faisant apparaître
des individus ou des groupes d’individus y contribuant de manière particulière.
-On cherchera en particulier à déterminer quelles directions de l’espace y contribuent le plus, autrement-dit, on
cherchera `a savoir dans quelles directions de l’espace les allongements du nuage sont les plus importants.
• Le premier axe principal est l'axe suivant lequel on a la plus grande dispersion du nuage de points (le plus
grand allongement du nuage de points), permettant de distinguer au mieux les points. ➔c'est l'axe qui a la plus
grande variance ou pourcentage d'inertie
➔La variance ou l'inertie d'un axe principal est encore appelée valeur propre➔ La quantité d'information recueillie
par un axe principal
• Le 2ème axe principal, est la 2e direction d'allongement du nuage. C'est celui qui a la plus grande inertie
résiduelle après la première composante. Ainsi de suite jusqu'à remplacer les n axes anciens par m axes
nouveaux.
• Les données ci-après récapitulent les températures moyennes mensuelles relevées dans 15 villes de
France sur ( 30 ans)
➔ Si une variable est corrélée positivement à un axe, les valeurs de cette variable évoluent comme les cordonnées dans cet axe
➔ Si une variable est corrélée négativement à un axe, les valeurs de cette variable évoluent à l’inverse des cordonnées dans cet axe
• - Caractéristiques univariées : Donne la moyenne, l’écart type et le nombre d’observations valides pour chaque variable.
• - Structure initiale : Donne les valeurs propres et la part de la variance expliquée par chaque axe (composante) principal.
• - Coefficients de la matrice de corrélation : affiche les corrélations entre les variables étudiées deux à deux.
• - Indice KMO et test de sphéricité de Bartlett : L’indice KMO indique s’il est intéressant d’appliquer une ACP sur les
données, autrement, est ce qu’une ACP permettra de trouver des facteurs (composantes) qui résument efficacement
l’information de départ. Pour répondre à cette question, l’indice KMO calcule les corrélations partielles entre les variables
(qui représentent les corrélations nettes entre les variables deux à deux en éliminant l’influence des autres) . Il est
préférable que le KMO dépasse le seuil de 0,7.
• Le test de Bartlett répond aussi à la même question en adoptant une stratégie différente. Il examine la matrice des
corrélations dans son intégralité et fournit la probabilité de l’hypothèse nulle selon laquelle toutes les corrélations sont de
zéro
La dernière boite de dialogue « Options » permet surtout de décider le traitement des valeurs manquantes soit
par suppression soit par remplacement. Nous n’avons pas de valeurs manquantes dans notre ensemble de
données, nous décidons donc de laisser les options par défaut.
Nous avons choisi de travailler en deux dimensions. Les deux axes permettront d’expliquer 95,8% de l’information
contenue dans le nuage de points de départ (Tableau ‘Variance totale expliquée’ ci-dessous). Ces deux premiers axes sont
les seuls qui correspondent à des valeurs propres supérieures à 1
-Analyse des données- PR M.OUDMANE
Epuration
• La formation des facteurs repose sur le poids des variables initiales dans l'explication de ces facteurs. Les «
communalités » Une communalité de 0,5 signifie que 50 % de la variance de la variable est prise en compte ou
« expliquée» par les facteurs. Une valeur faible révèle que la variable n'est pas suffisamment corrélé avec les autres.
Le niveau des communalités est considéré comme moyen s'il est compris entre 0,40 et 0,65, bon s'il est compris entre 0,65
à 0,80 et excellent au-delà*. Il est d'usage d'éliminer les items de communalité inférieure à 0,5.
34
Le tableau ‘Qualité de représentation’ donne la part de la variabilité conservée pour chaque variable suite à la
projection sur les deux axes. L ’information initiale est conservée pour toutes les variables puisque les
communalités sont tous élevés ( supérieur à 0,5). Si la qualité de représentation d’une variable est faible
(généralement < 0.5) on peut choisir de l’éliminer de l’analyse
• Même si, en toute rigueur, la rotation n'est pas toujours nécessaire, elle améliore et simplifie dans la quasi- totalité
des cas la solution obtenue. Nous lirons donc en priorité la matrice des composantes après rotation.
Deux critères doivent être considérés:
- Nous envisageons d'éliminer des items dont les coefficients structurels trop faibles ou trop moyens <
0,5)
- Nous envisageons d'éliminer des items moyennement corrélés à plusieurs axes à la fois
36
Le tableau suivant : ‘Matrice des composantes’ mesure la contribution de chaque variable à la formation des
deux axes. Presque toutes les variables contribuent le plus à la formation du premier axe, mis à part la
variable disponibilité qui contribue le plus au deuxième axe. Puisque les deux axes sont indépendants
(Matrice de covariances des composantes), ces coefficients peuvent aussi être interprétés comme coefficients
de corrélation des variables avec les composantes et aussi comme coordonnées des variables dans les
composantes
Axe 1 : Les produits 1 ; 2 ; 4 ; 5 sont bien représentés sur l’axe 1. Ces marques produits sont donc de meilleure
qualité en termes de gout, de légèreté, de l’image et d’emballage) . Les produits 7 ; 8 ; 10 sont de moyenne
qualité.
Axe 2 : Le produit 6 est disponible sur le marché alors que le produit 9 est très rare sur le marché