Vous êtes sur la page 1sur 5

Analyse en Composantes Principales avec XLSTAT

Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici. Les
données proviennent du US Census Bureau (le fichier original peut-être obtenu sur
http://eire.census.gov/popest/states_dataset.csv). Elles correspondent à la mesure de paramètres
démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les
données de l'année 2001 ont été conservées, et afin de supprimer les effets d'échelle, les variables initiales ont
été converties en taux pour 1000 habitants. Le but est ici d'analyser les corrélations entre les variables et
d'identifier des états se différenciant fortement des autres. Ces données sont aussi utilisées pour le tutoriel de
la Classification Ascendante Hiérarchique (CAH).

L'ACP est une méthode très efficace pour l'analyse de données quantitatives (continues ou discrètes) se
présentant sous la forme de tableaux à M observations / N variables. Elle permet de :
visualiser et analyser rapidement les corrélations entre les N variables,
visualiser et analyser les M observations initialement décrites par N variables sur un graphique à deux ou
trois dimensions, construit de manière à ce que la dispersion entre les données soit aussi bien préservée que
possible,
construire un ensemble de P facteurs non corrélés (P<=N) qui peuvent ensuite être réutilisés par d'autres
méthodes (la régression par exemple).

Les limites de l'ACP viennent du fait que c'est une méthode de projection, et que la perte d'information
induite par la projection peut entraîner des interprétations erronées. Des astuces permettent cependant d'éviter
ces inconvénients.

Une fois qu'XLSTAT-Pro est activé, cliquez sur le menu XLSTAT/Analyse de données/Analyse en
Composantes Principales, ou cliquez sur le bouton correspondant de la barre "Analyse de données" (voir ci-
dessous).

Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Analyse en composantes principales
apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Il y a plusieurs façon de
sélectionner les données dans la boîtes de dialogue XLSTAT (voir le tutoriel sur le sujet). Dans l'exemple
étudié ici les données commencent dès la première ligne; il est donc plus rapide de choisir le mode de
sélection par colonnes. C'est pourquoi dans la boîte de dialogue ci-dessous, les sélections apparaissent sous
forme de colonnes. Toutes les options par défaut de la boîte de dialogue sont laissées telles quelles. L'option
"Libellés présents" est activée, car la première ligne de données contient le nom des variables. Le "Type"
choisi ici est "Obs/Variables" car c'est le bien le format des données de départ. Les autres possibilités sont
"Matrice des corrélations" ou "Matrice de covariance". Le "Type de matrice " choisi est Pearson, ce qui
signifie que les calculs seront basés sur une matrice composée des coefficients de corrélations de Pearson, qui
est le coefficient de corrélation communément utilisé.
Les calculs commencent lorsque vous cliquez sur le bouton "OK". Si vous avez choisi dans le panneau des
options XLSTAT l'option "saisie assistée", XLSTAT vous demande de confirmer le nombre de lignes et de
colonnes. Ensuite une boîte de dialogue vous présente les options pour l'affichage des graphiques. Nous
choisissons ici d'afficher les libellés sur l'ensemble des graphiques. Lorsqu'il y a beaucoup d'individus (de
lignes), l'affichage des libellés peu être considérablement ralentir l'affichage des résultats. Vous avez
cependant la possibilité dans ce cas de n'afficher qu'un sous-ensemble des individus.

Puis une nouvelle boîte vous permet de choisir . Dans notre cas, le % de variabilité représenté par les deux
premiers facteurs n'est pas particulièrement élevé (67.72%) ; pour éviter une mauvaise interprétation des
graphiques, un affichage sur les axes 1 et 3 est donc demandé.

Le premier résultat intéressant à analyser est la matrice des corrélations. On remarque le résultat évident que
les taux de la proportion de gens étant agés de plus et moins de 65 ans sont parfaitement corrélés (r = -1). Les
deux variables sont donc redondantes. On remarque l'immigration provenant d'autres états des USA est très
peu corrélée avec les autres variables, y compris avec l'immgration provenant de pays étrangers. Cela indique
que les raisons d'immigration sont sûrement différentes pour les deux populations concernées.
Le tableau suivant et le graphique associé sont liées à un objet mathématique, les valeurs propres, qui sont
heureusement liées à un concept très simple : la qualité de la projection lorsque l'on passe de N dimensions
(N étant le nombre de variables, ici 7) à un nombre plus faible de dimensions. Dans notre cas, on voit que la
première valeur propre vaut 3.567 et représente 51% de la variabilité. Cela signifie que si l'on représente les
données sur un seul axe, alors on aura toujours 51% de la variabilité totale qui sera préservée.

A chaque valeur propre correspond un facteur. Chaque facteur est en fait une combinaison linéaire des
variables de départ. Les facteurs ont la particularité de ne pas être corrélés entre eux. Les valeurs propres et
les facteurs sont triés par ordre décroissant de variabilité représentée.

Idéalement, les deux premières valeurs propres correspondent à un % élevé de la variabilité, si bien que la
représentation sur les deux premiers axes factoriels est de bonne qualité. Dans notre exemple, cela n'est pas
tout à fait le cas, d'où la nécessité de valider les hypothèse formulées par l'utilisation des graphiques sur les
facteurs F1 et F2 d'une part, et F1 et F3 d'autre part. Nous voyons ici que le nombre de facteurs est 6, alors
que nous avions au départ 7 variables. Cela est dû aux deux variables redondantes. On comprend bien que
l'information puisse être synthétisée sur 6 dimensions. Le nombre de dimensions "utiles" maximum est
automatiquement détecter par la méthode utilisée.

Le premier graphique particulier à la méthode est le cercle des corrélations (voir ci-dessous le cercle sur les
axes F1 et F2). Il correspond à une projection des variables initiales sur un plan à deux dimensions constitué
par les deux premiers facteurs. Lorsque deux variables sont loin du centre du graphique, alors si elles sont :
proches les unes par rapport aux autres, alors elles sont significativement positivement corrélées (r proche
de 1),
orthogonales les unes par rapport aux autres, alors elles sont significativement non-corrélées (r proche de
0),
symétriquement opposées par rapport au centre, alors elles sont significativement négativement corrélées
(r proche de -1).

Lorsque les variables sont relativement proches du centre du graphique, alors toute interprétation est
hasardeuse, et il est nécessaire de se réferrer à la matrice de corrélations à d'autres plans factoriels pour
interpréter les résultats. Dans notre exemple, nous pourrions déduire du graphique ci-dessous que les
variables Immigration domestique, et Immigration Internationale sont corrélées, alors qu'elles ne le sont pas,
ce que l'on peut voir sur la matrice des corrélations ou sur le cercle des corrélations sur les axes F1 et F3. En
revanche, on voit bien la forte corrélation entre le taux de mortalité et le taux de personnes dont l'âge est
supérieur à 65 ans.

Le cercle des corrélations est aussi utile pour interpréter la signification des axes. Dans notre cas, l'axe F1 est
clairement lié à l'âge de la population et à son renouvellement, alors que l'axe F2 est essentiellement lié à
l'immigration domestique. Ces tendances sont particluièrement intéressantes à dégager pour l'interprétation
du graphique des individus (voir ci-dessous). Pour confirmer le fait qu'une variable est fortement liée à un
facteur, il suffit de consulter la table des cosinus : plus le cosinus est élevé (en valeur absolue), plus la
variable et liée à l'axe. Plus le cosinus est proche de zéro, moins la variable est liée à l'axe. Dans notre cas,
nous voyons que ce qui concerne l'immigration internationale sera mieux interprétée sur les F2/F3.

Le graphique ci-dessous correspond à l'un des objectifs de l'ACP. Il permet de représenter les individus sur
une carte à deux dimensions, et ainsi d'itenfier des tendances. On voit dans notre exemple que sur la base des
variables démographiques dont on dispose, le Nevada et la Floride sont assez particuliers, de même que
l'Utah et Alaska qui semblent partager des caractéristiques : en regardant les données, on s'aperçoit que ces
deux états ont une population nettement plus jeune que la moyenne, et une natalité très élevée.
L'Analyse en Composantes Principales est souvent utilisée avant une régression car elle permet d'éviter
d'utiliser des variables redondantes, ou avant une classification car elle permet d'identifier la structure de la
population et éventuellement de déterminer le nombre de groupes à construire. Les données utilisées dans ce
tutoriel sont aussi utilisées dans le tutoriel sur la Classification Ascendante Hiérarchique. En tenant compte
des remarques faites ci-dessus, la variable "pop >65" a été supprimée afin de ne pas rendre le poids des
variables liées à l'âge trop important pour le regroupement des états.

Vous aimerez peut-être aussi