Vous êtes sur la page 1sur 7

Nadiri Abdeljalil 01/10/2004

Matière : Analyse des données

Atelier N° 6 : Analyse en composantes principales (ACP)

Contenu :
• Présentation des méthodes d’analyses multivariées

Présentation des méthodes d’analyses multivariées


Classification des méthodes :
Les méthodes d’analyse multivariées sont classées selon deux critères :
• l’objectif de l’analyse : on distingue les méthodes descriptives ; qui fournissent une
information synthétisée ou résumée ; des méthodes explicatives qui permettent qui
permettent de déceler des relations entre les différents variables.
• Nature des variables : le type de mesure (nominale, ordinale ou échelle) conditionne le
choix d’une méthode.
Objectif de l’analyse
Réduire Expliquer
Simplifier Identifier
Synthétiser
Méthodes Méthodes explicatives
descriptives
(les variables sont scindées en
(Toutes les variables sont deux groupes : variables à
analysées ensemble.) expliquer et variables explicatives)

Nominale Analyse des Analyse discriminante


correspondances
Nature des Ordinale Analyse des similarités Analyse des mesures conjointes
variables Métrique Analyse en composantes Analyse de régression multiple
principales

Analyse en composante principale :

Objectifs :
L’ACP a pour objectif de simplifier un tableau de données initiales en passant d’un grand nombre
de variables à un petit nombre de nouvelles variables obtenues en regroupant les variables
initiales présentant un coefficient de corrélation relativement important.

Page 1/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données

Etapes de l’analyse en composantes principales :


Exemple : Une entreprise multinationale souhaite implanter en France l’une de ses unités de
production. Elle réalise une étude pour évaluer l’attractivité économique des 22 régions
françaises.
Objectif de l’analyse : Est il possible de résumer les 7 variables en 2 ou 3 variables maximum
avec un minimum de perte d’information, de manière à pouvoir interpréter plus facilement cette
dernière ?

Etape 1 : Repérage des observations aberrantes :


Les individus présentant des valeurs extrêmes sur les variables risquent de fausser les analyses, de
même pour les individus qui ont beaucoup d’informations manquantes.
Il est donc préférable de ne pas tenir compte de ces deux catégories.
Pour la Corse quatre informations sur sept sont manquantes, donc cette région sera écartée de
l’analyse.
Le croisement des variables POPUL et SUPERF montre que la région Île de France est très en
dehors du nuage de points, il en va de même pour le croisement des autres variables.
Les statistiques univariées pour les 7 variables confirment la situation extrême de la région Île de
France, elle sera donc également écartée de l’analyse.
1200000 Île-de-France

Hte-Norm.

1000000 Fr.-Comté

Corse

800000 Champ.-Ard.

Centre
600000
Bretagne

Bourgogne
400000
Basse-Norm.

Auvergne
200000
POPUL

Aquitaine

0 Alsace
0 1000000 2000000 3000000 4000000 5000000

SUPERF

Remarque : Pour afficher dans SPSS les légendes des points dans un diagramme de dispersion:
Menu Graphe ; Commande Diagramme de dispersion ; Choisir Simple et cliquez sur Définir ;
dans la fenêtre diagramme de dispersion simple faites les choix suivants :
Axe des Y : POPUL
Axe des X : SUPERF
Définir les marques par : région

Région POPUL TACT SUPERF NBENTR NBBREV CHOM TELEPH


Alsace 162400 3914 828000 3597600 24100 520 70000
Aquitain 279500 3662 4130800 8553100 25600 1020 130000
Auvergne 132000 3748 2601300 4049400 12900 930 60000
Basse-No 139000 3863 1758900 3588800 9100 900 60000
Bourgogn 160000 3826 3158200 4071400 22300 810 75000

Page 2/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données

Bretagne 279500 3662 2720800 7376300 29600 950 130000


Centre 237000 3878 3915100 5675300 22900 790 110000
Champ.-A 134000 3785 2560600 2406000 15500 930 55000
Corse 24000 , 868000 827300 , , ,
Fr.-Comt 109000 3727 1620200 2748100 15900 710 45000
Hte-Norm 173000 3780 1231700 3746100 18100 1080 75000
Île-de-F 1066000 4604 1201200 27360400 672200 730 580000
Lang.-Ro 211000 3212 2737600 6220200 17900 1320 100000
Limousin 72000 3806 1694200 2172100 7300 790 35000
Lorraine 230000 3434 2354700 4835300 18500 860 95000
Midi-Pyr 243000 3714 4534800 7877100 23700 900 110000
Nord.PdC 396000 3205 1241400 7850400 27800 1260 160000
P. de Lo 306000 3793 3208200 7202700 33900 960 130000
Picardie 181000 3439 1939900 3628500 13900 980 75000
Poit.-Ch 159000 3682 2580900 4459800 13300 1010 75000
Pr .-Cte 426000 3496 3140000 13255200 61000 1100 230000
Rh.-Alpe 535000 3944 4869800 15963400 147400 740 250000

Légende :
POPUL : Population de la région en milliers d’individus.
TACT : Taux d’activité (population active /population totale de la région) en %.
SUPERF : superficie de la région
NBENTR : nombre d’entreprises
NBNREV : Nombre de brevets déposés au cours de l’année
CHOM : Taux de chômage, en %.
TELEPH : Nombre de lignes téléphoniques en place dans la région, en milliers.

Etape 2 : Calcul d’une matrice de corrélation entre variables initiales


Les différentes corrélations entre les variables initiales doivent être calculées et regroupées dans
une matrice afin de savoir si le calcul d’une ACP a un sens ou non.
En effet l’ACP crée les nouvelles variables en groupant les variables initiales selon leur
corrélation, et chaque groupe de variables initiales corrélées est remplacé par une nouvelle
variable (qui est définie comme une combinaison linéaire des variables corrélées de ce groupe).
Donc si les initiales sont totalement indépendantes les unes des autres (non corrélées), l’ACP ne
peut pas être appliqué dans ce cas là.
Procédure de calcul de la matrice des corrélations :

Page 3/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données

• Dans le menu Analyse Choisir la commande Corrélations/Indice.

• Sélectionner les sept variables et déplacer les dans la zone Variables.


• Dans la zone Calcul des indices choisir Entre variables.
• Dans la, zone Mesure sélectionner Similarités.
• Cliquer sur Mesures.

• Dans la zone Mesure sélectionner Intervalle et Corrélation de Pearson.


• Dans la zone Transformer les valeurs Sélectionner la standardisation Centrer-réduire :
Pour transformer les variables de sorte à ce que leurs moyennes soient égales à 0
(variables centrées) et leurs variances égales à 1 (variables réduites). En utilisant des
variables centrées et réduites aucune variable n’aura un poids plus important que les autres
dans la construction des nouvelles variables.
• Cliquer successivement sur Poursuivre et OK.

Page 4/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données

Dans la matrice des corrélations (appelée Matrice de proximité) ci-dessus on peut distinguer trois
cas : des corrélations élevées proches de 0,8-0,9 indiquant le premier groupe de variables corrélées
(qui va constituer la première nouvelle variable appelée facteur ou dimension). Deux variables
faiblement corrélées avec les autres (CHOM et TACT) mais assez corrélées entre elles (r=0,76), qui
constituent la deuxième dimension. Enfin la variable SUPERF est corrélée avec le premier groupe,
mais plus faiblement (r entre 0,5 et 06), elle pourrait constituer la troisième dimension.

Etape 3 : Calcul des facteurs (nouvelles variables)


L’ACP construit des combinaisons linéaires des variables de départ, en regroupant les variables
corrélées.

Procédure de calcul de l’ACP avec SPSS :


• Dans le menu Factorisation sélectionner la commande Analyse factorielle ( L’ACP est
une méthode d’analyse factorielle, on appelle ainsi les méthodes descriptives qui créent de
nouvelles variables appelées facteurs en calculant des combinaisons linéaires des variables
de départ).

• Sélectionner toutes les variables et déplacer les dans la zone Vvariables.


• Cliquer sur le bouton Caractéristiques et cocher la case Coefficients dans la zone Matrice
des corrélations ( Pour avoir la matrice des coefficients de corrélation dans la fenêtre des
résultats de l’ACP, qui sera identique à celle obtenue dans l’étape précédente)

• Cliquer sur le bouton Extraction.

Page 5/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données

• Sélectionner la méthode Composantes principales


• Dans la zone Extraire on fixe la manière dont SPSS doit sélectionner les nouvelles variables
appelées composantes ou facteurs. Le premier choix valeurs propres supérieures à nous
offre la possibilité de sélectionner uniquement les composantes dont la variance est supérieure
à une valeur, dans le second choix on fixe le nombre de nouvelles variables à retenir.
• Dans la zone Afficher sélectionner Graphique des valeurs propres (pour afficher un
graphique représentant la variance des composantes).

Interprétation des résultats de l’ACP :


La matrice de corrélation :

Cette matrice est identique à celle obtenue dans l’étape 2 (appelée Matrice de proximité).

Variance des composantes principales ou facteurs

SPSS a calculé 7 composantes principales ou facteurs, la première par exemple a une valeur propre (
variance) de 4,158 qui représente 59,39 % de la variance des variables initiales, les trois premières
composantes représentent donc 95% de la variance des variables initiales
Page 6/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données

Il faut choisir un nombre de composantes suffisant pour résumer les variables avec une perte
d’information minimale.
Pour le choix du nombre des composantes à retenir il existe deux critères :
• Valeur propre ou (critère de Kaiser) : les variables initiales ont une variance égale à 1,
puisqu’elles sont réduites. On retient les composantes dont la variance est supérieure à 1,
parce qu’elles apportent plus d’information (variance) que les variables de départ.
• Utilisation du graphique des valeurs propres (Scree-test):

On relier par une droite les points presque alignés, en partant de la dernière composante, le
nombre de composantes à retenir est alors représenté par les points ne figurant pas sur la
droite.
En utilisant le critère de Kaiser SPSS a retenu 2 composantes : qui restituent 86,521 % de la
variance des variables de départ.

En utilisant le critère du Scree-Test d’après le graphique des valeurs propres les composantes
4,5,6 et 7 peuvent être considérées comme alignés sur une même droite, donc les composantes
à retenir sont les composantes 1,2 et 3 qui restituent 95% de la variance des valeurs initiales.
Donc si vous voulez opter pour l’utilisation du Scree-Test, il faut refaire l’ACP et dans la
fenêtre Extraction il faut sélectionner Nombre de facteurs : 3 ( et non l’option valeurs propres
supérieures à : 1).

Page 7/7

Vous aimerez peut-être aussi