Académique Documents
Professionnel Documents
Culture Documents
Acp 2
Acp 2
Contenu :
• Présentation des méthodes d’analyses multivariées
•
Objectifs :
L’ACP a pour objectif de simplifier un tableau de données initiales en passant d’un grand nombre
de variables à un petit nombre de nouvelles variables obtenues en regroupant les variables
initiales présentant un coefficient de corrélation relativement important.
Page 1/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données
Hte-Norm.
1000000 Fr.-Comté
Corse
800000 Champ.-Ard.
Centre
600000
Bretagne
Bourgogne
400000
Basse-Norm.
Auvergne
200000
POPUL
Aquitaine
0 Alsace
0 1000000 2000000 3000000 4000000 5000000
SUPERF
Remarque : Pour afficher dans SPSS les légendes des points dans un diagramme de dispersion:
Menu Graphe ; Commande Diagramme de dispersion ; Choisir Simple et cliquez sur Définir ;
dans la fenêtre diagramme de dispersion simple faites les choix suivants :
Axe des Y : POPUL
Axe des X : SUPERF
Définir les marques par : région
Page 2/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données
Légende :
POPUL : Population de la région en milliers d’individus.
TACT : Taux d’activité (population active /population totale de la région) en %.
SUPERF : superficie de la région
NBENTR : nombre d’entreprises
NBNREV : Nombre de brevets déposés au cours de l’année
CHOM : Taux de chômage, en %.
TELEPH : Nombre de lignes téléphoniques en place dans la région, en milliers.
Page 3/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données
Page 4/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données
Dans la matrice des corrélations (appelée Matrice de proximité) ci-dessus on peut distinguer trois
cas : des corrélations élevées proches de 0,8-0,9 indiquant le premier groupe de variables corrélées
(qui va constituer la première nouvelle variable appelée facteur ou dimension). Deux variables
faiblement corrélées avec les autres (CHOM et TACT) mais assez corrélées entre elles (r=0,76), qui
constituent la deuxième dimension. Enfin la variable SUPERF est corrélée avec le premier groupe,
mais plus faiblement (r entre 0,5 et 06), elle pourrait constituer la troisième dimension.
Page 5/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données
Cette matrice est identique à celle obtenue dans l’étape 2 (appelée Matrice de proximité).
SPSS a calculé 7 composantes principales ou facteurs, la première par exemple a une valeur propre (
variance) de 4,158 qui représente 59,39 % de la variance des variables initiales, les trois premières
composantes représentent donc 95% de la variance des variables initiales
Page 6/7
Nadiri Abdeljalil 01/10/2004
Matière : Analyse des données
Il faut choisir un nombre de composantes suffisant pour résumer les variables avec une perte
d’information minimale.
Pour le choix du nombre des composantes à retenir il existe deux critères :
• Valeur propre ou (critère de Kaiser) : les variables initiales ont une variance égale à 1,
puisqu’elles sont réduites. On retient les composantes dont la variance est supérieure à 1,
parce qu’elles apportent plus d’information (variance) que les variables de départ.
• Utilisation du graphique des valeurs propres (Scree-test):
On relier par une droite les points presque alignés, en partant de la dernière composante, le
nombre de composantes à retenir est alors représenté par les points ne figurant pas sur la
droite.
En utilisant le critère de Kaiser SPSS a retenu 2 composantes : qui restituent 86,521 % de la
variance des variables de départ.
En utilisant le critère du Scree-Test d’après le graphique des valeurs propres les composantes
4,5,6 et 7 peuvent être considérées comme alignés sur une même droite, donc les composantes
à retenir sont les composantes 1,2 et 3 qui restituent 95% de la variance des valeurs initiales.
Donc si vous voulez opter pour l’utilisation du Scree-Test, il faut refaire l’ACP et dans la
fenêtre Extraction il faut sélectionner Nombre de facteurs : 3 ( et non l’option valeurs propres
supérieures à : 1).
Page 7/7