Vous êtes sur la page 1sur 2

Analyse de données avec SPSS

version du 4 juillet 2016

Raphael.Cere@unil.ch

Ce deuxième travail pratique (TPII) abord l’analyse de données avec SPSS en introduisant la Régres-
sion, l’Analyse en composante principale et la Classification hiérarchique ascendante. Avec les connais-
sances acquises lors du travail pratique I (Réf. Introduction à SPSS ), vous allez vous familiariser ici avec
respectivement l’éstimation sous hypothèse de linéarité, la compression de l’information et la classifica-
tion. Finalement, vous devriez être capable d’effectuer des analyses quantitatives de données multivariés
permettant d’appuyer ou d’infirmer certaines hypothèses.
Avant de débuter le travail, commencez par effectuer les opérations suivantes :
• téléchargez et ouvrez dans SPSS le fichier de données socioeco.sav (disponible sur moodle2.unil.
ch)
• activez la pondération (Réf. point 2.6 du TPI)

1 Régression
On ne connaît pas la proportion de naissances en 2013 pour un Canton. On connaît des prédicteurs p
qui sont la proportion de chômeurs et la proportion de bénéficiaires à l’aide sociale de cette même année
pour l’ensemble des cantons, peut-on estimer la proportion de naissances y ∗ de ce Canton ?
Pour rappel :
p
X
yi∗ = bj xij y ∗ = Xb (1)
j=0

avec b les coefficients de régression et x les scores des p


Copiez votre variable propnaiss2013 et renommez votre nouvelle variable propnaiss2013incomplet. Sup-
primer ensuite l’un des scores de propnaiss2013incomplet (la proportion de naissances 2013 manquante).
Commandez la régression multiples de la variable dépendante propnaiss2013incomplet par les prédicteurs
propsocia2013 et propchoman2013 depuis Analyse → Régression → Linéaire. . . . Depuis l’option
Tracés. . . activez le diagramme de résidus avec y ∗ en abscisse et e en ordonnée, respectivement ∗ZPRED
et ∗ZRESID selon l’appellation SPSS. Il s’agit des “z-scores” ou valeurs standardisées de y ∗ et de e.
Finalement, pour récupérer les prévisions (estimations) dans le fichier de données depuis Enregistrez...
→ cochez dans Prévisions : Non standardisés
• En utilisant (1), calculez manuellement yi∗ (valeur manquante estimée) avec la table des Coefficients
obtenue. Correspond-t-il à l’estimation faite par SPSS ? Est-ce que l’on peut se fier à ce résultat
en observant les carré des coefficients de corrélation (voir la table Récapitulatif des modèles) ?
• Que pouvez-vous dire de l’hypothèse de travail depuis le diagramme de résidus (indépendance des
variables) ? Et depuis la table ANOVA ?

2 Analyse en composantes princiaples


L’analyse en composante principales (ACP) est une procédure multivariée descriptive qui consiste à
transformer p variables corrélées en p nouvelles non corrélées ou facteurs. Elle conserve k < p premiers
facteurs qui engendre une simplification des données et elle permet ensuite d’interpréter ces derniers de
manière intuitive, les nommer.
Effectuer une ACP sur les quatre variables de densité porpnaiss2013, propdece2013, propsocia2013, prop-
choman2013 depuis Analyse → Réduction des dimensions → Analyse factorielle avec les options
suivantes :

1
1. cochez dans Caractéristiques : sous matrice de corrélation → Indice KMO et test de sphéricité
de Bartlett
2. garder 2 facteurs et sortez le “scree graph” depuis Extraction. . . : Nombre de facteur = 2 et cochez
Matrice de corrélation puis Tracé d’effondrement
3. sortir le cercle des corrélations en cochant depuis Rotation. . . → Carte(s) factorielle(s)
4. sortir (dans le fichier de données) les deux premiers scores factoriels depuis Scores. . . → Enregistrer
dans des variables → Régression
Finalement, sortez le diagramme de dispersion associé au deux scores factoriels précédemment créés en
étiquetant les points par le nom du canton correspondant.
• Est-ce qu’une ACP est justifiée sur ces données ?
• Est-ce que deux facteurs sont suffisants ?
• Depuis le tracé des composantes, nommez vos composantes
• Selon vos connaissances, constatez-vous un clivage entre les cantons dans le digramme de disper-
sion ? Selon vos composantes, que constatez-vous ?

3 Classification hiérarchique ascendante


La Classification hiérarchique ascendante (CHA) permet l’analyse typologique par la classification de
n individus contenant p scores en un certain nombre m de sous-groupes homogène où m < n : il faut
définir un indice de dissimilarité entre toutes paires d’individus (e.i Ward) et ensuite définir une règle de
regroupement (e.i un seuil discriminant).
Effectuez une CHA des 26 cantons en considérant leurs 4 scores propnaiss2013, propdece2013, propso-
cia2013 et propchoman2013 depuis Analyse → Classification → Cluster hiérarchique avec les options
suivantes :
1. labellisez les points par le nom du canton correspondant
2. définir les dissimilarités comme les distances euclidiennes carrées entre les scores standardisés
depuis Méthode d’agrégation : Méthode de Ward et Intervalle : Carré de la distance Euclidienne ;
Utilisez Transformer les valeurs avec Standardiser : Score Z
3. sortir le Dendrogramme depuis Tracés. . . → Dendrogramme
4. sortir (dans le fichier de données) l’affectation des individus au cluster correspondant depuis En-
registrer. . . : Nombre de clusters = 5
Finalement, sortez le diagramme de dispersion associé au deux scores factoriels précédemment créés
(ACP) en étiquetant cette fois-ci par l’affectation des canton au cluster correspondant.