Académique Documents
Professionnel Documents
Culture Documents
PARTIE 1:
PRESENTATION ET MANIPULATION DE BASE DE
SPSS
Par défaut, les valeurs de données réelles sont affichées. Pour afficher les étiquettes :
A partir des menus, sélectionnez : Affichage > Etiquettes de valeurs
On peut utiliser aussi le bouton Etiquettes de valeurs dans la barre d’outils :
Des étiquettes de valeurs descriptives s’affichent pour faciliter l’interprétation des réponses.
Une icône à côté de chaque variable fournit des informations sur le type de données et le niveau de
mesure.
Vous pouvez obtenir des informations supplémentaires en cliquant avec le bouton droit sur tout nom de
variable dans la liste.
Cliquez avec le bouton droit de la souris sur la variable Income category et sélectionnez
Informations de la variable.
Cliquez sur la flèche vers le bas dans la liste déroulante Etiquettes de valeurs.
Cliquez sur Gender dans la liste des variables source, puis faites glisser la variable dans la liste
cible Variable(s).
Cliquez sur la variable Income category dans la liste source, puis faites-la glisser vers la liste
cible.
• Echelle. Une variable peut être traitée comme une variable d’échelle (continue) si ses
valeurs représentent des modalités ordonnées avec une mesure significative. L’âge en
années et le revenu en milliers sont des exemples de variable d’échelle.
La zone Rôle permet d’attribuer des rôles prédéfinis pouvant être utilisés pour présélectionner
les variables pour l’analyse. Les rôles disponibles sont :
• Entrée. La variable sera utilisée comme une valeur d’entrée (valeur prédite ou variable
indépendante).
• Cible. La variable sera utilisée comme une variable de destination ou variable cible
(variable dépendante).
• Les deux. La variable sera utilisée aussi bien comme variable d’entrée que variable de
destination.
• Aucune : Aucun rôle n’a été affecté à la variable.
• Partition. La variable sera utilisée pour partitionner les données en échantillons
d’apprentissage, de test et de validation.
• Séparation. Inclus pour la compatibilité.
Les colonnes age et situation affichent actuellement un séparateur décimal alors que les valeurs
sont des entiers. Pour masquer le séparateur décimal de ces variables :
Cliquez sur l’onglet Affichage des variables en bas de la fenêtre de l’éditeur de données.
Dans la colonne Décimales de la ligne âge, saisissez 0 pour masquer la décimale.
Dans la colonne Décimales de la ligne situation, saisissez 0 pour masquer la décimale.
Figure 2.4 : Propriété Décimales des variables age et situation mise à jour
Cliquez sur Ajouter, puis sur OK pour enregistrer vos modifications et revenir dans l’éditeur de
données.
3. Ajouter les étiquettes suivantes pour les valeurs des variables sexe et Evaluation
• Sexe : F = Femme ; H = Homme
• Evaluation : 1= Note Faible ; 2= Note moyenne ; 3=Bonne note
2.6 Saisie d’un tableau croisé ou de contingence
Il n’est pas possible de saisir un tableau de contingence directement dans SPSS. Pour remédier à ce
problème, le tableau de contingence sera saisi « à plat » sous la forme de 3 variables : les deux variables
qualitatives et une troisième variable effectif représentant l’effectif de la classe définie par les valeurs
des deux variables. On obtient donc un tableau (SPSS) du type :
Sexe Indice de Effectif
satisfaction
Femme Très satisfait 1
Femme Satisfait 2
Femme Peut satisfait 4
Femme Pas satisfait 1
Homme Très satisfait 2
Homme Satisfait 4
Homme Peut satisfait 2
Homme Pas satisfait 1
Il faut pondérer chaque couple de modalités (chaque ligne du tableau) par l’effectif associé.
Pour cela, on utilise la commande : Données > Pondérer les observations...
Sélectionnez Pondérer les observations par
Déplacez Effectif dans Variable d’effectif et cliquer sur OK
Satisfaction
Très Satisfait Satisfait Peut satisfait Pas satisfait Total
SEXE Femme 1 2 4 1 8
Homme 2 4 2 1 9
Total 3 6 6 2 17
Tableau 2.2 : Tableau croisé: Sexe*Indice de satisfaction
L’Assistant d’importation de texte vous guide tout au long du processus permettant de définir le
mode d’impression du fichier texte indiqué.
A l’étape 1, vous pourrez sélectionner un format prédéfini ou créer un format dans l’Assistant.
Sélectionnez Non pour indiquer qu’un nouveau format doit être créé.
Cliquez sur Suivant pour continuer.
Sélectionnez Délimité pour indiquer que les données utilisent une structure de format délimité.
Sélectionnez Oui pour indiquer que les noms de variable doivent être lus à partir du début du
fichier.
Cliquez sur Suivant pour continuer.
Saisissez 2 dans la section supérieure de la boîte de dialogue suivante pour indiquer que la
première ligne de données commence sur la deuxième ligne du fichier texte.
Conservez les valeurs par défaut des autres champs de cette boîte de dialogue et cliquez sur
Suivant pour continuer.
L’aperçu des données de l’étape 4 vous offre un moyen rapide de vérifier que vos données ont été lues
correctement.
Vous pouvez également définir les types de données dans cette boîte de dialogue. Par exemple,
nous pouvons supposer que la variable de revenus doit contenir une certaine somme en dollars.
Pour modifier un type de données :
Sous l’aperçu de données, sélectionnez la variable à modifier, c’est-à-dire Revenu dans cet
exemple.
Sélectionnez Dollar dans la liste déroulante Format des données.
A partir des menus, sélectionnez : Fichier > Ouvrir la base de données > Nouvelle requête...
Sélectionnez Base de données MS Access dans la liste des sources de données et cliquez sur
Suivant.
Cliquez sur Parcourir pour accéder au fichier de base de données Access à ouvrir.
Ouvrez demo.mdb.
Cliquez sur OK dans la boîte de dialogue de connexion.
A l’étape suivante, on indique les tables et les variables qu’on souhaite importer.
Faites glisser le tableau demo vers la liste Récupérer les champs dans cet ordre.
E Cliquez sur Suivant.
A l’étape 4, sélectionnez les enregistrements (observations) à importer. Si on ne souhaite pas importer
toutes les observations, on peut :
Sélectionner un sous-ensemble d’observations (par exemple, les hommes de plus de 30 ans)
Un échantillon aléatoire d’observations dans la source de données.
Pour les sources de données volumineuses, on peut limiter le nombre d’observations à un
échantillon restreint et représentatif afin de réduire la durée du traitement.
Les noms de champ permettent de créer des noms de variable. Si nécessaire. Les noms de
champ d’origine sont conservés en tant qu’étiquettes de variable. On peut également modifier
les noms de variable avant d’importer la base de données.
L’instruction SQL créée à partir de vos sélections dans l’Assistant de base de données apparaît à
l’étape Résultats. Cette instruction peut être exécutée immédiatement ou enregistrée dans un
fichier pour une utilisation ultérieure.
Application :
Exporter des résultats vers un document PDF, HTML, Texte et Excel
PARTIE 2:
ANALYSE DE DONNEES AVEC SPSS
TP 1
Classification Hiérarchique et non Hiérarchique
Définition du problème et des objectifs
Sources de données
• Fichier source Température.sav
o 15 Individus : villes de France
o 12 Variables : températures mensuelles moyennes sur 30 ans.
Elaboration du modèle
✓ Appliquer la classification Hiérarchique et non hiérarchique (Nuée dynamique) sur ces données
permettant d'identifier des groupes de villes similaires
✓ Comparer les résultats obtenus avec les deux méthodes
✓ En utilisant la classification ascendante hiérarchique, Construire l'arbre hiérarchique sur ces
données permettant d'identifier des groupes de villes similaires
✓ Caractériser les groupes de villes
2.3 Itérer
Cette boîte de dialogue permet de fixer le nombre maximum des itérations et le critère de convergence
2.4 Enregistrer
Classe(s) d’affectation : Crée une nouvelle variable indiquant la classe d’affectation finale de chaque
observation. Les valeurs de la nouvelle variable vont de 1 au nombre de classes.
Distance au centre de classe : Crée une nouvelle variable indiquant la distance euclidienne entre chaque
nouvelle variable et son centre de classification.
2.5 Options
Statistiques. Vous pouvez sélectionner les statistiques suivantes : Centres de classes initiaux, Tableau
ANOVA, et Affectation et distances au centre.
2.4 Diagramme
Arbre hiérarchique : Affiche un dendrogramme. Les arbres hiérarchiques peuvent être utilisés pour
évaluer la cohésion des groupes formés et ils fournissent des renseignements sur le nombre approprié de
groupes à conserver.
Stalactites : Affiche un diagramme en stalactite, incluant tous les groupes ou une plage de groupes
spécifiée
2.5 Méthode
Méthode d’agrégation : Les choix disponibles sont : la Distance moyenne entre classes, la Distance
moyenne dans les classes, l’Agrégation suivant le saut minimum, l’Agrégation suivant le diamètre, les
Barycentres, la Médiane et la Méthode de Ward.
Mesure : Il permet de spécifier la mesure de distance ou de similarité devant être utilisée pour la
classification
2.6 Enregistrer
Classe(s) d’affectation : Vous permet de sauvegarder les classes d’affectation pour une ou plusieurs ou
aucune partition(s). Les variables sauvegardées peuvent alors être utilisées pour des analyses ultérieures
pour explorer d’autres différences entre groupes.
TP 2
Analyse en Composante Principale
1 Présentation
1.1 Analyse factorielle
L'analyse factorielle essaie d'identifier des variables sous-jacentes, ou facteurs, qui permettent
d'expliquer le patron des corrélations à l'intérieur d'un ensemble de variables observées. L'analyse
factorielle est souvent utilisée pour réduire un ensemble de données. L'analyse factorielle est souvent
utilisée dans la factorisation, en identifiant un petit nombre de facteurs qui expliquent la plupart des
variances observées dans le plus grand nombre de variables manifestes.
2 Les procédures de base
2.1 Pour obtenir une analyse factorielle
Cliquez sur la commande Analyse puis glissez le pointeur de la souris sur Réduction des dimensions
puis sur Analyse factorielle.... Nous obtenons la boîte de dialogue Analyse factorielle
Méthode. Vous permet de spécifier la méthode d'extraction de facteur. Les méthodes disponibles sont
les Composantes principales, les Moindres carrés non pondérés, les Moindres carrés généralisés, le
Maximum de vraisemblance, la Factorisation en axes principaux, l'Alpha-maximisation, et la
Factorisation en projections.
Analyse. Vous permet de spécifier si l'analyse porte sur une matrice de corrélation ou sur une matrice
de covariance.
Extraire. Vous pouvez retenir tous les facteurs dont les valeurs propres dépassent une valeur spécifique
ou retenir un nombre spécifique de facteurs.
Afficher. Vous permet de demander la solution factorielle avant rotation et un diagramme des valeurs
propres.
Maximum des itérations pour converger. Vous permet de spécifier le nombre maximum de pas que
l'algorithme peut prendre pour estimer la solution.
2.4 Rotation d'analyse factorielle
Dans la boîte de dialogue Analyse factorielle, cliquez sur Rotation….
On obtient la boîte de dialogue Analyse Factorielle : Rotation
Méthode. vous permet de sélectionner la méthode de rotation des facteurs. Les méthodes disponibles
sont Varimax, Oblimin directe, Quartimax, Equamax ou Promax.
Afficher. vous permet d'inclure le résultat de la structure après rotation, et également d'afficher les
cartes factorielles sur le premier, le second et le troisième facteur (Cartes factorielles).
Maximum des itérations pour converger. vous permet de spécifier le nombre maximum de pas que
l'algorithme peut utiliser pour réaliser la rotation.
Enregistrer dans des variables. vous permet de créer une nouvelle variable pour chaque facteur selon
la structure finale. Sélectionnez une des méthodes alternatives suivantes pour calculer les facteurs :
Régression, Bartlett, ou Anderson-Rubin.
Afficher la matrice des coefficients factoriels. vous permet de montrer les coefficients par lesquels les
variables sont multipliées pour obtenir les facteurs. Cela permet également de montrer les corrélations
entre les facteurs.
2.6 Options d'analyse factorielle
Dans la boîte de dialogue Analyse factorielle, cliquez sur Options…
On obtient la boîte de dialogue Analyse Factorielle : Options
Valeurs manquantes. Vous permet de spécifier comment traiter les valeurs manquantes. Les options
disponibles sont d'Exclure toute observation incomplète, d'Exclure seulement les composantes non
valides, ou de les Remplacer par la moyenne.
Format d’affichage des coefficients. Vous permet de contrôler le format des matrices de résultat. Triez
les coefficients par leur taille (option Classement des variables par taille) et supprimez les coefficients
dont la valeur absolue est inférieure à la valeur spécifiée.
Dans un deuxième temps, il faut observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit tendre vers 1.
si ce n’est pas le cas, la factorisation n’est pas conseillée. Pour juger de l’indice de KMO, on peut
utiliser l’échelle suivante :
• 0,50 et moins est misérable
• entre 0,60 et 0,70, c’est médiocre
• entre 0,70 et 0,80 c’est moyen
• entre 0,80 et 0,90 c’est méritoire
• et plus 0,9 c’est merveilleux.
Enfin, on utilise le test de sphéricité de Bartlett. :
• si la signification (Sig.) tend vers 0.000, c’est très significatif,
• inférieur à 0.05 significatif,
• entre 0.05 et 0.10 acceptable
• et au dessus de 0.10, on rejette.
Si au moins deux de ces trois conditions sont satisfaites, l’ACP est justifiable.
• 3ème méthode : le test du coude. On observe le graphique des valeurs propres et on ne retient que
les valeurs qui se trouvent à gauche du point d’inflexion. Graphiquement, on part des
composants qui apportent le moins d’information (qui se trouvent à droite), on relie par une
droite les points presque alignés et on ne retient que les axes qui sont au dessus de cette ligne.
3.3 Interprétation des résultats
C’est la phase la plus délicate de l’analyse. On donne un sens à un axe grâce à une recherche lexicale
(ou recherche de mots) à partir des coordonnées des variables et des individus. Ce sont les éléments
extrêmes qui concourent à l’élaboration des axes.
Si la variance expliquée est trop faible, on peut choisir d’exclure certaines variables. Pour choisir les
variables à éliminer, on observe leur qualité de représentation : plus la valeur associée à la ligne «
Extraction » est faible, moins la variable explique la variance.
Il faut également tenir compte du positionnement de chaque variable sur chaque axe :
Les variables à éliminer sont les variables qui sont :
• Soit proches du centre sur l’ensemble des axes retenus.
• Soit au milieu d’un quart de cercle sur les axes retenus.
• Soit les variables qui forment un axe à elles toute seule.
4 Applications
Manipulation 1
L’objectif de cette manipulation est relatif à une étude de marché pour le positionnement de 10 marques
d’un produit alimentaire. On a retenu 6 caractéristiques : prix, goût, légèreté, disponibilité, emballage et
l’image de marque.
Travail à faire
1. Réaliser l'ACP des individus et des variables des données Produits.sav.
2. Ces données sont-il factorisable ? Justifier votre réponse.
3. Combien de facteurs retenir ?
4. Analyser et interpréter les résultats obtenus
Manipulation 2
L’agence locale de la banque « LCBANK » veut entreprendre une étude visant à mieux connaître la
situation et le comportement bancaire de sa clientèle. Elle souhaite notamment définir des types
homogènes de clients afin de pouvoir élaborer des politiques différenciées pour chacun d’eux. Elle vous
demande de mener cette étude.
Vous utilisez pour cela les données figurant dans ses fichiers de gestion en constituant un
échantillon de 30 titulaires d’un compte courant.
Les variables utilisées sont :
SOLD : Solde moyen du compte courant (en DH).
NDEC : Nombre de mois avec découvert courant lors de l’année précédente.
MDEC : Montant cumulé des découvert sur le compte courant lord de l’année précédente(en
milliers de DH).
NEMP : Nombre total des emprunts divers effectués lors des 5 dernières années.
MEMP : Montant total des emprunts divers effectués lors des 5 dernières années.
VADD : % de variation des dépôts d’épargne (pour les 12 derniers mois).
DEPO : Montant total des dépôts sur le compte d’épargne effectués lors de l’année précédente
(en milliers de DH).
RETR : Montant total des retraits sur les comptes d’épargne effectués lors de l’année
précédente (en milliers de DH).
Travail à faire
TP3
Analyse Factorielle des correspondances (AFC)
1 Présentation de l’AFC
L'une des fonctions de l'analyse des correspondances consiste à décrire les relations existant entre deux
variables nominales dans un tableau croisé en décrivant simultanément les relations entre les modalités
de chaque variable.
Pour chacune des variables, les distances séparant les points des modalités d'un diagramme reflètent les
relations existant entre ces modalités : plus les modalités sont similaires, plus elles sont proches les unes
des autres.
Dans la boîte de dialogue Analyse des correspondances cliquer sur le bouton : Définir
intervalles…
Spécifier les plages des valeurs de la variable Ligne et cliquer sur Mettre à jours
Il s’agit du tableau de contingence. Une lecture rapide permet de déceler des classes sous ou sur
représentées. On retiendra surtout l’effectif global (k) à l’intersection des deux marges actives.
3.2 Récapitulatif
• Les graphiques points de lignes, points de colonnes ou les deux, correspondent aux
projections dans le plan factoriel des points modalités.
5 Applications de l’AFC
Exemple1 : L'analyse des correspondances peut être utilisée pour représenter graphiquement les
relations existant entre le niveau de diplôme d’une personne de référence et le type de ménage.
Autrement dit, a t ont le même nombre d’enfant si l’on est titulaire d’un CAP ou si l’on a effectué des
études supérieurs ? Le pourcentage de personnes seules ou le pourcentage de couples avec un enfant est-
il plus important chez les bacheliers que chez les titulaires d’un CAP ? C’est à ce type de questions que
l’AFC apporte des réponses, en synthétisant l’information contenue dans le tableau de contingence.
Manipulation 1
Cette application traite les relations entre le niveau de diplôme de la personne de référence et le type de
ménage.
X1 X2 X3 X4 X5 X6 X7
Y1 444 481 245 246 232 108 128
Y2 410 732 252 204 120 84 155
Y3 189 396 401 530 321 91 107
Y4 172 169 178 258 124 81 36
Y5 46 91 90 95 51 25 12
Y6 193 184 89 91 42 32 30
Y7 319 353 237 350 198 66 45
Tableau 1 : Tableau de contingence Diplôme /Ménage
TP4
Analyse Factorielle des Correspondances Multiples (AFCM)
Définition du problème et des objectifs
Effectuer une Analyse factorielle des correspondances multiples sur un ensemble de races
de chiens caractérisé par 7 variables qualitatives et identifier la variabilité entre ces races
Sources de données
• Fichier source race.sav
• Les données rassemblées portent sur 27 observations (27 Races de chiens) , 6 variables
(actives) et une supplémentaire (illustrative)
Les variables actives :
• Taille (Taille-, Taille+, Taille++)
• Poids (Poids-, Poids +, Poids ++)
• Velocite (Veloc-, Veloc +, Veloc ++)
• Intelligence (Intell-, Intell +, Intell ++)
• Affection (Affect-, Affect +)
• Agressivite (Agress-, Agress +)
La variable illustrative
• Fonction (Chasse, Compagnie, Utilite)
Elaboration du modèle
✓ Effectuer une Analyse Factorielle des correspondances multiples aux données race.sav
✓ Quelles sont les chiens qui se ressemblent ? (proximité entre les individus)
✓ Sur quelles caractéristiques sont fondées les ressemblances / dissemblances
✓ Quelles sont les relations entre les modalités.
1 Présentation de l’AFCM
L’AFCM décrit les relations deux à deux entre p variables qualitatives à travers une représentation des
groupes d’individus correspondant aux diverses modalités.
L’AFCM est la méthode factorielle adaptée aux tableaux Individus * Variables qualitatives
Cette méthode est particulièrement bien adaptée à l’analyse des enquêtes.
Affiche le test le coefficient d'Alpha de Cronbach. Il est généralement utilisé pour déterminer la
cohérence de l'ensemble de questions composant un test psychologique. Le test satisfaisant dès
lors que le coefficient alpha de Cronbach atteint au moins 0,7.
Affiche les valeurs propres (colonne Inertie) et le pourcentage d'inertie (10*Total (valeur
propre). Avec 2 Dimension on obtient un pourcentage d'inertie de 51,98%
Digramme des modalités des variables qualitatives dans le premier plan factoriel et les
modalités de la variable supplémentaire