Vous êtes sur la page 1sur 16

INITIATION A SPSS

NOTES DE COURS

Dr KOUAME K. Darès
Enseignant - Chercheur, Statisticien Informaticien
Responsable Informatique ENSEA
dareskk@yahoo.fr / dares.kouame@ensea.ed.ci

2013
PLAN

I. GENERALITES

II. GESTION DE FICHIERS

2.1 Création de variables


2.2 Recodage de variables
2.3 Importation / Exportation de données

III. RESTRUCTURATION DE FICHIERS

3.1 Ajout de cas


3.2 Fichiers parallèles
3.3 Fichiers non parallèles
3.4 Utilisation d’une table de consultation
3.5 Informations de groupes : AGGREGATE

IV. STATISTIQUE

2
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
I. GENERALITES

Le système SPSS (Statistical Package for Social Science) est un instrument


particulièrement adapté à la mise en œuvre des techniques d’analyse des
données. Le système SPSS Windows est organisé en menus. Il est constitué de
plusieurs fichiers en dialogue sur le disque dur. En plus des fichiers qui
contiennent des modules et des procédures, SPSS dispose d’un fichier qui
contient des messages d’assistance et d’erreur (SPSS.MSG). Les principaux
types de fichiers SPSS sont :
- Fichier de données (éditeur de données) SPSS pour Windows avec
extension .SAV ;
- Fichier de données SPSS/PC+ (DOS) avec extension .SYS ;
- Fichier de résultats (éditeur de résultats) avec extension .SPO ;
- Fichier de syntaxe (éditeur de syntaxe) avec extension .SPS ;
- Fichier ASCII avec extension .DAT .

SPSS offre plusieurs possibilités d’analyse:


- Organisation et synthèse des informations (Procédures TABLES,
REPORT, EXPLORER, FREQUENCES, …) ;
- Graphique et Corrélation (Procédures GRAPH, PLOT,
CORRELATION, …) ;
- Test d’hypothèses et élaboration de modèles (Régressions,
factorisation, test non paramétrique, …).

3
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
II. GESTION DE FICHIERS

1. Création de variables

 Ouverture d’un éditeur de texte


Fichier
Nouveau
Données

 Ouverture de fichier de données :


Fichier
Ouvrir
Rechercher le fichier sous son répertoire
Ligne : correspond à Observation ;
Colonne : correspond aux Variables ;
Cellule : correspond à une Modalité pour la variable X.

 Définition de variables

Sélectionner la colonne
Données
Définir une variable
Donner les caractéristiques de la variable : nom, étiquettes, valeurs manquantes,
format de la colonne. Il y a la possibilité de créer des modèles et de les appliquer
(par exemple, dupliquer les labels).
Pour modifier une variable, il faut double cliquer sur la variable et procéder à la
modification des caractéristiques.

 Création de nouvelles variables à partir des anciennes

Transformer
Calculer
Variable de destination et expression numérique

 Information sur le fichier

Outil
Information sur le fichier
Donne les noms et les caractéristiques des variables du fichier.

4
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
Exemple1 : Création des variables suivantes :
Q1. Identifiant / / / /
Q2. Sexe
1 Masculin
2 Féminin
Q3. Age / / /
Q4. Poids / / /

2. Recodage de variables

Transformer
Recoder
Recodage de variables ou
Création de variables
« Recodage de variables » modifie directement les modalités de la variable
recodée en perdant les anciennes valeurs. « Création de variables » recode les
anciennes valeurs de la variable à recoder en créant une nouvelle variable.
Exemple2 : Recode la variable Age dans l’exemple1 en tranches d’âges
quinquennales.

3. Importation / Exportation de données

Fichier
Ouvrir
Sélectionner le type de fichier à importer (*.xls pour les fichier Excel, *.dbf pour
les fichiers Dbase, etc.)
Cliquer sur Ouvrir.
Exemple3 : Importer le fichier PS01b.xls en SPSS.

Concernant les fichiers ASCII (présentation en format texte des fichiers qui est
un format standard) la procédure est la suivante :
Fichier
Lire les données ASCII
Colonnes fixes
(si vous choisissez format libre les enregistrements se mettent à la suite des
autres)
Parcourir (pour sélectionner le fichier ASCII)
Donner la structure des variables.
5
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
L’Exportation consiste à l’enregistrement sous le type de fichier qu’on veut
générer :
Fichier
Enregistrer sous
Sélectionner le type de fichier qu’on veut obtenir.

Exemple4 : Exporter le fichier PS01.SAV en fichier Excel (PS01.xls)

6
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
III. RESTRUCTURATION DE FICHIERS

1. Ajout de cas :

Fichier
Ouvrir
Données
(choisir le fichier : GH01.SAV)
Fusionner les données
Selon les observations
(sélectionner le fichier : GH02.SAV)
OK
NB : Il est possible de créer une variable indicateur, par défaut nommée
source01 qui indique la source du fichier de donnée dans chaque cas du fichier
de fusion : 0 pour les cas du fichier actif ; et 1 pour les cas du fichier externe.
Lorsqu’il existe des variables non communes qu’on veut inclure au résultat, il
faut les sélectionner et presser Apparier. Le nouveau fichier actif comportera
des blancs pour les cas relatifs à la variable appariée issus du fichier où elle ne
figure pas.

ADD FILES FILE = GH01.SAV/File=GH02.SAV.


EXECUTE.
SAVE OUTFILE = GH03.SAV/COM.

Si GH01.SAV était actif, on le remplace par * .


ADD FILES FILE = */FILE = GH02.SAV .
Si les deux fichiers n’étaient pas triés selon HHID et PID on aurait pu le faire
avec la sous commande /BY HHID PID.
KEEP (garder) et DROP (sauter) permettent d’ajouter des cas pour quelques
variables. Par exemple si on veut ajouter des cas pour des variables S1Q5, S1Q6
et S1Q7 on a :

ADD FILES FILE = GH01.SAV/FILE = GH02.SAV


/KEEP = HHID PID S1Q5 S1Q6 S1Q7.
SAVE OUTFILE = GH03.SAV/COM.

7
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
2. Fichiers parallèles :

Les fichiers parallèles sont des fichiers qui ont le même nombre de cas mais de
des variables différentes. Deux règles s’imposent :
 Les fichiers doivent être au format SPSS ;
 Préalablement à la combinaison des fichiers parallèles et non
parallèles, il importe d’ordonner les cas selon la (ou les) variables clés
utilisées par la procédure SORT.

SORT CASES BY HHID PID (A).

Ce programme ordonne le fichier selon HHID et PID si la sous commande BY


HHID PID n’avait pas été utilisée.

TRI DE FICHIER :
Fichier
Ouvrir
Données
(sélectionner le fichier : GH04.SAV)
OK
Données
Trier les observations
(sélectionner les variables clés : HHID PID)
Enregistrer les données
(aux formats SPSS : *.SYS ou *.SAV)
Reprendre l’opération avec l’autre fichier GH05.SAV .

JONCTION DE FICHIER

Fichier
Ouvrir
Données
(sélectionner le fichier GH04.SAV)
Fusionner les données
Selon les variables
(sélectionner le fichier GH05.SAV)
Poursuivre

8
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
3 . Fichiers non parallèles :

Les fichiers non parallèles sont ceux qui contiennent des cas différents et des
variables différentes.
Ex : Ajouter GH04.SAV et GH02.SAV pour obtenir GH07.SAV .

GET FILE = GH04.SAV.


MATCH FILES FILE = */FILE = GH02.SAV/BY HHID PID.
SAVE OUTFILE = GH07.SAV/COM.
LIST VAR = ALL/FORMAT = NUMBERED.

4. Utilisation de la table de consultation :

L’utilisation de la sous commande TABLE lors de la jonction de fichiers permet


d’ajouter les valeurs des variables d’un fichier à n’importe quel cas dans le
fichier d’entrée. Dans le cas où on n’a pas de Table de consultation, le 1er cas
d’un groupe de cas répétés est joint au 1er cas correspondant s’il existe, et les
autres marqués manquants.

GET FILE = GH03.SAV.


MATCH FILES FILE = */TABLE = TAILLE1.SYS/BY HHID.

5. Informations de groupes : AGGREGATE

La procédure AGGREGATE permet de résumer les informations selon les


groupes. La sous commande BREAK liste les variables de rupture.
Ex : A partir du fichier GH03.SAV, déterminer :
- le nombre de personnes dans chaque ménage ;
- le pourcentage de personnes ayant au plus 25 ans ;
- la somme des dépenses de santé par ménage.

9
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
Pour réaliser l’exemple qui précède, il faut procéder de la façon suivante :

Fichier
Ouvrir
Données
(sélectionner GH03.SAV)
La variable inhérente aux dépenses de santé S1Q18 doit recodée de manière à
pouvoir faire la somme s’il y a des valeurs manquantes.
Transformer
Recoder
Recoder les variables
(sélectionner S1Q18)
Anciennes et nouvelles valeurs
(et attribuer les valeurs appropriées ; cocher manquante par défaut pour
l’ancienne valeur et inscrire 0 pour nouvelles valeurs)
Données
Agreger
Fichier
Donner le nom du fichier GH09.SAV pour générer le nouveau fichier créé.
Générer les variables agrégées du nouveau fichier en sélectionnant HHID,
identification ménage comme critère d’agrégation. Les variables agrégées sont
obtenues comme suit :
- Sélectionner PID et configurer (Nom et étiquette, fonctions) ;
- Presser nom et étiquette ;
- Presser fonctions.
- Saisissez NBMENA ‘’ Taille du Ménage ‘‘ = NU(PID)
Et ainsi de suite.

(NU : nombre de cas non pondéré)

GET FILE = GH03.SAV.


REC S1Q18 (SYSMIS = 0).
AGGREGATE OUTFILE = GH09.SAV/BREAK = HHID
/NBMENA = NU(PID)/PAGE = PLT(S1Q7,26)
/DSANTE = SUM(S1Q18).
GET FILE = ‘’GH09.SAV’’.
LIST.

10
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
IV. STATISTIQUE

Le système SPSS permet de réaliser des statistiques descriptives, paramétriques


et non paramétriques.
La méthode du Menu permet de réaliser cela sans difficulté ( fenêtre
STATISTIQUES).
La Méthode du Menu permet de générer des programmes qu’on peut adapter
aux préoccupations spécifiques qui ne peuvent pas être obtenues de cette façon
en sélectionner à la fin de la procédure COLLER au lieu de OK ou
POURSUIVRE selon les cas. Le résultat du programme est obtenu en ouvrant
l’éditeur de syntaxe dans le menu Fenêtre.

1. Description unidimensionnelle

Cette partie porte essentiellement sur les points suivants :


- Tableaux et représentations graphiques des distributions à une
dimension ;
- Caractéristiques de tendance centrale et de dispersion ;
- Concentration et formes des distributions à une dimension :
 Coefficient de Pearson d’aplatissement
On calcule le rapport entre le moment centré d’ordre quatre et la variance au
4

carré (ou l’écart-type à la puissance quatre),  4 , qui permet de disposer d’un
coefficient sans dimension. On interprète les valeurs en se basant sur le fait que
=3 pour une distribution normale. On distingue alors, outre les distributions
normales (=3), les D-platycurtique (<3), et les D-leptokurtique(>3).
-
Toute la présentation fait référence aux notions statistiques. Ce qui signifie que
l’apprenant a suivi déjà ces cours statistiques. Par moment des rappels sont faits
sur les connaissances statistiques utiles pour la compréhension des productions
réalisées, lors des démonstrations.

DESCRIPTIVES SALAIRE/STA=ALL.

MEANS TAB= SALAIRE BY STAT_PRO


La commande MEANS TAB affiche une table contenant des statistiques
descriptives pour une variable selon des sous groupes de cas définis par une
variable de contrôle. Ainsi, le programme ci-dessous calcule la moyenne, l'écart-
type du salaire courant selon le statut professionnel.
11
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
EXAMINE VARIABLES=SALAIRE/PLOT BOXPLOT STEMLEAF/
/PERCENTILES(25,50,75)=EMPIRICAL/STA=ALL/CINTERVAL.

La sous commande /PLOT crée une boîte à moustaches (BOXPLOT) et un


diagramme "stem & leaf" (STEMLEAF). Ce dernier est en fait un histogramme
inversé. Toutefois, le principe de construction est différent. Chaque observation
est représentée par sa valeur de SALAIRE. Mais, les valeurs sont divisées en
deux. La colonne "stem" correspond au premier chiffre de la valeur (l'unité est
indiquée par Stem width : 10 000,00), elle représente donc les dizaines de
milliers alors que la colonne "leaf" indique les milliers. Les autres unités sont
supprimées. Lorsque le nombre d'observations est important, chaque classe de
valeurs ("stem") est divisée en plusieurs groupes identifiés par les symboles
suivants : "* t f s .". Le diagramme permet également de repérer les cas
extrêmes. Ainsi, outre la forme de la distribution, la lecture du diagramme nous
indique que deux ménages ont une dépense totale par tête d'environ 33 000.

/PERCENTILES(25,50,75)=EMPIRICAL calcule la valeur des trois


premiers quartiles de la distribution1. Pour obtenir d'autres valeurs il suffit de
modifier les points de rupture entre parenthèses. Par ailleurs, la sous commande
/STA contrôle l'affichage des statistiques descriptives. Avec l'argument ALL,
elles sont toutes affichées. Mis à part "5% TRIM", qui est la moyenne de
l'échantillon lorsque les cinq pour cent des effectifs du haut et du bas de la
distribution ont été supprimé, et IQR qui correspond à l'intervalle inter-quartiles,
ce sont les mêmes qu'avec la procédure DESCRIPTIVES. /CINTERVAL affiche
l'intervalle de confiance pour la moyenne (95 % par défaut si aucune valeur n'est
indiquée). Enfin, les cinq cas extrêmes du haut et du bas de la distribution sont
identifiés.

EXAMINE VARIABLES=DEPTOTAL BY TYPEMP


/PLOT=BOXPLOT/STATISTICS=NONE/NOTOTAL.
Enfin, le programme suivant crée sur un même diagramme une boîte à
moustaches, pour la variable SALAIRE, pour chaque sous groupe défini par le
Statut professionnel. Cela peut être utile pour effectuer des comparaisons. Afin
d'alléger la procédure, les arguments NONE et NOTOTAL suppriment
l'affichage de tous les autres résultats.

Exemple1 : Tableau de fréquences

1
L'argument EMPIRICAL spécifie la méthode calcul des quartiles (standard) car SPSS Windows en propose
plusieurs.
12
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
A/

* NOM DU PROGRAMME: CH09N07.SPS


PROGRAMMEUR: LACHAUD;DATE: MARS 1994
OBJET: AFFICHAGE DES FRÉQUENCES (% TOTAL) DE
L'INSTRUCTION SELON LE SECTEUR D'ACTIVITÉ DES CHEFS
DE MÉNAGE SALARIÉS.
GET FILE=PS02.SYS.
MATCH FILES FILE=*/FILE=PS01.SYS/BY HHID.
SELECT IF (S2Q6>=3).
TABLES TABLE=EDUC11 BY S2Q6/
STA=COUNT('NOMBRE') CPCT('POURCENTAGE').

Deux statistiques sont demandées : le nombre de cas – COUNT – et les


pourcentages – CPCT.

B/
* NOM DU PROGRAMME: CH09N10.SPS
PROGRAMMEUR: LACHAUD;DATE: MARS 1994
OBJET: AFFICHAGE DES FRÉQUENCES (% COLONNES) DE
L'INSTRUCTION SELON LE SECTEUR ET LE SEXE DES CHEFS
DE MÉNAGE SALARIÉS.
GET FILE=PS02.SYS.
MATCH FILES FILE=*/FILE=PS01.SYS/BY HHID.
SELECT IF (S2Q6>=3).
TABLES FORMAT=CWIDTH(15,8,15)/TABLE=EDUC11 BY S1Q5 >
S2Q6/
STA=COUNT('NOMBRE') CPCT('%':S2Q6 S1Q5)/
TTITLE="CHEFS DE MENAGE SALARIES: DISTRIBUTION DU
NIVEAU" "D'INSTRUCTION SELON LE STATUT DE
L'OCCUPATION ET LE SEXE"/
TFOOTNOTE=LEFT 'EP PILOTE GHANA 1990'.

La prise en compte d’un opérateur d’emboîtement ‘’ > ‘’ permet de rendre le


tableau plus compact. La sous-commande FORMAT = CWIDTH = (15,8,15)
donne les dimensions du tableau.

13
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
Exemple2 : Tableaux de statistiques descriptives

* NOM DU PROGRAMME: CH09N12.SPS


PROGRAMMEUR: LACHAUD;DATE: MARS 1994
OBJET: AFFICHAGE DES STATISTIQUES DESCRIPTIVES DES
CHEFS DE MÉNAGE SALARIÉS: ÂGE, EXPÉRIENCE ET
SALAIRES.
GET FILE=PS02.SYS.
MATCH FILES FILE=*/FILE=PS01.SYS/FILE=REV1.SAV/BY HHID.
SELECT IF (S2Q6>=3).
VAR LAB S1Q7 'AGE EN ANNEES'.
VAR LAB S2Q5A 'EXPÉRIENCE SPÉCIFIQUE-ANNÉES'/
REV1 'SALAIRE MENSUEL-CÉDIS'.
TABLES OBSERVATION=S1Q7 S2Q5A REV1/
TABLE=S1Q7+S2Q5A+REV1/
STA=MEAN STDDEV VARIANCE MIN MAX VALIDN/
TTITLE='CHEFS DE MÉNAGE: ÂGE, EXPÉRIENCE ET SALAIRE'/
TFOOTNOTE=LEFT 'EP PILOTE GHANA 1990'.

La clé BOX permet de tracer toutes les lignes nécessaires à l’intérieur du


tableau, notamment celles qui sont horizontales.
La sous-commande FTOTAL signifie que le total est positionné à la suite
« Following » , tandis que PTOTAL donne un positionnement avant
« Previous ».

Il faut noter que les résultats générés par ces différents exemples peuvent être
obtenus à partir de la méthode des menus de SPSS.

14
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
Exemple3 : Tableaux de moyennes

* NOM DU PROGRAMME: CH09N14.SPS


PROGRAMMEUR: LACHAUD;DATE: MARS 1994
OBJET: TABLEAU DE MOYENNES: REVENU PAR TÊTE AJUSTÉ
SELON LES ZONES GÉOGRAPHIQUES ET L'ÂGE DU CHEF DE
MÉNAGE.
MATCH FILES FILE=PS01.SYS/FILE=REV5.SYS/BY HHID.
SELECT IF (S1Q6=1).
RECODE S1Q7 (LO THRU 24=1) (25 THRU 34=2) (35 THRU 44=3)
(45 THRU HI=4).
VAR LAB S1Q7 'AGE'/REVMOY ''.
VAL LAB S1Q7 1'15-24 ANS' 2'25-34 ANS' 3'35-44 ANS' 4'>=45 ANS'.
TABLES OBSERVATION=REVMOY/
FORMAT=BOX CWIDTH(14,7)/PTOTAL=TOTAL/
TABLE=TOTAL+REVMOY>S1Q7 BY TOTAL+STRATUM/
STA=MEAN((F6.1)'MOYENNE') STDDEV((F7.1)'ÉCART-TYPE')/
TTITLE='REVENU PAR TÊTE AJUSTÉ SELON LES ZONES'
"GÉOGRAPHIQUES ET L'AGE DU CHEF DE MENAGE AU GHANA"/
TFOOTNOTE=LEFT'EP PILOTE GHANA 1990'.

V. QUELQUES COMMANDES AVANCEES

1. RMV

La commande RMV (Replacing Missing Values), permet de porter des


corrections de données manquantes par remplacement de celles-ci par des
données jugées acceptables. Ces données retenues pour remplacer les données
manquantes sont : Moyenne de la série, Moyenne des points voisins, Médiane
des points voisins, Donnée par Interpolation linéaire, Tendance linéaire au point.
La syntaxe se présente de la façon suivante :

RMV new series = {LINT (series) }


{MEAN (series {,span}) }
{ {,2** }) }
{ {,ALL }) }
{MEDIAN (series {,span})}
{ {,2** })}
{ {,ALL })}
15
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA
{SMEAN (series) }
{TREND (series)

2. CSUM (Série chronologique cumulée)

La commande CSUM permet de créer une série chronologique cumulée à partir


d’une série quantitative.
Les lignes de commandes ci-dessous permettent de créer la variable revcum qui
est le cumul de la variable revenu après l’avoir ordonné par ordre croissant.

SORT CASES BY revenu (A).


CREATE
/revcum=CSUM(revenu).

BIBLIOGRAPHIE

1. AFTHR, DSA, PAMRA, CDG, ENSEA : Traitement des données


de l’enquête, Version 4

2. SPSS Windows, Version 8.0

16
Notes de cours sur l’Initiation à SPSS
KOUAME K. Darès, Enseignant – Chercheur, Statisticien Informaticien ENSEA

Vous aimerez peut-être aussi