Académique Documents
Professionnel Documents
Culture Documents
Bamako Transp
Bamako Transp
Gilbert Ritschard
Département d’économétrie, Université de Genève
gilbert.ritschard@themes.unige.ch
Plan
1 Objectifs
2 Introduction à SPSS
3 Gestion des données avec SPSS
4 Analyse statistique descriptive
5 Éléments de statistique inférentielle
http://mephisto.unige.ch
RECODE ec_txt
(’celibataire’=1)
(’marie’=2)
(’divorce’=3)
(’veuf’=4)
INTO ec_rec .
EXECUTE .
FREQUENCIES
VARIABLES=catage
/BARCHART FREQ
/ORDER= ANALYSIS .
classe d'age
40
30
20
10
Frequency
0
1 2 3
classe d'age
Classes d'âge
35.5
35.0
34.5
34.0
33.5
33.0
32.5
Count
32.0
31.5
1 2 3
classe d'age
!! Observer l'échelle !!
Classes d'âge
AGE3
AGE1
AGE2
AUTORECODE
VARIABLES=ec_txt /INTO ec_reco
/PRINT.
RECODE
ec_txt
(’celibataire’=1) (’marie’=2) (’divorce’=3) (’veuf’=4) INTO ec_rec .
VALUE LABEL ec_rec 1 ’celibataire’ 2 ’marie’ 3 ’divorce’ 4 ’veuf’ .
VARIABLE LABEL ec_rec ’état-civil (ec_rec)’.
FREQUENCIES
VARIABLES= anaiss ec_txt ec_reco ec_rec
/ORDER= ANALYSIS.
Exemples :
if (agefin < agedeb) erreur = 1 .
if missing(annais) age = year - annais.
AND ou & (cond1 & cond2) true si cond1 et cond2 sont vrais
OR ou | (cond1 | cond2) true si cond1 ou cond2 est vrai
Il s’agit de repérer
– Les valeurs interdites de variables
– variable discrète : si valeur ∈
/ liste des valeurs autorisées
exemple : sexe (1=homme,2=femme) ⇒ repérer valeurs de sexe autre
que 1 ou 2.
– variable continue : si valeur < minimum ou > maximum
exemple : age ([15; 30]) ⇒ repérer cas avec age<15 ou age>30.
– Les valeurs d’une variable incompatibles avec valeur prise par une autre
exemple : état matrimonial = célibataire et âge du mari = 25.
filter off.
FILTER BY var rend inactifs les cas non sélectionnés (pur lesquels var=0)
sans les supprimer de la base de données courante.
Exemple : Distribution des femmes selon état matrimonial
compute filtre = 0.
if sexe=2 filtre=1.
filter by filtre.
frequencies variable=etatmat.
filter off.
SELECT IF cond supprime de la base courante les cas ne vérifiant pas la
condition.
Exemple : définir un fichier avec les femmes seulement
select if sexe=2.
save outfile=’fichier_femmes.sav’.
Sauvegarde
Menu : File/Save As...
SAVE OUTFILE=’demo.sav’
/DROP ec_rec.
Exportation
SAVE TRANSLATE
OUTFILE=’demo.dat’
/TYPE=TAB
/MAP
/REPLACE
/FIELDNAMES.
GET FILE=’demo.sav’.
Importation
GET DATA
Syntaxe lourde.
Utiliser de préférence le
dialogue
File/Open/Data...
AGGREGATE
/OUTFILE=’aggr.sav’
/BREAK=sexe age
/hcou_moy = MEAN(hcoucher)
/N_BREAK=N.
get file=’aggr.sav’.
list all.
Add cases
ADD FILES /FILE=*
/FILE=’exemple2.sav’
/IN=file2.
VARIABLE LABELS file2
’Case de exemple2.sav’.
EXECUTE.
UPDATE FILE=’exemple.sav’
/IN= updated
/FILE= ’exemple2.sav’
/BY id .
EXECUTE.
list all.
produit :
Données univariées
1. Tableau de distribution
2. Présentations graphiques
3. Indicateurs statistiques
– positionnement
– dispersion, asymétrie et aplatissement
Données bivariées
1. Tableau croisé et présentation graphique de données bivariées
2. Association, Indépendance
3. Corrélation et autres mesures d’association
heure pt déjeuner
Cumulative
Frequency Percent Valid Percent Percent
Valid 5 1 2.4 4.3 4.3
6 1 2.4 4.3 8.7
7 5 12.2 21.7 30.4
8 10 24.4 43.5 73.9
9 2 4.9 8.7 82.6
10 3 7.3 13.0 95.7
11 1 2.4 4.3 100.0
Total 23 56.1 100.0
Missing non concerné 18 43.9
Total 41 100.0
HCOU_CLS
Cumulative
Frequency Percent Valid Percent Percent
Valid 0-4 9 22.0 22.0 22.0
5-8 1 2.4 2.4 24.4
17-20 1 2.4 2.4 26.8
21-24 30 73.2 73.2 100.0
Total 41 100.0 100.0
** calcul de la classe.
compute delta_h = (hcou_max - hcou_min)/6. /* longueur du pas */
compute hcou_cls=1. /* initialisation */
loop #i = 1 to 5.
+ if (hcoucher > hcou_min + #i*delta_h) hcou_cls = (#i+1).
end loop.
value labels hcou_cls
1 ’0-4’ 2 ’5-8’ 3 ’9-12’ 4 ’13-16’ 5 ’17-20’ 6 ’21-24’.
frequencies hcou_cls.
Statistics Statistics
heure coucher heure coucher
N Valid 41 N Valid 41
Missing 0 Missing 0
Percentiles 20 2.40 Percentiles 16.66666667 2.00
40 21.00 33.33333333 21.00
50 22.00 50 22.00
60 22.20 66.66666667 23.00
80 23.60 83.33333333 24.00
ntiles
FREQUENCIES
VARIABLES=hcoucher
/FORMAT=notable
/NTILES= 6.
n données : x1 , x2 , . . . , xn ,
exemple : 20, 25, 25, 30, 50
Tendance centrale :
mode, médiane, moyenne
Mode : valeur la plus fréquente
Exemple : mode = 25
Médiane :
Exemple : med = 25
Exemple : x̄ = 150/5 = 30
Moyenne pondérée :
n
X X
x̄ = wi xi avec wi = 1
i=1 i
1 2
Exemple : w1 = w5 = 8 et w2 = w3 = w4 = 8
⇒ x̄ = 230/8 = 28, 75
Écart type :
p
écart type(x) = sx = var(x)
Écart interquartile : q3 − q1
q1 : 1er quartile
25% des xi ≤ q1 et 75% des xi ≥ q1
q3 : 3ème quartile
75% des xi ≤ q3 et 25% des xi ≥ q3
i le
l e t
i
rt ne u ar
a
u ia q
q e
er éd m
1 m 3è
29 33 35 41 51
−20 0 20 −20 0 20
forme en pic forme aplatie
menu : Analysis/Descriptives/Crosstabs...
INSTRUCT * profession du père Crosstabulation
profession du père
PPERE1 PPERE2 PPERE3 PPERE4 Total
INSTRUCT EDU1 Count 3 19 20 20 62
Expected Count 2.5 14.9 23.6 21.1 62.0
% within INSTRUCT 4.8% 30.6% 32.3% 32.3% 100.0%
% within profession
du père 75.0% 79.2% 52.6% 58.8% 62.0%
EDU2 Count 1 5 18 14 38
Expected Count 1.5 9.1 14.4 12.9 38.0
% within INSTRUCT 2.6% 13.2% 47.4% 36.8% 100.0%
% within profession
du père 25.0% 20.8% 47.4% 41.2% 38.0%
Total Count 4 24 38 34 100
Expected Count 4.0 24.0 38.0 34.0 100.0
% within INSTRUCT 4.0% 24.0% 38.0% 34.0% 100.0%
% within profession
du père 100.0% 100.0% 100.0% 100.0% 100.0%
80
200
60
40 profession du père
100 PPERE4
INSTRUCT
20 PPERE3
Percent
EDU2
Percent
PPERE2
0 EDU1
0 PPERE1
PPERE1 PPERE2 PPERE3 PPERE4
EDU1 EDU2
profession du père
INSTRUCT
10
5
heure réveil
3
0 10 20 30
heure coucher
Indépendance
Si distributions lignes semblables ↔ Si distributions colonnes semblables
B1 B2 total
A1 10 30 40
A2 20 60 80
total 30 90 120
Association parfaite
Si un seul élément non nul par colonne (ou ligne)
B1 B2 total
A1 40 0 40
A2 0 80 80
total 40 80 120
association
forte faible forte
rxy
-1 0 1
négative positive
10
y
10
5 5
0 0
-5 -5
-10 -10
0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x
r = -1
r = 0.39
30
30
25
25
20 20
15 15
y
10
y
10
5 5
0 0
-5 -5
-10 -10
0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x
association
faible forte
v
0 1
revenu
taille [20,30[ [30,50[ [50,60] total
1 ou 2 0 50 0 50
3 ou 4 25 0 25 50
total 25 50 50 100
⇒ corrélation = 0, v -Cramer = 1.
Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 4.850a 3 .183
Likelihood Ratio 5.107 3 .164
Linear-by-Linear
Association 2.212 1 .137
N of Valid Cases 100
a. 2 cells (25.0%) have expected count less than 5. The
minimum expected count is 1.52.
Symmetric Measures
p = ?
é c h a n t i l l o n 2
é c h a n t i l l o n 1
f 1
f 2
= f 1
Absence de biais :
espérance de l’estimateur (estimation moyenne)
= vraie valeur du paramètre.
Efficacité :
faible dispersion des valeurs d’un échantillon à l’autre
Erreur quadratique moyenne : EQM = var +biais2 petit
Exemple : X̄ estimateur de µ
Si tirage au hasard (même prob pour chacun) et indépendants
σ2
E(X̄) = µ et var(X̄) =
n
D’autant plus efficace que n est grand.
. .. . . . . . . . .. . . . . . .
. . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . .
. .. . . . . . . . . . .. . . . . . . . .
. . .. . . . .. .
. . . . . . . .
Estimation non biaisée Estimation biaisée
.. .. . . . . . . . . . .
. . . . . .. . . . . . . . . . . .
.. . . . . . . .. . .
- le degré de confiance
- la dispersion de l’estimateur (erreur standard σ̂X̄ )
Exemple : intervalle pour la moyenne µ
µ = x̄ ± z1−α/2 σ̂X̄
où z1−α/2 est un seuil critique qui augmente avec le degré de confiance 1 − α.
Confiance 1 − α = 95% ⇒ z1−α/2 ' 2
f(Θ)
10 intervalles ( 10 échantillons )
8 intervalles recouvrent l’estimé θ
Par exemple, si l’on estime qu’une proportion est de 30% avec un échantillon
de n = 100 personnes,
r
0, 3 · 0, 7
marge d’erreur ' 2
100
p
= 2 0, 0021 = 2 · 0, 046
= 0, 092
⇒ proportion = 30% ± 9, 2%
Décision
Etat de la nature H0 H1
H0 α
H1 β
SPSS Inc. (1992). SPSS Base System Reference Guide, Release 5.0. Chicago, IL: SPSS Inc.