Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Semestre 5
Licence d’excellence de gestion
Sondage
Statistique Descriptive
Analyse des données
Inférence Statistique
Analyse Multivariée
Conclusions
Statistiques descriptives
Statistiques inférentielles
ANALYSE MULTIVARIEE
Y-a-t-il
une variable à expli-
quer et une ou plusieurs
NON variables expli- OUI
catives ?
Méthodes descriptives Méthodes explicatives
La variable
Les variables sont
elles quantitatives ? OUI à expliquer est-elle NON
quantitative ?
Typologie
Chapitre 1 : Fonctionnement de SPSS
Généralités
• SPSS est un outil statistique permettant des…
• …analyses simples:
• Statistiques descriptives, statistiques inférentielles, dépendance entre variables…..
Type : sert à décrire la variable et le format de la colonne. Il est recommandé de laisser l’option «numeric» qui est
indiquée par défaut. Pour les décimales «decimal places», vous pouvez les laisser égales à 2 ou les mettre à 0, selon la
situation.
Label : permet de donner une identification plus explicite à la variable qui sera affichée dans les différents calculs
statistiques.
Missing : permet d’indiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des
données manquantes se fait habituellement en effectuant un simple «retour» (c’est la méthode recommandée). Si
vous avez prévu d’utiliser des codes spécifiques (ex. : 9, 99, etc.), il faut les définir dans «missing».
Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou réduire la taille de la colonne.
22
Fonctionnement de SPSS:
Fichier syntaxe
➢Pour s’y retrouver, il faut garder des traces
de ce que l’on fait :
▪sauvegarder les fichiers de résultats (outputs;
extension .spv) ou/et les imprimer (en les
classant)
▪sauvegarder les données «travaillées»
(variables recodées, nouvelles variables,
etc.) dans un fichier de données (extension
.sav) différent du fichier de données brutes.
23
Fonctionnement de SPSS:
Fichier syntaxe
➢Il est aussi conseillé d’ajouter des
commentaires (qui peuvent être brefs)
décrivant ce que l’on fait et/ou le résultat
de ce que l’on fait
➢Documenter est non seulement utile
pour le déroulement de son propre
travail, mais aussi pour en justifier le
résultat .
➢C’est un support dans les cas où il faut
faire mémoire de ce qui a été fait.
24
Fonctionnement de SPSS:
Fichier syntaxe
25
Fonctionnement de SPSS:
Fichier syntaxe
Recommandations:
26
Fonctionnement de SPSS:
Fichier syntaxe
• ➢En référence aux points 1 et 2, modifier deux
options de SPSS
▪afin que les instructions données à SPSS d’effectuer
telle ou telle opération s’inscrivent dans la fenêtre «
résultats » (output) de SPSS (cf. point 1 ci-dessus)
▪afin qu’au démarrage de SPSS, une fenêtre « syntaxe »
s’ouvre automatiquement
27
Fonctionnement de SPSS:
Fichier syntaxe
28
Fonctionnement de SPSS:
Fichier syntaxe
29
16
17
Calculer une Variable
Exemple
• Dans la boite de dialogue, écrivez, dans Variable cible (étiquette), MOYSAT (c’est
le nom de la variable).
• Ensuite, allez dans la boite Groupe de fonctions et cliquez à deux reprises
sur Statistiques (il est dans le bas de la liste, vous devez utiliser l’ascenseur à droite).
Vous verrez dans la boite Fonctions et variables spéciales la fonction Mean sur laquelle
vous devez aussi cliquer à deux reprises.
• Dans la boite du haut, vous verrez apparaître MEAN (?, ?). Vous devez alors insérer les
variables Q01, Q02, Q03 dans la parenthèse
Recodez la variable STATUT de sorte que les sujets qui ont répondu 1 auront la valeur 1
(en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront maintenant la valeur 2
(autres).
Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de l’encadré.
Inscrivez ensuite Statut recodé dans la boite Étiquette du même encadré.
Cliquez sur
Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.
Exemple :
pour choisir
les hommes de plus de
30 ans, on entrerait
dans la boite:
Sexe = 1 AND
age > 30
Si vous préférez
taper la commande
manuellement,
vous devriez créer la
syntaxe suivante:
SAVE OUTFILE='nom_du_fichier.sav'
/DROP var1 var2 var3
/RENAME
anc_var21=nouv_var21 anc_var22=nouv_var22
SAVE OUTFILE='travail.sav'
/KEEP id
carnet consult datecons
vacchb vaccha vaccroug vaccgrip.
EXECUTE.
2. Ajout de Variables
Supposons Ies données ont été scindées en pIusieurs fichier de données. Ainsi Ies
caractéristiques individueIIes sont situées dans un fichier indiv.sav aIors que Ies
variabIes sur Ia santé sont dans Ie fichier travail.sav que nous venons de créer.
Le fichier indiv.sav contient Ies variabIes suivantes :
Nom Libellé
id Identifiant
sexe Sexe
age Age
instruct Niveau d'instruction
milieu Milieu de résidence
matri État matrimonial
Avant de commencer, iI faut trier Ies observations des deux fichiers seIon I’identifiant
• Ouvrir Ie fichier ivdiv.sav.
• CIiquer dans Ie menu sur Dovvées > Trier les observations…
• SéIectionner Ia variabIe id par ordre croissant.
63
M anipulation des F ichiers
de D onnées
•Dans un premier temps, iI nous faut créer des sous fichiers pour
chaque rang de naissance, avant de fusionner ces différents sous
fichiers en un seuI.
Nous aIIons donc avoir recours à Ia commande SAVE OUTFILE.
Nous aIIons garder Ia variable id qui va nous être indispensable par
Ia suite, ainsi que Ia variabIe nbenf.
GET FILE='fecondite.sav'.
SAVE OUTFILE='enfant3.sav'
SAVE OUTFILE='enfant1.sav' /KEEP id
/KEEP id nbenf
nbenf sexe$3
sexe$1 annee$3
annee$1 dc$3
/RENAME
dc$1
sexe$3=sexe
/RENAME
annee$3=annee
sexe$1=sexe
dc$3=dc.
annee$1=annee EXECUTE.
dc$1=dc,
EXECUTE.
67
M anipulation des F ichiers
de D onnées
GET FILE='enfant2.sav'.
COMPUTE rang = 2 .
EXECUTE .
SAVE OUTFILE='enfant2.sav'.
GET FILE='enfant3.sav'.
COMPUTE rang = 3 .
EXECUTE .
SAVE OUTFILE='enfant3.sav'.
Un nouveau identifiant:
COMPUTE idenf = id*10+rang .
VARIABLE LABELS idenf "Identifiant de l'enfant"
rang "Rang de l'enfant"
sexe "Sexe de l'enfant"
annee "Année de naissance de l'enfant"
dc "L'enfant est-il décéder ?".
EXECUTE .
76
Relation déterministe: La valeur de la variable y peut être précisement prédite
à partir de la valeur de la variable x.
Exemples:
Prix d’une maison et taxe due.
Vitesse d’un corps en chute libre et temps.
V=V0+gt
V
V0 t
77
Relation probabiliste: La valeur d’une variable y ne peut pas être
précisement prédite à partir de la valeur de la variable x - à cause d’autres
facteurs.
Exemples:
1. Consommation en eau et une population
x = nombre d’habitants
y = eau consommée
2. Nombre d’heures passées à réviser un examen et la note obtenue.
x = heures passées à réviser
y = note obtenue
78
Coefficient de corrélation de Bravais-Pearson
Cov( x, y ) s xy
r
sx s y sx s y
x x y
i i y
r i 1
x x y y
2 2
i i Un exemple...
Statistiques
Numéro Masse mi Long. li xi x xi x 2 yi y yi y 2 ( xi x )( yi y )
de l'essai i x y
i i
x x y y
i i
82,2
r i 1
0,987
ix x 2
iy y 2
173,2 40
Statistiques 80
Allons un peu plus loin...
Donc... r 1 ou 1 r 1
r = -1
Exemple
Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la
note obtenue au partiel (Y) :
• L’analyse de régression permet de déterminer une fonction qui lie les deux
variables :
ex : « Y = aX + b »
• L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables :
ex : « le lien est fort et très significatif ».
Analyse bivariée
r et r2 :
• Comme r indique le degré de la relation entre la variation d’une variable et
celle d’une autre variable, il peut également représenter la décomposition de la
variation totale (en étant au carré). On retiendra que
r2 = variation expliquée variation totale
Analyse bivariée
Interprétation du R2 :
Analyse bivariée
t r. n22
1r
Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig.
(bilatérale) »
Analyse bivariée
Exercice
BDD Employes de SPSS : y’a-t-il une corrélation
positive significative entre salaire actuel et salaire à
l’embauche ? Entre salaire actuel et nombre d’année
d’ancienneté ?
Analyse bivariée
Corrélations
Ancienneté
Salaire Salaire (nombre de
courant d'embauche mois)
Salaire c ourant Corrélation de Pears on 1,000 ,880** ,084
Sig. (bilatérale) , ,000 ,067
N 474 474 474
Salaire d'embauche Corrélation de Pears on ,880** 1,000 -,020
Sig. (bilatérale) ,000 , ,668
N 474 474 474
Ancienneté (nombre Corrélation de Pears on ,084 -,020 1,000
de mois) Sig. (bilatérale) ,067 ,668 ,
N
474 474 474
Analyse bivariée
La régression simple :
Elle consiste à déterminer une équation qui relie 2 variables quantitatives.
Contrairement à la corrélation simple, elle nécessite d’identifier l’une des 2 variables
comme étant dépendante (à expliquer) et l’autre comme étant indépendante
(explicative). Remarquons tout de même que cette méthode n’implique pas de
causalité.
Le modèle type est de la forme :
Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer)
X = variable indépendante (ou explicative)
β0 = ordonnée à l’origine de la droite β1 = pente de la droite
ei = terme d’erreur associé à la ième observation
Analyse bivariée
La régression simple, vocabulaire :
Analyse bivariée
La régression simple, vocabulaire (suite) :
Analyse bivariée
Analyse bivariée
12
10
4
ATT_VILL
0
0 10 20
DURÉE_RÉ
Analyse bivariée
2. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le
mieux les données. On utilise généralement la méthode des moindres carrés.
Elle consiste à déterminer la droite de régression qui minimise le carré des
distances verticales entre les points et la droite.
Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à
la droite est représenté par ei.
Les distances de tous les points à la droite élevés au carrés et additionnés
forment la somme des carrés des erreurs, ou « erreur totale », notée
e
2
j
Le but est que cette valeur soit minimale (que les distances verticales soient
minimisées)
12
Yi
10
8 ei
4 Ŷi
ATT_VILL
0
0 10 20
où:
yi = valeur observée de la variable dépendante
pour pour la I ème observation
95
La méthode des moindres carrés …
n
SCres e 2
1 e 2
2
2
e
3 ... e e
2 2
n i Cette mesure donne
i 1
l’ordre de grandeur
n
de la dispersion des
SCres yi ˆyi
2
observations Yi
i 1
autour de la droite
n
de régression
SCres yi b0 b1 xi
2
i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
96
Principes de la méthode des moindres carrés …
Comment calculer les coefficients b0 et b1?
Les estimations ponctuelles des paramètres de la droite de
régression obtenues par la méthode des moindres carrés sont :
Taille de l’échantillon
97
À partir des données ci-dessous, déterminez les estimations
ponctuelles des paramètres de la droite de régression selon la
méthode des moindres carrés :
98
99
Corrélation & régression
Analyse bivariée
Exercice
En utilisant la BDD SPSS « attitude envers la ville », réalisez une étude de
corrélation et de régression entre la variable dépendante attitude envers la ville et la
variable indépendante durée de résidence.
Analyse bivariée
Analyse de corrélation :
Ré capitulatif du m odèle
Erreur
standard de
Modèle R R-deux R-deux ajusté l'es timation
1 ,936a ,876 ,864 1,2233
a. Valeurs prédites : (c onstantes), DURÉE_RÉ
Analyse bivariée
Ré capitulatif du m odèle
Erreur
standard de
Modèle R R-deux R-deux ajusté l'es timation
1 ,936a ,876 ,864 1,2233 SEE
a. Valeurs prédites : (c onstantes), DURÉE_RÉ
Analyse bivariée
Somme
Modèle des carrés ddl Carré moyen F Significat ion
1 Régression 105,952 1 105,952 70, 803 ,000a
Rés idu 14, 964 10 1,496
Tot al 120,917 11
a. Valeurs prédites : (c onstantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL
Analyse bivariée
Somme
Modèle des carrés ddl Carré moyen F Significat ion
1 Régression 105,952 1 105,952 70, 803 ,000a
Rés idu 14, 964 10 1,496
Tot al 120,917 11
a. Valeurs prédites : (c onstantes), DURÉE_RÉ
b. Variable dépendante : ATT_VILL
La statistique F calculée pour 1 et 10 ddl correspond à une
proba critique < 0,05. La relation entre X et Y est positive
SSY = SSreg + SSres et significative.
Analyse bivariée
Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendant e : ATT_VILL
Analyse bivariée
Coefficien
ts
Coefficients non standardi
standardisés sés
Erreur
Modèle B standard Bêta t Signification
1 (constante) 1,079 ,743 1,452 ,177
DURÉE_RÉ ,590 ,070 ,936 8,414 ,000
a. Variable dépendant e : ATT_VILL
T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique
Attitude (Ŷ) = 1,079 + 0,590 associée < 0,05 ce qui confirme le test F : relation positive
(durée de résidence) significative entre X et Y
Exercice
Exemple
15 candidats, 3 examinateurs.
5 candidats pour chaque examinateur.
Effet d’examinateur??
Solution ANOVA
Examinateur
A B C
3 10 13
5 8 11
6 5 7
3 7 11
3 5 8
y1 4 y2 7 y3 10
y 7 111
ANALYSE DE VARIANCE
yij i ij
Exemple d’examinateur:
où yij est la variable à expliquer ……………… Note d’un candidat
i est l’effet du ième niveau du facteur …..... Effet d’un examinateur i
est l’effet moyen général ………………. Moyenne générale des notes
ij est la variable aléatoire résiduelle ……… due à l’ensemble des autres causes qui
déterminent la note .
Hypothèses :
- les ij sont indépendants
- E ( ij ) 0
- var( ij ) 2
- ij suit une loi N (0, 2 )
112
ANALYSE DE VARIANCE
Décomposition de l’élément : y ij
yij y ( yi y) ( yij yi )
Exemple :
3 10 13 7 7 7 -3 0 3 -1 3 3
5 8 11 7 7 7 -3 0 3 1 1 1
6 5 7 = 7 7 7 + -3 0 3 + 2 -2 -3
3 7 11 7 7 7 -3 0 3 -1 0 1
3 5 8 7 7 7 -3 0 3 -1 -2 -2
113
Décomposition de la variabilité
2
( yij y ) 2 ni ( yi y ) 2 ( yij yi )
i j i i j
Somme des carrés Somme des carrés des Somme des carrés des
= +
des écarts totaux écarts inter-niveaux écarts intra-niveaux
Notre Exemple :
SCETotale = 140
SCEInter = 90
SCEIntra = 50 114
On souhaite tester les hypothèses :
H0 : " Il n’y a pas d’effet produit "
càd les moyennes pour les notes (niveaux du facteur) sont égales
115
ANALYSE DE VARIANCE
Source de
SCE ddl
variation
Inter-niveaux SCE Inter I-1
Intra-niveaux SCE Intra n-I
Totale SCE Totale n-1
I nombre de niveaux
SCE inter
CM inter
I 1
et le carré moyen intra-groupes :
SCE intra
CM intra
nI
116
ANALYSE DE VARIANCE
CM inter
Pour tester H0 contre H1, on évalue la quantité : F
CM intra
117
ANALYSE DE VARIANCE
Notre Exemple :
118
SPSS: Analyse de variance
En analyse de la variance, on cherche à expliquer les variations d’une
variable métrique Y par un ou plusieurs facteurs explicatifs nominaux.
Ho: m1 = m2 = ... = mJ
La semaine moyenne à temps plein varie entre 36,82 heures pour les gens sans secondaire et
47,29 pour ceux avec Maîtrise/Doctorat. Au total, l’échantillon travaille en moyenne 42,5 heures
par semaine.
Les écart-types sont sensiblement similaires avec la plus faible variabilité pour les répondants
avec secondaire et la plus grande pour les gens sans secondaire.
La colonne Erreur standard (erreur-type) nous indique la variabilité échantillonnale de la
moyenne. La plus petite est celle des gens avec secondaire en raison du nombre élevé de cas.
Nous sommes à 95 % certains que pour les gens avec Maîtrise/Doctorat, la vraie valeur de la moyenne de la
population se situe entre 44,13 et 50,44 heures. L’intervalle le plus restreint est celui des gens avec secondaire en
raison du grand nombre de sujets qui composent ce groupe (moins d’erreur-type).
Observation importante : Plusieurs des intervalles se chevauchent ! Concrètement, ceci veut dire que la plupart
des groupes possèdent des valeurs de moyennes possibles compatibles !
L’exception est l’intervalle sans secondaire et celui de Maîtrise/Doctorat : ces deux intervalles ne se chevauchent
pas. Donc, leurs valeurs possibles dans l’intervalle de confiance ne sont pas partagées.
Le tableau présente l'effet inter-groupes (effet dû à la variable catégorielle) et l'effet intra-groupes (effet de la
variation dans chacun des groupes). Il présente également le total des deux effets pour la somme des carrés et les
degrés de liberté.
La colonne de la somme des carrés indique
pour la variabilité inter-groupes, la sommation de l'écart de chaque moyenne de groupe par rapport à la moyenne
totale au carré.
pour la variabilité intra-groupes, la variance (écart-type au carré) de chaque groupe multipliée par le nombre de sujets
de ce groupe,
Les degrés de libertés sont les mêmes que pour le test d'homogénéité des variances.
La moyenne des carrés est calculée pour les deux effets en divisant la somme des carrés par le degré de liberté
associé.
inter-groupes : 5 567,843 / 4 = 1 391,961
intra-groupes : 165 264,14 / 899 = 183,831
La statistique F est le rapport de la somme des carrés moyens inter et intra-groupes (1 391,961 / 183,831 = 7,572)
Dans ce cas-ci, nous avons suffisamment de preuves pour rejeter l’hypothèse nulle et dire qu’il est peu probable que
le nombre d’heures moyen travaillées dans chaque groupe soit le même dans la population.
Conclusion
T1 T2 T3 T4 T5 T6
590 460 600 640 690 690
760 430 460 660 600 650
700 540 610 720 550 680
640 470 510 580 480 740
Procédure SPSS:
A partir du menu, sélectionnez :
Analyse/ Modèle linéaire général/Univarié...
Dans la boite de dialogue Univarié :
Dans variables dépendantes, sélectionnez la variable à expliquer métrique.
Dans Facteur(s), sélectionnez les deux facteurs explicatifs.