Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
3 4
1
Remarque importante n°1:
Ici dans notre cas il n’y a pas de données
manquantes;
Nous avons calculé la somme de tous les items
d'une échelle
Cependant, il n'est pas évident comment gérer les
valeurs manquantes en créant la somme des
items - si on enlève tous les cas avec les valeurs
manquantes on risque de fortement diminuer
l'échantillon.
Le remplacement des valeurs manquantes par la
moyenne de l'échantillon est aussi problématique!
C'est pour cela que calculer la moyenne est
recommandé en cas de données manquantes.
5 6
7 8
2
Généralités
Lorsque l’on possède pour chaque
sujet d’une population, deux mesures
(variables dépendantes ou VD),
on peut et on doit s’intéresser aux
I-UNE STATISTIQUE DESCRIPTIVE relations existantes entre ces deux VD.
PARTICULIERE : La question que l’on se pose le plus
LA CORRELATION fréquemment est de savoir si la
variance observée sur une VD est
spécifique à chacun des tests ou si il
existe une part de variance commune
9 à ces deux tests. 10
3
L’utilisationdu coefficient de Les différents coefficients
corrélation de Bravais-Pearson de corrélation
suppose que les 2 variables
correspondent à des échelles
d’intervalles.
Il est cependant parfois
nécessaire de calculer des
associations entre d’autres types
d’échelles.
13 14
4
Interprétation
0 équivaut à une absence de lien, alors
que 1 constitue un lien parfait entre X
et Y.
Le signe + signifie que la relation entre
X et Y est proportionnelle; quand X
augmente (ou diminue), Y augmente
(ou diminue).
Le signe - signifie que la relation entre
X et Y est inversement proportionnelle;
quand X augmente (ou diminue), Y
17 diminue (ou augmente). 18
5
À vous sur spss
1-Estime de soi Consultation
des critiques
(totesttotcrit)
2-Sensibilité à l’influence sociale
Consultation des critiques
(totinf totcrit)
On a vu la dernière fois que plus une personne a
confiance en sa capacité de faire de bons choix,
moins elle ressent le besoin de s’informer auprès
des autres;
On peut supposer qu’il existe une relation entre
ces deux variables (sans doute négative test
unilatéral alors);
Pour le vérifier nous passons à la corrélation. 21
3 informations importantes :
La corrélation en valeur absolue;
Son signe
La valeur de p (/2 si unilatéral)
6
Ce qu’il faut écrire dans le mémoire :
Tableau n : Relation entre l’estime de soi et Test unilatéral et test bilatéral
la consultation des critiques
Variables N= r Valeur de p significativité Quand le chercheur n’a pas d’idée
Estime de soi préconçue sur le sens de la différence (+
Consultation des 120 - 0,245 0,007 significative
critiques
ou -) l’objectif est de travailler sur une
hypothèse non directionnelle: le test est
dit bilatéral (two tailed);
L'analyse de nos données montre qu'il existe une
relation entre l’estime de soi des participants et la Par contre si le chercheur connait le sens
consultation des critiques (r= -0,245, p = 0,007). l’hypothèse est dite directionnelle, la
Cette relation est négative , modérée et significative. procédure qu’il faut alors employer est
RMQUE: Si on a prévu à priori une relation négative, dite unilatérale (one-tailed);
pour un test unilatéral p= 0,0035 (0.007/2)
on a le choix de spécifier cela à SPSS ou
Si on a une valeur de p non significative on écrit ns.
25
de /2 la probabilité obtenue. 26
7
B- Prémisses = conditions pour l’utilisation
A- Hypothèse nulle de cette méthode
1. Distribution normale : les valeurs de la
Dans le cas de la régression, l'hypothèse
variable dépendante sont normalement
nulle est qu'il n'y a pas de relation entre distribuées.
la variable dépendante et la variable 2. Homogénéité des variances : la variance
indépendante, dans la distribution de la variable dépendante doit
être constante pour toutes les valeurs de la
donc que la variable indépendante ne variable indépendante.
permet pas de prédire la variable 3. Le prédicteur (la variable
dépendante. indépendante) doit présenter une certaine
variance dans les données (pas de variance
L'hypothèse alternative = celle du
nulle).
chercheur: est qu'il est possible de prédire 4. Le prédicteur n'est pas corrélé à des
la variable dépendante à partir de la variables externes (qui n'ont pas été intégrées
variable indépendante. au modèle) qui influencent la variable dépendante.
5. Homoscédasticité : pour toutes les valeurs
29 du prédicteur, la variance des résiduels (erreur de 30
mesure) est homogène.
8
Comprendre la logique de la régression
simple
C’est une technique d’analyse statistique qui Le modèle de régression dans la population
consiste à estimer la relation de dépendance entre se présente de la manière suivante :
deux variables métriques.
Cette technique repose sur un modèle Yi = + β Xi + i
mathématique qui exprime la relation linéaire avec Y = variable dépendante (à expliquer)
entre une variable dépendante et une variable
indépendante (=déterminer une équation qui relie X = variable indépendante (ou explicative)
2 variables métriques)
= (alpha) ordonnée à l’origine de la droite
Il faut donc au-préalable avoir déterminé si la
relation linéaire existe (on passe par les β = (bêta) coefficient de régression
corrélations puis les régressions).
Contrairement à la corrélation simple, elle i = (epsilon) terme d’erreur ou composante
nécessite d’identifier l’une des 2 variables comme aléatoire
étant dépendante (à expliquer) et l’autre comme
étant indépendante (explicative). Cette méthode
n’implique pas de causalité ce qui est autre
chose. 33 34
35 36
9
Estimation du modèle : La qualité du modèle
consiste à trouver les valeurs de a et b qui Que vaut le modèle de régression estimé?
conduisent à la meilleure prédiction Cette question peut se décomposer en
possible des valeurs de la variable deux :
dépendante = minimiser les erreurs; la prédiction du modèle est-elle
C’est ce qu’on appelle l’estimation par satisfaisante?
moindres carrés. Peut-on dire que le modèle de population
On peut montrer que : est une représentation valable de la
n
relation entre les deux variables?
( X i X )(Yi Y )
b i 1
La qualité de prédiction passe par
n a Y bX
2 l’observation d’indices, des sommes des
(Xi X ) carrés
i 1
37 38
On définit les trois sommes des carrés La somme des carrés de l’erreur :
suivantes : (SCE) c’est la variation due à l’erreur de
prédiction;
Afin d’obtenir une évaluation relative, on la
La somme des carrés de l’erreur :
compare à la variation totale de la variable
n dépendante que l’on appelle La somme des carrés
SCE (Yi Yˆi ) 2 totale (SCT)
i 1
en divisant SCE/SCT on obtient la proportion de
la variation totale de la variable dépendante due à
La somme des carrés de la régression : l’erreur de prédiction.
n On pose comme indice de la qualité de prédiction
SCR (Yˆi Y ) 2 du modèle de régression estimé le complément de
i 1 cette proportion que l’on nomme coefficient de
détermination (R2) R2 = 1 – SCE/SCT
2
R varie entre 0 (relation linéaire nulle ) et 1
La somme des carrés totale
(relation linéaire parfaite);
n
SCT (Yi Y ) 2 SCR SCE On montre que R2 = SCR/SCT et que
i 1
39
SCR+SCE=SC 40
10
En résumé : Interprétation du R2 : La force de la relation
R² = Variance expliquée = coefficient Si on prend la racine carrée du
de détermination (proportion de coefficient de détermination R2 on
variance totale de Y qui n’est pas due à définit un indice de force de relation
l’erreur, ou encore proportion de la appelé coefficient de corrélation
variance de Y expliquée par la variance
multiple dont la valeur varie de 0 à 1
de X)
et qui s’interprète comme le V de
R² = 0 : la variable indépendante n’explique
rien
Cramer.
SCR
R² = 1 : la variable explique complètement Y
R
SCT
R² = 0,11 : 11% des variations de Y sont
expliquées par le modèle + R 1 + la relation est forte
41 42
D- La régression en 3 étapes :
Le modèle est-il statistiquement significatif ?
Étape 1 : Évaluation de la
On peut tester la qualité du modèle à l’aide
de la statistique F suivante :
pertinence du modèle de régression
11
À vous sur spss avec totcrit et totinf
Étape 1 : Évaluation de la pertinence du
totinf totcrit
modèle de régression
Rédiger le modèle de régression que vous La première chose à faire lors de l'examen
allez considérer (valable dans la des résultats est de vérifier si le modèle
population) avec prédicteur explique significativement
plus de variabilité de la variable
Il va falloir maintenant estimer ce dépendante qu'un modèle sans prédicteur.
modèle (valable pour notre Autrement dit, il faut au préalable prendre
échantillon)
une décision sur l'hypothèse nulle = y a a--t-
Sur spss il ou non une relation entre la variable
Analyse régressionlinéaire dépendante et la variable indépendante.
La variable dépendante = tocrit Pour prendre cette décision, il faut
La variable indépendante =totinf interpréter les résultats du tableau
OK 45
ANOVA. 46
Analyse de variance
Pour qu’un modèle soit pertinent,
l’amélioration obtenue avec la variable
indépendante doit être grande et les résidus
entre les valeurs observées et la droite de
régression, faibles.
Pour tester cela, SPSS procède au test de la
valeur F.
Dans ce tableau, SPSS fournit les sommes
SCR= 854,725 SCE= 2513,266
des carrés et les carrés moyens dont nous SCT=SCR+SCE
avons discuté dans le rappel théorique. F= 40,130 avec une p(Sig.) de 0,000
Le calcul de la valeur de F se fait la relation est donc statistiquement
automatiquement et le degré de signification significative
associé se trouve dans la dernière colonne. 47
12
Étape 2 : Évaluation de l'ajustement des
Dans notre cas, la valeur de F est de
données au modèle de régression
40,130 avec une p(Sig.) de 0,000
la relation est donc statistiquement Lorsque le modèle apporte une
significative amélioration significative, on doit
Ceci signifie que les probabilités d'obtenir rapporter dans quelle mesure les
une valeur F de cette taille par hasard données sont ajustées à ce modèle.
sont de moins de 0,05 %.
Cette information se trouve dans le
Dans ce cas-ci, nous devons rejeter
tableau « Récapitulatif du modèle »
l'hypothèse nulle formulée plus haut.
Il y a donc une relation statistiquement
avec l'indice « R » qui présente la
significative entre la variable dépendante valeur de la corrélation multiple du
et la variable indépendante. modèle.
49 50
13
R deux ajusté = permet de corriger le R Résumé du modèle
deux en fonction du nombre de variables Dans l'exemple, la valeur du
ici il n’a pas une grande incidence coefficient de corrélation multiple est
de 0,504= R.
R2 indice de la qualité de prédiction Cette valeur suggère que les données
du modèle de régression estimé = sont bien ajustées au modèle.
coefficient de détermination = 1-SCE/SCT Si nous élevons au carré le coefficient
c’est le % VD expliquée par la VI de corrélation, nous obtenons la
totinf explique 25,4% de la variation de valeur R2 0,254= 0,504 x 0,504
totcrit Celui-ci indique la proportion de la
au min il doit être >0,30 pour que la variabilité de la variable dépendante
qualité du modèle soit admise nous (y) expliquée par le modèle de
sommes autour de cette valeur min 53
régression.
54
14
estimation des paramètres du modèle
(sensibilité …) = = 0,270
Remarque:
Les coefficients standardisés permettent de
connaître le sens de la relation entre Dans le cas spécifique de notre exemple :
chaque prédicteur et la variable Les coefficients non standardisés nous
dépendante (relation positive ou négative) permettent de reconstituer l'équation de
et la valeur absolue des coefficients la droite de régression.
standardisés significatifs permet de L'ordonnée à l'origine est la valeur B de la
déterminer le poids relatif des variables constante dans le tableau et la pente est
dans le modèle. indiquée par la valeur B pour la variable
Le prochain tableau montre donc les indépendante (totinf).
paramètres du modèle (les valeurs Beta) et le coefficient de régression (sensibilité à
leur degré de signification. l’influence sociale = = 0,270
59 60
15
La valeur prédite de la consultation des
critiques de cinéma totcrit i = La colonne suivante présente la valeur t qui
4,403 + 0,270 totinf i + i teste l’hypothèse nulle à l’effet que le
La colonne des coefficients standardisés coefficient est égal à « 0 » dans la population.
indique la valeur du coefficient de corrélation Pour l’ordonnée à l’origine, ceci veut
(celle que nous avons vue dans le tableau simplement indiquer si elle est différente de 0
récapitulatif du modèle). Elle apporte
toutefois une nouvelle information: la valence Donc si un coefficient Beta d’une variable
de cette valeur (+ ou -). Il est important de indépendante est significatif, son effet est
connaître cette valence pour interpréter le différent de 0 et on doit l’interpréter comme
sens de la relation entre la variable une variable explicative significative.
dépendante et indépendante. Dans le cas d’un coefficient non significatif, on
La valeur actuelle du coefficient est donc de + doit garder l’hypothèse nulle que la valeur 0
0.504. est une valeur possible dans la population (t
Le dernier coefficient suggère que le modèle est le rapport entre la valeur Beta et l’erreur-
(la droite) de régression est bien ajusté aux 61 type de mesure). 62
données.
Remarque importante
Pour notre part, nous pouvons dire que La colonne des coefficients standardisés
les probabilités d'obtenir une valeur t de indique la valeur du coefficient de
6,335 si la valeur de l'ordonnée à l'origine corrélation (celle que nous avons vue
(b) est de zéro sont de moins de 0,000. précédemment).
Le b est donc différent de zéro et nous Elle apporte toutefois une nouvelle
pouvons conclure que l’influence sociale information: la valence de cette valeur (+
contribue significativement (p < 0,000) à ou -).
prédire la consultation des critiques. Il est important de connaître cette valence
pour interpréter le sens de la relation
entre la variable dépendante et
63
indépendante. 64
16
attention il faut mentionner dans votre
interprétation
analyse
17