Vous êtes sur la page 1sur 17

corrélations et régressions simples

 On peut mesurer le concept de


Un rappel important cinéphilie comme étant la somme
de scores des énoncés
À l’issue de l’ACP sur toutes les  = somme des items
échelles additives pour les concepts
 Totalciné =
de cinéphilie (question 1), de
consultation des critiques (question ciné1+ciné2+ciné3+ciné4+ciné5
2), de sensibilité à l’influence sociale
(question 4) et d’estime de soi  nous allons calculer ces scores;
(question 5)  et montrer ce qu’ils signifient.
 le chercheur doit calculer les scores.
1 2

la somme des scores de tous les énoncés


correspond à la mesure du concept
 le chemin SPSS:
 transformercalculer variable

3 4

1
Remarque importante n°1:
 Ici dans notre cas il n’y a pas de données
manquantes;
 Nous avons calculé la somme de tous les items
d'une échelle
 Cependant, il n'est pas évident comment gérer les
valeurs manquantes en créant la somme des
items - si on enlève tous les cas avec les valeurs
manquantes on risque de fortement diminuer
l'échantillon.
 Le remplacement des valeurs manquantes par la
moyenne de l'échantillon est aussi problématique!
 C'est pour cela que calculer la moyenne est
recommandé en cas de données manquantes.
5 6

Dans la base de données cinéma tous ces


Remarque importante n n°°2:
scores ont été calculés
attention aux items inversés
 Nous travaillons désormais sur les scores
Il est primordial d'identifier les items qui des échelles additives;
sont à recoder pour effectuer le calcul du  la somme des scores des énoncés d’un
score total concept correspond à la mesure du
 Avant de calculer le score = mesure de ce concept
concept il faut traiter les items inversés;
 sinon tout le reste sera biaisé :
 y compris et surtout l’ACP et l’analyse de
la cohérence interne (alpha de Cronbach).

7 8

2
 Généralités
 Lorsque l’on possède pour chaque
sujet d’une population, deux mesures
(variables dépendantes ou VD),
 on peut et on doit s’intéresser aux
I-UNE STATISTIQUE DESCRIPTIVE relations existantes entre ces deux VD.
PARTICULIERE :  La question que l’on se pose le plus
LA CORRELATION fréquemment est de savoir si la
variance observée sur une VD est
spécifique à chacun des tests ou si il
existe une part de variance commune
9 à ces deux tests. 10

 Le coefficient de corrélation est  On parle de modèle linéaire lorsque


donc une des mesures qui l’on suppose qu’il existe une relation
évaluent la conformité des monotone croissante ou décroissante
entre deux variables.
observations avec un modèle
 Par exemple, entre la taille et le poids,
général de relations entre les nous attendons une corrélation
deux mesures. linéaire positive,
 Ce modèle général est le plus  c’est-à-dire : plus la taille d’un sujet
souvent un modèle linéaire et le est petite, plus le sujet est léger et
coefficient de corrélation associé plus la taille d’un sujet est grande,
est le r de Bravais-Pearson pour plus le sujet doit être lourd.
les échelles d’intervalles 11 12

3
 L’utilisationdu coefficient de Les différents coefficients
corrélation de Bravais-Pearson de corrélation
suppose que les 2 variables
correspondent à des échelles
d’intervalles.
 Il est cependant parfois
nécessaire de calculer des
associations entre d’autres types
d’échelles.

13 14

Propriétés et interprétation de r(XY)

 ce coefficient varie entre -1 et +1.  Le signe de r indique donc le


 Son interprétation est la suivante : sens de la relation
 si r est proche de 0, il n'y a pas de  tandis que la valeur absolue
relation entre X et Y de r indique l'intensité de la
 si r est proche de -1, il existe une relation
forte relation négative entre X et Y  c'est-à-dire la capacité à prédire
 si r est proche de 1, il existe une les valeurs de Y en fonctions de
forte relation positive entre X et Y celles de X.
15 16

4
Interprétation
0 équivaut à une absence de lien, alors
que 1 constitue un lien parfait entre X
et Y.
 Le signe + signifie que la relation entre
X et Y est proportionnelle; quand X
augmente (ou diminue), Y augmente
(ou diminue).
 Le signe - signifie que la relation entre
X et Y est inversement proportionnelle;
quand X augmente (ou diminue), Y
17 diminue (ou augmente). 18

En résumé : POURQUOI ET QUAND? Ce qu’il faut retenir = Corrélation entre


deux variables quantitatives
 Quand ? Si votre recherche comporte
 Le coefficient de corrélation de Pearson r
une variable indépendante quantitative
est une mesure d’association ou
(X) et une variable dépendante
d’interdépendance entre deux variables
quantitative (Y).
métriques
 Pourquoi calculer un coefficient de
 Il mesure l’intensité de la co-variation entre
corrélation ?
les deux variables :
◦ Pour établir l'existence d'une lien entre X
et Y.  les deux variables, mesurées sur le même

◦ Pour mesurer la force ou l'intensité de ce ensemble d’observations, varient-elles de


lien. façon analogue (si pour une observation,
l’une prend une valeur élevée, l’autre a-t-
◦ Pour inférer l'existence d'une corrélation
elle également une valeur élevée) ?
au sein de la population. 19 20

5
À vous sur spss
1-Estime de soi  Consultation
des critiques
(totesttotcrit)
2-Sensibilité à l’influence sociale
 Consultation des critiques
(totinf totcrit)
 On a vu la dernière fois que plus une personne a
confiance en sa capacité de faire de bons choix,
moins elle ressent le besoin de s’informer auprès
des autres;
 On peut supposer qu’il existe une relation entre
ces deux variables (sans doute négative test
unilatéral alors);
 Pour le vérifier nous passons à la corrélation. 21

3 informations importantes :
La corrélation en valeur absolue;
Son signe
La valeur de p (/2 si unilatéral)

Donne l’information sur la dispersion


des deux variables (écart type);
Une faible corrélation peut être due:
- soit à l’absence de relation linéaire
- soit par le manque de variation d’une
ou des deux variables
24

6
Ce qu’il faut écrire dans le mémoire :
Tableau n : Relation entre l’estime de soi et Test unilatéral et test bilatéral
la consultation des critiques
Variables N= r Valeur de p significativité  Quand le chercheur n’a pas d’idée
Estime de soi préconçue sur le sens de la différence (+
Consultation des 120 - 0,245 0,007 significative
critiques
ou -) l’objectif est de travailler sur une
hypothèse non directionnelle: le test est
dit bilatéral (two tailed);
L'analyse de nos données montre qu'il existe une
relation entre l’estime de soi des participants et la  Par contre si le chercheur connait le sens
consultation des critiques (r= -0,245, p = 0,007). l’hypothèse est dite directionnelle, la
Cette relation est négative , modérée et significative. procédure qu’il faut alors employer est
RMQUE: Si on a prévu à priori une relation négative, dite unilatérale (one-tailed);
pour un test unilatéral  p= 0,0035 (0.007/2)
 on a le choix de spécifier cela à SPSS ou
Si on a une valeur de p non significative on écrit ns.
25
de /2 la probabilité obtenue. 26

Sensibilité à l’influence sociale  Consultation des critiques II- la logique de la régression


Descriptive Statistics
 Nous avons vu comment mesurer la
Mean Std. Deviation N
consultation des critiques 13.49 5.320 120 relation entre deux variables continues=
sensibilité à l'influence
33.66 9.925 120
corrélation.
sociale
 Nous allons voir comment prédire une
Correlations
variable continue à partir d'une autre:
sensibilité à
 Et comment nous pouvons modéliser cette
consultation l'influence relation linéaire, c'est-à-dire comment
des critiques sociale
consultation des critiques Pearson Correlation 1 .504**
représenter le mieux possible la relation
Sig. (1-tailed) .000 linéaire entre deux variables à l’aide d’une
N 120 120
équation mathématique = équation de
sensibilité à l'influence Pearson Correlation .504** 1
sociale Sig. (1-tailed) .000 régression.
N 120 120
27 28
**. Correlation is significant at the 0.01 level (1-tailed).

7
B- Prémisses = conditions pour l’utilisation
A- Hypothèse nulle de cette méthode
 1. Distribution normale : les valeurs de la
 Dans le cas de la régression, l'hypothèse
variable dépendante sont normalement
nulle est qu'il n'y a pas de relation entre distribuées.
la variable dépendante et la variable  2. Homogénéité des variances : la variance
indépendante, dans la distribution de la variable dépendante doit
être constante pour toutes les valeurs de la
 donc que la variable indépendante ne variable indépendante.
permet pas de prédire la variable  3. Le prédicteur (la variable
dépendante. indépendante) doit présenter une certaine
variance dans les données (pas de variance
 L'hypothèse alternative = celle du
nulle).
chercheur: est qu'il est possible de prédire  4. Le prédicteur n'est pas corrélé à des
la variable dépendante à partir de la variables externes (qui n'ont pas été intégrées
variable indépendante. au modèle) qui influencent la variable dépendante.
 5. Homoscédasticité : pour toutes les valeurs
29 du prédicteur, la variance des résiduels (erreur de 30
mesure) est homogène.

 6. Distribution normale et aléatoire C- Équation de la droite de régression


des résidus : cette prémisse signifie que linéaire simple
la différence entre le modèle et les valeurs
 Le modèle de régression se présente sous
observées sont près de zéro.
une forme mathématique, une droite de
 7. Les valeurs de la variable régression
dépendante sont indépendantes :  Qui s'exprime avec l’équation algébrique
chaque valeur de la variable dépendante décrivant
Le une
coefficient droite
a est dansl’ordonnée
appelée un plan cartésien.
à
Nous tentons doncb estd'expliquer la variabilité
vient d'une observation distincte. LeSi coefficient
y est
l’origine la
(ouvariable appelé
placée
constante).
la
surpente.
l’axe vertical
Les observations ne sont pas reliées entre de la consultation
C’est
(ordonnée) x, des
le changement
etprédite critiques
sur en fonction
y lorsque
la variable placée xsur
change de
l’axe
C’est la
l’influence valeur
sociale de y quand x = 0.
elles. d’une unité.
horizontal (abscisse), l’équation est :
8. Relation linéaire entre la variable

indépendante et la variable Yi  a  bX i  ei
dépendante : la relation modélisée est Variable Variable
linéaire. 31
dépendante indépendante 32

8
Comprendre la logique de la régression
simple
 C’est une technique d’analyse statistique qui  Le modèle de régression dans la population
consiste à estimer la relation de dépendance entre se présente de la manière suivante :
deux variables métriques.
 Cette technique repose sur un modèle  Yi =  + β Xi + i
mathématique qui exprime la relation linéaire  avec Y = variable dépendante (à expliquer)
entre une variable dépendante et une variable
indépendante (=déterminer une équation qui relie  X = variable indépendante (ou explicative)
2 variables métriques)
  = (alpha) ordonnée à l’origine de la droite
 Il faut donc au-préalable avoir déterminé si la
relation linéaire existe (on passe par les  β = (bêta) coefficient de régression
corrélations puis les régressions).
 Contrairement à la corrélation simple, elle  i = (epsilon) terme d’erreur ou composante
nécessite d’identifier l’une des 2 variables comme aléatoire
étant dépendante (à expliquer) et l’autre comme
étant indépendante (explicative). Cette méthode
n’implique pas de causalité ce qui est autre
chose. 33 34

Important  Pour s’assurer que le modèle précédent


est une représentation adéquate
 C’est un modèle de prédiction : (appropriée) de la relation entre les deux
connaissant les valeurs de  et β on peut variables,
prédire la valeur de Y à partir de X;  On doit procéder à son estimation à partir
d’un échantillon de n observations;
 Le terme d’erreur i rend compte du fait  on pose donc le modèle d’échantillon
que la modélisation n’est pas parfaite, et suivant :
que d’autres variables non prises en Yi  a  bX i  ei
compte dans ce modèle influent sur la  La structure du modèle est identique au
variation de Y. précédent, a et b correspondent à  et β.

35 36

9
Estimation du modèle : La qualité du modèle
 consiste à trouver les valeurs de a et b qui  Que vaut le modèle de régression estimé?
conduisent à la meilleure prédiction Cette question peut se décomposer en
possible des valeurs de la variable deux :
dépendante = minimiser les erreurs;  la prédiction du modèle est-elle
 C’est ce qu’on appelle l’estimation par satisfaisante?
moindres carrés.  Peut-on dire que le modèle de population
 On peut montrer que : est une représentation valable de la
n
relation entre les deux variables?
 ( X i  X )(Yi  Y )
b  i 1
 La qualité de prédiction passe par
n a  Y  bX
2 l’observation d’indices, des sommes des
(Xi  X ) carrés
i 1
37 38

On définit les trois sommes des carrés La somme des carrés de l’erreur :
suivantes :  (SCE) c’est la variation due à l’erreur de
prédiction;
Afin d’obtenir une évaluation relative, on la
 La somme des carrés de l’erreur : 
compare à la variation totale de la variable
n dépendante que l’on appelle La somme des carrés
SCE   (Yi  Yˆi ) 2 totale (SCT)
i 1
 en divisant SCE/SCT on obtient la proportion de
la variation totale de la variable dépendante due à
 La somme des carrés de la régression : l’erreur de prédiction.
n  On pose comme indice de la qualité de prédiction
SCR   (Yˆi  Y ) 2 du modèle de régression estimé le complément de
i 1 cette proportion que l’on nomme coefficient de
détermination (R2) R2 = 1 – SCE/SCT
2
R varie entre 0 (relation linéaire nulle ) et 1
 La somme des carrés totale 
(relation linéaire parfaite);
n
SCT   (Yi  Y ) 2  SCR  SCE  On montre que R2 = SCR/SCT et que
i 1
39
SCR+SCE=SC 40

10
En résumé : Interprétation du R2 : La force de la relation
 R² = Variance expliquée = coefficient  Si on prend la racine carrée du
de détermination (proportion de coefficient de détermination R2 on
variance totale de Y qui n’est pas due à définit un indice de force de relation
l’erreur, ou encore proportion de la appelé coefficient de corrélation
variance de Y expliquée par la variance
multiple dont la valeur varie de 0 à 1
de X)
et qui s’interprète comme le V de
 R² = 0 : la variable indépendante n’explique
rien
Cramer.
SCR
 R² = 1 : la variable explique complètement Y
R
SCT
 R² = 0,11 : 11% des variations de Y sont
expliquées par le modèle  + R  1 + la relation est forte
41 42

D- La régression en 3 étapes :
Le modèle est-il statistiquement significatif ?
 Étape 1 : Évaluation de la
 On peut tester la qualité du modèle à l’aide
de la statistique F suivante :
pertinence du modèle de régression

SCR  Étape 2 : Évaluation de l'ajustement


F des données au modèle de
SCE /( n  2)
régression
 La statistique F correspond au rapport de la
variance expliquée sur la variance d’erreur.
 Étape 3 : Évaluation de la variabilité
 Plus la valeur de F est grande, plus on croit
que les deux variables sont associées. expliquée par le modèle de
régression
43 44

11
À vous sur spss avec totcrit et totinf
Étape 1 : Évaluation de la pertinence du
totinf totcrit
modèle de régression
 Rédiger le modèle de régression que vous  La première chose à faire lors de l'examen
allez considérer (valable dans la des résultats est de vérifier si le modèle
population) avec prédicteur explique significativement
plus de variabilité de la variable
 Il va falloir maintenant estimer ce dépendante qu'un modèle sans prédicteur.
modèle (valable pour notre  Autrement dit, il faut au préalable prendre
échantillon)
une décision sur l'hypothèse nulle = y a a--t-
 Sur spss il ou non une relation entre la variable
 Analyse régressionlinéaire dépendante et la variable indépendante.
 La variable dépendante = tocrit  Pour prendre cette décision, il faut
 La variable indépendante =totinf interpréter les résultats du tableau
 OK 45
ANOVA. 46

Analyse de variance
 Pour qu’un modèle soit pertinent,
l’amélioration obtenue avec la variable
indépendante doit être grande et les résidus
entre les valeurs observées et la droite de
régression, faibles.
 Pour tester cela, SPSS procède au test de la
valeur F.
 Dans ce tableau, SPSS fournit les sommes
SCR= 854,725 SCE= 2513,266
des carrés et les carrés moyens dont nous SCT=SCR+SCE
avons discuté dans le rappel théorique. F= 40,130 avec une p(Sig.) de 0,000
 Le calcul de la valeur de F se fait la relation est donc statistiquement
automatiquement et le degré de signification significative
associé se trouve dans la dernière colonne. 47

12
Étape 2 : Évaluation de l'ajustement des
 Dans notre cas, la valeur de F est de
données au modèle de régression
40,130 avec une p(Sig.) de 0,000
 la relation est donc statistiquement  Lorsque le modèle apporte une
significative amélioration significative, on doit
 Ceci signifie que les probabilités d'obtenir rapporter dans quelle mesure les
une valeur F de cette taille par hasard données sont ajustées à ce modèle.
sont de moins de 0,05 %.
 Cette information se trouve dans le
 Dans ce cas-ci, nous devons rejeter
tableau « Récapitulatif du modèle »
l'hypothèse nulle formulée plus haut.
 Il y a donc une relation statistiquement
avec l'indice « R » qui présente la
significative entre la variable dépendante valeur de la corrélation multiple du
et la variable indépendante. modèle.
49 50

 La corrélation multiple (R)


s'interprète de la même manière que
la corrélation simple (r).
 Elle représente la corrélation
combinée de toutes les variables
indépendantes d'un modèle avec la
R  coefficient de corrélation multiple dont
variable dépendante.
la valeur 0<R<1 qui s’interprète comme V
 Comme nous n'avons ici qu'une
force de la relation
seule variable indépendante, ce
ici la relation est forte > à 0,5
coefficient est identique (en
valeur absolue) au coefficient de
corrélation (r). 51

13
R deux ajusté = permet de corriger le R Résumé du modèle
deux en fonction du nombre de variables  Dans l'exemple, la valeur du
ici il n’a pas une grande incidence coefficient de corrélation multiple est
de 0,504= R.
R2  indice de la qualité de prédiction  Cette valeur suggère que les données
du modèle de régression estimé = sont bien ajustées au modèle.
coefficient de détermination = 1-SCE/SCT  Si nous élevons au carré le coefficient
c’est le % VD expliquée par la VI de corrélation, nous obtenons la
totinf explique 25,4% de la variation de valeur R2 0,254= 0,504 x 0,504
totcrit  Celui-ci indique la proportion de la
au min il doit être >0,30 pour que la variabilité de la variable dépendante
qualité du modèle soit admise nous (y) expliquée par le modèle de
sommes autour de cette valeur min 53

régression.
54

 Nous pouvons donc dire que Étape 3: Évaluation de la variabilité


expliquée par le modèle de régression
l’influence sociale (VI) explique
25,4% de la variation de la  Le dernier tableau nous donne les
paramètres de l'équation du modèle de
consultation des critiques (VD). régression.
 La valeur de R2 ajusté est un  Il est alors possible de construire la droite
estimé de la robustesse de ce de régression à l'aide des coefficients B
(Beta) non standardisés.
modèle si on prenait un
 Ce tableau est très utile dans les cas de
échantillon différent provenant régression multiple, car il permet de
de la même population. déterminer laquelle ou lesquelles des
variables indépendantes contribue(nt)
significativement au modèle.
55 56

14
estimation des paramètres du modèle

pas utile maintenant de le mentionner


mais pour que vous compreniez H0 :   En effet, chaque coefficient Beta est testé en
=0 et  = 0 ici rejetée t significatif fonction l'hypothèse nulle voulant que B = 0
dans le modèle.
 Ceci veut dire que dans un même modèle
contenant plusieurs variables indépendantes,
certaines peuvent être significatives et
d'autres, non significatives.
 Les variables significatives sont celles qui
l’ordonnée à l’origine = constante contribuent au fait que le modèle global
=  = 4,403 apporte une amélioration significative de
l'explication de la variabilité de la variable
le coefficient de régression dépendante. 58

(sensibilité …) =  = 0,270

Remarque:
 Les coefficients standardisés permettent de
connaître le sens de la relation entre  Dans le cas spécifique de notre exemple :
chaque prédicteur et la variable  Les coefficients non standardisés nous
dépendante (relation positive ou négative) permettent de reconstituer l'équation de
 et la valeur absolue des coefficients la droite de régression.
standardisés significatifs permet de  L'ordonnée à l'origine est la valeur B de la
déterminer le poids relatif des variables constante dans le tableau et la pente est
dans le modèle. indiquée par la valeur B pour la variable
 Le prochain tableau montre donc les indépendante (totinf).
paramètres du modèle (les valeurs Beta) et  le coefficient de régression (sensibilité à
leur degré de signification. l’influence sociale =  = 0,270
59 60

15
 La valeur prédite de la consultation des
critiques de cinéma totcrit i =  La colonne suivante présente la valeur t qui
 4,403 + 0,270 totinf i + i teste l’hypothèse nulle à l’effet que le
 La colonne des coefficients standardisés coefficient est égal à « 0 » dans la population.
indique la valeur du coefficient de corrélation  Pour l’ordonnée à l’origine, ceci veut
(celle que nous avons vue dans le tableau simplement indiquer si elle est différente de 0
récapitulatif du modèle). Elle apporte
toutefois une nouvelle information: la valence  Donc si un coefficient Beta d’une variable
de cette valeur (+ ou -). Il est important de indépendante est significatif, son effet est
connaître cette valence pour interpréter le différent de 0 et on doit l’interpréter comme
sens de la relation entre la variable une variable explicative significative.
dépendante et indépendante.  Dans le cas d’un coefficient non significatif, on
 La valeur actuelle du coefficient est donc de + doit garder l’hypothèse nulle que la valeur 0
0.504. est une valeur possible dans la population (t
 Le dernier coefficient suggère que le modèle est le rapport entre la valeur Beta et l’erreur-
(la droite) de régression est bien ajusté aux 61 type de mesure). 62
données.

Remarque importante

 Pour notre part, nous pouvons dire que  La colonne des coefficients standardisés
les probabilités d'obtenir une valeur t de indique la valeur du coefficient de
6,335 si la valeur de l'ordonnée à l'origine corrélation (celle que nous avons vue
(b) est de zéro sont de moins de 0,000. précédemment).
 Le b est donc différent de zéro et nous  Elle apporte toutefois une nouvelle
pouvons conclure que l’influence sociale information: la valence de cette valeur (+
contribue significativement (p < 0,000) à ou -).
prédire la consultation des critiques.  Il est important de connaître cette valence
pour interpréter le sens de la relation
entre la variable dépendante et
63
indépendante. 64

16
attention il faut mentionner dans votre
interprétation
analyse

 la sensibilité à l’influence sociale a un 1. le modèle de régression que nous avons


effet positif et statistiquement significatif considéré est le suivant :
sur la consultation des critiques de totcrit i =  +  i totinf i + i
cinéma:
 plus on est sensible à cette influence plus 2. l’estimation du modèle lui :
on a tendance à consulter les critiques
totcrit i = 4,403 + 0,270 totinf i + i

attention  Nous pouvons donc conclure que le modèle


avec prédicteur permet de mieux prédire la
variable y que ne le fait le modèle sans
 les analyses de corrélations et régression
prédicteur (la moyenne de y).
se limitent à l’estimation de relations bi-
variées linéaires;
 l’absence de corrélation entre deux  IMPORTANT :
variables signifie qu’il n’y a pas de relation  Si le modèle n'apportait pas d'amélioration
linéaire, mais il est possible qu’une autre significative,
forme de relation existe.  si la valeur de F n'était pas accompagnée
d'une valeur de p significative,
l'interprétation s'arrêterait ici.
 Il n’existe pas de relation entre la variable
dépendante et la variable indépendante.
68

17

Vous aimerez peut-être aussi