Vous êtes sur la page 1sur 21

Cours 8:

Régression linéaire multiple

Rappel: Corrélation simple


„ Objectif:
‹ Étudier l’association entre deux variables continues où
il n y a pas vraiment une distinction entre VI et VD (ex.
corrélation entre agressivité et dépression)
„ Situations d’usage:
‹ Le même sujet est mesuré deux fois (e.g., a des scores
pour chaque variable: agressivité et dépression)
ou
‹ Deux sujets reliés sont mesurés chacun une fois (e.g.,
on mesure le niveau d’agressivité de la mère et de
l’enfant)
Exemple: Corrélation simple
V1 (Ag. Mère) V2 (Ag. Enfant)
S1 50 30
S2 60 50
S3 80 60
S4 40 20

ƒ Calcul de la corrélation Pearson r:


ƒ r = cov xy / sx sy
ƒ cov xy = ∑ (X-X)(Y-Y) / N-1
ƒ r = 300 / (17.08 * 18.26) = .96

Corrélation forte positive Corrélation faible positive


Corrélation forte négative

r = Mesure standardisé d’association


ƒ r = .96
ƒ r2 = .92
ƒ => 92% de la variabilité des deux variables sont reliés
= Force du lien entre les deux variables

ƒ Convention (Cohen):
o petit r = .10
o moyen r = .30
o grand r = .50
r = Mesure standardisé d’association
ƒ r et r2 sont des mesures standardisés !!

Æ n’importe quelle échelle de mesure est utilisée,


l’interprétation est toujours la même

Æ Échelle de mesure peut être totalement différente pour les


deux variables

Rappel: Régression linéaire simple


„ Objectif:
‹ Étudier l’association entre deux variables continues où
une est déclarée la VI et l’autre la VD Î
„ La régression permet la prédiction d’une variable par
l’autre (ex. l’agressivité de la mère peut-elle prédire
l’agressivité de l’enfant?)
„ Souvent utilisé dans les plans de recherche
longitudinale
„ Même situations d’usage que pour la corrélation:
‹ Le même sujet est mesuré deux fois ou Deux sujets
reliés sont mesurés chacun une fois
Exemple: Régression
VI = X (Ag. Mère) VD = Y (Ag. Enfant)
S1 50 30
S2 60 50
S3 80 60
S4 40 20

a X = variable indépendante (= predictor)


a Y = variable dépendante (= criterion)

Équation de Régression
ƒ Équation de régression: y = a + bX + e Æ
^y = a + bX

^y = valeur prédite de Y
b = slope ( = la pente de la droite de régression)
a = intercept (= l’ordonnée à l’origine = la valeur de Y
lorsque X = 0)
X = la valeur de X
La droite de régression
^
Y

a b

Calcul de Régression
ƒ Équation de régression:
Y = a + bX (+ e)
a = Y – bX
b = cov xy / s2x

Ex.: b = 300 / 291.67 = 1.028


Ex.: a = 40 – (1.028*57.5) = 40 - 59.14 = -19.14

Æ ^y = -19.14 + 1.03X
b = Mesure non standardisé
d’association
ƒ Ex.: b = 1.03 pour la prédiction de l’agressivité de l’enfant
à partir de l’agressivité de la mère dans notre étude

ƒ b dépend des échelles spécifiques utilisées !!

Æ Peut être différent dans une autre étude sur la même


problématique lorsqu’on utilise d’autres mesures

Æ Difficile à comparer les résultats des différentes études

Solution: β = Mesure standardisé


d’association
ƒ Transformation z des échelles
ƒ Calcul de b pour des échelles standardisées z (b = β)
ƒ Æ β = r dans les régressions simples (avec une VI) = .96

Interprétation de r2 dans régression simple


ƒ .92% de la variance de l’agressivité de l’enfant est prédit
par l’agressivité de la mère

ƒ !!! Cela ne veut pas signifier la causalité entre les deux


variables
Test de signification de r
Hypothèses: H0: ρ = 0 (r dans la population = 0)
H1: ρ = 0

t = r√ N-2 / √ 1-r2

Ex.:
t = .96*√ 2 / √ 1-.92 = 1.36 / .283 = 4.8
df = N-2 = 2

p=?

Test de signification de b
Hypothèses: H0: b* = 0 (b dans la population = 0)
H1: b* = 0

t = b / seb

Ex.:
t = 1.03 / 0.21 = 4.9
df = N-2 = 2
p=?
Correspondance entre régression
linéaire et ANOVA:

ƒ Modèle mathématique de l’ANOVA simple:


Yij = μ + τj + eij

ƒ Modèle mathématique de la régression simple:


Y = a + bX + e

Correspondance entre régression


linéaire et ANOVA:
Partition de la variance de Y dans l’ANOVA simple:
ƒ SS totale =
SS inter (= attribuable à la VI = différence inter groupes) +
SS erreur (= SS résiduelle)

Partition de la variance de Y dans la régression simple:


ƒ SSy totale =
SS régression (= SSy attribuable à la variabilité de X) +
SS résiduelle
Correspondance entre régression
linéaire et ANOVA:
SSy totale = Σ (y - y)2

SS régression = Σ (^y - y)2

SSresiduelle = Σ (^y - y)2

Source df som.carrés carré moy. Test-F

SSreg 1 925.71 925.71 24.92


SSres 2 74.29 37.14 p=?
total 3 1000.00

Correspondance entre régression


linéaire et ANOVA:
Source df som.carrés carré moy. Test-F

SSreg 1 925.71 925.71 24.92


SSres 2 74.29 37.14
total 3 1000.00

F = 24.92 ; √F = t
√ 24.92 = 4.9 = t
Corrélation et régression: Postulats
‹ Échantillon appariés ou mesures reliées (i.e., le
même sujet
‹ Indépendance des scores: score du sujet 1 non
corrélé avec score du sujet 2, et ainsi de suite
‹ Distribution normale des scores d’au moins une
des deux variables
‹ Linéarité de la relation
‹ Homoscédasticité (i.e. variance constante de la VI
1 à chaque niveau de la VI 2)

Homoscédasticité
Utilisation du graphe des valeurs prédites vs.
résiduelles pour le diagnostic Linéarité,
Normalité, Homoscédasticité (LNH)
LNH Non normal
Résiduels

Résiduels
0 0

Prédits Prédits
Résiduels

Résiduels
0 0

Prédits Prédits
Hétéroscédasticité Non linéaire

Facteurs influençant une corrélation/


régression

ƒ Existence d’une relation non linéaire


ƒ Étendue réduite de la distribution des scores sur
une variable
ƒ Utilisation de sous-groupes hétérogènes
ƒ Présence des sujets déviants multivariés
(Multivariate outliers!!!) = indiqueé par la
distance de Mahalanobis
o Distance Mahalanobis: Mesure d’extrémité
multivariée avec distribution χ2 , df = nombre des
variables
Régression multiple

Régression multiple: Situations d’usage

ƒ Plusieurs variables indépendantes continues


(et parfois aussi catégorielles) et une variable
dépendante continue
ƒ (Les VIs peuvent être corrélées ou non)

ƒ But: Recherche le degré d’association entre un


ensemble de VIs et une VI et ensuite les
contributions uniques (partielles ou semi-
partielles) de chaque VI à la prédiction de la VD
Rappel: Corrélation simple, partielle et
semi-partielle

V1
a
V3 d
b
c

V2

Simple: R2 V3 - V1 (a+b)/(a+b+c+d)

Rappel: Corrélation simple, partielle et


semi-partielle

V1
a
V3 d
b
c

V2

Simple: R2 V3 - V1 (a+b)/(a+b+c+d)
R2 V3 - V2 ???
Rappel: Corrélation simple, partielle et
semi-partielle

V1
a
V3 d
b
c

V2

Partielle: PR2 V3 - V1 (a)/(a+d)


PR2 V3 - V2 ???

Rappel: Corrélation simple, partielle et


semi-partielle

V1
a
V3 d
b
c

V2

Semi partielle: SR2 V3 - V1 (a)/(a+b+c+d)


SR2 V3 - V2 ???
Régression multiple: Logique
^
ƒ Y = b0 + b1X1 + b2X2 …+ bpXp

b0 = Intercept ou a (= valeur de Y lorsque toutes les VI


ont une valeur de 0)
b1 = Coefficient de régression partielle de Y à X1 en
contrôlant pour l’effet des autres VIs sur Y
(autrement dit, lorsque les autres VIs sont à leur
moyenne)
β1 = Coefficient de régression partielle standardisé z

Régression multiple: Postulats

ƒ Sujets mesurés sur toutes les variables

ƒ Indépendance des scores d’un sujet p.r. à un autre


sujet

ƒ LNH, i.e. linéarité, normalité et homoscédasticité


(Se vérifie par l’examen du diagramme des valeurs prédites vs
résiduels)

ƒ Taille d’échantillons exigée: N=10xk; N≥k+40


(ou voir tableau de Cohen dans le livre de Field, p. 173)
Régression multiple: Analyses préliminaires

ƒ Valeurs extrêmes multivariées:


Examen de la distance de Mahalanobis (valeur χ2
significative à p <= .001) ou de Cook (valeur >= 1)

ƒ Multicollinéarité des VIs:


Souvent si corrélation entre deux VI plus élevée que .7
Examen de Tolérance (1- R2x; peut être entre 0 et 1,
idéalement proche à 1) et VIF (idéalement pas beaucoup plus >
que 1)

Solution: Centralisation ou Standardisation-z des


variables

Régression multiple: Interprétation


ƒ R2 global: Pourcentage de variance de la VD
expliqué par le modèle (i.e., par l’ensemble des
VIs)

ƒ R2 global adj : R2 ajusté (par une pénalité)


tenant compte du nombre de VIs et du N

ƒ Test de signification de R2 global:


F = (N-k-1) / k(1-R2) avec df1 = k et df2 = (N-k-1)

Si le R2 global du modèle est significatif Î


Régression multiple: Interprétation (suite)
ƒ Test de signification du coefficient de
régression partielle (b ou β) associé à chaque VI
t = bj / sebj

Si b est significatif Î

ƒ Examen de l’importance relative de chaque VI:


o La valeur du β associé à la VI
o La valeur de la corrélation semi-partielle de la VI
avec la VD
Les VIs catégorielles dans la
régression simple ou multiple

Exemple 1: VI avec 2 niveaux (sexe)


Représentation de la VI par 1 variable bidon:
(1 = filles; 0 = autre)
Si on a 0, on est automatiquement un garçon

a
Coefficients

Standardi
zed
Unstandardized Coefficien
Coefficients ts
Mode B Std. Error Beta t Sig.
1 (Constant) 32,870 1,023 32,138 ,000
sexe du sujet 1,397 ,656 ,107 2,130 ,034
preference sociale
-,997 ,203 -,248 -4,918 ,000
selon le sexe (soci
a.Dependent Variable: echelle de depression kovac t6
Exemple 2: VI avec 4 niveaux (statut
familial)
„ 1 = célibataire
„ 2 = séparée ou divorcée
„ 3 = conjoint de fait ou mariée
„ 4 = veuve

Représentation de la VI par 3 variables bidons


nouvellement créées:

„ VB1 (1 = séparée ou divorcée; 0 = autre)


„ VB2 (1 = conjoint de fait ou mariée; 0 = autre)
„ VB3 (1 = veuve; 0 = autre)
Si on a 0 dans toutes variables bidons, on est
automatiquement célibataire – tous les groupes sont
alors comparés avec les célibataires

Exemple 2: VI avec 4 niveaux (statut


familial)
a
Coefficients

Standard
zed
UnstandardizedCoefficien
Coefficients ts
Mode B Std. Error Beta t Sig.
1 (Constant) 4,495 ,192 23,377 ,000
hostility 62E-02 ,094 ,064 1,065 ,288
VB1 1,068 ,320 ,205 3,342 ,001
VB2 ,698 ,488 ,087 1,431 ,154
VB3 2,773 ,547 ,311 5,070 ,000
a.Dependent Variable: depression
Types de régression multiple ou Le choix
du modèle d’analyse
ƒ Standard, sans sélection: Toutes les VI sont
inclues et le degré de significativité ainsi que la
grandeur de l’effet de chacune sont examinés
ƒ Hiérarchique: L’entrée des blocs subséquents de
variables est prédéfini sur la base d’un modèle
théorique ou de priorité basé sur une logique appuyée.
La significativité et la grandeur du changement de R2
associé à chaque nouveau bloc sont évaluées
!! À utiliser avec prudence et très rarement: Les
méthodes de sélection du modèle ‘optimale’:
Plusieurs méthodes (forward/ backward/ stepwise/ best subset)
pour sélectionner une combinaison des VIs dans laquelle
chaque VI contribue significativement à la prédiction de la VD