Vous êtes sur la page 1sur 42

Rgression Linaire Bases

Guillaume Frst
guillaume.fuerst@unine.ch

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

Vue densemble
Passation des
questionnaires

Analyse des proprits


psychomtriques des
questionnaires

Rgression Linaire
(Simple ou Multiple)

Analyse de la validit

Analyse de la fidlit

Analyse factorielle
Variable
Latente 1

i1

i2

i3

Variable
Latente 2

i4

i5

i6

i7

i8

i9

i10

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

Rappel: variance, covariance, corrlation

Variance: reprsente la moyenne des carts


la moyenne . Mesure de la diversit. Une
variable sans variance est une constante.

Covariance: reprsente la variance partage


entre deux variables. Indices non norm,
peut varier entre - et +.

Scores z (standardiss): Mesure de position


standardise. Situe chaque observation par
rapport la moyenne, en unit dcart-type.

Corrlation: Covariance standardise. Borne


entre -1 et +1. La covariance entre deux
variables standardises (scores z) est une
corrlation.

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

Rappel: taille deffet et significativit

La significativit statistique indique si un


effet est diffrent de 0.
La taille deffet donne plus dinformation
sur la magnitude de cet effet.
Ces deux informations sont diffrentes et
indpendante lune de lautre
(Lestimation de la taille deffet dpend de
la fidlit de la mesure.)

Pas deffet

Relation assez forte

Relation trs forte

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

La rgression simple (RLS): principe

La rgression simple permet de tester le lien entre deux variables:


La variable dpendante (VD) toujours est continue
La variable indpendante (VI) est continue ou dichotomique/muette (avec des
valeurs de 0 ou 1)
Par dfaut, le lien test en deux variables continues est linaire (mais certaines
mthode permettent de tester des relations non-linaires)
La rgression simple avec une variable dichotomique est quivalente au test t.
La rgression simple avec deux variables continues est similaire la corrlation.
Le principe gnral est destimer une droite qui passe au mieux au travers de
toutes les donnes
Paramtres estims:
Intercepte: scores sur la VD pour les personnes qui ont 0 sur la VI;
Pente: progression moyenne sur la VD pour une valeur de 1 sur la VI;
Rsidus: partie de la variance non explique par la le lien entre VI et VD.
http://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.html

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

La rgression simple (RLS): principe


Relation linaire
entre variables
continues
Relation entre
une variable
dichotomique et
une continue

Relation nonlinaire entre


variables
continues

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

RLS Modle et hypothses nulles

Equation dans la population:

Yi = 0 + 1*xi + i

Equation dans lchantillon

Yi = b0 + b1*xi + ri

Hypothses nulles
Pour lintercepte:
H0 : 0 = 0
H1 : 0 0
Pour la pente:
H0 : 1 = 0
H1 : 1 0

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

RLS Postulats et rsidus

Postulats:
Indpendance des observations
Normalit des rsidus

Graphs faire :
Histogramme des
rsidus. On attends la
normalit.
Scatterplot valeurs
prdites vs. rsidus .
Homognit de la
variance

Valeurs extrmes : surveiller les valeurs


extrmes, avec un grand rsidu, qui
peut influencer lestimation)

Homognit de la variance
Pas de valeurs extrmes

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

RLS Paramtres estims

Intercepte
Taille deffet: b0
Significativit: teste avec un test t.

Pente

R2: Proportion de variance explique


Paramtre standardis par nature.
Varie entre 0 et 1. Sexprimer aussi en %
Significativit teste avec un test F.

Taille deffet: bx ou Betax


(standardis)
Significativit: teste avec un test t.

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

Rgression et causalit

Le sens VI et VD est motiv thoriquement.


Ce sens na que trs peu dincidence sur lanalyse statistique.
La rgression ne dmontre JAMAIS la causalit.
La causalit se dmontre/contrle mthodologiquement; trois points cls:
1. Lien entre deux variable
2. Antriorit temporelle de la cause
3. Exclusion de tous les autres facteurs potentiels
Horrible mais pourtant vrai :

Aucune analyse statistique


ne peut dmontrer la causalit

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

10

Rappels Principe de la RLS Postulats Paramtres Causalit RLM

Rgression Linaire Multiple (RLM)

Point communs avec la RLS


Mme principe, mme estimation.
Mmes postulats, mme diagnostique.

Points spcifiques:
Plus de paramtres estimes
Equation avec plusieurs pentes

Yi = 0 + 1*xi + 2*xi + + i
Espace en n dimension au lieu de 2
Les estimations des pentes ne sont plus
directement analogues la corrlation
Attention la multi-colinarit.
Vrifier la tolrance (= 1 R2).
Doit tre suprieure .10.
http://la-dimension4.com/Hyperplans.html

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

11

Lectures
Field, A. (2007). Discovering Statistics Using SPSS. SAGE
Publications Ltd.
Chapitre 5 Exploring assumptions, pp. 131-136
Chapitre 6 Correlation, pp. 166-172
Chapitre 7 Regression, pp. 197-209

Videos Qualtrics:
http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PL
FF2F7C1E49A04697

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 2, dia.

12

Rgression Thmes avancs


Guillaume Frst
guillaume.fuerst@unine.ch

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Infrence vue densemble des tests


Nom du test /
Distribution pour le
Analyse statistique test de significativt
Degr de libert
Chi carr
Nb de catgorie -1
2
Test t
(ng1+ng2) - 2
t
ANOVA
ddl1: Ng-1, ddl2: n-Ng
F
Corrlation
N2
t

Indice de la
taille d'effet
Cohens w
Cohens d
2
r ou r2

Exemple des formules pour le test t :

http://wiki.opossem.org/index.php?title=Statistical_distributions

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

14

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Taille deffet et significativit en rgression

Rappel pour la corrlation


T

Pour lintercepte en RLS:


T

Pour la pente en RLS:

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

15

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

R2 et R2 ajust

Le R2 reprsente la taille deffet totale, la variance explique de Y


R2 = 1 -

Le test F permet de tester si le R2


est diffrent de 0:
F=

dl1: p-1, ddl2: n-p

R2 ajust:
Permet de prendre en compte:
La taille dchantillon (n)
Le nombre de paramtre dans le modle (p)

http://en.wikipedia.org/wiki/F-distribution

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

16

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Intervalle de confiance: principe

Caractristiques gnrales de lIC :


LIC permet destimer un intervalle dans lequel se trouve probablement la
vraie valeur de la population
LIC dpend de lerreur standard dun paramtre, lerreur destimation.
Plus lchantillon (n) est grand, plus petite sera lerreur destimation
Plus la taille de lchantillon (n) est grande, plus lIC sera troit.
Plus lIC est troit, plus nous avons confiance que lestimation ponctuelle est
proche de la vraie valeur de la population.
IC(95%) = [limit infrieure; limite suprieure]
Limite infrieure=
point estim du paramtre Quantile de la loi t (n-p) * Erreur standard du paramtre

Limite suprieure=
point estim du paramtre + Quantile de la loi t (n-p) * Erreur standard du paramtre

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

17

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Exemple paramtres estims

Intercepte

b0 0
t(108) 0; p 1
IC(95%)=[-0.27; 0.27]

Pente de Generation

b1 (brute) = 0.76
b1 (standardise) = 0.43
t(108)= 4.8; p < .001
IC(95%)=[-0.45; 1.08]

R2

R2 = 0.17
R2 ajust = 0.16
F(2,108)=11.63; p < .001

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

18

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Dtecter les valeurs extrmes

Graphiques exploratoires avant lanalyse (insuffisant pour la RLM)

Taille des rsidus (mais ce nest pas la meilleure mthode)

Distance de Cook
Reprsente linfluence
dune observation sur
lestimation. Doit tre
infrieure 1 pour toutes
les observations.

Distance de Mahalanobis
Distance qui reprsente
lloignement la
moyenne. Voir les
recommandations cicontre pour les valeurs
limites.

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

19

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Exemple Valeurs extrmes

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

20

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Normalit

Utiliser avant tout les graphiques

Skewness et Kurtosis
Estimations infrieures |1|
Estimation/erreur standard < 2

Tests de normalit (Kolmogorov-Smirnov)


Permet de savoir si notre distribution est
significativement diffrente dune normale
On veut une p-valeur non-significative.

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

21

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Transformations

On distingue:
Transformation linaire: ne modifie pas la
distribution (p. ex. score z)
Transformation non-linaire: modifie la
distribution
Souvent utilis pour corriger lasymtrie

Transformation log
Transformation racine carr

Aprs transformation, lquation nest plus la


mme. Par exemple:
Log(Y) = b0 + b1*xi
Y = Exp(b0) + Exp(b1*xi )
La relation entre les variables nest plus linaire

Voir aussi
Field (2007), chap. 5, pp. 153-156
http://stattrek.com/regression/linea
r-transformation.aspx

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

22

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Transformations normalit univarie

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

23

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

Transformations relation non-linaire

http://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-data

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

24

Intro Fidlit Infrence Valeurs extrmes Normalit Transformations

http://www3.nd.edu/~rwilliam/stats2/l61.pdf

Transformations relation non-linaire

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 3, dia.

25

Variable muette cas simple classique

Contexte:
Une variable continue (VD)
Une variable nominale 2 modalits (VI)
=> Il sagit du cas typique pour un test t
ou une ANOVA

Mais on peut aussi faire :


Une corrlation bisrielle de point
Et, bien sr, une rgression!

Principe de base: On recode la variable nominale:


On attribue la valeur de 0 un groupe
Et la valeur de 1 lautre groupe

variable variable
originale recode
oui
1
oui
1
oui
1
non
0
oui
1

Voir aussi A. Field, pp. 253-256


Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 4, dia.

26

Variable muette exemple

Corrlation et rgression

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 4, dia.

27

Variable muette exemple

Test t et ANOVA

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 4, dia.

28

Rgression hirarchique principe

Appele aussi rgression stewipse ou par tape.


A ne pas confondre avec modle hirarchique (multi-niveaux).
Principe: on ne met pas tous les prdicteurs dun seul coup;
on entre les prdicteurs par tapes dans le modle de rgression :
soit par importance thorique (cf. exemple ci-dessous);
soit par importance statistique (e.g., prdicteurs les plus forts en premiers).
Intrt: permet de donner une priorit thorique certains prdicteurs.
Utile seulement si les prdicteurs corrlent.

Exemple de stratgie guide par la thorie:


Entrer dabord les variables contrles
Entrer ensuite les prdicteurs principaux, ventuellement avec interaction
Entrer ventuellement dautre prdicteurs pour voir si on peut augmenter le R2

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 4, dia.

29

Tester une diffrence de R2

Pour tester la pertinence de lajout de prdicteurs supplmentaires, on compare les


modles (variance explique).
Utile si plusieurs prdicteurs sont ajouts (pour lajout dun seul prdicteur, le test de
diffrence de R2 est redondant avec le test de la pente).
La comparaison peut se faire:
Avec le R2 ajust : si le R2 ajust ne change pas ou trs peu, on peut conclure
que dans lensemble les prdicteurs ne sont pas utiles
Avec un test de diffrence de R2 : si le rsultat du test est significatif, on peut
conclure que lajout de prdicteur permet vraiment damliorer la quantit de
variance.

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 4, dia.

30

Tester une diffrence de R2

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 4, dia.

31

Interaction principe et test

Il y a interaction lorsque que leffet dun prdicteur sur une VD est modifi par un
autre prdicteur.
Les 2 deux effets principaux des prdicteurs sont bien dissociables de linteraction
Exemples dinteraction
Vitesse et alcool au volant
Pilule et cigarette
Motivation et rcompense

Marche suivre pour


tester une interaction
Centrer ou standardiser
les 2 prdicteurs
Crer une nouvelle variable,
produit de ces 2 prdicteurs
Tester les 3 effets en RLM

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 4, dia.

32

Modration et mdiation
Guillaume Frst
guillaume.fuerst@unine.ch

RLM: vue densemble

Analyses exploratoires et descriptives

(sance 1-3)
Histogramme (et boxplot)
Scatterplot
Statistiques descriptives (moyenne, carttype, min. et max., asymtrie, aplatissement)
(test de normalit)

Estimation du modle (sance 2 et 3)

Introduire les bonnes variables


vent. crer une variable d'interaction
voir les options dans cours sance 3

Diagnostic (sance 2 et 3)

Normalit des rsidus (graphs, skewness,


kurtosis, test de normalit)
Homognit de la variance (graph)
Valeurs extrmes (Cook, Mahalanobis)

Interprtation (sance 2-4)

Quels prdicteurs sont significatifs?


Taille d'effet des prdicteurs significatifs
Quel est le prdicteur le plus important?
Variance totale explique (R2)

A faire ventuelle en plus

R-estimation du modle aprs


transformation (sance 4)

R-estimation du modle sans valeurs


extrmes (sance 3-5)
Comparaison de modle (si rgression
hirarchique) (sance 4)

Pour rsoudre un problme de rsidus


Et/ou pour tester un effet non-linaire

Diffrence de R2
Test de diffrence de R2

Graph dinteraction (sance 5)


Estimation de plusieurs modles pour tester
un effet de mdiation (sance 5)

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 5, dia.

34

Mdiation et interaction

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 4, dia.

35

Interaction principe et test

Il y a interaction lorsque que leffet dun prdicteur sur une VD est modifi par un
autre prdicteur.
Les 2 deux effets principaux des prdicteurs sont bien dissociables de linteraction
Exemples dinteraction
Vitesse et alcool au volant
Pilule et cigarette
Motivation et rcompense

Marche suivre pour


tester une interaction
Centrer ou standardiser
les 2 prdicteurs
Crer une nouvelle variable,
produit de ces 2 prdicteurs
Tester les 3 effets en RLM

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 5, dia.

36

Interaction Gaph. 1

Intercepte:
b0 = 1.54

Pentes
standardises:

bExtraversion = -0.41
bNeuroticisme = 0.31
bInteraction = -0.16

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 5, dia.

37

Interaction Graph. 2

Feuille Excel (rpertoire sance 5 -> analyses)


interaction_2-way_standardised.xls
Permet de faire le graph dinteraction partir des
coefficients sdandardiss

high reprsente une personne


avec un score dun cart-type
suprieur la moyenne (score de +1).
low reprsente une personne avec
un score dun cart-type infrieur la
moyenne (score de -1).

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 5, dia.

38

Mdiation principe

Il y a mdiation lorsque la relation entre deux variables X et Y est explique par une
troisime variable M.

Exemples de mdiation
Motivation -> Temps pass -> Performance
Stress -> Rumination -> Dpression

Pour tester une mdiation,


il faut estimer plusieurs modles:
1.
2.
3.
4.

Relation entre variable X et Y


Relation entre M et Y
Relation entre X et M
Prdiction de Y par M et X

Plusieurs issues possibles


Les conditions minimales ne sont pas
remplies (cf. 3 premiers points ci-contre)
Mdiation partielle (les deux effets de X et
M sur Y sont significatif au point 4)
Mdiation totale (seul leffet de M est
significatif au point 4)

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 5, dia.

39

Mdiation exemple
Vocabulaire
Intelligence

Fluidit

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 5, dia.

40

Mdiation exemple
Vocabulaire
Intelligence

Fluidit

Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 5, dia.

41

Mdiation test de Sobel

Permet de tester la significativit de leffet indirect

http://www.danielsoper.com/statcalc3/calc.aspx?id=31
Rgression Linaire Multiple (RLM2013) Guillaume Frst, Universit de Neuchtel, IPTO Automne 2013 Sance 5, dia.

42