Vous êtes sur la page 1sur 62

1

DEUXIEME PARTIE
Attention, il y a beaucoup de notions dans ce cours.

Elles seront illustrées en TP, donc n’hésitez pas à


revenir sur le cours après avoir fait les TP.

Essayez cependant de comprendre un maximum avant les TP.

voir poly table des tests 2


2

VII. LES ANOVA


VII. LES ANOVA 3

1) l’ANOVA
Problème : comparer les moyennes de plus de deux groupes
• Exemple : comparer les moyennes des groupes A, B et C
• Comme dit précédemment (cf partie sur le khi2), on ne peut pas répéter les
comparaisons en faisant le test de Student sur toutes les combinaisons de groupes
 En effet, si on fait les 3 tests de Student A contre B, A contre C et B contre C,
on obtient des p-values trop basses (car le risque α change).
 La fonction p.adjust permet de pallier à ce problème
 Néanmoins, il existe une solution plus élégante et plus puissante : l’ANOVA

L’ANOVA permet de comparer un nombre quelconque de moyennes en un test


• ANOVA est l’acronyme d’ANalysis Of VAriance ; mais il s’agit bien d’un test sur les
moyennes.
VII. LES ANOVA 4

1) l’ANOVA
Principe de l’ANOVA : explication graphique

Les flèches correspondent


aux carrés des écarts
Variable mesurée (x)

Moyenne générale :

𝑿
Variance générale, ou
Variance totale
Calculée comme d’habitude :
𝑆𝐶𝐸𝑇
෢ =
σ²
𝑁−1
SCET est la somme des
carrés des écarts totale,
et on a ddlT = N-1
(N est l’effectif total)
𝐶 𝑛𝑓
2

𝐒𝐂𝐄𝐓 = ෍ ෍ 𝑥𝑓,𝑖 − 𝑿
Facteur discret (4 niveaux)
𝑓=𝐴 𝑖=1
VII. LES ANOVA 5

1) l’ANOVA
Moyenne de
Principe de l’ANOVA : explication graphique chaque échantillon :
𝒙𝑹𝑨 , 𝒙𝑹𝑩 , 𝒙𝑹𝑪 , 𝒙𝑹𝑫
Les flèches correspondent
aux carrés des écarts
On peut calculer la variance
dans chaque échantillon :
Variable mesurée (x)

෣ 𝑆𝐶𝐸 ෣ 𝑆𝐶𝐸𝑅𝐵
2
𝜎𝑅𝐴 = 𝑛 𝑅𝐴−1
𝑅𝐴
, 𝜎 2
𝑅𝐵 = 𝑛 −1
,𝑅𝐵

෣ 𝑆𝐶𝐸𝑅𝐶 ෣ 𝑆𝐶𝐸𝑅𝐷
2
𝜎𝑅𝐶 =
𝑛𝑅𝐶 −1
, 2
𝜎𝑅𝐷 =
𝑛𝑅𝐷 −1

En combinant le tout, on obtient


une variance résiduelle :
𝑛𝑥
2
Avec SCER = 𝑆𝐶𝐸𝑅𝐴 + 𝑆𝐶𝐸𝑅𝐵 +
𝑺𝑪𝑬𝑹 = ෍ xf,𝑖 − 𝒙𝒇 𝑆𝐶𝐸𝑅𝐶 + 𝑆𝐶𝐸𝑅𝐷 = somme des
𝑖=1 carrés résiduelle, avec les ddlR
= N – niv = 𝑛𝑅𝐴 − 1 + 𝑛𝑅𝐵 − 1 +
𝑛𝑅𝐶 − 1 +𝑛𝑅𝐷 − 1
(niv est le nombre de niveau du
Facteur discret (4 niveaux)
facteur)
VII. LES ANOVA 6

1) l’ANOVA
Principe de l’ANOVA : explication graphique
Moyenne de
Les flèches correspondent chaque échantillon :
𝒙𝑹𝑨 , 𝒙𝑹𝑩 , 𝒙𝑹𝑪 , 𝒙𝑹𝑫
aux carrés des écarts
Moyenne générale :
Variable mesurée (x)


𝑿
On peut finalement calculer
une variance entre les
moyennes des échantillons et
la moyenne générale : c’est la
variance liée au facteur.

On a alors une SCEF et des


ddlF = niv – 1
(niv est le nombre de niveau
du facteur)
𝐶
Facteur discret (4 niveaux) 2

𝐒𝐂𝐄𝐅 = ෍ 𝑛𝑓 𝒙𝒇 − 𝑿
𝑓=𝐴
VII. LES ANOVA 7

1) l’ANOVA
Avec ce qui précède, on peut démontrer deux théorèmes
1. Les SCE et les ddl sont additifs
Explication « visuelle » :
pour aller d’un point à la
moyenne globale, on peut :
 soit y aller directement,
 soit aller du point à la
Variable mesurée (x)

moyenne du groupe puis


de la moyenne du groupe
à la moyenne globale

Ces flèches correspondant à


des SCE (donc des
grandeurs au carré), c’est
analogue au théorème de
Pythagore

Facteur discret (4 niveaux)


VII. LES ANOVA 8

1) l’ANOVA
Avec ce qui précède, on peut démontrer deux théorèmes
1. Les SCE et les ddl sont additifs
• SCET = SCEF + SCER
• ddlT = ddlF + ddlR
VII. LES ANOVA 9

1) l’ANOVA
Additivité des SCE et des ddl
• L’ANOVA consiste donc à analyser la variance (ANalysis Of VAriance), c’est à dire à
décrire les relations entre les sources de dispersion : qu’est-ce qui est dû au
facteur, au hasard (cette dernière source étant appelée résidu) ?

SCET = SCER + SCEfacteur

Dispersion totale Dispersion des valeurs Dispersion des


des données par autour de leur moyenne moyennes de chaque
rapport à la moyenne (de chaque facteur) groupe par rapport à la
générale moyenne générale
Dispersion résiduelle
Dispersion factorielle
Dispersion intra-colonne
ou intra-groupe Dispersion inter-colonne
ou inter-groupe

Variance totale = Variance résiduelle + Variance factorielle


Moyenne des Variance des
variances moyennes
VII. LES ANOVA 10

1) l’ANOVA
Additivité des SCE et des ddl
• L’ANOVA consiste donc à analyser la variance (ANalysis Of VAriance), c’est à dire à
décrire les relations entre les sources de dispersion : qu’est-ce qui est dû au
facteur, au hasard (cette dernière source étant appelée résidu) ?

SCET = SCER + SCEfacteur


𝐹 𝑛𝑓 𝐹 𝑛𝑓 𝐹
2 2 2
෍ ෍ 𝑦𝑓,𝑖 − 𝑦LJ ෍ ෍ 𝑦𝑓,𝑖 − 𝑦LJ𝑓 ෍ 𝑛𝑓 𝑦LJ𝑓 − 𝑦LJ
𝑓=1 𝑖=1 𝑓=1 𝑖=1 𝑓=1

Démonstration (facultatif):
𝐹 𝑛𝑓 𝐹 𝑛𝑓
2 2
෍ ෍ 𝑦𝑓,𝑖 − 𝑦LJ = ෍ ෍ 𝑦𝑓,𝑖 − 𝑦LJ𝑓 + 𝑦LJ𝑓 − 𝑦LJ
𝑓=1 𝑖=1 𝑓=1 𝑖=1
𝐹 𝑛𝑓 𝐹 𝑛𝑓 𝐹 𝑛𝑓
2 2
= ෍ ෍ 𝑦𝑓,𝑖 − 𝑦LJ𝑓 + ෍ ෍ 𝑦LJ𝑓 − 𝑦LJ + ෍ ෍ 2 𝑦𝑓,𝑖 − 𝑦LJ𝑓 𝑦LJ𝑓 − 𝑦LJ
𝑓=1 𝑖=1 𝑓=1 𝑖=1 𝑓=1 𝑖=1
2 =0
σ𝐹 LJ
𝑓=1 𝑛𝑓 𝑦LJ𝑓 −𝑦
VII. LES ANOVA 11

1) l’ANOVA
Avec ce qui précède, on peut démontrer deux théorèmes
1. Les SCE et les ddl sont additifs
• SCET = SCEF + SCER
• ddlT = ddlF + ddlR

2. Relations entre les variances sous H0


• Si on pose H0 et H1 …
 H0 : µ1 = µ2 = µ3 = µ4 = …
 H1 : au moins une des moyennes diffère des autres
𝜎𝐹2
• … alors sous H0 𝜎𝐹2 ≤ 𝜎𝑅2 , soit ൗ𝜎2 ≤ 1 C’est en réalité la véritable
𝑅
෢2
𝜎 hypothèse nulle
• et donc ൘෢2 suit une loi de Fisher unilatérale
𝐹
𝜎𝑅
• La loi de Fisher utilise deux ddl : ddlF et ddlR ; l’ANOVA est un test unilatéral de
comparaison de variance de Fisher avec : 𝜎𝐹2
𝐻0 : ൘ 2 = 1
𝜎𝑅
𝜎𝐹2
𝐻1 : ൘ 2 > 1
𝜎𝑅

• On peut en déduire une table d’ANOVA (question typique d’examen)


VII. LES ANOVA 12

1) l’ANOVA
La table d’ANOVA (question typique d’examen)
SCE ddl CM
F p-value
(SS dans R) (df dans R) (MS dans R)
ddlF = 𝑆𝐶𝐸𝐹ൗ 𝐶𝑀𝐹
Facteur SCEF
niveau - 1 𝑑𝑑𝑙𝐹 = 𝐶𝑀𝐹 𝐹=
𝐶𝑀𝑅
p

ddlR = 𝑆𝐶𝐸𝑅ൗ
Résidu SCER
N - niveau 𝑑𝑑𝑙𝑅 = 𝐶𝑀𝑅
SCET = ddlT =
N–1= 𝑆𝐶𝐸𝑇ൗ
Total SCEF 𝑑𝑑𝑙 𝑇 = 𝐶𝑀𝑇
+ SCER ddlF + ddlR

Plus CMR est petit, plus F est grand


La dernière ligne est la somme des Plus F est grand, plus le test sera
précédentes pour les SCE et les ddl, significatif facilement, donc puissant
mais pas pour la variance Donc : plus il y a d’effectif (N grand) et
moins il y a de variabilité (SCER petit),
plus le test sera puissant (car CMR petit)

• Les variances sont appelées « carré moyen » (mean square) dans une ANOVA, ce
qui n’est pas très correct mais traditionnel …
VII. LES ANOVA 13

1) L’ANOVA
Fiche de synthèse
• On a plusieurs échantillons dont on souhaite comparer les moyennes
 Basé sur une décomposition de la variance permettant de construire une table
ANOVA, le test est un test de Fisher unilatéral
 2 degrés de liberté : niv – 1 et N – niv (niv est le nombre de niveaux de
facteurs, N est l’effectif total)

• Conditions
 Les données doivent être indépendantes (sinon, faire un modèle mixte =
ANOVA en mesure répétée)
 OK si n ≥ 30 dans chaque niveau, sinon, il faut que la population mère soit
gaussienne (en fait, normalité des résidus) et les variances égales
 Il existe une variante de l’ANOVA si n < 30 dans au moins un niveau et qu’on
a des variances différentes (ANOVA de Welsh, qui modifie les degrés de
liberté ; ceux-ci ne sont alors plus forcément des entiers)

• Hypothèses
 H0 : µ1 = µ2 = µ3 = µ4 = …
 H1 : au moins une des moyennes diffère des autres
 En réalité, H1 inclut aussi la possibilité qu’une ou plusieurs moyennes soient
différentes d’un autre groupe d’une ou plusieurs moyennes (ou contraste)
VII. LES ANOVA 14

1) L’ANOVA
L’ANOVA à un facteur
• Commande R : aov La fonction s’appelle aov et emploie une formule ;
> aov(mesures~facteur)
Call:
son résultat est décevant
aov(formula = mesures ~ facteur)

Terms:
facteur Residuals
Sum of Squares 190.3783 128.6519
Il faut utiliser la fonction summary
Deg. of Freedom 2 117
sur le résultat de aov pour avoir la
Residual standard error: 1.048613 table.
Estimated effects may be unbalanced R ne met pas la ligne Total, et place
> summary(aov(mesures~facteur))
Df Sum Sq Mean Sq F value Pr(>F) les ddl avant les SCE.
facteur 2 190.4 95.19 86.57 <2e-16 ***
Residuals 117 128.7 1.10
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Y a-t-il un effet du facteur ?


Combien de niveau dans celui-ci ?
Quel est l’effectif total ?
Quel est la SCE totale ?
VII. LES ANOVA 15

2) En cas d’ANOVA significative : d’où vient la différence ?


Les tests post-hocs
• On peut construire des tests de Student pour comparer deux par deux les
moyennes, en remplaçant la variance de l’erreur standard du test par le CMR de la
table ANOVA.
 C’est l’approche d’un test appelé LSD de Fisher
 Ce test est à proscrire car il ne compense pas les p-values suite aux
comparaisons multiples.

• Sur la base du LSD de Fisher on bâtit des tests en utilisant des loi de Student
modifiées de diverses façons pour compenser les comparaisons multiples, ce qui
donne plusieurs types de tests.
 Le test de Tukey TukeyHSD(aov(mesures~facteur)) est puissant mais peu
robuste, notamment quand les effectifs ne sont pas égaux.
 Le test de Scheffe ScheffeTest(aov(mesures~facteur)) est moins puissant, mais
il est plus robuste (il est dans le package DescTools).
 Le test de Dunnett DunnettTest(mesures~as.factor(facteur)) sert à comparer à
un groupe témoin tous les autres groupes ; il est idéal si vous êtes dans ce cas
(il est dans le package DescTools).
 Il existe de nombreux autres tests …
VII. LES ANOVA 16

3) L’ANOVA à plusieurs facteurs


Il est possible de tester plusieurs facteurs à la fois
• Dans ce cas on teste en même temps l’effet de plusieurs facteurs sur le même jeu
de données. Chacun sera associé à une p-value.
 C’est une approche très puissante (plus que de tester les facteurs séparément)
et qui fait tout l’intérêt de l’ANOVA.
 En effet, la SCET ne change pas, donc si on ajoute des facteurs, donc d’autres
SCEF, alors la SCER ne peut que diminuer …
 … et donc comme elle est au dénominateur du F celui-ci va augmenter, ce qui
rend le test plus puissant.
 Exception : si le SCE du facteur est très faible, la modification des ddl rend le
test moins sensible donc il ne faut pas non plus mettre n’importe quel facteur

• On appelle cellule toutes les sous-catégories créées par le croisement des facteurs
 S’il y a deux facteurs ayant respectivement i et j niveaux, alors il y a i*j cellules
 Ex : 3 classes d’âge, 2 sexes = 6 cellules (6 groupes)
 Pour calculer l’interaction (voir plus loin), il est nécessaire d’avoir au moins
deux mesures dans chaque cellule, sinon le calcul risque d’échouer (ne pas
abuser du fait que R peut parfois se débrouiller dans ce cas)
 Les individus doivent êtres répartis aléatoirement dans les cellules, sinon des
problèmes peuvent apparaitre (paradoxe de Simpson)
VII. LES ANOVA 17

3) L’ANOVA à plusieurs facteurs


Il est possible de tester plusieurs facteurs à la fois

On dispose d’observations de Y pour


plusieurs modalités de plusieurs
variables qualitatives, les facteurs

Décomposition de la variance totale


entre la variance résiduelle et la
variance liée aux facteurs (et celle liée
à leurs éventuelles interactions)

A B C A B C
a b
Exemple ici :
Facteur 1 à 3 niveaux A, B et C
Facteur 2 à 2 niveaux a et b
VII. LES ANOVA
• Effets des facteurs et de 18
B : âge
3) L’ANOVA à plusieurs facteurs 120
Les interactions
• Lorsqu’on met deux facteurs dans une ANOVA, un nouveau 85 facteur apparait : c’est
l’interaction entre ces facteurs. Elle aussi est associée à une p-value.

Var : Rhytme cardiaque


 Les ddl correspondant sont le produit de ceux des deux facteurs.
50
 Illustration graphique : on compare 2 doses de médicaments (les courbes
A : médicament
A : médicament
Jeune Adulte Âgé
des facteurs
Effets et de et
des facteurs l’interaction
de l’interaction
rouge et bleue) selon l’âge (en abscisse)
Dose forte
Dose forte
Pas d’effet
e Dose faible
Dose faible
120 120 120 120

85 85 85 85

50 50 50 50
ne Jeune
Adulte Adulte
Âgé Âgé Jeune Jeune
Adulte Adulte
Âgé Âgé
Jeune Adulte Âgé
Pas
Pas d’effet
Pas d’effet d’effet Effet
Effet deEffet
A de A
médicament Effet
Effet de
âgeB

120 120 120

© Yves Desdevises
Dose faible
VII. LES ANOVA 19
120
3) L’ANOVA à plusieurs facteurs
85 interactions
Les
• Lorsqu’on met deux facteurs dans une ANOVA, un nouveau facteur apparait : c’est
l’interaction entre ces facteurs. Elle aussi est associée à une p-value.
50  Les ddl correspondant sont le produit de ceux des deux facteurs.
Jeune A :Âgé
Adultegraphique
 Illustration :Aon: médicament
médicamentcompare 2Bdoses B médicaments
: âge de : âge (les courbes
Dose Dose
forte forte
Effet et
rouge debleue)
A selon l’âge (en abscisse)
Dose faible
Dose faible Var : Rhytme cardiaque
Var : Rhytme cardiaque

120 120 120 120 120

85 85 85 85 85

50 50 50 50 50
Jeune Adulte Âgé
Jeune Jeune
Adulte Adulte
Âgé Âgé Jeune Jeune
Adulte Adulte
Âgé
Effet
Effetde
deAl’âge
et B Effet de l’âge et interaction Interaction
Interaction et pas et
Interaction
Interaction
Interaction
avec le+facteur
+médicament
effet de effet
A de A
et des médicaments d’effet d’effet
de A et de
âge-médicament B A et


La présence •
d’une interaction rend complexe
Exemple : perturbateur endocrinien ciblant les hormones féminines en interaction
avec l’effet sexe
La présence d’une interaction rend complexe l’étud
© Yves Desdevises de des
de l’effet l’effet des facteurs
facteurs individuels
individuels
VII. LES ANOVA 20

3) L’ANOVA à plusieurs facteurs


Quelques problèmes avec les interactions
• Attention : si les effectifs sont différents dans les cellules (non-souhaitable : risque
de paradoxe de Simpson et perte de puissance), il y a plusieurs façon de calculer
les SCE.
• Les différentes méthodes ne font pas consensus, car elles ont toutes des défauts.
• En outre, s’il y a plus de 2 facteurs les interactions deviennent nombreuses et
compliquées à comprendre … Le nombre de facteurs et d’interactions est limité par
l’effectif (il faut assez de ddl)

• Commande R : summary(aov(mesure~facteur1*facteur2))
• On peut aussi mettre summary(aov(mesure~facteur1+facteur2+facteur1:facteur2))
VII. LES ANOVA 21

3) L’ANOVA à plusieurs facteurs


Table d’une ANOVA à plusieurs facteurs
• Exemple : nombre d’acariens selon le type de matelas et de sol

Sum Sq Df Mean Sq F value Pr(>F)

sol 99,75 2 49,875 21,375 0,0001109 ***

matelas 258,833 3 86,278 36,9762 2,43E-06 ***

interaction 49,917 6 8,319 3,5655 0,0289934 *

Residuals 28 12 2,333

Total 436,5 23 18,97826087

ddl des facteurs = Total =


niveaux - 1 N-1

ddl interaction =
produit des ddl des facteurs
VII. LES ANOVA 22

3) L’ANOVA à plusieurs facteurs


Remarques complémentaires
• Il existe des ANOVA encore plus complexes : facteurs emboitées, facteurs
aléatoires … Elles permettent entre autres de gérer les situations appariées
(ANOVA en mesures répétées = modèle mixte).

• Le test de Student est en fait un cas particulier de l’ANOVA ; on a t² = F, et la p-


value est la même.

• Les ANOVA ayant à la fois des facteur discrets et de facteurs continus sont
appelées ANCOVA (ANalysis of COVAriance).

• ANOVA, ANCOVA et régression (partie suivante) forment le modèle linéaire


général.
23

VIII. LES REGRESSIONS ET LE MODELE


LINEAIRE GENERAL
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 24

1) Régression et corrélation
Qu’est-ce qu’une régression ?
• Dans le cas où le facteur est une variable quantitative, les outils statistiques sont
appelés régression.
 Les régressions peuvent aussi s’employer avec des facteurs quantitatifs
(comme les ANOVA), avoir plusieurs facteurs (régression multiple) et combiner
les deux (ANCOVA).
 Les régressions, en plus d’être des tests statistiques, permettent une approche
de modélisation.
 Enfin, les régressions sont associées à des coefficients de corrélations.

• En fait, les ANOVA et les régressions sont deux façons distinctes de présenter une
même analyse des données. On peut passer de l’un à l’autre dans R. L’ensemble
de ces techniques est appelé modèle linéaire général.

• Le modèle linéaire général peut être modifié pour traiter des mesures pas
forcément quantitatives : c’est le modèle linéaire généralisé.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 25

1) Régression et corrélation
Régression simple
• Lorsque la mesure et le facteur sont tous les deux quantitatifs, on peut représenter
les données sous la forme d’un nuage de point.
• En abscisse, x sera le facteur et en ordonnées, y sera la mesure. Parfois, on est
obligé de choisir arbitrairement qui sera x et qui sera y (exemple : taille et poids).
Y

Ici, il semblerait y avoir une relation linéaire,


c’est-à-dire sous la forme y = ax + b

X
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 26

1) Régression et corrélation
Régression simple
• Le but de la régression est donc de faire passer au milieu du nuage de point une
droite d’équation 𝑦ො = 𝛽1 ∗ 𝑥 + 𝛽0
 Cette droite va passer par le point de coordonnées 𝑥,ҧ 𝑦ത
 On a 𝑦𝑖 = 𝛽1 ∗ 𝑥𝑖 + 𝛽0 + 𝜀 soit 𝑦𝑖 − 𝑦ෝ𝑖 = ε. Les ε sont appelé résidus et sont les
écarts des points à la droite. Les 𝑦ො sont des estimateurs de y . En fait, par
rapport à la moyenne 𝑦, ത la droite nous donne une information :
distance 𝑦𝑖 − 𝑦ത = 𝑦𝑖 − 𝑦ෝ𝑖 + 𝑦ෝ𝑖 − 𝑦ത = résidu + information donnée par la
droite
 La méthode de calcul (méthode des moindres carrés) consiste à trouver les
valeurs des coefficients β qui minimisent le carré des résidus.
 A l’aide d’un grandeur appelée covariance de x et y, on peut calculer 𝛽1 et en
𝑆𝑃𝐸
déduire 𝛽0 . La covariance est estimée par l’équation 𝜎ෞ 𝑥𝑦 = , où SPE est la
𝑛−1
somme des produits des écarts à la moyenne (x - 𝑥ҧ )(y - 𝑦ത)
 La covariance d’une variable avec elle-même est sa variance.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 27

Régression de Y en X :
Y
• y prévu par la droite : 𝒚ෝ = β0 + β1x
• véritable y : yi = β0 + β1xi + εi
β1 = pente de la droite de régression
β0 = ordonnée à l’origine
𝑦ത
yyii
Écart = résidu = εi
𝑦ෝ𝑖

β0

xxi i 𝑥ҧ X
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 28

Y Le calcul par la méthode des moindres carré


consiste à minimiser le carré des résidus.
Il utilise une grandeur nommée covariance.

Résidus

ei = (yi - ŷ)
yi
yˆ i

xi X
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 29

ATTENTION !!!
La régression de x en y n’est pas directement déduite de de la régression de y en x !!!

Régression de X en Y
X = cY + d Régression de Y en X
Y = aX + b
Hauteur (cm)

Par contre, on a la relation


c * a = R² (cf plus loin)

L. opercule (cm)
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 30

1) Régression et corrélation
Régression simple
• L’intérêt est de :
 Modéliser la relation entre x et y. Cela permet de faire des prédictions, mais
attention aux extrapolations !!!
 Tester si cette relation est significative.
• Pour tester si la relation est significative, on peut déterminer une erreur standard
pour chaque coefficient ; la valeur 𝛽ൗ𝑒𝑟𝑟𝑒𝑢𝑟 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 suit une loi de Student et permet
de tester l’hypothèse nulle que ce coefficient est en fait égal à 0.

• On peut aussi normaliser la covariance en la divisant par le produit des écart type,
ce qui en fait une grandeur sans unité nommée coefficient de corrélation R.
 Il s’agit d’une corrélation linéaire (pour une relation non-linéaire parfaite, on
peut avoir R =0). R est toujours compris entre -1 et 1.
 CORRÉLATION N’EST PAS CAUSALITÉ !!!
 R est positif = corrélation positive = x et y sont proportionnels
 R est négatif = corrélation négative = x et y sont inversement proportionnels
• R peut être testé contre l’hypothèse nulle qu’il vaut 0. S’il n’y a qu’un seul facteur,
on obtient la même p-value que le test de β1
• R² est la proportion des variations de y expliquée par x (on parle de pourcentage de
variance commune). Cela mesure à quel point le modèle décrit bien les données,
qu’il soit significatif ou non. (Question d’examen typique)
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 31

1) Régression et corrélation
Attention : la droite de régression est un outils qui peut parfois induire en erreur

Franz, H., Messerli, M.D.


N Engl J Med 2012; 367: 1562-1564
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 32

1) Régression et corrélation
Fiche de synthèse
• Étudie la relation linéaire entre deux variables quantitatives
 Fait passer au milieu du nuage de point une droite d’équation 𝑦ො = 𝛽1 ∗ 𝑥 + 𝛽0
 On a y = 𝛽1 ∗ 𝑥 + 𝛽0 + 𝜀 soit y − 𝑦ො = ε. Les ε sont appelé résidus et sont les
écarts des points à la droite.

• Conditions
 Chaque couple de point x/y doit être indépendant des autres.
 La relation doit être linéaire.
 Les résidus doivent être distribués de façon gaussienne (ce qui est lié à la
normalité de x et y).
 Les résidus doivent avoir un écart moyen à la droite constant (c’est-à-dire une
variance constante relativement à la moyenne = homoscédasticité).
 Attention aux régressions artificielles crées par l’effet levier

• Hypothèses pour chaque coefficient β


 H0 : β = 0 (revient à dire qu’il n’y a pas de relation linéaire entre x et y)
 H1 : β ≠ 0
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 33

1) Régression et corrélation
• Commande R : lm et cor.test
La fonction s’appelle lm et emploie une formule ;
> reg=lm(mesures~facteur)
> summary(reg) son résultat est décevant, on emploie summary

Call: Les coefficients sont donnés avec


lm(formula = mesures ~ facteur)
le test correspondant. S’ils ne sont
Residuals: pas significatifs, on considère qu’ils
Min 1Q Median 3Q Max sont égaux à zéro.
-3.4040 -0.0612 0.3545 0.9468 2.5754

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.1939 1.2915 0.924 0.382
facteur 2.9317 0.2081 14.085 6.27e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.891 on 8 degrees of freedom


Multiple R-squared: 0.9612, Adjusted R-squared: 0.9564
F-statistic: 198.4 on 1 and 8 DF, p-value: 6.272e-07
Valeur et test du R²
On verra plus tard ce
qu’est le R² ajusté
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 34

1) Régression et corrélation
Vérification de la régression : analyse graphique des résidus >plot(reg)
Moyenne
centrée sur 0

Test graphique de
la normalité des
résidus (qq-plot)

Constance de la
variance des
résidus (vérifie
aussi la linéarité)
Test de l’effet levier
(importance
excessive d’un
point) par la
distance de Cook
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 35

1) Régression et corrélation
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 36

1) Régression et corrélation
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 37

1) Régression et corrélation
aberrante
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 38

1) Régression et corrélation
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 39

1) Régression et corrélation

Intervalle de confiance : intervalle


dans lequel la droite de régression
va se situer avec une probabilité 1 -
α si on ajoute une nouvelle donnée
au jeu de données

Intervalle de prédiction : intervalle


dans lequel la nouvelle donnée va
se situer avec une probabilité 1 - α

Sous R
#predict avec l’argument interval
pred=predict(model,data.frame(x),interval="confidence" ou "prediction")

#Pour les représenter graphiquement sur le plot


matlines(x,pred)
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 40

2) Régression et ANOVA
• La régression et l’ANOVA sont en fait liées

SCET SCER SCEREG

𝐹 𝑛𝑓 𝐹 𝑛𝑓 𝐹
2 2 2
෍ ෍ 𝑦𝑓,𝑖 − 𝑦LJ ෍ ෍ 𝑦𝑓,𝑖 − 𝑦LJ𝑓 ෍ 𝑛𝑓 𝑦LJ𝑓 − 𝑦LJ
𝑓=1 𝑖=1 𝑓=1 𝑖=1 𝑓=1

SCET = SCER + SCEREG


VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 41

2) Régression et ANOVA

• On peut donc conduire une analyse de variance sur une régression linéaire :

𝐶𝑀𝑟𝑒𝑔
𝐹=
𝐶𝑀𝑟𝑒𝑠𝑖𝑑
où CMreg = SCEreg / ddlreg et CMresid = SCER / (N-1-ddlreg) avec ddlreg = 1 dans le cas
d’une régression simple

𝑆𝐶𝐸𝑅 𝑆𝐶𝐸𝑟𝑒𝑔
 𝑅 2 = 1 − 𝑆𝐶𝐸𝑇 = 𝑆𝐶𝐸𝑇
 La fonction anova(reg) donne la table ANOVA correspondant à une régression
 Donc, le test disant si R² est significatif est en fait un test de Fisher, comme
dans l’ANOVA
 Il y a donc des ANOVA pour des facteurs continus.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 42

2) Régression et ANOVA

Les variables muettes


L’ANOVA présentée précédemment constitue donc aussi une approche de
modélisation statistique où on modélise les données par leurs moyenne :

𝑦LJ𝐶 yA, yB et yC constituent les valeurs 𝑦̰ du


modèle et ses données peuvent s’écrire
𝑦𝑖 = 𝑦̰ + 𝜖𝑖
𝑦LJ

𝑦LJ𝐴 𝑦LJ𝐵

En pratique, les variables qualitatives sont recodées sous la forme de variables


muettes.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 43

2) Régression et ANOVA
Les variables muettes
• Le principe est de définir un groupe contrôle, et de créer des variables qui ne sont
présentes dans la régression que lorsque le niveau correspondant du facteur est
présent ; le reste du temps, elles sont rendues « muettes » (mises à 0)
 Exemple : facteur traitement à 4 niveaux : Faible, Moyen, Fort, Contrôle
Valeurs des variables muettes
Traitement
x1 x2 x3

Faible 1 0 0
Une variable x1/x2/x3
Moyen 0 1 0 pour
Fort 0 0 1
Faible/Moyen/Fort
Contrôle 0 0 0

 Pour x1, x2 et x3 on détermine un coefficient, qui teste si les échantillons


correspondants sont différents du contrôle
• On a y = β1x1 + β2x2 + β3x3 + β0, soit
 y = β0 pour le groupe Contrôle
 y = β1 + β0 pour le groupe Faible ; si β1 est significatif, alors Faible ≠ Contrôle
 y = β2 + β0 pour le groupe Moyen ; si β2 est significatif, alors Moyen ≠ Contrôle
 y = β3 + β0 pour le groupe Fort ; si β3 est significatif, alors Fort ≠ Contrôle
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 44

2) Régression et ANOVA
Interactions et variables muettes
• On reprend l’exemple des acariens en fonctions des matelas/sols
• Peut permettre de résoudre le problème des interactions
• Première hypothèse nulle : β0 = 0, soit absence d’acarien pour sol 1 et matelas 1
• Puis chaque coefficient β significatif indique les acariens ajoutés/retirés

Valeur de y (nombre d’acariens) Représentés par 2 variables muettes


associées aux coefficients β1 et β2

Sol 1 Sol 2 (β1) Sol 3 (β2)

Matelas 1 β0 β0 + β1 β0 + β2

Matelas 2 (β3) β0 + β3 β0 + β3 + β1 + β6 β0 + β3 + β2 + β9

Matelas 3 (β4) β0 + β4 β0 + β4 + β1 + β7 β0 + β4 + β2 + β10

Matelas 4 (β5) β0 + β5 β0 + β5 + β1 + β8 β0 + β5 + β2 + β11

Représentés par 3 variables muettes Les interactions sont représentées


associées aux coefficients β3, β4 et β5 par d’autres coefficients
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 45

2) Régression et ANOVA

Interaction
matelas 2 :
Effet
sol 2
matelas 3

Effet sol 2
Effet
matelas 2
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 46

3) Modèle linéaire général et régression multiple


La régression multiple
• Extension à plusieurs variables
 Dans ce cas on a aussi des interactions, simplement égales au produit des
deux variables
 Chacune des variables et interactions est associée à un coefficient β
 On a par exemple y = β1*x1 + β2*x2 + β3*x1*x2 + β0
 Dans ce cas, il faut prendre le R² ajusté et non le R² de base, et la p-value du
test sur R² est différente de celle du test sur β1
 Il existe aussi des η² (éta carré) qui indiquent la contribution de chaque variable
à la variance expliquée (la somme des η² redonne le R²)

• Notation matricielle : dans ce cas, le calcul est effectué en employant l’algèbre des
matrices, ce qui permet de tout calculer d’un coup : Ŷ = βX, où X est la matrice des
valeurs x (x1, x2, …, xn, une colonne pour chaque facteur) et β (β0, β1, …, βn).

• La régression linéaire multiple permet aussi de faire des régressions non-linéaires


en changeant de variable de façon astucieuse :
 𝑦 = 𝛽0 𝑒 𝛽1 𝑥 devient 𝑌 = 𝛽0′ + 𝛽1 𝑥 avec Y = ln(y) et 𝛽0′ = ln(𝛽0 )
 y = β1*x² + β2*x + β0 devient y = β1*X1 + β2*X2 + β0 avec X1 = x² et X2 = x
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 47

3) Modèle linéaire général et régression multiple


N’oubliez pas le paradoxe de Simpson !!! Les facteurs doivent être indépendants
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 48

3) Modèle linéaire général et régression multiple


L’ANCOVA
Il est aussi possible de combiner des facteurs qualitatifs et quantitatifs: l’ANalyse de
COVAriance (ANCOVA)

Comme dans le cas de l’ANOVA, les variables qualitatives sont recodées sous la
forme de variables muettes.
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 49

3) Modèle linéaire général et régression multiple


La régression multiple
• On peut même bâtir des tests pour comparer deux régressions sur les mêmes
données mais avec plus ou moins de facteurs et/ou d’interactions. Par exemple, si
reg1 est le modèle complet et reg2 le modèle où on retire les interactiosn non
significatives :
 anova(reg1,reg2)
 Si le test n’est pas significatif, il n’y a pas de différence dont on gare le modèle
le plus simple (reg2)
 Ceci permet de vérifier qu’on peut se débarrasser des interactions inutiles (ce
qui peut parfois faire changer le modèle)
50

IX. LE MODELE LINEAIRE GENERALISE


IX. LE MODELE LINEAIRE GENERALISE 51

1) Principe
• Il permet d’utiliser des mesures qui peuvent être des données binaires (régression
logistique) ou des comptages (analyse log-linéaire = régression poissonnienne)
• Il dérive du modèle linéaire général, mais avec 3 différences :
 Les équations sont différentes : au lieu de modéliser y, on modélise une
fonction g(y), appelée fonction lien et dépendante de la nature des données.
 Le modèle n’est plus ajusté par la méthode des moindres carrés, mais par un
algorithme d’optimisation (= minimisation de la dérivée, voir module de
modélisation au S2) appelée maximum de vraisemblance, et consistant à
maximiser une grandeur appelée vraisemblance (likelihood). La vraisemblance
est la probabilité d’observer l’échantillon en fonction des coefficients, et
l’algorithme permet de trouver le jeu de coefficients le plus vraisemblable. Pour
des raisons mathématiques, en réalité on minimise -2log(likelihood) = -2LL.
 R² n’est pas défini, ni le test F employé ; à la place, on emploie une mesure
appelée déviance avec des khi2 (test de Wald). On peut aussi s’en servir poru
comparer des modèles : anova(reg1,reg2,test="Chisq")

• Pour le reste, ces modèles s’interprètent comme le modèle linéaire général. Il faut
juste savoir quelle est l’équation et la distribution. La distribution des données
n’est pas forcément gaussienne.
IX. LE MODELE LINEAIRE GENERALISE 52

2) La régression/ANOVA/ANCOVA logistique
• La régression logistique s’emploie pour les mesures nominales binaires et vient
compléter la famille des khi2 pour les analyser.
 Elle est basée sur une distribution binomiale
 Si la réponse binaire est notée 0 ou 1, et que p est la probabilité que la
réponse soit 1, alors on appelle 𝑝ൗ1−𝑝 rapport de vraisemblance (ou odd-ratio,
c’est la côte employé par les parieurs) et on appelle logit l’expression ln( 𝑝ൗ1−𝑝)
 L’équation de la régression logistique est donc :
𝑝
ln( ൗ1 − 𝑝) = 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽0
soit :
𝑒 𝛽1𝑥1+ 𝛽2𝑥2+ …+ 𝛽0
𝑝=
1 + 𝑒𝛽1𝑥1+ 𝛽2𝑥2+ …+ 𝛽0

• La régression logistique modélise donc la probabilité d’observer une réponse


binaire en fonction des facteurs.

• Dans R, la fonction est glm(mesure~facteurs,family=binomial)


IX. LE MODELE LINEAIRE GENERALISE 53

3) La régression poisonnienne, ou modèle log-linéaire


• Le modèle log-linéaire s’emploie lorsque les mesures sont des comptages.
 Elle est basée sur une distribution de Poisson.
 L’équation modélise le logarithme des comptages :
ln( 𝑦) = 𝛽1𝑥1 + 𝛽2𝑥2 + … + 𝛽0

• Dans R, la fonction est glm(mesure~facteurs,family=poisson)


54

FIN DE LA DEUXIEME PARTIE


55

APPENDICES :
quelques sujets non traités
VII. LES ANOVA 56

2) En cas d’ANOVA significative : d’où vient la différence ?


Première méthode : les contrastes
• Si et seulement si on a avant de faire le test une hypothèse précise sur les groupes
à comparer, on peut faire un et un seul test de contraste.
 Un contraste consiste à comparer une ou plusieurs moyennes à une ou
plusieurs autres moyennes (ex : groupe contrôle vs. deux groupes traités)
 En parallèle on doit vérifier que le regroupement des autres contrastes
indépendants du précédent ne sont pas significatifs (ici il s’agit d’indépendance
au sens de l’algèbre des matrices)
 Cette approche est puissante mais rarement usitée, car elle implique de faire
des présuppositions sur les données
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 57

1) Régression et corrélation
coˆ v(X,Y) +
coˆ v(X,Y) +

Corrélation linéaire
positive « imparfaite »

r=1
r = 0,8

x x

Corrélation linéaire positive parfaite

Pas de corrélation

r≈0 r≈0
x
Corrélation quadratique x
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 58

1) Régression et corrélation

coˆ v(X,Y) -
coˆ v(X,Y) -

r = - 0,7 r=-1
x x

Corrélation linéaire négative Corrélation linéaire négative


« imparfaite » parfaite
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 59

1) Régression et corrélation
Attention : la droite de régression est un outils qui peut parfois induire en erreur
VIII. LES REGRESSION ET LE MODELE LINEAIRE GENERAL 60

1) Régression et corrélation
Attention : la droite de régression est un outils qui peut parfois induire en erreur

Autres exemples :
• « Plus il y a de pompier sur un incendie, plus l’incendie est grave » :
doit-on supprimer tous les pompier pour ne plus avoir d’incendie ?
• Corrélation négative entre le nombre de cas de malaria et la vente
de postes de radio en Inde dans la seconde moitié du 20ème siècle
IX. LE MODELE LINEAIRE GENERALISE 61

4) Que sont la déviance et l’AIC ?


• La déviance est un paramètre qui évalue si le modèle a bien décrit les données :
plus elle est petite, mieux le modèle décrit les données. Elle est basée sur les -2LL
et on considère différents modèles pour la déterminer :
 Le modèle nul est celui où on ne met aucun facteur, juste 𝛽0. C’est le pire
modèle possible, il est associé à -2LLnul
 Le modèle saturé est celui où on considère que chaque individu est un facteur
explicatif. Il n’a aucun intérêt, mais c’est le meilleur modèle possible. Il est
associé à -2LLsaturé
 Le modèle proposé est celui que vous testez, il est associé à -2LLproposé
• La déviance nulle est (-2LLnul) – (-2LLsaturé), soit 2(LLsaturé - LLnul), elle mesure ce
que ferait un modèle parfait.
• La déviance résiduelle est (-2LLproposé) – (-2LLsaturé), soit 2(LLsaturé - LLproposé), elle
mesure ce que fait votre modèle.

• De ce fait, si la déviance résiduelle est proche de la déviance nulle, le modèle est


mauvais est n’explique rien …
• … tandis que si elle est bien plus faible, le modèle explique bien les données.
IX. LE MODELE LINEAIRE GENERALISE 62

4) Que sont la déviance et l’AIC ?


• On peut bâtir à la place du test F associé au R² un test de khi2 (test de Wald) car la
différence déviance nulle – déviance résiduelle suit une loi de khi2. Sous H0, cette
différence vaut 0 (c’est-à-dire que le modèle n’explique rien).
• La déviance permet de comparer les modèles (fonction drop pour les glm). Le but
est de prendre le modèle qui a la plus petite déviance.
• On peut aussi utiliser la fonction anova(reg,test="Chisq") qui emploie des test de
khi2 (test de Wald) au lieu de test F pour faire une analyse de déviance (au lieu
d’une ANOVA).

• Un autre paramètre mesurant l’efficacité d’un modèle est l’AIC (Akaike information
criterion) ; AIC = - 2 LLmodèle + 2 nb de paramètres. L’idée sous-jacente est qu’on
veut le modèle le plus probable (-2LL le plus petit) mais avec le moins de
paramètres possible.

Vous aimerez peut-être aussi