Vous êtes sur la page 1sur 94

Chapitre 3: Analyse de la variance (Partie 2)

Mahdi Louati

Université Paris-Dauphine | Tunis

Master 1 ”Actuariat & Big Data”


05 Novembre 2020

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 1 / 41


Plan

1 Analyse de la variance à un facteur


Modèles régulier et singulier
Validation du modèle et test du modèle
Comparaison de traitements

2 Estimation des paramètres dans un modèle singulier


Inverse généralisé et conséquences
Tests de nullité des αi

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 2 / 41


Analyse de la variance à un facteur

Plan

1 Analyse de la variance à un facteur


Modèles régulier et singulier
Validation du modèle et test du modèle
Comparaison de traitements

2 Estimation des paramètres dans un modèle singulier


Inverse généralisé et conséquences
Tests de nullité des αi

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 3 / 41


Analyse de la variance à un facteur

Notations
On note I le nombre de modalités prises par le facteur d’intérêt. On note
ni le nombre d’individus sur lesquels on a observé la modalité i . Au total,
on a
n = n1 + n2 + . . . + nI
observations. On note y la variable à expliquer. yij est l’observation pour
le j ème individu du niveau i du facteur.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 4 / 41


Analyse de la variance à un facteur Modèles régulier et singulier

Modèle régulier
On suppose que yij est la réalisation de la variable aléatoire Yij suivant le
modèle suivant

Yij = µi + εij , pour tout i = 1, 2, . . . , I et j = 1, 2, . . . , ni ,

où εij ∼iid N(0, σ 2 ). Définissons la matrice suivante


 
1
 .. 
 . 
 
 1 
 

 1 

Xr =  .
..  ∈ M(n1 + n2 + . . . + nI = n, I , R).
 
 

 1 


 1 
 .. 
 . 
1
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 5 / 41
Analyse de la variance à un facteur Modèles régulier et singulier

Modèle régulier
Alors, on a l’écriture matricielle suivante
 
µ1
Y = X r  ...  + ε, où ε ∼ Nn (0, σ 2 In ).
 

µI

On remarquera que la matrice X r est de rang plein (rg (X r ) = I ). On a I


paramètres à estimer (µ1 , µ2 . . . , µI ). Donc on peut appliquer tous les
résultats vus au Chapitre 1.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 6 / 41


Analyse de la variance à un facteur Modèles régulier et singulier

Modèle régulier
Alors, on a l’écriture matricielle suivante
 
µ1
Y = X r  ...  + ε, où ε ∼ Nn (0, σ 2 In ).
 

µI

On remarquera que la matrice X r est de rang plein (rg (X r ) = I ). On a I


paramètres à estimer (µ1 , µ2 . . . , µI ). Donc on peut appliquer tous les
résultats vus au Chapitre 1.
=⇒ Le modèle ci-dessus est appelé modèle régulier.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 6 / 41


Analyse de la variance à un facteur Modèles régulier et singulier

Modèle singulier
Même si facile d’un point de vie mathématique, en pratique il n’est pas
utilisé dans cette forme. Il sera en général écrit par les utilisateurs
(biologistes, etc...) de la façon suivante

Yij = µ + αi + εij ; pour tout i = 1, 2, . . . , I et j = 1, 2, . . . , ni .

µ est vu comme un niveau de référence et αi s’entend comme une


différence par rapport au niveau de référence. Ce modèle compte I + 1
paramètres. Si on écrit la matrice X correspondante à ce modèle on
s’aperçoit qu’elle n’est pas de rang plein.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 7 / 41


Analyse de la variance à un facteur Modèles régulier et singulier

 
1 1 0 ... ... 0
 1 ... 0
 
 ... ... 0 

 1 1 0 ... ... 0 
 
 1 1 0 ... ... 0 
 
 1 0 1 0 ... 0 
 
X =  1 ... ... .
 
 0 ... 0 
 1 ... 1
 
 0 ... 0 

.
 1 .. . . .
 
... 0 1 
 .. .. ..
 

 . . ... ... 0 . 
1 0 ... ... 0 1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 8 / 41


Analyse de la variance à un facteur Modèles régulier et singulier

 
1 1 0 ... ... 0
 1 ... 0
 
 ... ... 0 

 1 1 0 ... ... 0 
 
 1 1 0 ... ... 0 
 
 1 0 1 0 ... 0 
 
X =  1 ... ... .
 
 0 ... 0 
 1 ... 1
 
 0 ... 0 

.
 1 .. . . .
 
... 0 1 
 .. .. ..
 

 . . ... ... 0 . 
1 0 ... ... 0 1

=⇒ On parle de modèle singulier.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 8 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Validation

Pour valider le modèle, on regarde les même 4 graphes fournis par R.


modelarbres=lm(Diametre∼Statut,data=arbres)
par(mfrow=c(2,2))
plot(modelarbres)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 9 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 10 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Par ailleurs, on va chercher à tester différentes hypothèses. D’abord on


regardera le test du modèle, puis on testera chacun des effets.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 11 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Test du modèle

On cherche à savoir si le facteur à un effet ou pas. En considérant la


version régulière du modèle, cela revient à tester

H0 : µ1 = µ2 = . . . = µI versus H1 : ∃ (i, j), µi 6= µj .

Dans le cas singulier, le test est équivalent à

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 12 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Test du modèle

On cherche à savoir si le facteur à un effet ou pas. En considérant la


version régulière du modèle, cela revient à tester

H0 : µ1 = µ2 = . . . = µI versus H1 : ∃ (i, j), µi 6= µj .

Dans le cas singulier, le test est équivalent à

H0 : α2 = α3 = . . . = αI = 0 versus H1 : ∃ (i = 2, 3, . . . , I ), αi 6= 0.

En reprenant les tests du Chapitre 1, on peut écrire un test de Fisher dont


la statistique est

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 12 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Test du modèle

On cherche à savoir si le facteur à un effet ou pas. En considérant la


version régulière du modèle, cela revient à tester

H0 : µ1 = µ2 = . . . = µI versus H1 : ∃ (i, j), µi 6= µj .

Dans le cas singulier, le test est équivalent à

H0 : α2 = α3 = . . . = αI = 0 versus H1 : ∃ (i = 2, 3, . . . , I ), αi 6= 0.

En reprenant les tests du Chapitre 1, on peut écrire un test de Fisher dont


la statistique est
(SCR0 − SCR)/(r − k0 )
F = ,
SCR/(n − r )
avec
r = I , X (0) = (1, 1, . . . , 1)t , et k0 = dim([X (0) ]) = 1.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 12 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

D’autre part on a
ni
I X
X
SCR = kY − Yb k2 = kY − X r βk
b 2 = kY − P[X r ] Y k2 = (yij − y i )2
i=1 j=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 13 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

D’autre part on a
ni
I X
X
SCR = kY − Yb k2 = kY − X r βk
b 2 = kY − P[X r ] Y k2 = (yij − y i )2
i=1 j=1
ni
I X
X
SCR0 = kY − P[X 0 ] Y k2 = (yij − y .. )2 = SCT
i=1 j=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 13 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

D’autre part on a
ni
I X
X
SCR = kY − Yb k2 = kY − X r βk
b 2 = kY − P[X r ] Y k2 = (yij − y i )2
i=1 j=1
ni
I X
X
SCR0 = kY − P[X 0 ] Y k2 = (yij − y .. )2 = SCT
i=1 j=1

 
1
 .. 
 . 
 
 1 
 
I X ni ni
 1 
1 X 1 X
r

..

y .. = yij , y i. = yij et X =   ∈ M(n, I , R).
 
n ni  . 
i=1 j=1 j=1  1 
 

 1 

 .. 
 . 
1
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 13 / 41
Analyse de la variance à un facteur Validation du modèle et test du modèle

Finalement, le test de Fisher s’écrit

(SCR0 − SCR)/(rg (X r ) − rg (X 0 ))
F =
SCR/(n − rg (X r ))

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 14 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Finalement, le test de Fisher s’écrit

(SCR0 − SCR)/(rg (X r ) − rg (X 0 ))
F =
SCR/(n − rg (X r ))
(SCT − SCR)/(I − 1)
=
SCR/(n − I )

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 14 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Finalement, le test de Fisher s’écrit

(SCR0 − SCR)/(rg (X r ) − rg (X 0 ))
F =
SCR/(n − rg (X r ))
(SCT − SCR)/(I − 1)
=
SCR/(n − I )
(kY − P[X 0 ] Y k2 − kY − P[X r ] Y k2 )/(I − 1)
=
kY − P[X r ] Y k2 /(n − I )
∼ FI −1,n−I .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 14 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Remarque (SCT peut s’écrire de la façon suivante)


ni
X yij
Si on pose y i. = , alors
ni
j=1

X ni
I X ni
I X
X
2
SCT = (yij − y .. ) = (yij − y i. + y i. − y .. )2
i=1 j=1 i=1 j=1

X ni
I X ni
I X
X
2
= (yij − y i. ) + (y i. − y .. )2
i=1 j=1 i=1 j=1
ni
I X
X
+2 (yij − y i. )(y i. − y .. )
i=1 j=1
| {z }
=0
X ni
I X ni
I X
X
2
= (yij − y i. ) + (y i. − y .. )2 ,
i=1 j=1 i=1 j=1

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 15 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

ni
I X
X
(yij − y i. )(y i. − y .. ) = 0?
i=1 j=1

En effet
ni
I X
X
(yij − y i. )(y i. − y .. )
i=1 j=1
X X X X
= yij y i. − y .. yij − (y i. )2 + (y .. ) y i.
ij ij ij ij
X X X X
2
= ni y i. y i. − y .. ni y i. − ni (y i. ) + (y .. ) ni y i.
i i i i
X X
= ni y i. y i. − ni (y i. )2 = 0.
i i

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 16 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Remarque
On peut ainsi réinterpréter le test de la façon suivante:

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 17 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Remarque
On peut ainsi réinterpréter le test de la façon suivante:
Le facteur a une influence d’autant plus forte que la variabilité entre les
niveaux des facteurs est grande par rapport à la variabilité interne à
chaque niveau du facteur.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 17 / 41


Analyse de la variance à un facteur Validation du modèle et test du modèle

Résultats de l’analyse
summary(arbres.lm)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 18 / 41


Analyse de la variance à un facteur Comparaison de traitements

Comparaison de deux traitements


Supposons qu’on cherche à comparer i et i 0 . On va chercher à faire le test

H0 : µi = µi 0 versus H1 : µi 6= µi 0 .

Ceci revient à tester la nullité d’une contrainte Qµ où

Q = (0, . . . , 0, |{z} −1 , 0, . . . , 0).


1 , 0, . . . , 0, |{z}
i i0

Ce test peut être fait en utilisant la statistique suivante (voir Chapitre 1)


∼ Tn−r .
b
T =p
σb Q((X ) (X r ))−1 Q t
2 r t

Ici  
n1

b=µ bi 0 et (X r )t (X r ) = 
bi − µ
 .. .

.
nI
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 19 / 41
Analyse de la variance à un facteur Comparaison de traitements

Il s’en suit que


1 1
Q((X r )t (X r )−1 )Q t = + .
ni ni 0
D’où

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 20 / 41


Analyse de la variance à un facteur Comparaison de traitements

Il s’en suit que


1 1
Q((X r )t (X r )−1 )Q t = + .
ni ni 0
D’où
bi − µ
µ bi 0
T =r   ∼ Tn−r .
2 1 1
σ
b ni + n 0
i

Aini on on peut construire UN test de niveau α.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 20 / 41


Analyse de la variance à un facteur Comparaison de traitements

Problème des tests multiples


On peut comparer les autres groupes (appelés traitements) entre eux.
En effet, on cherche à identifier tous les couples (i; i 0 ) tels que µi 6= µi 0 .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 21 / 41


Analyse de la variance à un facteur Comparaison de traitements

Problème des tests multiples


On peut comparer les autres groupes (appelés traitements) entre eux.
En effet, on cherche à identifier tous les couples (i; i 0 ) tels que µi 6= µi 0 .
I (I −1)
Ainsi, on va faire 2 tests.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 21 / 41


Analyse de la variance à un facteur Comparaison de traitements

Problème des tests multiples


On peut comparer les autres groupes (appelés traitements) entre eux.
En effet, on cherche à identifier tous les couples (i; i 0 ) tels que µi 6= µi 0 .
I (I −1)
Ainsi, on va faire 2 tests.
Supposons que l’on décide de faire tous les tests au niveau α. Pour tous
les couples (i; i 0 ), on veut tester
0 0
H0ii : µi = µi 0 versus H1ii : µi 6= µi 0 .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 21 / 41


Analyse de la variance à un facteur Comparaison de traitements

Pour chaque test, on contrôle l’erreur de première espèce, i.e., la


0 0
probabilité de rejeter H0ii alors que H0ii est vraie (probabilité ≤ δ).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 41


Analyse de la variance à un facteur Comparaison de traitements

Pour chaque test, on contrôle l’erreur de première espèce, i.e., la


0 0
probabilité de rejeter H0ii alors que H0ii est vraie (probabilité ≤ δ).
Calculons la probabilité de se tromper au moins une fois

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 41


Analyse de la variance à un facteur Comparaison de traitements

Pour chaque test, on contrôle l’erreur de première espèce, i.e., la


0 0
probabilité de rejeter H0ii alors que H0ii est vraie (probabilité ≤ δ).
Calculons la probabilité de se tromper au moins une fois
0 0
P( rejeter au moins une H0ii alors que H0ii vraie) ≤

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 41


Analyse de la variance à un facteur Comparaison de traitements

Pour chaque test, on contrôle l’erreur de première espèce, i.e., la


0 0
probabilité de rejeter H0ii alors que H0ii est vraie (probabilité ≤ δ).
Calculons la probabilité de se tromper au moins une fois
0 0
P( rejeter au moins une H0ii alors que H0ii vraie) ≤
0
PHjj 0 ( rejeter H0jj )
X

0
j,j 0 , j<j 0

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 41


Analyse de la variance à un facteur Comparaison de traitements

Pour chaque test, on contrôle l’erreur de première espèce, i.e., la


0 0
probabilité de rejeter H0ii alors que H0ii est vraie (probabilité ≤ δ).
Calculons la probabilité de se tromper au moins une fois
0 0
P( rejeter au moins une H0ii alors que H0ii vraie) ≤
0
PHjj 0 ( rejeter H0jj )
X

0
j,j 0 , j<j 0

I (I −1)
X
δ ≤ 2 δ.
j,j 0 , j<j 0

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 22 / 41


Analyse de la variance à un facteur Comparaison de traitements

Remarques
Ainsi, si I = 7 et δ = 5%, on borne la probabilité de se tromper au
moins une fois par 1. Donc on n’a aucun contrôle.
Pour palier à cela, il existe plusieurs méthodes. Une méthode
classique est la méthode de Bonferroni qui consiste à recorriger le
niveau de chaque test.

Chaque test sera fait avec un niveau I (I −1) , atteignant ainsi au final
un niveau global δ.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 23 / 41


Analyse de la variance à un facteur Comparaison de traitements

Remarques
Ainsi, si I = 7 et δ = 5%, on borne la probabilité de se tromper au
moins une fois par 1. Donc on n’a aucun contrôle.
Pour palier à cela, il existe plusieurs méthodes. Une méthode
classique est la méthode de Bonferroni qui consiste à recorriger le
niveau de chaque test.

Chaque test sera fait avec un niveau I (I −1) , atteignant ainsi au final
un niveau global δ.
Attention, de cette façon, il devient plus dur de rejeter les hypothèses
nulles.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 23 / 41


Analyse de la variance à un facteur Comparaison de traitements

Modèle Régulier

Yij = µi + εij , pour tout i = 1, 2, . . . , I et j = 1, 2, . . . , ni .


On considère l’hypothèse

H0 : µ1 = µ2 = . . . = µI versus H1 : NonH0 .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 24 / 41


Analyse de la variance à un facteur Comparaison de traitements

Installation des packages


install.packages(”car”)
install.packages(”multcomp”)
install.packages(”DescTools”)

aov(Diametre∼ Statut, data=arbres)


ins.aov < − aov(Diametre∼Statut, data=arbres)
summary(ins.aov)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 25 / 41


Analyse de la variance à un facteur Comparaison de traitements

Interprétations
Ce qui est important dans la sortie, ce sont les F et p-valeurs. Notons
que F (2, 101) = 1.156. De plus p = 0.319 > 0.05 ceci signifie que
dans ce cas l’ANOVA n’est significative.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 26 / 41


Analyse de la variance à un facteur Comparaison de traitements

Interprétations
Ce qui est important dans la sortie, ce sont les F et p-valeurs. Notons
que F (2, 101) = 1.156. De plus p = 0.319 > 0.05 ceci signifie que
dans ce cas l’ANOVA n’est significative.
Cependant, si la Statut était significative dans le test des 2 degrés de
liberté (p < 0.05 et F plus grande que la valeur critique 2.37 pour
α = 0.05), alors nous devons savoir quelles paires de niveaux Statut
sont significativement différentes les unes des autres. Cela nécessitera
trois tests (dominé vs dominant, dominé vs codominant, dominant vs
codominant), nous souhaitons donc ajuster ce que nous considérons
comme statistiquement significatif pour tenir compte de cette
multiplicité de tests.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 26 / 41


Analyse de la variance à un facteur Comparaison de traitements

Interprétations
Ce qui est important dans la sortie, ce sont les F et p-valeurs. Notons
que F (2, 101) = 1.156. De plus p = 0.319 > 0.05 ceci signifie que
dans ce cas l’ANOVA n’est significative.
Cependant, si la Statut était significative dans le test des 2 degrés de
liberté (p < 0.05 et F plus grande que la valeur critique 2.37 pour
α = 0.05), alors nous devons savoir quelles paires de niveaux Statut
sont significativement différentes les unes des autres. Cela nécessitera
trois tests (dominé vs dominant, dominé vs codominant, dominant vs
codominant), nous souhaitons donc ajuster ce que nous considérons
comme statistiquement significatif pour tenir compte de cette
multiplicité de tests.
Pour une ANOVA unidirectionnelle (ANOVA avec un facteur) nous
pouvons d’abord voir les p-valeurs non ajustées en utilisant la
commande pairwise.t.test et en n’indiquant aucun ajustement des
p-valeurs

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 26 / 41


Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut sans ajustement


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”none”)
comp.statut

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 27 / 41


Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut sans ajustement


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”none”)
comp.statut

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 27 / 41


Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut sans ajustement


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”none”)
comp.statut

Remarque
Avec cette même commande, nous pouvons ajuster les p-valeurs selon une
variété de méthodes. Ci-dessous, nous étudions les ajustements de
Bonferroni et Holm des p-valeurs.
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 27 / 41
Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut par Bonferroni


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”bonferroni”)
comp.statut

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 28 / 41


Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut par Bonferroni


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”bonferroni”)
comp.statut

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 28 / 41


Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut par Bonferroni


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”bonferroni”)
comp.statut

Interprétation
Nous pouvons voir que les ajustements conduisent tous à une
augmentation des p-valeurs, mais malheureusement aucune paire ne
semble être significative à α = 0, 05.
Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 28 / 41
Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut par Holm


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”holm”)
comp.statut

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 41


Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut par Holm


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”holm”)
comp.statut

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 41


Analyse de la variance à un facteur Comparaison de traitements

Comparaison des groupes de statut par Holm


comp.statut=pairwise.t.test(arbres$Diametre,arbres$Statut,
p.adjust.method=”holm”)
comp.statut

Remarque
Il existe d’autres méthodes pour faire des tests multiples (méthode de
Tukey ou de Scheffé par exemple). Elles ne seront pas vues dans ce cours.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 29 / 41


Estimation des paramètres dans un modèle singulier

Plan

1 Analyse de la variance à un facteur


Modèles régulier et singulier
Validation du modèle et test du modèle
Comparaison de traitements

2 Estimation des paramètres dans un modèle singulier


Inverse généralisé et conséquences
Tests de nullité des αi

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 30 / 41


Estimation des paramètres dans un modèle singulier

Rappel (modèle singulier)

Yij = µ + αi + εij ; pour tout i = 1, 2, . . . , I et j = 1, 2, . . . , ni .

µ est vu comme un niveau de référence


αi s’entend comme une différence par rapport au niveau de référence.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 31 / 41


Estimation des paramètres dans un modèle singulier

Rappel (modèle singulier)

Yij = µ + αi + εij ; pour tout i = 1, 2, . . . , I et j = 1, 2, . . . , ni .

µ est vu comme un niveau de référence


αi s’entend comme une différence par rapport au niveau de référence.
Ce modèle compte I + 1 paramètres.
La matrice X correspondante à ce modèle n’est pas de rang plein.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 31 / 41


Estimation des paramètres dans un modèle singulier

Rappel (modèle singulier)

Yij = µ + αi + εij ; pour tout i = 1, 2, . . . , I et j = 1, 2, . . . , ni .

µ est vu comme un niveau de référence


αi s’entend comme une différence par rapport au niveau de référence.
Ce modèle compte I + 1 paramètres.
La matrice X correspondante à ce modèle n’est pas de rang plein.

Remarque
Pour estimer le modèle singulier, nous sommes revenus au modèle régulier.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 31 / 41


Estimation des paramètres dans un modèle singulier

Rappel (modèle singulier)

Yij = µ + αi + εij ; pour tout i = 1, 2, . . . , I et j = 1, 2, . . . , ni .

µ est vu comme un niveau de référence


αi s’entend comme une différence par rapport au niveau de référence.
Ce modèle compte I + 1 paramètres.
La matrice X correspondante à ce modèle n’est pas de rang plein.

Remarque
Pour estimer le modèle singulier, nous sommes revenus au modèle régulier.
Il est en fait possible de traiter le modèle singulier directement, en utilisant
les contraintes.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 31 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

On considère le modèle
Y = X β + ε,
où β ∈ Rp et X est une matrice à n lignes et p colonnes de rang r < p.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 32 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

On considère le modèle
Y = X β + ε,
où β ∈ Rp et X est une matrice à n lignes et p colonnes de rang r < p.
Soit βb l’estimateur des moindres carrés de β est tel que X βb est le projeté
orthogonal de Y sur [X ] (i.e., X βb = P[X ] Y ).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 32 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

On considère le modèle
Y = X β + ε,
où β ∈ Rp et X est une matrice à n lignes et p colonnes de rang r < p.
Soit βb l’estimateur des moindres carrés de β est tel que X βb est le projeté
orthogonal de Y sur [X ] (i.e., X βb = P[X ] Y ).
Alors βb vérifie les équations suivantes (dites normales)

X t Y = X t X β.
b

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 32 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

On considère le modèle
Y = X β + ε,
où β ∈ Rp et X est une matrice à n lignes et p colonnes de rang r < p.
Soit βb l’estimateur des moindres carrés de β est tel que X βb est le projeté
orthogonal de Y sur [X ] (i.e., X βb = P[X ] Y ).
Alors βb vérifie les équations suivantes (dites normales)

X t Y = X t X β.
b

Remarque
Dans le Chapitre 1, nous avions poursuivi la démonstration en utilisant
l’inversibilité de X t X puisque X est de rang plein.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 32 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

On considère le modèle
Y = X β + ε,
où β ∈ Rp et X est une matrice à n lignes et p colonnes de rang r < p.
Soit βb l’estimateur des moindres carrés de β est tel que X βb est le projeté
orthogonal de Y sur [X ] (i.e., X βb = P[X ] Y ).
Alors βb vérifie les équations suivantes (dites normales)

X t Y = X t X β.
b

Remarque
Dans le Chapitre 1, nous avions poursuivi la démonstration en utilisant
l’inversibilité de X t X puisque X est de rang plein.
Cependant, la situation est différente dans le cas du modèle singulier. La
matrice X t X n’est pas inversible et par conséquent, les équations normales
ont une infinité de solutions.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 32 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Remarque
Intuitivement, une façon de trouver une expression pour βb est d’imposer
des contraintes.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 33 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Remarque
Intuitivement, une façon de trouver une expression pour βb est d’imposer
des contraintes.

Soit H une matrice de dimension (p − r ) × p. On impose (p − r )


contraintes linéaires sur β et βb écrites sous la forme Hβ = H βb = 0p−r .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 33 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Remarque
Intuitivement, une façon de trouver une expression pour βb est d’imposer
des contraintes.

Soit H une matrice de dimension (p − r ) × p. On impose (p − r )


contraintes linéaires sur β et βb écrites sous la forme Hβ = H βb = 0p−r .
On cherche donc βb vérifiant

X t Y = X t X βb et H βb = 0p−r .
 
X
Notons G = ∈ Mn+p−r ,p . Alors on a
H

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 33 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Remarque
Intuitivement, une façon de trouver une expression pour βb est d’imposer
des contraintes.

Soit H une matrice de dimension (p − r ) × p. On impose (p − r )


contraintes linéaires sur β et βb écrites sous la forme Hβ = H βb = 0p−r .
On cherche donc βb vérifiant

X t Y = X t X βb et H βb = 0p−r .
 
X
Notons G = ∈ Mn+p−r ,p . Alors on a
H
 
X
G G βb = (X t , H t )
t
βb = X t X βb + H t H βb = X t X βb = X t Y .
H

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 33 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Définition
La contrainte H est dite contrainte admissible si et seulement si
ker G = ker H ∩ ker X = {0p }.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Définition
La contrainte H est dite contrainte admissible si et seulement si
ker G = ker H ∩ ker X = {0p }.

Proposition
Si H est admissible, alors

βb = (G t G )−1 X t Y .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Définition
La contrainte H est dite contrainte admissible si et seulement si
ker G = ker H ∩ ker X = {0p }.

Proposition
Si H est admissible, alors

βb = (G t G )−1 X t Y .

Démonstartion
Si H est admissible, alors G est de rang p donc de rang plein, d’où G t G
est inversible. Ainsi on obtient

βb = (G t G )−1 X t Y ,

où (G t G )−1 est un inverse généralisé de X t X , noté (X t X )− .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Définition
La contrainte H est dite contrainte admissible si et seulement si
ker G = ker H ∩ ker X = {0p }.

Proposition
Si H est admissible, alors

βb = (G t G )−1 X t Y .

Démonstartion
Si H est admissible, alors G est de rang p donc de rang plein, d’où G t G
est inversible. Ainsi on obtient

βb = (G t G )−1 X t Y ,

où (G t G )−1 est un inverse généralisé de X t X , noté (X t X )− .

=⇒ Cet inverse dépend des contraintes.


Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 34 / 41
Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Remarques
On définit Yb comme étant le projeté orthogonal de Y sur [X ].

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 35 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Remarques
On définit Yb comme étant le projeté orthogonal de Y sur [X ].
D’après le Chapitre 1, on a

Yb = P[X ] Y = X β,
b

où βb minimise les moindres carrés.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 35 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Remarques
On définit Yb comme étant le projeté orthogonal de Y sur [X ].
D’après le Chapitre 1, on a

Yb = P[X ] Y = X β,
b

où βb minimise les moindres carrés.


Notons que ce projeté orthogonal ne dépend pas des contraintes.
Ainsi, indépendamment des contraintes

P[X ] Y = X βb = X (G t G )−1 X t Y .

Par conséquent X (G t G )−1 X t ne dépend pas des contraintes utilisées


pour estimer β.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 35 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Remarques
On définit Yb comme étant le projeté orthogonal de Y sur [X ].
D’après le Chapitre 1, on a

Yb = P[X ] Y = X β,
b

où βb minimise les moindres carrés.


Notons que ce projeté orthogonal ne dépend pas des contraintes.
Ainsi, indépendamment des contraintes

P[X ] Y = X βb = X (G t G )−1 X t Y .

Par conséquent X (G t G )−1 X t ne dépend pas des contraintes utilisées


pour estimer β.
Par ailleurs, on remarquera que [X r ] = [X ].

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 35 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Conséquences
βb = (G t G )−1 X t Y dépend des contraintes dans G .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Conséquences
βb = (G t G )−1 X t Y dépend des contraintes dans G .
Si βb et β vérifient la contrainte définie par H, alors βb est un
estimateur sans biais de β.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Conséquences
βb = (G t G )−1 X t Y dépend des contraintes dans G .
Si βb et β vérifient la contrainte définie par H, alors βb est un
estimateur sans biais de β.

Démonstartion
En effet, on a
b = E (G t G )−1 X t Y = (G t G )−1 X t E(Y )

E(β)
= (G t G )−1 X t X β car E(Y ) = E(ε) = β
= (G t G )−1 (X t X + H t H)β car Hβ = 0p−r .

Ainsi
b = (G t G )−1 (G t G )β = β.
E(β)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 36 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Conséquences
b = σ 2 (G t G )−1 X t X (G t G )−1 .
V(β)

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 37 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Conséquences
b = σ 2 (G t G )−1 X t X (G t G )−1 .
V(β)
Sous l’hypothèse de résidus Gaussiens,

βb ∼ N β, σ 2 (G t G )−1 X t X (G t G )−1 .


Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 37 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Conséquences
b = σ 2 (G t G )−1 X t X (G t G )−1 .
V(β)
Sous l’hypothèse de résidus Gaussiens,

βb ∼ N β, σ 2 (G t G )−1 X t X (G t G )−1 .


Démonstartion
En effet, on a
b = V (G t G )−1 X t Y = (G t G )−1 X t V(Y )X (G t G )−1 t
 
V(β)
= (G t G )−1 X t σ 2 Ir X (G t G )−1 car V(Y ) = V(ε) = σ 2 Ir .
= σ 2 (G t G )−1 X t X (G t G )−1 .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 37 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Si on cherche à calculer les résidus Yb en utilisant les calculs explicites


pour la contrainte α1 = 0, on obtient
ybij = µ
bi = µ bi = y i , pour tout j ∈ {1, 2, . . . , ni }.
b+α

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 38 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Si on cherche à calculer les résidus Yb en utilisant les calculs explicites


pour la contrainte α1 = 0, on obtient
ybij = µ
bi = µ bi = y i , pour tout j ∈ {1, 2, . . . , ni }.
b+α
Par conséquent, les valeurs ajustées sont indépendantes de la
paramétrisation choisie (modèle singulier ou régulier).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 38 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Si on cherche à calculer les résidus Yb en utilisant les calculs explicites


pour la contrainte α1 = 0, on obtient
ybij = µ
bi = µ bi = y i , pour tout j ∈ {1, 2, . . . , ni }.
b+α
Par conséquent, les valeurs ajustées sont indépendantes de la
paramétrisation choisie (modèle singulier ou régulier).
Yb = P[X ] Y est indépendant des contraintes (remarque précédente).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 38 / 41


Estimation des paramètres dans un modèle singulier Inverse généralisé et conséquences

Si on cherche à calculer les résidus Yb en utilisant les calculs explicites


pour la contrainte α1 = 0, on obtient
ybij = µ
bi = µ bi = y i , pour tout j ∈ {1, 2, . . . , ni }.
b+α
Par conséquent, les valeurs ajustées sont indépendantes de la
paramétrisation choisie (modèle singulier ou régulier).
Yb = P[X ] Y est indépendant des contraintes (remarque précédente).

Concernant σ 2
kY − Yb k2 kY − P[X ] Y k2
b2 =
σ = .
n − rg (X ) n − rg (X )
Or rg (X ) = I , dans le cas de l’anova à un facteur. Donc

kY − P[X ] Y k2
b2 =
σ
n−I

est un estimateur sans biais de σ 2 , indépendant de la contrainte.


Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 38 / 41
Estimation des paramètres dans un modèle singulier Tests de nullité des αi

Remarque
D’autres tests sont automatiquement proposés dans R. Par exemple, le
summary donne directement la p-value des tests

H0 : αi = 0 versus H1 : αi 6= 0 pour i > 1.

Cependant, les αi sont reliés au modèle singulier. La définition même des


αi et l’estimation des αi dépend de la contrainte utilisée. Sous une
contrainte admissible H,

βb = (G t G )−1 X t Y et on a βb ∼ N 0, σ 2 (G t G )−1 X t X (G t G )−1 .




Il faut repmlacer σ 2 par son estimateur, et on obtient de façon classique


une loi de Student sur αbi .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 39 / 41


Estimation des paramètres dans un modèle singulier Tests de nullité des αi

Dans le cas de l’Anova à un facteur, le β du modèle singulier s’écrit sous


la forme β = (µ, α1 , α2 , . . . , αI ). Alors,

α
bi
∼ Tn−I ,
b αi )
V(b

b2 (G t G )−1 X t X (G t G )−1

où V(b
b αi ) = σ
i+1,i+1
.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 40 / 41


Estimation des paramètres dans un modèle singulier Tests de nullité des αi

Dans le cas de l’Anova à un facteur, le β du modèle singulier s’écrit sous


la forme β = (µ, α1 , α2 , . . . , αI ). Alors,

α
bi
∼ Tn−I ,
b αi )
V(b

b2 (G t G )−1 X t X (G t G )−1

où V(b
b αi ) = σ
i+1,i+1
.
En revenant à la définition des paramètres αi , tester si αi = 0 revient à se
demander si le groupe i est significativement différent du groupe de
référence (par défaut le groupe 1 sous R).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 40 / 41


Estimation des paramètres dans un modèle singulier Tests de nullité des αi

Dans le cas de l’Anova à un facteur, le β du modèle singulier s’écrit sous


la forme β = (µ, α1 , α2 , . . . , αI ). Alors,

α
bi
∼ Tn−I ,
b αi )
V(b

b2 (G t G )−1 X t X (G t G )−1

où V(b
b αi ) = σ
i+1,i+1
.
En revenant à la définition des paramètres αi , tester si αi = 0 revient à se
demander si le groupe i est significativement différent du groupe de
référence (par défaut le groupe 1 sous R).
Puisque ce test dépend de la contrainte choisie, ce test est peu
satisfaisant. On préfèrera tester des paramètres qui ne dépendent pas de la
contrainte choisie pour estimer.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 40 / 41


Estimation des paramètres dans un modèle singulier Tests de nullité des αi

Combinaisons linéaires estimables ou non


On se place dans le modèle singulier. On s’intéresse à φ = C t β une
combinaison linéaire (C est une matrice colonne).

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 41 / 41


Estimation des paramètres dans un modèle singulier Tests de nullité des αi

Combinaisons linéaires estimables ou non


On se place dans le modèle singulier. On s’intéresse à φ = C t β une
combinaison linéaire (C est une matrice colonne).

Définition
On dit que φ est estimable si et seulement si il existe u tel que C t = u t X .

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 41 / 41


Estimation des paramètres dans un modèle singulier Tests de nullité des αi

Combinaisons linéaires estimables ou non


On se place dans le modèle singulier. On s’intéresse à φ = C t β une
combinaison linéaire (C est une matrice colonne).

Définition
On dit que φ est estimable si et seulement si il existe u tel que C t = u t X .

De cette façon, on a

φb = C t βb = u t X (G t G )−1 X t Y .

Comme X (G t G )−1 X t ne dépend pas de la contrainte. Alors φb a la même


valeur, quelque soit la contrainte choisie.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 41 / 41


Estimation des paramètres dans un modèle singulier Tests de nullité des αi

Combinaisons linéaires estimables ou non


On se place dans le modèle singulier. On s’intéresse à φ = C t β une
combinaison linéaire (C est une matrice colonne).

Définition
On dit que φ est estimable si et seulement si il existe u tel que C t = u t X .

De cette façon, on a

φb = C t βb = u t X (G t G )−1 X t Y .

Comme X (G t G )−1 X t ne dépend pas de la contrainte. Alors φb a la même


valeur, quelque soit la contrainte choisie.
Tous les résultats sur les intervalles de confiance et tests sur les
combinaisons linéaires s’appliquent.

Mahdi LOUATI Analyse de la variance Université Paris-Dauphine | Tunis 41 / 41

Vous aimerez peut-être aussi