Vous êtes sur la page 1sur 60

Modèles linéaires 1

Faculté des sciences Agronomiques (FSA)


Centre de Biostatistique et d’Informatique Générale (CBIG)
Master

Prof. Fonton N.
Dr Atindogbé G.
 : MODÈLES LINÉAIRES
TITRE DU COURS
PARAMÉTRIQUES

UE : Mathématiques appliquées


ECU : Modèles linéaires 1
Grade: Master
Semestre: S1
Nombre de crédits : 2 crédits
Masse horaire :
Total : 50 h
Cours magistral : 25h
Travaux dirigés : 25h
ACTIVITÉS D’APPRENTISSAGE ET MÉTHODE
D’ENSEIGNEMENT : Cours magistraux
Exercices
 
MODE D’ENSEIGNEMENT : Présentiel
 
OBJECTIF :
acquérir les connaissances générales sur les modèles linéaires
gaussiens, étudier les techniques plus avancées permettant
d'exprimer une variable en fonction d'une ou de plusieurs autres
variables.
 
OBJECTIFS D’APPRENTISSAGE DU COURS :
A l'issue du cours, l'étudiant doit être capable de :
 définir un modèle et le modéliser en fonction de la nature de la
variable expliquée et de la ou des variables explicatives ;
 procéder à une analyse critique des résultats obtenus ;
 comparer des modèles établis pour deux ou plusieurs populations.
 
CONTENU DU COURS :
1. Modèles linéaires: Généralités
2. Hypothèses et concepts en analyse de la variance
3. Analyse de la variance à un critère
4. Analyse de la variance à plus d’un critère
5. Analyse de la covariance
6. Structuration des moyennes
7. Contraste de moyennes et polygones orthogonaux
PRÉREQUIS :
Statistique mathématique
Inférences statistiques
 

LECTURES RECOMMANDÉES :
DAGNELIE P. (2007). Statistique théorique et appliquée. Tomes 1 et 2:
Bruxelles, De Boeck.
FARAWAY J.J. (2009): Linear Models with R, Chapman & Hall/CRC texts in
statistical science series, 255 p.
HOCKING R.R.(1996). Methods and applications of linear models : Regression
and analysis of variance. John Wiley & sons INC. New York,731p.
 SCHERRER B (2007). Biostatistique. Volumes 1 et 2, 2è édition, Chenelière
Education, Montréal, Canada
MODALITÉS D’ÉVALUATION :
Examen écrit : 60%
Travaux personnels : 40%
 
CONTENU DU COURS :
1. Modèles linéaires: Généralités
2. Hypothèses et concepts en analyse de la variance
3. Analyse de la variance à un critère
4. Analyse de la variance à plus d’un critère
5. Analyse de la covariance
6. Structuration des moyennes
7. Contraste de moyennes et polygones orthogonaux
1. Généralités
Les modèles linéaire permettent d’expliquer une variable à
l’aide d’une ou de plusieurs autres variables.
Les données sont de la structure (n x k+1)
1. Généralités
• La différence entre modèle linéaire simple ou
multiple et modèle linéaire factoriel réside dans la
nature de la variable (des variables) explicative (s)
qui est (sont) factorielle (exemples : variétés de
maïs, doses d’engrais, niveaux d’attaques, etc.).
• On parle alors de l’analyse de la variance ou de la
covariance,
• De manière intuitive, il s’agit de comparaison des
moyennes des différents niveaux ou modalités de
facteur.
CONTENU DU COURS :
1. Modèles linéaires: Généralités
2. Hypothèses et concepts en analyse de la variance
3. Analyse de la variance à un critère
4. Analyse de la variance à plus d’un critère
5. Analyse de la covariance
6. Structuration des moyennes
7. Contraste de moyennes et polygones orthogonaux
2. Hypothèses et concepts
en analyse de la variance
La vérification d’une hypothèse est précédée par la position de celle-
ci. En analyse de la variance (ANOVA), l’hypothèse posée dépend de
la nature du facteur.
ANOVA

Facteur aléatoire Facteur fixe

RHo

Estimation de σ Comparaisons multiples


des moyennes

Facteur Facteur
qualitatif quantitatif
2. Hypothèses et concepts
en analyse de la variance
Nous distinguons deux types d’hypothèses en analyse de la variance.

Le premier concerne le facteur fixe ou modèle fixe. On parle aussi de critère de


classification fixe. Pour p modalités ou variantes du facteur, l’hypothèse nulle, Ho,
s’écrit :

Le test d’égalité des moyennes peut s’étendre à un nombre illimité de populations.


Dans ce cas, on procède à un échantillonnage à deux degrés. Au premier degré, on
prend p modalités et au second degré, on choisit au hasard un échantillon de
données dans chacune des p modalités. On parle alors de modèle aléatoire d’analyse
de la variance.
La comparaison d’homogénéité des populations se transforme en comparaison de la
variabilité des écarts par rapport à la moyenne générale, exprimée en écart-type
L’hypothèse nulle ne s’écrit :
2. Hypothèses et concepts
en analyse de la variance
Il est évident que la différence entre ces deux hypothèses réside dans
la conclusion du test.

Pour le modèle fixe, la conclusion du test se limite aux p modalités du


facteur, tandis que pour le modèle aléatoire, les résultats obtenus
sont généralisés à une infinité de modalités.

Toutefois, quel que soit le modèle, la vérification de l’hypothèse est la


même.
La statistique utilisée est le paramètre de FISHER-SNÉDECOR

Il est le rapport du carré moyen des écarts entre modalités sur le


carré moyen résiduel ou le carré moyen servant de base de
comparaison.
2. Hypothèses et concepts
en analyse de la variance

Rappelons que les bases de comparaison dépendent du dispositif


expérimental, de la structure des critères et aussi du nombre de
critères de classification.

Si la vérification de l’hypothèse est indépendante de l’hypothèse


elle-même, la formulation de celle-ci prend toute son importance
lorsqu’il y a rejet de l’hypothèse nulle.

Pour le facteur aléatoire, le rejet signifie tout simplement que la


variabilité des moyennes des populations n’est pas nulle et la
question subsidiaire est l’estimation de
2. Hypothèses et concepts
en analyse de la variance

Par contre, le rejet de l’hypothèse pour le facteur fixe signifie que les
moyennes considérées ne sont pas toutes égales.

Il suffit qu’une seule moyenne soit différente des autres pour que
soit rejetée.

Ce rejet soulève la question de savoir quelles sont les moyennes qui


diffèrent les unes des autres.

Pour situer ces différences, on recourt aux méthodes de


comparaison multiple de moyennes ou procédure de comparaison
multiple.
2. Hypothèses et concepts
en analyse de la variance

Critères de classification
Le critère de classification est le facteur. On parle d’analyse de
variance à un critère, lorsqu’il s’agit d’un seul facteur. Pour deux
facteurs, on parle de l’analyse de la variance à deux critères, ainsi de
suite jusqu’à n facteurs.
Les facteurs sont d’une part,
• fixes,
• aléatoires ;

et, d’autre part,


• qualitatifs : provenances, variétés de maïs, etc.
• quantitatifs : doses d’engrais, etc.
2. Hypothèses et concepts
en analyse de la variance

Comme sources de variation, on a :


• facteur étudié,
• facteur de contrôle (externe à l’expérience),
• résidus,
• autres (interactions).
2. Hypothèses et concepts
en analyse de la variance

Conditions d’application
L’ANOVA étant un modèle linéaire Gaussien, donc un test statistique
paramétrique pour lesquelles certaines conditions doivent êtres
remplies. Il s’agit :

• normalité des populations ;


• variances égales ;
• échantillons aléatoires et simples.

Des outils statistiques existent pour vérifier au préalable ces


différentes conditions.
CONDITIONS D’APPLICATION
Tests de normalité
Plusieurs tests de normalités existent. Les plus courants sont:
- Test de Anderson-Darling
- Ryan-Joiner
- Shapiro-Wilk
- Kolmogorov-Smirnov
- QQ-plot (Graphiques)
CONDITIONS D’APPLICATION
Les conditions requises pour l’application des méthodes relatives
aux variances sont :

- populations normales
- et échantillons aléatoires et simples.

Les méthodes de comparaison de variances sont très sensibles à la


non-normalité des populations-parents.

Dans le cas des comparaisons de deux ou plusieurs variances, il


faut supposer que les échantillons sont indépendants les uns des
autres. .
Test d’égalité de deux variances

Hypothèse nulle est :

Les deux populations sont de variances inégales, test


bilatéral

La variance de la population 1 est supérieure à celle de la


population 2 ; test unilatéral supérieur ;

La variance de la population 1 est inférieure à celle de la


population 2 ; test unilatéral inférieur.
Test d’égalité de deux variances
Quelle que soit l’hypothèse alternative, la statistique calculée est :

(la variance supérieure)

(la variance inférieure)

RHO si

D’autre part, lorsque les effectifs des échantillons des deux populations sont
égaux, la statistique est calculée sous la forme suivante :
Test d’égalité de plusieurs variances
Plusieurs méthodes sont utilisées pour tester, l’égalité des variances de
plusieurs populations. Les plus courantes sont:

Le test de BARTLETT

Le test de HARTLEY
Le test de Levene

Le test de Brown et Forsythe


Test d’égalité de plusieurs variances
Le test de BARTLETT
Pour p échantillons aléatoires, simples et indépendants, d’effectifs n1, …, np,
l’hypothèse nulle est:
Test d’égalité de plusieurs variances
on utilise généralement les logarithmes décimaux et la quantité
devient :

L’hypothèse nulle est rejetée lorsque :


Test d’égalité de plusieurs variances
Le test de HARTLEY
Effectifs des échantillons sont constants et égaux à n

L’hypothèse nulle doit être rejetée lorsque :


Les valeurs de étant données en fonction du nombre
d’échantillons et du nombre de
Test d’égalité de plusieurs variances
Test de Levene
La méthode de Levene a pour principe de calculer, séparément pour les
différents échantillons, les écarts par rapport aux moyennes, et de soumettre
les valeurs absolues de ces écarts à l’analyse de la variance à un critère de
classification.

L’hypothèse d’égalité des moyennes des valeurs absolues des écarts, qui est
testée par l’analyse de la variance, est alors considérée comme équivalent à
l’hypothèse d’égalité des variances

Test de Brown et Forsythe


Le test de Brown et Forsythe est une variante de la méthode de Levene, dans
laquelle les écarts par rapport aux moyennes sont remplacées par les écarts
par rapport aux médianes
Vérification des conditions d’application avec R

Données

Test de normalité

Test d’égalité des variance


CONTENU DU COURS :
1. Modèles linéaires: Généralités
2. Hypothèses et concepts en analyse de la variance
3. Analyse de la variance à un critère
4. Analyse de la variance à plus d’un critère
5. Analyse de la covariance
6. Structuration des moyennes
7. Contraste de moyennes et polygones orthogonaux
3. Analyse de la variance à un critère de
classification
Pour un facteur à p niveaux ou modalités répétés chacun z fois, les
observations obtenues

s’écrire sous la forme du modèle suivant :


Analyse de la variance à un critère de
classification
Analyse de la variance à un critère de
classification
Décomposition de la variance totale

   
p z p p z

Y  Y    zi Yi  Y   Yij  Yi
2 2 2
ik
i 1 k 1 i i 1 k 1

SCE totale  SCE factorielle  SCE résiduelle


Analyse de la variance à un critère de
classification
Analyse de la variance à un critère de
classification
Application 1
Dans quatre types de végétations, on a prélevé chaque fois
quatre échantillons de terre. En fonction des résultats
Suivants relatifs au rapport carbone /azote, doit-on conclure
qu’il existe une différence significative entre les différents
Types de végétations ?
Type de végétation
V1 V2 V3 V4
10 11 14 16
11 09 17 15
11 08 19 15
7 14 13 14
Analyse de la variance à un critère de
classification
Application 2
Dans quatre types de végétations, on a prélevé chaque fois
quatre échantillons de terre. En fonction des résultats
Suivants relatifs au rapport carbone /azote, doit-on conclure
qu’il existe une différence significative entre les différents
Types de végétations ?
Type de végétation
SA SH FD FC
10 11 14 16
11 09 17 15
11 08 19 15
7 13 14
17
Analyse de la variance à un critère de
classification
Application (Logiciel R)
Analyse de la variance à deux critères de
classification
Avec deux critères, les sources de variation sont les deux facteurs, leur
interaction et la variation résiduelle en cas de répétitions.

Modèle Fixe
Hypothèses
Il y a maintenant trois hypothèses principales à tester:
H0: le facteur A n'a aucun effet sur les résultats, c'est-à-dire

H0: le facteur B n'a aucun effet sur les résultats, c'est-à-dire

H0: les facteurs A et B n'interagissent pas sur les résultats.


Analyse de la variance à deux critères de
classification
Modèle Fixe
Hypothèses contraires:
H1: le facteur A a un effet sur les résultats, c'est-à-dire qu'au moins
une des moyennes μi.. n'est pas égale aux autres;
H1: le facteur B a un effet sur les résultats, c'est-à-dire qu'au moins
une des moyennes μ.j. n'est pas égale aux autres.
H1: les facteurs A et B interagissent sur les résultats. Autrement dit,
l'état du facteur A influence la réponse face au facteur B, et
réciproquement.
Analyse de la variance à deux critères de
classification
Modèle mixte
Il y a trois hypothèses principales à tester. Cependant, l'hypothèse relative au
facteur aléatoire est formulée différemment de celle du facteur contrôlé.

En effet, dans le cas d'un facteur aléatoire, les niveaux ont été choisis
aléatoirement parmi de nombreuses possibilités.

Ce n'est donc pas l'écart à la moyenne produit par un ou des niveaux précis
du facteur qui intéresse l'expérimentateur, mais plutôt l'existence (ou non)
d'une variabilité dans les résultats, induite par le facteur dans son ensemble.
Analyse de la variance à deux critères de
classification
Modèle mixte
H0: le facteur A n'a aucun effet sur les résultats, c'est-à-dire

H0: il n'y a pas de variabilité des résultats en fonction des niveaux


du facteur B, c'est-à-dire

H0: les facteurs A et B n'interagissent pas sur les résultats.


Analyse de la variance à deux critères de
classification
Modèle mixte
Hypothèses contraires:
H1: le facteur A a un effet sur les résultats, c'est-à-dire qu'au moins
une des moyennes μi.. n'est pas égale aux autres;

H1: le facteur B a un effet sur les résultats, c'est-à-dire qu'il y a de


la variabilité en fonction des niveaux du facteur B. Au moins
une des moyennes μ.j. n'est pas égale aux autres;

H1: les facteurs A et B interagissent sur les résultats. Autrement dit,


l'état du facteur A influence la réponse face au facteur B, et
réciproquement.
Analyse de la variance à deux critères de
classification
4.4.2.4. Analyse de la variance à deux critères
Avec deux critères, les sources de variation sont les deux facteurs, leur
interaction et la variation résiduelle en cas de répétitions. Si le premier facteur
(Facteur A) a p niveaux ou variantes et le second (Facteur B) a q niveaux et un
nombre de répétitions égal à z les observations

suivent le modèle théorique qui s’écrit :

Ai= l’effet factoriel du facteur A


Bj = l’effet factoriel du facteur B
Abij= l’effet de l’interaction des deux facteurs A et B
Eij=le résidu
Analyse de la variance à deux critères de
classification

𝑝𝑞𝑧 − 1
Analyse de la variance à deux critères de
classification
Décomposition de la variance totale

   
p q z p q

 Y  Y...   qn Yi..  Y...  pn Y. j .  Y... 


2 2 2
ijk
i 1 j 1 k 1 i 1 j 1

 
p q p q z
n Yij .  Yi..  Y. j .  Y...   Yijk  Yij . 
2 2

i 1 j 1 i 1 j 1 k 1

SCEtotale  SCE A  SCEB  SCE AB  SCEr


Analyse de la variance à deux critères de classification

Dans le cas d’une analyse de la variance à deux critères sans


répétition, la source de variation résiduelle disparaît, donc pas de CMr.

La base de comparaison dans un modèle fixe est le carré moyen


résiduel (CMr). Dans un modèle mixte, l’interaction (CMAB) est la base
de comparaison du facteur fixe.

Par contre la base de comparaison pour le facteur aléatoire et


l'interaction, est CMr.
Analyse de la variance à deux critères de
classification
Analyse de la variance à deux critères de
classification
Tests des effets
- Effet de l’interaction :
* graphiquement
* test de Tukey

- Lorsque l’interaction n’a pas d’influence significative :


* tests sur A et B

- Lorsque l’interaction a un effet significatif :


* pas de test sur A et B
Analyse de la variance à deux critères de
classification
Test de Tukey
Le principe de ce test est de subdiviser la somme des carrés des écarts de
l’interaction en une composante de non-additivité, à un degré de liberté, et une
variation résiduelle à pq-p-q degrés de liberté, et de tester ensuite la première
par rapport à la deuxième

La composante de non additivité est définie de la manière suivante:

2
 p q 
 
  y ij  y i.  y.. y. j  y..  
 
SCEadd   i 1 j 1 
 p 2  2
q

  y i.  y..    y. j  y..  


 i 1   j 1 
Analyse de la variance à deux critères de
classification
Modèle Hiérarchisé

L'analyse de variance hiérarchique (nested ANOVA en anglais ou plan


pyramidal

Elle est une extension de l'anova à un critère de classification,


destinée à traiter les cas où chaque niveau du critère de classification
est subdivisé
aléatoirement en deux ou plusieurs sous-groupes.
Analyse de la variance à deux critères de
classification
Modèle Hiérarchisé

L'analyse de variance hiérarchique (nested


ANOVA
Comparaison multiple des moyennes
Définition des risques d’erreur
En comparant la valeur de F observée à celle des tables élaborées à
cet effet, un risque d’erreur est pris en compte.

  PRHo / H o 
Généralement on lui donne, de manière standard, la valeur de 5%. Elle peut aussi
prendre des valeurs de 1% ou de 0,1%. Ce risque, appelé risque de première espèce

Le risque de deuxième espèce est l’erreur que l’on commet en


acceptant une hypothèse nulle alors qu’elle est fausse. Il s’écrit :
  PAH o / H 

Quant au risque de troisième espèce, il apparaît lorsque les


moyennes significativement différentes, sont mal ordonnées 
Comparaison multiple des moyennes

- Pour les populations de même variance et d’effectifs égaux, les


méthodes de TUKEY, de WALLER-DUNCAN, de BONFERONI ;

- pour les populations de même variance et d’effectifs inégaux, la


méthode de FISHER connue sous le nom de la plus petite différence
significative, et celles de DUNNET, de HOCHBERG, de GABRIEL,
de SCHEFFE ;

- pour les populations de variances inégales et d’effectifs égaux, les


méthodes de BROWN et FORSTHIE, de GAMES et HOWELL.
Comparaison multiple des moyennes
En ce qui concerne la comparaison spécifique par l’amplitude
de groupes de moyennes, les méthodes élaborées à cet effet
sont aussi appelées méthodes de groupe.
Ce sont pour les populations de même variance et d’effectifs
égaux, les méthodes de NEWMAN et KEULS, de RYAN, de
DUNCAN, etc.

Pour des méthodes appartenant au même groupe, la


différence entre elles réside dans le risque global d’erreur qui
les caractérise. Pour illustrer les différences de conclusion
entre les méthodes, nous prenons les plus connues à savoir la
plus petite différence significative, NEWMAN et KEULS
Comparaison multiple des moyennes
- Méthodes de la Plus Petite Différence Significative : PPDS
L’utilisation du test t de STUDENT dans la comparaison de deux
populations où la valeur de t observée

PPDS=
Comparaison multiple des moyennes
- Méthode de NEWMAN et KEULS
La méthode de NEWMAN et KEULS est une méthode de comparaison par
groupe de moyennes.
Elle est utilisée dans le cas où les effectifs sont égaux.

Le paramètre calculé est la Plus Petite Amplitude Significative (PPAS)


pour des groupes de 2,3 jusqu’à p moyennes.

La différence entre les moyennes d’un groupe donné est considérée


comme significative quand la PPAS est inférieure à l’amplitude du groupe.

La valeur de la PPAS est :


Tests paramétriques et alternatives
non-paramétrique

Les méthodes statistiques inférentielles peuvent être


paramétriques aussi bien que non-paramétriques.
 Les méthodes paramétriques sont celles qui sont élaborées
en émettant certaines hypothèses particulières en ce qui
concerne les caractéristiques des populations d’étude. Ces
hypothèses sont souvent liées à la distribution et à la
variabilité (variance) des données.

 Par contre, les méthodes non-paramétriques n’émettent


aucune hypothèse sur les populations d’étude. Toutefois,
elles sont moins précises que les méthodes paramétriques.
Tests paramétriques et alternatives
non-paramétrique
Test But du test Hypothèses Conditions Test de Alternative
d’application vérification des non-
testées du test conditions paramétrique

Test t de Comparer la moyenne  H0 :  = m0 contre Normalité Test de Ryan- Test de Wilcoxon


conformité d’une variable dans une H1 :  ≠ m0 Joiner ou test de à 1 échantillon
d’une moyenne population à une valeur Shapiro-Wilks
m0 connue

Test t à 2 Comparer la moyenne H0 : mA = mB Normalité Test de Ryan- Test de Mann-


échantillons mAd’un caractère dans contre Joiner ou test de Whitney, test de
indépendants une population A à sa H1 : mA ≠ mB Shapiro-Wilks Mood
moyenne mBdans une ou test de
autre population B. homogénéité test de Bartlett Kruskal-Wallis
des variances ou test de
Levene
Test t par paires Comparer la moyenne H0 : d=d0 contre Normalité Test de Ryan- Test de Wilcoxon
Tests paramétriques et alternatives
Test t à 2 Comparer la moyennenon-paramétrique
H :m =m0 A Test de Mann-
B
échantillons mAd’un caractère dans contre Whitney, test de
indépendants une population A à sa H1 : mA ≠ mB Mood
Alternative
Test But du test Hypothèses Conditions Test de
moyenne mBdans une d’application vérification des ou test non-
de
autre population B.
testées du test Kruskal-Wallis
homogénéité testconditions
de Bartlett paramétrique
des variances ou test de
Levene
Test t par paires Comparer la moyenne H0 : d=d0 contre Normalité Test de Ryan- Test de Wilcoxon
(échantillons de la différence d entre H1 : d≠d0 Joiner ou de à deux
appariés) 2 mesures observées sur Shapiro-Wilks échantillons
test de Bartlett
les mêmes individus à
une valeur d0 donnée
Homogénéité test de Levene
(souvent zéro). des variances pour
l’homogénéité
des variances
Analyse de la Comparaison de 2 ou H0 : m1 = Normalité Test de Ryan- Test de Kruskal-
variance plusieurs moyennes m2=…=mp contre Joiner ou de Wallis
(ANOVA) H1 : au moins une Shapiro-Wilks
des moyennes est
différente des
autres Homogénéité test de Bartlett
des variances ou test de
Levene

Vous aimerez peut-être aussi