Vous êtes sur la page 1sur 36

INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1

L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

L2 -AGRONOMIE

BIOSTATISTIQUE
NOTES DE COURS

ADJROUDI RACHID

Année universitaire 2019 2020

1
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

CHAPITRE 3 : INFERENCE STATITIQUE. : TESTS D’HYPOTESES (TEST


STATISTIQUE°

Introduction.

En statistique il y a deux approches : le descriptif, qu’on a vu au premier chapitre, et


l’inférence. Inférer signifie tirer une conclusion. L’inférence vient après la statistique
descriptive.
Le test d’hypothèses est une procédure statistique qui permet de faire un choix entre deux
hypothèses relatives à la valeur d’un paramètre de la population, en se basant sur les
données d’un échantillon aléatoire prélevé dans cette population.
Dans ce qui suit on considère les tests paramétriques car plus puissants que les tests non
paramétriques. Cependant, ils exigent des conditions (lois de distribution, « loi normale »,
des effectifs).
L’Inférence (Induction) : c’est prédire les caractéristiques d'une population inconnue à
partir des statistiques déterminées dans un échantillon représentatif de cette population.
En d’autres termes, elle a pour but d’étendre les propriétés de l’échantillon à la population
entière et de valider ou de rejeter des hypothèses à priori ou formulées après une étape
descriptive. Les hypothèses du test concernent alors les paramètres de cet échantillon.
L’objectif du test d’hypothèse :
Un test statistique (ou test d’hypothèse) consiste à détecter une différence significative.
A partir d’un échantillonnage de données, le test statistique va calculer la probabilité
d’obtenir une telle configuration d’échantillons en supposant que les données sont :
1-Conformes à la cible dans le cas d’un test de comparaison à une valeur théorique,
2-Homogènes dans le cas d’un test de comparaison de population,
3-Parfaitement associées dans le cas d’un test de corrélation
Cette hypothèse est appelée hypothèse nulle, Ho, car elle considère qu’il n’y a aucune
différence entre les données.
Le test d’hypothèse :
Une procédure qui permet:
1-de confronter une hypothèse avec la réalité, ou plus exactement, avec ce que l’on
perçoit de la réalité à travers les observations à disposition ;
2-de prendre une décision à la suite de cette confrontation.
Les problèmes traités par les tests d’hypothèses sont d’ordre qualitatif, et conduisent à une
réponse du type rejet ou acceptation de l’hypothèse statistique considérée.

2
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

La problématique du test d’hypothèse


Ce sont des questions du type :
La dose d’irrigation testée est-il efficace ?
Les pièces sortant d’une machine sont elles conformes ?
Un nouveau mode de culture de melon est-il plus efficace ?
auxquels des tests statistiques peuvent apporter des réponses.

Déroulement d’un test:


1. Choix de H0 et H1
2. Choix de la variable de décision (statistique du test) (choisie de façon à apporter le max d’info
sur le pb posé et sa loi de probabilité sera différente selon que H0ou H1 est vraie.)
3. Choix de α petit (typiquement 1% ou 5%)
4. Calcul de la région critique en fonction de α et de la statistique du test
5. Calcul de la valeur observée de la variable de décision
6. Comparaison et conclusion: Rejet de l’hypothèse si valeur calculée ∈région critique
Un test peut être soit un :
Test bilatérale: région critique, RC, est séparée en 2 régions distinctes (on
ne se soucie pas du signe);
Test unilatéral: région critique, RC, ne correspond qu’à une seule région

connexe de l’espace des valeurs de la variable (on se soucie du signe).

Dans ce chapitre nous aborderons les principaux tests :


1-Test de -conformité (test de comparaison) : Entre une population étudiée et une
valeur cible, (théorique),
2-Test d’homogénéité (test de comparaison) : Entre deux populations
3-Test d’indépendance (test de corrélation ou d’association) : Concernant la liaison
de deux variables.
3.1 TEST DE CONFORMITE
Ce test est aussi appelé test de comparaison entre une moyenne d’une population et une
moyenne théorique (valeur cible).
3.1.1 Comparaison entre moyenne observée et une moyenne théorique
Pour ce test on dispose en général d’un seul échantillon n.
3
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

* Lorsque n > 30 : la distribution des valeurs pour la variable étudiée dans


l’échantillon est quelconque. On fait une approximation par la loi Normale.
* Lorsque n ≤30 et distribution Normale : la distribution des valeurs pour la
variable étudiée dans l’échantillon est proche d’une loi Normale. On fait une approximation
par les lois de Student.
NB : Dans le doute, optez toujours pour un test t-Student car les lois de Student tendent vers la loi Normale
pour les grands (n> 30) échantillons
Hormis la condition de Normalité des observations quand l’échantillon est de petite taille (n≤30), les tests de
comparaisons d’une moyenne observée à une moyenne théorique ne nécessitent aucune autre condition.

On suppose que l’on observe les réalisations d’un n-échantillon (X1; : : : ;Xn) issu d’une loi

N(μ; s2).
– test unilatéral:

H0 : μ = μ 0

Contre H1 : μ > μ 0 ,

s connu et.μ estimé par la moyenne empirique et : Xmoy~N (μ,s2/n)


La statistique du test est donc:

Et Z ~N (0,1) si H0 vraie (c a d si µ=µ0).

La région critique, RC :

a= P (Xmoy³ xlim / H0 vraie) =


P (Xmoy³ xlim / µ=µ0) =
[
P [(Xmoy - µ) / (s/Ön) ] ³ [(xlim – µ) / (s/Ön)] / µ=µ0)]
P [Z³ [(x lim – μ0) / (s/Ön)] ] quantile e1-a (t q)
Alors si P(Z ³ Zlim) = α (H0 rejetée)

Si non P(Z<=e1-α) = 1- α (H0 non rejetée)


On peut ici utiliser la table de la loi normale N(0,1), et H0 est rejetée si
Xmoy ³ xlim soit Xmoy ³ μ0 + e1-a(s/Ön)

4
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

σ inconnu, µ estimé par la moyenne empirique


La statistique du test est alors:
T= [(Xmoy - µ) / (S/Ön)]
avec
S2 = (1/(n-1)) (Sni=1 (xi- Xmoy)²)
H0 vraie, variable T suit une loi de Student à n-1 degrés de liberté.
On suit le même raisonnement que précédemment et H0 est rejetée si
Xmoy ³ xlim soit Xmoy ³ µ0 + t n-1,1-a (S/Ön)
On utilise le même raisonnement pour tester le test unilatéral

H0 : μ = μ 0

Contre H1 : μ < μ 0 ,

H0 est rejetée si :
Xmoy ≤ xlim soit Xmoy ≤ µ0 - e1-a(s/Ön) Dans le cas d’une variance connue
Xmoy ≤ xlim soit Xmoy ≤ µ0 - t n-1,1-a (S/Ön) Dans le cas d’une variance inconnue

-Test bilatéral:
H0 : μ = μ 0

Contre H1 : μ ¹ μ 0 ,

s connu et.μ estimé par la moyenne empirique et : Xmoy~N (μ,s2/n)


La statistique du test est donc:

et Z ~N (0,1) si H0 vraie

Région critique :

a= P (Xmoy³ xsup ou Xmoy≤ xinf / H0 vraie) =


P (Xmoy³ xsup ou Xmoy≤ xinf / µ=µ0) =
[
P Z³ [(xsup – μ0) / (s/Ön)] ou Z ≤ [(xinf – μ0) / (s/Ön)] ]

5
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Ou

a= P [½Z½³ [(xlimit – μ0) / (s/Ön)] quantile e1-a/2 (t q).


P(½Z½≤ e1-a/2) = 1- a
Si on connait σ, H0 est donc rejetée si: ½Z½≤ e1-a/2
Ou si

Xmoy ³ μ0 + e1-a/2(s/Ön) ou Xmoy ≤ μ0 - e1-a/2(s/Ön)

σ inconnu, µ estimé par la moyenne empirique:

La statistique du test est donc:


T= [(Xmoy - µ) / (S/Ön)]
avec
S2 = (1/(n-1)) (Sni=1 (xi- Xmoy)²)
T suit une loi de Student à n-1 degrés de liberté.

Région critique:

P(½Z½³ tn-1 ; 1-a/2) xlimit = μ0 ± tn-1 ; 1-a/2 (S/Ön)


Si on ne connait pas σ, H0 est donc rejetée avec un risque α si:

½Z½³ tn-1 ; 1-a/2


ou si
Xmoy ³ µ0 + tn-1 ; 1-a/2 (s/Ön) ou Xmoy ≤ µ0 - tn-1 ; 1-a/2 (s/Ön)

3.4. TEST D’HOMOGNEITE


Ce test est aussi appelé test de comparaison entre deux populations.
Comparaison de deux variances
Principe du test : Soit X, une variable aléatoire observée sur 2 populations suivant une loi
normale et deux échantillons indépendants extraits de ces deux populations.
On fait l’hypothèse que les deux échantillons proviennent de 2 populations dont les
variances sont égales.

6
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Le test de comparaison de variance est nécessaire lors de la comparaison de deux


moyennes lorsque les variances des populations σ²1 et σ² 2 ne sont pas connues. C’est
également la statistique associée à l’analyse de variance
Statistique du test
La statistique associée au test de comparaison de deux variances correspond au rapport
des deux variances estimées.

Application et décision
La valeur de la statistique F calculée (Fobs) est comparée avec la valeur Fseuil lue dans la
table de la loi de Fisher-Snedecor pour un risque d’erreur α fixé et (n1-1, n2 -1) degrés de
liberté.
•si Fobs ≥ Fseuil H0 est rejetée au risque d’erreur α : les deux échantillons sont
extraits de deux populations ayant des variances statistiquement différentes σ²1 et σ²2 .
•si Fobs ≤ Fseuil l’hypothèse H0 est acceptée: les deux échantillons sont extraits de
deux populations ayant même variance σ².
Pour ce test, il est impératif que X → N(µ,σ) et les deux échantillons soient indépendants.

Comparaison de deux moyennes


Principe du test
Soit X un caractère quantitatif continu observé sur 2 populations suivant une loi normale
et deux échantillons indépendants extraits de ces deux populations.
On fait l’hypothèse que les deux échantillons proviennent de 2 populations dont les
espérances sont égales. Il existe plusieurs statistiques associées à la comparaison de
deux moyennes en fonction de la nature des données.

a/Les variances des populations sont connues


Statistique du test

7
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Application et décision
L’hypothèse testée est la suivante :
H0 : µ1 = µ2
H1 : µ1 ≠ µ2
Une valeur z de la variable aléatoire Z est calculée :

Z = ½(X1 moy - X2 moy)½ / Ö(σ² /n ) + (σ² /n )


1 1 2 2 notée aussi Zobs

Z calculée (Zobs) est comparée avec la valeur Zseuil lue sur la table de la loi normale
centrée réduite pour un risque d’erreur α fixé
•si Zobs ≥ Zseuil , H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits
de deux populations ayant des espérances respectivement µ1 et µ2.
•si Zobs ≤ Zseuil l’hypothèse H0 est acceptée: les deux échantillons sont extraits de
deux populations ayant même espérance µ.
Pour ce test, il est impératif que X → N(µ,σ) pour n de taille < 30 et que les deux échantillons soient

indépendants.

b/Les variances des populations sont inconnues et égales


Statistique du test
• Les variances des populations n’étant pas connues, on fait l’hypothèse que les deux
populations présentent la même variance.
H0 : σ²1 = σ²2 = σ²

L’égalité des variances des deux populations ou homoscédasticité permet alors d’établir
la loi de probabilité de X1 moy − X2.moy , car les variables X1 moy et X2.moy suivent des lois
normales.

Sachant que X1 moy − X2.moy suit une loi normale N(µ1 - µ2, Ö (σ² ((1/ n1)+(1/n2))

Alors :
H0 : : µ 1 = µ 2 avec σ²1 = σ²2 = σ²

8
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

T= (X1 moy − X2.moy) / Ö (σ² ((1/ n1)+(1/n2)) suit une loi de student à ( n1 +n2 - 2) degrés
de liberté
Application et décision
L’hypothèse testée est la suivante :
H0 : µ1 = µ2
H1 : µ1 ≠ µ 2
Les variances des populations n’étant pas connues, l’égalité des variances doit être
vérifiée
H0 : σ²1 = σ²2 = σ²
H1 : σ²1 ≠ σ²2
Une valeur t de la variable aléatoire T est calculée :

tobs = ½(X1 moy − X2.moy)½ / Ö (σ²estim ((1/ n1)+(1/n2))


avec
σ²etim = [(n1S²1 + n2S²2) / ( n1 + n2 -2)] estimation de la variance σ² commune

t calculée (tobs) est comparée avec la valeur tseuil lue dans la table de Student
pour un risque d’erreur α fixé et (n1 + n2 – 2) degrés de liberté.
• si tobs > tseuil, H0 est rejetée au risque d’erreur α : les deux échantillons sont extraits
de deux populations ayant des espérances respectivement µ1 et µ2.
• si tobs ≤ tseuil , H0 est acceptée: les deux échantillons sont extraits de deux
populations ayant même espérance µ.
Pour ce test, il faut que X → N(µ,σ) pour n1et n2 et que ceux là soient < 30, et qu’ils soient
indépendants et leur deux variances estimées soient égales.

3.3. TEST D’INDEPENDANCE


Ce test est aussi appelé test d’association ou de corrélation. Il concerne la liaison entre
deux variables.
Pour évaluer la dépendance d’une variable qualitative à une autre variable qualitative,

nous utiliserons un test d'indépendance de chi deux (c²).

1-présentation.

9
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Afin d’expliquer ce test nous l’illustrons par un cas pratique. On dispose de deux
traitements Tr1 et Tr2 contre une maladie PHYTO1 dans la région de Ngaous. On veut
évaluer l’effet du traitement sur les plantes malades.
L’équipe d’agronomes d’une station de l’INPV a étudié les statistiques de 281 arbres
affectées par cette maladie durant le mois d’avril. Sur les 173 arbres malades qui ont subi
le traitement Tr1, 139 ont été guéris au bout de 7 jours de traitement et sur les 108 arbres
malades qui ont subit le traitement Tr2, 98 ont été guéris au bout de 7 jours de traitement.
La question qu’on se pose :
La guérison au bout de 7 j est elle liée au type de traitement ?

Nous répondrons à la question en réalisant un test de c² qui s’applique à partir d’un

tableau de contingence où deux variables qualitatives nominales (catégorielles) avec deux


modalités chacune.
Etat de l’arbre : 2 modalités : gueri et non gueri
Type de traitement :2 modalités : Tr1 et Tr2.
Les fréquences des modalités prises par la variable l’état de l’arbre observées chez les
173 arbres ayant reçu le traitement Tr1 vont être confrontée à celles observées chez les
108 arbres ayant reçu le traitement Tr2

2-Poser l’hypothèse nulle (H0)


Etape 1 du test
La première étape du test consiste à définir l’hypothèse nulle, H0, qui est :
H0 : La guérison au bout de 7 j de la maladie ne dépend pas du traitement suivi. Les deux
critères sont indépendants
On cherche à rejeter cette hypothèse au profit de l’hypothèse alternatif H1 qui est :
H1 : Les deux critères, la guérison au but de 7 j, et le traitement subi, sont liés
(dépendants).
Il faut savoir que dans un test d’indépendance de 2 variables qualitatives ; rejeter
l’hypothèse nulle permettrait de mettre en évidence une liaison (dépendance) entre les 2
variables.
Ce test est bilatéral, il ne permet pas de connaitre le sens de la dépendance.
3-Construire le tableau de contingences
Etape 2 du test

fj : Fréquence (proportions) attendues sous H0.

10
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Nous ne disposons pas de valeurs théoriques pour le taux de guérison ce dernier est sous
H0, estimé à partir de l’ensemble des données : c’est le nombre d’arbre guéris, quelque
soit le traitement subi, divisé par l’effectif total soit : 237/281 = 0.843.

Cij : correspondent aux Effectifs calculés sous H0. Ils sont calculés à partir des

effectifs nij observés.


Exemple : pour C11 = 173 * 237/281 = 145,91

4-Calcul du critère de test de c² observé

La valeur de la statique c²obs recherchée est :

c²obs = Si=1 n Sj=1p (nij - cij)² / cij

11
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Tableau de contingences
Variable dépendante (VD)

Etat après 7 j de traitement


Modalités de Y
guéri Non guéri S marginales
Effectifs Fréquence Effectifs C ij = Effectifs Fréquence Cij = Effectifs / colonne
Observés sous H 0 calculés Observés sous H 0 calculés
J=1 Sous H 0 j=2 Sous H 0

Tr1 237 / 281 = 173x(237/281) 44 / 281 173x(44/281)


= = = 173
139 145,91 34 27,09
i=1
Tr2

traitement
237 / 281 108x(237/281) 44 / 281 108x(44/281)

Modalites de X
= =
i=2 = 91,09 = 16,91

variableindependante
98 10 108
S marginales /ligne 237 44 281
Proportions attendues 237/281 = 44 / 281= 1
sous H 0 0.843 0.157

c²obs = 5,44

12
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

5- détermination du degrés de signification Pvalue


-Détermination du nombre de degrés de liberté : ddl.
le ddl = (nombre de lignes - 1) ( nombre de colonnes -1) .
Dans notre cas le nombre de lignes (nombre de modalités de la variable indépendante) = au
nombre de colonnes. (nombre de modalités de la variable dépendante), alors, le ddl sera :
( 2 - 1)(2 – 1) = 1 degré de liberté.

-La valeur de Pvalue est déterminée par un logiciel ou par un table de la loi de c². Dans

notre cas, la lecture de la table à 1 ddl.

Donc pour déterminer la valeur critique ou seuil dec² à ne pas dépasser, pour a= 5%
=0.05, nous considérons la table, de c², de si dessous. Les ddl sont présentés dans la

première colonne de la table. Les seuils de a sont sur la première ligne


Pour notre cas le ddl est égal à 1 et a= 5%. La valeur critique de c² est à la croisée de

la ligne à 1 ddl et la colonne pour a= 5%.ce qui donne :

c²seuil = 3,84
C’est la valeur à ne pas dépasser pour ne pas rejeter l’hypothèse nulle, H0.

Nous pouvons par ailleurs rechercher la probabilité associée à la valeur du critère c²obs
qui est :c²obs = 5,44

Nous trouvons que cette valeur est encadrée, dans la de la loi de c² à 1 ddl, par les

valeurs 5,02 et 6,63 (en tirés sur la table), donc la probabilité, Pvalue, correspond à une
valeur comprise entre les deux affichages des entêtes des colonnes correspondantes
C'est-à-dire 1% et 2,5% : 0.01 < P value < 0.25
6-conclusion sur la liaison entre les variables

Etant donné que le :c²obs calculé est supérieur au c²seuil pour a= 5%


(ou, parce que Pvalue < 5%), on peut rejeter l’hypothèse nulle, H0, et conclure que le taux
de guérison est différent entre les deux traitements, on peut considérer que les 2 variables
sont liées.

13
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Nous pouvons donc conclure avec les ingénieurs agronomes de l’INPV, que le
type de traitement influe sur la guérison au bout de 7 j. Cette observation initiale sur
la base de l’échantillon est probablement vraie à l’extérieur de l’echatillon ( avec 5%
de chance de nous tromper).

Table de la loi de c²

14
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

CHAPITRE 4 : ETUDE DE LA CORRELATION ET DE LA REGRESSION


INTRODUCTION

Relation et dépendance : Soit deux caractères quantitatifs X et Y, décrivant le même


ensemble d'unités. On dit qu'il existe une relation entre X et Y si l'attribution des modalités
de X et de Y ne se fait pas au hasard : les valeurs de X dépendent des valeurs de Y ou si
les valeurs de Y dépendent des valeurs de X. Dire que Y dépend de X signifie que la
connaissance des valeurs de X permet de prédire, dans une certaine mesure, les valeurs

de Y. En d'autres termes, si Y dépend de X, on peut trouver une fonction f telle que :

Y=f(X)
La dépendance n'est pas symétrique : Lorsque l'on écrit Y=f(X), on postule que :
Y est la variable dépendante (à expliquer) et
X est la variable indépendante (explicative).
Cela signifie que les valeurs de X permettent de prédire les valeurs de Y, mais il n'est
pas certain que la réciproque soit vraie.

4.1 la corrélation:
4.1.1 Définition : Le coefficient de corrélation linéaire entre deux variables
aléatoires réelles X et Y ayant chacune une variance (finie), noté Cor(X,Y), ou
simplement est défini par :

sY sY :
En amont de toute mesure de corrélation à l'aide du coefficient approprié, il est nécessaire
de définir la forme d'une éventuelle relation entre deux caractères à l'aide d'une
représentation graphique appropriée. En effet, selon la forme de la relation observée, on
ne fera pas les mêmes hypothèses et on n'utilisera pas les mêmes outils de mesure.
Le diagramme de corrélation
Pour savoir s'il existe une relation entre deux caractères, on établit un diagramme de
corrélation, exemple 1 et 2, la forme permet de caractériser la relation à l'aide de trois
critères :
1-l’intensité de la relation :
a/Une relation est forte si le nuage de point prend la forme d'une ligne ou d'une
courbe dont les points s'écartent peu.

15
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

b/Une relation est faible si le nuage de point n'a pas la forme d'une ligne ou d'une
courbe, ou seulement de façon très grossière.
c/Une relation est nulle si le nuage de point a la forme d'un carré, d'un cercle, sans
véritables lignes directrices.

Exemple 1 : Les différentes corrélations.

1
Exemple 2 : les corrélations linéaires

16
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

-2 la forme de la relation
a/Une relation est linéaire si l'on peut trouver une relation entre X et Y
de la forme Y=aX+b, c'est à dire si le nuage de point peut s'ajuster correctement à une
droite.
b/Une relation est non-linéaire si la relation entre X et Y n'est pas de
la forme Y=aX+b, mais de type différent (parabole, hyperbole, sinusoïde, etc). Le nuage
de point présente alors une forme complexe avec des courbures.
Une relation non-linéaire est monotone si elle est strictement croissante ou strictement décroissante, c'est-

à-dire si elle ne comporte pas de minima ou de maxima. Toutes les relations linéaires sont monotones .

-3 le sens de la relation.
a/Une relation monotone (linéaire ou non) est positive si les deux
caractères varient dans le même sens, c'est à dire lorsque X augmente Y augmente.
b/Une relation monotone est négative si les deux caractères varient
en sens inverse, c'est à dire si lorsque X augmente Y diminue.

4.1.2 Test de significativité


Spéciation du test :
Le premier test qui vient à l'esprit est la significativité de la corrélation : le
coefficient de corrélation est-il significativement différent de 0 ?
Le test s'écrit :
H0 : r = 0

17
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

H1 : r ¹ 0
On suppose a priori que le couple (X, Y) suit une loi normale bivariée ; le test de
significativité équivaut à un test d'indépendance.
Statistique du test.
Sous H0, la statistique :

t = remp / [√ (1−r²emp) / (n-2)]


suit une loi de student à (n-2) degrés de liberté

remp : coefficient de corrélation linéaire empirique (mesuré).


Région critique.
La région critique (rejet de l'hypothèse nulle, H0) du test au risque α s'écrit :

R.C : |t| > t 1− α/2 (n − 2)


où t 1− α/2 (n − 2) est le quantile d'ordre 1 – α/2 de la loi de Student à (n − 2) degrés
de liberté. Il s'agit d'un test bilatéral.
Probabilité critique (p-value).
Plutôt que de comparer la statistique calculée avec la seuil théorique fournie par la loi de
Student, les logiciels proposent souvent la probabilité critique (p-value) que l'on doit
comparer au risque α que l'on s'est fixé. Si la p-value est plus petite, alors nous rejetons
l'hypothèse nulle.
4.2 Régression linéaire simple.
4.2.1 Définition
Le but de la régression simple est d'expliquer une variable Y à l'aide d'une variable X. La
variable Y est appelée variable dépendante, ou variable à expliquer et la variable X est
appelée variable indépendante, ou variable explicative.
La régression diffère de l'analyse de la corrélation où toutes les variables jouent un rôle
symétrique. Aussi, L'existence d'une relation entre X et Y n'implique pas nécessairement
une relation de causalité entre elles.
4.2.2 Droite de régression linéaire simple (méthode des moindres carrés)
Avant toute analyse, il est intéressant de représenter les données. Le but de la régression
simple est de chercher une fonction f telle que yi ≈ f(xi).

18
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

. Ainsi une étude de régression simple débute toujours par un tracé des observations (xi ,
yi), i = 1, ..., n. Cette première représentation permet de savoir si le modèle linéaire est
pertinent. Le graphique suivant représente trois nuages de points différents.
Dans la suite, nous étudierons le cas :
f(x) = bo + b1 x .
a-Modélisation
On représente le graphique de la variation de Y en fonction de X, si le nuage de points a
une forme particulière s'apparentant à une courbe mathématique, on choisira la fonction
mathématique correspondant à cette courbe.
Si la forme du nuage est étirée, celle-ci suggère une relation de type linéaire entre Y et
X, Fig x

Fig x les coefficients de corrélation relatifs à différents nuages de dispersion


Le modèle le plus simple qui exprime la relation entre Y et X à l'aide une fonction linéaire.
Graphiquement, la relation est représentée par une droite d'équation
Y = b0 + b1 X.
Ce modèle particulier comporte deux paramètres (coefficients) :
- le coefficient b1 : la pente de la droite ; b1 > 0 si la droite est croissante, b1 = 0 si
la droite est horizontale et b1 < 0 si la droite est décroissante ;
- le coefficient b0 : l'ordonnée du point d'intersection de la droite avec l'axe vertical
en X = 0.

19
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

La relation observée sur un échantillon n'est pas exacte. Le nuage est étiré mais
les points ne sont pas alignés. Ces différences peuvent être expliquées par d'autres
variables ayant une influence sur la variable Y et qui ne sont pas prises en compte dans
le modèle, ou encore par des erreurs de mesures.
Pour rendre compte de cette situation, on écrit la relation entre Y et X sous la forme
générale suivante : droite + erreur.
Y = b0 + b1 X + ε
Pour un X donné, Y est la somme de deux termes :
- 1er terme : b0 + b1x entièrement déterminé par X ;
- 2ème terme : le terme d'erreur ε qui varie de façon aléatoire.

Le terme d'erreur ε est une variable aléatoire. Elle synthétise toutes les variables influant

sur Y et qui ne sont pas prises en compte.

Dans le modèle, la variable ε n’est pas observée et les coefficients b 1 et b0 ne sont pas

connus.

4.2.3 L‘intervalle de confiance de l’estimation de la régression.


Le modèle étant posé, il faut estimer numériquement les paramètres du modèle, c'est-à-
dire calculer les valeurs numériques des coefficients qui correspondent le mieux aux
données.
Cela revient à déterminer la droite qui s'ajuste le mieux aux données, c'est-à-dire la droite
qui est la plus proche des points.
Selon quel critère et quelles sont les formules permettant d'obtenir des valeurs estimées
des coefficients ?
a) Le critère des moindres carrés
Parmi toutes les droites possibles, on cherche la droite pour laquelle la somme des
carrés des écarts verticaux des points à la droite est minimale.
Sur le graphique, on a tracé une droite quelconque à travers les données et on
représente les erreurs pour quelques points.fig y

20
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

fig y une droite quelconque à travers les données et les erreurs ou residus, ε (ei), pour
quelques points.
Formules de calcul des coefficients estimés

b1 = cov(x,y) / s²x= r(x, y) √ (s²y / s²x) ˆ


b0 = Ymoy − b1Xmoy
ce sont les coefficients de la droite de régression estimée ou droite des moindres carrés
Le coefficient de détermination R², (r²).

Afin d'avoir une idée globale de la qualité de l'ajustement linéaire, on définit R² le


coefficient de détermination qui est le carré du coefficient de corrélation R, (r) :
R² = SCE/SCT
Il mesure la part de la variation totale de Y expliquée par le modèle de régression sur X
Cas particuliers :
- si R² = 0, le modèle n'explique rien, les variables X et Y ne sont pas corrélées
linéairement.
- si R² = 1, les points sont alignés sur la droite, la relation linéaire explique toute la
variation.
- une valeur de R² proche de 1 (voir chapitre corrélation de Pearson) est nécessaire pour
avoir un ajustement raisonnable mais en aucun cas suffisant.

21
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

4.2.4 Test de signification des coefficients de la regression


a-Test global de significativité de la régression

Il faut tester la significativité globale du modèle, c'est à dire tester si tous les
coefficients sont supposés nuls, excepté la constante. Cela correspond dans le cas de la
régression linéaire simple à H0 : b1 = 0 contre H1 : b1¹ 0
La statistique du test : statistique F de Fisher
On utilise la statistique, notée F définie par la formule :

F = = (n − 2) (R² / 1 – R²) = (SCE/1 / SCR/(n − 2))


Loi de F sous H0
La statistique F suit la loi de Fisher à (1, n − 2) ddl.
Région de rejet de H0
Sous H0, on s'attend à observer une valeur de F proche de 0. Plus la valeur de F est grande
et plus elle est en faveur de H1.
La région de rejet est située à l'extrémité droite du domaine.
Décision
Règle basée sur la p-valeur : si αobs ≤ α, on rejette H0 au risque d'erreur α.
αobs = PH0 (F(1, n − 2) > (n − 2) / (r² / 1 − r ² )

b/Intervalles de confiance
Jusqu'ici tous les calculs (estimation des paramètres de la droite, coefficient de
détermination) ont été effectués sur les données de l'échantillon.

On supposera dans la suite que les εi en plus d'être indépendants, de même loi, centrées
et de même variance, sont distribuées suivant une loi N (0, σ2 ). La valeur ponctuelle d'un
estimateur est en général insuffisante et il est nécessaire de lui adjoindre un intervalle de
confiance : IC.
a-Un IC de b0 au niveau 1 − α est donné par :
[b0 − t σb0 , b0 + t σb0 ]

où t représente le quantile de niveau (1 − α/2) d'une loi de Student n − 2.

b- Un IC de b1au niveau 1 − α est donné par :

[b1 − t σb1 , b1 + t σb1 ] .

22
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Nous pouvons également donner un intervalle de confiance de la droite de régression. Un


IC de Yi au niveau 1 − α est donné par :

En calculant les IC pour tous les points de la droite, nous obtenons une hyperbole de
confiance. En effet, lorsque Xj est proche de Xmoy, le terme dominant de la variance est
1/n, mais dès que Xj s'éloigne de Xmoy, le terme dominant est le terme au carré.

Références bibliographiques.

Jonathan Lenoir (MCU), QUELQUES TESTS DE COMPARAISON EN


PARAMETRIQUE. Unité ”Écologie et Dynamique des Systèmes Anthropisés”
http://www.u-picardie.fr/edysan/.

Liens :
http://wikistat.fr/
https://www.lmd.polytechnique.fr/~sturquet/teaching_data/mu001/chap6.pdf
https://pascalneige.files.wordpress.com/2011/09/chapitre7.pdf
http://fermin.perso.math.cnrs.fr/Files/Chap2.pdf
https://fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques)
http://grasland.script.univ-paris-diderot.fr/STAT98/stat98_6/stat98_6.htm
http://eric.univ-lyon2.fr/~ricco/cours/cours/Analyse_de_Correlation.pdf
http://fermin.perso.math.cnrs.fr/Files/Chap3.pdf
https://www.lmd.polytechnique.fr/~sturquet/teaching_data/mu001/chap8.pdf
https://math.unice.fr/~diener/MAB07/MCO.pdf

23
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

CHAPITRE 5 : ANALYSE DE LA VARIANCE


1-INTRODUCTION

On peut introduire l’analyse de la variance (ANOVA) de deux façons.


-On cherche à expliquer une variable quantitative Y au moyen d’une variable

explicative qualitative X. Généralement, la variable explicative est appelée facteur


(explicatif). Les modalités sont appelées niveaux de facteur. On verra que l’on peut faire
“apparaitre” un modèle linéaire sous-jacent.
-On désire comparer différentes populations ou différentes conditions
expérimentales. La question que l’on se pose est : “Y-a-t-il des différences en moyenne
entre les divers groupes ?”
Tableau récapitulatif :
Type de la variable Type de la ou des Modèle linéaire
à expliquer variables explicatives correspondant
Quantitative Quantitative (1) régression linéaire simple

Quantitative Quantitative (>1) régression linéaire multiple

Quantitative Qualitative (1) ANOVA à un facteur

Quantitative Qualitative (>1) ANOVA à plusieurs facteurs

L’Analyse de la variance est la comparaison de moyennes pour plusieurs groupes


(> 2). Il s'agit de comparer la variance intergroupe (entre les différents groupes : écart des
moyennes des groupes à la moyenne totale) à la variance intragroupe (somme des
fluctuations dans chaque groupe). S'il n'y a pas de différence entre les groupes, ces deux
variances sont (à peu près) égales. Sinon, la variance intergroupe est nécessairement la
plus grande.
Dans le cas où la moyenne n’est influencée que par un seul facteur (noté facteur
A), il s’agit d’une analyse de la variance à un seul facteur ("one way ANOVA") si non elle
peut être à deux ou plusieurs facteurs.
Un facteur a est souvent une variable qualitative présentant un nombre restreint de

modalités. Le nombre de modalités (c’est-à-dire de niveaux) du facteur a sera noté I. On


suppose que Y suit une loi normale N (µi , σ2 ) sur chaque sous-population i définie par
les modalités de a. L’objectif est ici de tester l’égalité des moyennes de ces populations,
à savoir de tester l’hypothèse nulle : H0 : µ1 = µ2 = · · · = µi contre l’hypothèse alternative.

24
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Il peut sembler étrange qu'une procédure destinée à comparer des moyennes soit
appelée analyse de variance. Ce nom provient du fait que pour tester la significativité
statistique entre des moyennes, nous devons en fait comparer, analyser, les variances.
Ce cours s’appuie essentiellement sur les références bibliographiques en fin du chapitre.

Malgré les relectures, ce document est susceptible de contenir quelques coquilles. Vous pouvez
me les signaler en me contactant à : adjrach@hotmail.com

2-condition d’application
2.1 Structure des données
Il faut donner :
-La Variable qualitative contenant trois modalités, appelée facteur (à effets fixes).
- La réponse attendue, notée Y.

Exemple : on veut connaitre le développement des tiges d’un arbre suivant le


temps.
yij = mesure du sujet i au temps j
Temps j
1 2 ……. p
Sujet i

1 y11 y12 ……. y1p

2 y21 y22 ……. y2p

……….. ….. ….. yij …

n yn1 yn2 ……. ynp

2.2conditions d’application

2.2.1 Indépendance

Pas de test statistique simple pour étudier l’indépendance. Les conditions de l’expérience
choisie nous déterminent si nous sommes dans le cas de l’indépendance. (Exemples = Les
forêts sont indépendantes, des parcelles de blé, des vergers d’abricotiers).

2.2.2 La Normalité
Bien que la normalité des k populations fasse partie des hypothèses d’application de
l’analyse de variance il faut reconnaître que l’ANOVA est peu sensible, dans l’ensemble,
à la non-normalité des populations considérées. Il suffit en pratique d’éviter d’employer
l’analyse lorsque les populations sont très différentes des distributions normales, et lorsque

25
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

ces distributions sont de formes très différentes d’une population à une autre (dissymétries
de sens opposés par exemple), surtout pour des petits échantillons.
Généralement on utilise le Test de Shapiro-Wilk sur l’ensemble des résidus
H0 : les résidus suivent une loi normale
H1 : les résidus ne suivent pas une loi normale

Statistique de test :

xi correspond à la série des données triées, et ai sont des constantes fournies par des tables
spécifiques.
Décision : On rejette H0 si W< Wcrit
Les valeurs seuils Wcrit pour différents risques α et effectifs n sont lues dans la table de
Shapiro-Wilk.
2.2.3 L’homoscédasticité (Homogénéité)
C’est légalité des variances. De même, celle-ci, est d’importance
relativement secondaire lorsque les effectifs des échantillons sont tous égaux. Par contre,
dans le cas d’échantillons d’effectifs différents, on doit s’assurer de la validité de cette
hypothèse surtout lorsque les échantillons d’effectifs les plus réduits correspondent aux
populations de variance maximum.
2.2.4 Robustesse
La méthode d’analyse de la variance est dite robuste, c’est à dire qu’elle est peu
sensible à des écarts (raisonnables) par rapport aux hypothèses mentionnées.

3- MODELE DE L’ANALYSE DE LA VARIANCE A UN FACTEUR


3.1 Equation fondamentale de l’analyse de la variance
3.1.1 Estimation du modèle
Exemple :
Un agronome veut étudier l’effet de 3 types d’irrigation sur le rendement à l’hectare de vergers de
pommiers. Ici, Y = rendement à l’hectare (en tonnes), variable quantitative, X = type irrigation (IR1, IR2 ou
IR3), variable qualitative ou facteur. Quel modèle linéaire pour étudier cette problématique ?
Supposons que ni observations du rendement à l’hectare ont été obtenues pour chaque type
d’irrigation i.
Un modèle peut s’écrire sous la forme :
Yij = µi + εij
avec i = IR1, IR2, IR3 et j = 1, . . . , ni.
Yij est le rendement observé du verger j traitée avec l’irrigation i ;

26
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

µi représente le rendement moyen d’un verger traitée avec l’irrigation i ;


εij est un terme d’erreur aléatoire.

Ce modèle peut aussi s’écrire sous la forme alternative suivante :


Yij = µ + αi + εij
où µ est le rendement moyen global (quel que soit l’irrigation) et αi est l’effet différentiel du niveau i
du facteur “irrigation”.
Une hypothèse intéressante à tester ici est :
H0 : µIR1 = µIR2 = µIR3
ou de manière équivalente :
H0 : aIR1 = αIR2 = aIR3 = 0.
Le but sera donc :
-tester si deux niveaux différents du facteur entraînent une différence significative dans la
variable à expliquer Y.
-ou de manière équivalente tester l’effet du facteur X (”irrigation”) sur la variable à expliquer Y
(”rendement”),

3.1.2 Décomposition de la variance totale

a/ Nous considérons que nous avons p séries d’observations


(échantillons), avec des effectifs ni (i = 1 ….., p), alors l’effectif total est n. :

n. =
(les points qui figurent en indices remplacent des indices selon lesquels une sommation a été réalisée.)

les différentes observations xik (i = 1 , . . . , p et k = 1 , . . . , ni), la valeur xik


est la kéme observation du iéme échantillon
On peut en déduire p moyennes , relatives aux p échantillons, et une moyenne générale

De ces équations, on peut subdiviser les écarts entre les observations individuelles et la
moyenne générale en deux composantes additives :

Variation totale : Dispersion Variation factorielle ou Variation résiduelle ou dans


des données autour de la
entre échantillons : l’échantillon : Dispersion des
moyenne générale.
Dispersion des moyennes données à l’intérieur de
autour de la moyenne chaque échantillon autour de
générale. sa moyenne.

Cette décomposition est le modèle observé de l’analyse de la variance. Celui ci est


constitué de la variation totale, de la variation factorielle et de la variation résiduelle.

27
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

En élevant au carré les deux membres de la relation précédente, et en sommant pour


toutes les valeurs observées, on obtient l’´equation d’analyse de la variance :
)²= )²

Qu’on peut écrire :

)² = )²

Somme des carrés Somme des carrés Somme des carrés


des écarts totale : des écarts factorielle des
SCEt ou entre échantillons : écarts résiduelle :
SCEa SCEr

Ainsi, on pourra écrire l’équation d’analyse de la variance sous sa forme condensée :

SCEt = SCEa + SCEr


Mesures globales des variations Mesures globales des Mesures globales des
existant entre l’ensemble des variations existant entre variations existant entre les
observations indépendamment les différents échantillons observations à l’intérieur
des échantillons auxquels elles des différents échantillons.
appartiennent

A chacune des sommes des carrés des écarts est associé un nombre de degrés de liberté
(ddl), ceux-ci sont additifs :
1 =
ddl total ddl factoriel ddl résiduel

Par la division des sommes des carrés des écarts par leurs nombres de degrés de liberté
respectifs, on détermine des quantités appelées carrés moyens (CM) :
Carré moyen total : CMt = SCEt / (n. − 1);
Carré moyen factoriel ou entre échantillons : CMa = SCEa / (p – 1) ;
Carré moyen résiduel ou dans les échantillons : CMr = SCEr / (n. − p).
Ces carrés moyens sont aussi appelés variances et ils possèdent d’ailleurs certaines des
propriétés des variances, notamment en ce qui concerne leurs distributions
d’´echantillonnage.
Les résultats finaux sont présentés dans un tableau d’analyse de la variance :
Tableau 1d’analyse de la variance à un critère de classification.

28
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Degrés Sommes Carrés


Sources de variation de des carrés moyens Fobs
liberté des écarts
variation entre échantillons
p−1 SCEa CMa CMa / CMr
variation entre observations
(dans les échantillons)
n−p SCEr CMr

variation Totale n−1 SCEt

3.1.3 Le rapport de corrélation


Le rapport des sommes des carres des écarts factorielle et totale permet de définir
facilement le rapport de corrélation, aussi appelé coefficient de corrélation non linéaire :

h=

Ce paramètre joue, dans le cas d’une relation liant une caractéristique nominale et une
variable quantitative, un rôle semblable à celui du coefficient de corrélation dans le cas de
deux variables quantitatives. La caractéristique nominale correspond ici aux différents
échantillons et la variable quantitative correspond aux différentes observations.
Ce rapport de corrélation est toujours :

0<h<1
h=0 . quand toutes les moyennes sont égales entre elles,
h=1 quand les variances des différents échantillons sont toutes nulles.
Ce paramètre, h², joue un rôle comparable à celui du coefficient de détermination, mais il

ne s’agit nullement, du carré d’un coefficient de corrélation classique.

4 PRATIQUE DE L’ANALYSE DE LA VARIANCE


4.1 Principe du test
On souhaite tester les hypothèses :
HO: Il n'y a pas d'effet, c'est-à-dire : les moyennes pour les différents niveaux du
facteur sont égales.
soit al = a2 = ...... =aI
contre
H1: Il y a un effet dû au facteur, ou deux moyennes au moins sont différentes.

29
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Le principe du test est le suivant:


Si les différences entre niveaux du facteur ou entre colonnes du tableau de données sont
grandes par rapport aux écarts intra-niveaux, alors on conclura qu'il y a un effet différentiel
en fonction du facteur.
Il s'agit donc de comparer la variabilité inter-niveaux à la variabilité intra-niveau du facteur,
en faisant intervenir les quantités SCEInter t et SCEIntra
Pour tester HO contre Hl on évalue la quantité (rapport des carrés moyens inter et intra
échantillons):

Fobs = =

Si l'hypothèse HO est vraie, la valeur F est voisine de 1. Plus on s'éloigne de


cette hypothèse, en faveur de l'hypothèse H1, plus le rapport F augmente. Il reste à
déterminer à partir de quelle valeur observée de F on rejettera HO. Cette prise de décision
est fondée sur la connaissance de la loi de F sous HO·
Dans la mesure où les résidus du modèle d'analyse de la variance suivent une
loi normale et si HO est vraie, on sait que F est l'observation d'une variable qui suit une loi
de Fisher ayant (I-1) ddl au numérateur et (n-I) ddl au dénominateur (notée F (I-1 ,n-I))
Pour un niveau de signification donné a (risque de 1er espèce), on adopte la
stratégie de décision suivante:
Accepter Ho : les moyennes sont égales
Rejeter Ho : les moyennes ne sont pas égales
4.2 Application et tableau de variation
Exemple : Nous étudions le rendement en kg (poids des fruits/arbre) de 03 jeunes
vergers.
arbre Verger1 Verger2 Verger3
1 84 88 83
2 84 89 86
3 87 88 85
4 84 87 83
5 88 93 79
6 87 88 84
7 88 85 86
8 86 93 81
9 81 86 83
10 86 89 88
Effectif n 10 10 10
Moyenne m 85,5 88,6 83,8
Moyenne 85,97
generale

30
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Lorsque les échantillons sont de même taille, nous disons alors que l’expérience est
équilibrée.
1-Le modèle est :
Yij = mi +eij
i= vergers : 1, 2, 3.
J= 1,….,ni, n1 = 10, n2 = 10 n3 = 10
ou encore
Yij = µ + αi + εij ,
i = 1, 2, 3,
j = 1, . . . , ni , n1 = 10 n2 = 10 n3 = 10

2- on détermine les degrés de liberté ddl, de chaque source de variation et la


variance à partir des paramètres intermédiaires : les SCEa, SCEr , SCEt , les CMa, CMr
et le rapport entre ces deux derniers conformément au tableau 1 de l’analyse de la
variance.
Ainsi, on obtient le tableau 2 de l’analyse la variance de notre étude :
Sources de variation Degrés Sommes Carrés Ftheo
de liberté des carrés moyens Fobs (a=0.001 ; 2,27)
(ddl) des écarts
Différences entre vergers i–1 SCEa = CMa = CMa/CMr =
3-1=2 118,5 59,23 9,491 9,21
Différences entre n. – p SCEr = CMr = 6,24
observations (dans les 30-3=27 168,5
vergers)
Totaux n. – 1 SCEt =287
30-1=29

3-Le test de H0 nécessite le calcul de la quantité :


Fobs = CMa/ CMr
Le rejet de H0, au niveau a, intervient quand cette dernière quantité est trop
élevée, c’est-à-dire quand :

P(Ftheo ³ Fobs) ≤ a ou Fobs ³ Ftheo( 1- a )

Le terme Ftheo( 1- a ) est déterminé par la table de Fisher pour a= 0.001 avec 2 et 27 ddl. Il

est égal à : 9,21.


4-Conclusion :
Il y a donc une différence significative des moyennes des rendements pour les 3 vergers.
En d’autres termes, il existe au moins 2 vergers qui ne donnent pas le même rendement.

31
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

5- MODELE DE L’ANALYSE DE LA VARIANCE A DEUX FACTEURS


L’analyse de variance avec deux facteurs peut être considérée comme une généralisation
de l’analyse de variance à un facteur. Les deux facteurs peuvent être placés soit sur un
pied d’égalité, soit subordonnés l’un à l’autre. Dans le premier cas, les modèles d’analyse
de variance sont dits croisés, et, dans le second cas, ils sont appelés hiérarchisés ou multi-
niveaux.
Là encore, on distinguera entre modèles fixes, modèles aléatoires et modèles mixtes. Une
distinction importante sera faite entre le cas des effectifs égaux (plan équilibré ou
orthogonal), et le cas des effectifs inégaux, (plan non équilibré ou non orthogonal).
Globalement, les conditions d’application de l’analyse de variance à deux facteurs sont de
la même nature que pour un seul facteur : populations normales, de même variance, et
échantillons simples et indépendants.

5.1 Equation fondamentale de l’analyse de la variance modèle croisé à


effectifs égaux.
5.1.1 Estimation du modèle

* - modèle d’analyse de la variance à deux facteurs sans interaction


Yij = µ + ai + bj + eij = =0

*- modèle d’analyse de la variance à deux facteurs avec interaction


Yijh = µ + ai + bj + gij + eijh
= = =0
5.1.2 Décomposition de la variance totale

a- supposons pq séries d’observations (échantillons) ayant chacune un effectif n,


Xijk les observations individuelles de chaque série.
Les différentes modalités de i , j et k correspondent
1- pour i=1.,….,p, au premier critère de classification,
2- pour j=1,…,.q, au deuxième critère de classification

32
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

3- pour k=1,…, n, aux différentes observations d’une même série (échantillon)


De ces données, on peut calculer :
La moyenne pour chacune des séries d’observations (échantillons) :

une moyenne pour chacune des modalités de chacun des deux critères de classification :

= =

Et

= =

et une moyenne générale :

= =

= =

b- En subdivisant les écarts par rapport à la moyenne générale en deux, puis en quatre
composantes.
On aura :

- )=( - )+( -

=( - )+( - +( - - )+( -

c-En élevant au carré et en sommant pour les npq observations, on obtient


l’équation d’analyse de la variance :

( - = ( - )² + ( - ²
somme de carrés d’´ecarts total somme de carrés d’´ecarts somme de carrés d’´ecarts
factorielle (facteur a) factorielle (facteur b)

+ ( - - )² + ( -
somme de carrés somme de carrés
d’écarts liée à l’interaction d’écarts résiduelle

Qui peut s’écrire de façon simplifiée avec les degrés de liberté qui leur sont associés:

SCEt = SCEa + SCEb + SCEab + SCEr .


33
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

Degrés de liberté : pqn–1 = (p − 1) + (q − 1) + (p − 1) (q − 1) + p q (n − 1).

d- la division des SCE par leur degrés de liberté respectif on obtient les carrés moyens

Tableau 3 Tableau d’analyse de la variance à deux critères de classification, dans le cas


des modèles croisés à effectifs égaux.
Sources de Degrés de Sommes des Carrés Fobs
variation liberté (ddl) carrés
moyens
des écarts

Facteur a p–1 SCEa CMa Fa

Facteur b q–1 SCEb CMb Fb

Interaction ab (p−1)(q−1) SCEab CMab Fab

Variation pq(n−1) SCEr CMr


résiduelle

Totaux pqn−1 SCEt

6 PRATIQUE DE L’ANALYSE DE LA VARIANCE


Conditions à vérifier :
-indépendance des données
-normalité des résidus
-homogénéité des variances (homoscédasticité)
6.1 Principe du test
On suppose que nous avons deux facteurs a et b à étudier avec une
interaction ab et leur statistique observée(Fobs) respective est : Fa, Fb et Fab. Leur
statistique théorique (Fa) avec leur degrés de liberté (ddl) correspondant.
Alors on considère ce qui suit :
Si Fa>Fa ((p-1);pq(n-1)), alors on a une présence significative du facteur a au niveau a,

Si Fa>Fa ((q-1); pq(n-1)), alors on a une présence significative du facteur b au niveau a,

Si Fab>Fa ((p- 1)(q - 1) ;pq(n -1)), alors on a une présence significative de l’interaction
des deux facteurs ab au niveau a.
Dans le cas contraire de chacune des conditions citées ci-dessus, on n’a pas d’effet
significatif du facteur a ou du facteur b ou de l’interaction ab.

34
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

6.2 Application et tableau de variation


Exemple :
Nous nous proposons d’analyser l’influence du temps et de trois espèces ligneuses
d’arbres sur la décomposition de la masse d’une litière constituée de feuilles de lierre. Pour
ce faire, 24 sachets d’une masse identique de feuilles de lierre ont été constitués, sachets
permettant une décomposition naturelle. Puis une première série de 8 sachets, choisis au
hasard, a été déposée sous un chêne, une deuxième sous un peuplier, et la dernière série
sous un frêne. Après 2, 7, 10 et 16 semaines respectivement, deux sachets sont prélevés
au hasard sous chaque arbre et la masse résiduelle est déterminée pour chacun d’eux.
Cette masse est exprimée en pourcentage de la masse initiale.
Les valeurs observées sont les suivantes :
Semaine Chêne Peuplier Frêne
2 85,10 85,20 84,30
87,60 84,90 85,75
7 75,90 73,00 72,80
72,85 75,70 70,80
10 71,60 74,15 67,10
66,95 71,85 64,95
16 62,10 67,25 58,75
64,30 60,25 59,00

Le résultat de l’analyse de variance à deux facteurs donne les résultats ci-dessous :


Taleau 3 de l’analyse de la variance
Sources de ddl SCE Carres Fobs Ftheor
variation Moyes Fisher Snedeco
semaine 3 1741,31 580,44 121,6927 (a= 0,05 ;3,12) =3,26

espèce 2 58,08 29,04 6,0881 (a= 0,05 ;3,12) =3,89

Semaine X espèce 6 30,22 5,04 1,0559 (a= 0,05 ;3,12) =3,00

Résiduels 12 57,24 4,77

Le Fobs est supérieur à Ftheor pour a = 0.05 pour le facteur ‘’semaine’’ et le facteur ‘’espèce’’.
Les deux facteurs sont significatifs ; il y a donc un effet semaine et un effet espèce sur la
masse résiduelle de lierre. Donc, on accepte H0, et on conclut à la non-significativité de
l’interaction.

35
INSTITUT DES SCIENCES VETERINAIRES ET SCIENCES AGRONOMIQUES UINVERSITE BATNA 1
L2 -AGRONOMIE. MODULE BIOSTATISTIQUE. 2019 2020

REFERENCES BIBLIOGRAPHIQUES.

Notes de cours Modélisation Statistique L3 MIASHS Analyse de la variance - Chapitre


VI, Université de Bordeaux. France.

Frédéric Bertrand & Myriam Maumy.Analyse de la variance à un facteur


IRMA, Université de Strasbourg Strasbourg, France. DUS2 20-06-2011

Professeur Michel Carbon, Département de Mathématiques et Statistique, Cours


d’Analyse de la Variance, 2015. - 2300, Université de Laval. Canada.

Liens.

http://tecfaetu.unige.ch/etu-maltt/nestor/schneib0/anova/rapports/Chapitre%207.pdf

https://perso.univ-rennes1.fr/valerie.monbet/ExposesM2/2013/anova.pdf

http://www.dagnelie.be/docpdf/st2avar.pdf

https://www.lpsm.paris/pageperso/akakpo/documents/PolyTests2017.pdf

36