Académique Documents
Professionnel Documents
Culture Documents
DOCUMENT DE COURS
Niveau : M1
Biostatistique
Niveau : MRGE2
garelmak@yahoo.fr
Garel Makouanzi
i
Table des matières
Avant-propos ........................................................................................................................................... iv
CHAPITRE I : INTRODUCTION A LA BIOSTATISTIQUE............................................................................... 1
1-1- Définition ................................................................................................................................. 1
1-2- La terminologie en biostatistique ............................................................................................ 1
1-2-1- La population ........................................................................................................................ 1
1-2-2- L’échantillon.......................................................................................................................... 2
1-2-3- L’inférence statistique .......................................................................................................... 2
1-2-4- La variable ............................................................................................................................. 2
1-2-5- Le facteur .............................................................................................................................. 3
1-2-6- Les variantes, niveaux et modalités d’un facteur ................................................................. 3
1-2-7- Le traitement ou l’objet ........................................................................................................ 4
1-2-8- Le témoin ou l’objet de référence ........................................................................................ 4
1-2-9- L’unité expérimentale ........................................................................................................... 4
CHAPITRE II : L’EXPERIMENTATION STATISTIQUE ................................................................................... 6
2-1- La conception et l’organisation de l’expérimentation ................................................................. 6
2-2- Les dispositifs expérimentaux ...................................................................................................... 7
2-3- L’interprétation expérimentale.................................................................................................. 12
CHAPITRE III : LA STATISTIQUE DESCRIPTIVE......................................................................................... 13
3-1- Les représentations graphiques ................................................................................................. 13
3-1-1- Le diagramme en bâtons – Le camembert – Le diagramme en barres .............................. 13
3-1-2- L’histogramme, le polygone et la courbe de fréquences ................................................... 15
3-1-3- La fonction de répartition empirique (diagramme cumulatif ou Courbe cumulative) ....... 16
3-1-4- Les caractéristiques des distributions (mesures de forme et loi de probabilité) ............... 17
3-2- Les indicateurs numériques ....................................................................................................... 19
3-2-1- Les indicateurs de position ................................................................................................. 19
3-2-2- Les indicateurs de dispersion.............................................................................................. 22
3-3- L’Intervalle de confiance ............................................................................................................ 24
3-4- Le Box plot (la boîte à moustaches) ........................................................................................... 25
3-5- Les Corrélations.......................................................................................................................... 26
3-5-1- La corrélation et la causalité ............................................................................................... 27
3-5-2- Les Corrélations non linéaires............................................................................................. 27
CHAPITRE IV : LES TESTS STATTISTIQUES .............................................................................................. 28
4-1- Introduction aux tests statistiques ............................................................................................ 28
ii
4-1-1- Les tests paramétriques et non paramétriques.................................................................. 28
4-1-2- La mise en œuvre d’un test statistique .............................................................................. 28
4-2- L’analyse de variance ............................................................................................................. 29
4-2-1- Les conditions d’application de l’analyse de variance ........................................................ 32
4-2-2- Les transformations des données ....................................................................................... 33
4-2-3- Les tests post hoc ou tests à postériori .............................................................................. 34
4-3- La comparaison de deux moyennes (Test t-Student) ................................................................ 35
4-3-1- Echantillons indépendants.................................................................................................. 35
4-3-2- Echantillons appariés .......................................................................................................... 35
4-4- Les tests de Kruskal-Wallis et de Steel-Dwass ........................................................................... 36
4-4-1- Le test de Kruskal-Wallis ..................................................................................................... 36
4-4-2- Le test de steel-Dwass ........................................................................................................ 37
4-5- Le test d’indépendance du χ² de deux variables qualitatives .................................................... 38
4-6- Les tests de comparaison des proportions ................................................................................ 39
4-6-1- La comparaison d’une proportion à une référence ............................................................ 39
4-6-2- La comparaison de deux proportions ................................................................................. 40
CHAPITRE V : LA STATISTIQUE MULTIDIMENTIONNELLE ...................................................................... 41
5-1- Introduction ............................................................................................................................... 41
5-2- L’Analyse en composante principales ........................................................................................ 41
5-3- L’Analyse Factorielle des Correspondances ............................................................................... 46
5-4- La classification ascendante hiérarchique ................................................................................. 46
5-5- L’Analyse de Hill et Smith ........................................................................................................... 47
CHAPITRE VI : LA MODELISATION STATISTIQUE.................................................................................... 49
6-1 – Introduction à la modélisation biostatistique .......................................................................... 49
6-2- La régression linéaire ................................................................................................................. 49
6-2-1 – La représentation graphique................................................................................................. 49
6-2-2 – Le modèle général de régression .......................................................................................... 50
6-2-3 – L’estimation des paramètres du modèle de régression ....................................................... 51
6-3- La régression non linéaire .......................................................................................................... 52
6-4- L’analyse de covariance ............................................................................................................. 52
6-5- Le modèle linéaire mixte ............................................................................................................ 56
BIBLIOGRAPHIE ...................................................................................................................................... 57
iii
Avant-propos
Ce module de Biostatistique est destiné aux étudiants de première année de Master des
parcours SA (Sciences Agronomiques), STF (Sciences et Techniques Forestières), PV
(Production Végétale) et PSA (Production et Santé Animale) de l’Ecole Nationale Supérieure
d’Agronomie et de Foresterie (ENSAF) de l’Université Marien Ngouabi. Il présente la
terminologie en biostatistique et traite de l’expérimentation statistique. Ensuite les indicateurs
de description (graphiques et numériques) des données sont abordées, avant l’apprentissage
de l’utilisation des tests statistiques et de la régression linéaire simple. Enfin ce cours se
termine par la présentation des différentes méthodes de la statistique multidimensionnelle.
iv
CHAPITRE I : INTRODUCTION A LA BIOSTATISTIQUE
1-1- Définition
L’analyse des données est utilisée pour décrire les phénomènes étudiés, faire des prévisions et
prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes. Les données étudiées peuvent être
de toute nature, ce qui rend la statistique utile dans tous les champs disciplinaires, de
l’économie à la biologie en passant par les sciences humaines, et bien sûr les sciences de
l’ingénieur.
Les expériences en biologie génèrent des quantités pharamineuses de données qu’il faille
synthétiser. La biostatistique regroupe un ensemble de méthodes qui visent : la collecte des
données, le traitement des données, l’analyse des données et l’interprétation des données. Une
interprétation incorrecte d’observations, peut conduire à des conclusions tout à fait erronées.
Les méthodes statistiques permettent d’éprouver la validité des résultats avec la plus grande
rigueur scientifique. Autrement dit la biostatistique aide au raisonnement en se basant sur un
formalisme éprouvé.
La statistique repose sur des modèles et des hypothèses issues des probabilités. Statistiques et
probabilités sont deux aspects complémentaires de l’étude des phénomènes aléatoires.
1-2-1- La population
La population correspond à l’ensemble des individus (éléments) sur lequel on aimerait que les
conclusions d’une étude portent. C’est l’ensemble des éléments qui composent la population
cible, caractérisés par au moins une caractéristique.
1
1-2-2- L’échantillon
En général, la population est trop grande pour qu’on puisse l’observer en entier, on fait
recours alors à un échantillon (sample), qui est un sous ensemble de la population. C’est la
fraction de la population statistique sur laquelle des mesures sont faites pour connaitre les
propriétés de cette population. L’échantillon est identifié par son effectif, noté n.
ET ANALYSES
1-2-4- La variable
La variable est une caractéristique mesurable ou observable sur tous les éléments d’une
population ou d’un échantillon. Autrement dit, la variable est la grandeur statistique que l’on
2
souhaite étudier. On distingue deux types de variables : les variables quantitatives et les
variables qualitatives.
Les modalités d’une variable quantitative expriment des quantités numériques. Une variable
quantitative peut être continue (peut prendre, en théorie, une infinité des valeurs, formant un
ensemble continu) ou discrète (ne peut prendre que des valeurs entières).
Les modalités d’une variable qualitative n’expriment pas des quantités numériques. Une
variable qualitative peut être catégorielle, autrement dit nominale (les modalités ne sont pas
hiérarchisées); ordinale (les modalités sont hiérarchisées) ou binaire (présence/absence).
1-2-5- Le facteur
On appelle facteur toute série d’éléments de même nature pouvant être comparés au cours
d’une expérimentation.
Exemple : une série de variétés, une série d’essences forestières, un ensemble de produits
phytosanitaires, différentes rations alimentaires, etc.
- facteur qualitatif, caractérisé par des éléments qui ne peuvent être classés à priori
(exemples : une série de variétés, un ensemble de fongicides, …);
- facteur quantitatif, dont les éléments se classent de façon logique à priori (exemples :
doses d’un engrais, températures, …).
On distingue des facteurs étudiés et des facteurs aléatoires. Les facteurs étudiés sont ceux
introduits volontairement dans l’expérience (variétés, doses de fertilisation, …). Les facteurs
aléatoires ce dit des facteurs inhérents au milieu. Ceux-ci peuvent être contrôlés lorsque le
dispositif expérimental utilisé les prend en compte (le facteur devient alors étudié) ou
incontrôlés, sur lesquels il n’est pas ou il est difficilement possible d’agir et qui sont la source
de variances résiduelles, fréquemment considérés comme aléatoires.
3
1-2-7- Le traitement ou l’objet
On appelle communément traitement toutes variante ou niveau d’un facteur unique, de même
que toute combinaison de variantes ou de niveaux de deux ou plusieurs facteurs.
Exemples : la race ndama chez les bovins (une variante du facteur race), la race ndama traitée
avec une dose x d’un vermifuge (combinaison des variantes de deux facteurs).
4
En production végétale, l’unité de base est souvent une parcelle comportant un certain nombre
de plantes. Mais l’unité de base peut aussi être une partie de plante (rameau, feuille, fruit…),
ou d’un groupe d’organes particuliers (lot de graines par exemple). En production animale,
l’unité de base de l’expérience peut être un groupe d’animaux soumis à un même traitement et
sont l’objet d’observations globales.
Pour éviter que ces interférences n’influencent les résultats, on peut limiter l’observation à la
partie centrale de chacune des parcelles, en considérant le pourtour comme constituant une
simple bordure.
Les dimensions des bordures doivent toujours être fixées en tenant compte à la fois du
matériel disponible et de l’importance des interférences qui peuvent exister entre les parcelles
voisines.
La notion de bordure peut être transposée au cas des expériences relatives aux animaux, si on
considère comme analogues aux bordures les périodes de transition ou tampons, d’adaptation
à de nouvelles alimentations ou, d’une façon générale, à de nouveaux traitements.
Si par contre, le terrain ou le matériel disponible présente une hétérogénéité marquée dans une
direction donnée, il peut être plus intéressant d’adopter des parcelles rectangulaires, allongées
parallèlement à la direction générale de cette hétérogénéité.
5
CHAPITRE II : L’EXPERIMENTATION STATISTIQUE
L’expérimentation ou l’essai a pour but d’éprouver tout élément qui peut conduire à un
enrichissement des connaissances. L’expérimentation, et notamment en matière biologique,
est à la base de ce qu’il est convenu d’appeler les « sciences expérimentales » qui procèdent
par une succession de cycles « hypothèse - expérimentation - analyse - nouvelle hypothèse ».
Dans ce cycle, la qualité de l’expérimentation est primordiale car elle doit pouvoir conduire
aussi clairement que possible à l’acceptation ou au rejet de l’hypothèse de départ. Dans le
domaine agronomique et forestier, l’expérimentation a souvent comme objectif non pas la
validation d’une hypothèse mais l’estimation d’une valeur, par exemple la production,
comparativement à un témoin ou à une référence quelconque.
6
L’expérience doit être l’objet d’une planification très stricte conduisant à la mise en place
d’un plan d’expérience ou d’un protocole expérimental. On peut considérer que les différents
éléments de base d’un protocole expérimental sont :
Pour une validité de l’analyse statistique deux principes doivent impérativement être
appliqués : la randomisation (ou répartition aléatoire), et la répétition (pour prendre en
compte la variabilité du milieu et pour estimer l’erreur expérimentale ou erreur résiduelle).
Les deux principes concourent au contrôle de l’erreur (réduction de la part non contrôlée de
l’expérience, donc diminuer l’erreur expérimentale).
D’une certaine façon, ces deux principes se complètent mutuellement, puisqu’ils tentent
d’augmenter la précision de l’expérience et de garantir la validité du test de signification, tout
en conservant, dans toute l’expérience les caractéristiques propres à leurs rôles.
Un résultat n’est intéressant que s’il est possible de le généraliser à des conditions
suffisamment étendues.
Afin de mettre en place une expérimentation agronomique ou forestière en plein champ, il
faut choisir une parcelle sur laquelle se déroulera l’essai. Le choix de cette parcelle doit se
faire de façon à ce qu’il y ait : - le moins possible de facteurs aléatoires pouvant influencer les
résultats de l’expérimentation, - le plus d’homogénéité possible. Ensuite il va devoir définir
un dispositif expérimental à mettre en place sur la parcelle.
7
d’hétérogénéité potentiels ou réels en présence, des contraintes liées à l’expérimentation (mise
en place, conduite). Les dispositifs expérimentaux classiques sont :
La disposition des traitements est entièrement aléatoire. Ce dispositif a l’avantage d’être très
simple, mais peut s’avérer mal adapté lorsqu’il existe de l’hétérogénéité sur le terrain.
1 4 3 4 2
5 3 2 5 1
5 1 3 1 5
2 3 4 2 4
5 traitements, 4 répétitions
Généralement ce dispositif est beaucoup plus utilisé en pépinière et non en plein champ.
Quand un gradient existe sur la parcelle (variation de pente, de fertilité, …), il faut prendre en
considération l’hétérogénéité connue en mettant en place un dispositif en blocs. Un bloc est
une partie du terrain supposée homogène. Il est constitué d’un ensemble de parcelles
élémentaires recevant chacune une répétition de chacun des traitements étudiés. Il y a donc
autant de blocs que de répétitions des traitements. Afin de contourner le gradient observé sur
la parcelle, les blocs doivent être disposés perpendiculairement à celui-ci. De cette manière,
l’ensemble des répétitions de traitement issues d’un même bloc est affecté de la même
manière par l’hétérogénéité. Pour chaque bloc, une répétition de chaque traitement est
affectée aux parcelles élémentaires de façon aléatoire. Ce dispositif est le plus utilisé dans les
expérimentations végétales.
8
Le dispositif factoriel en bloc (2 facteurs étudiés + 1 gradient d’hétérogénéité)
6 traitements (3 x 2)
3 répétitions
Dans ce dispositif, chaque ligne et chaque colonne sont des blocs. La répartition des
traitements dans chaque bloc est aléatoire. Chaque traitement figure une seule fois par ligne et
par colonne.
9
Sens du 1er gradient
d’hétérogénéité
Lorsque réalise une combinaison de traitements dans un carré latin, le dispositif est nommé
carré gréco-latin. Notons qu’un carré gréco-latin d’ordres 2 et 6 est impossible à réaliser.
Dans ce dispositif, chaque bloc est divisé en autant de sous bloc que de variantes du premier
facteur qualifié de principal. Les traitements du second facteur sont affectés au hasard dans
chaque sous bloc (facteur dit subsidiaire).
10
12 traitements (6 x 2)
3 répétitions
Sens du gradient
d’hétérogénéité
Il s’agit d’expérience où chaque bloc est divisé en autant de sous bloc que de variantes du
premier facteur, les traitements du second facteur sont vis-à-vis dans chaque sous bloc.
12 traitements (6 x 2)
3 répétitions
Sens du gradient
d’hétérogénéité
12
CHAPITRE III : LA STATISTIQUE DESCRIPTIVE
La statistique descriptive a pour but de résumer l’information contenue dans les données de
façon à en dégager les caractéristiques essentielles sous une forme simple et intelligible. Les
deux principaux outils de la statistique descriptive sont : les représentations graphiques et les
indicateurs statistiques.
13
La représentation graphique en secteur (camembert, diagramme circulaire) des variables
qualitatives ou quantitatives discrètes permet de visualiser et comparer les fréquences des
différentes modalités. Le plus souvent, elle consiste à faire correspondre aux fréquences des
surfaces proportionnelles.
Le diagramme circulaire est rarement utilisé pour représenter les variables qualitatives
ordinales pour lesquelles l’ordre des modalités a son importance. Ce type de graphique n’est
pas adapté lorsque le nombre de modalités devient trop important ; on préférera représenter
les fréquences sur un diagramme en barres (A). Les barres peuvent aussi être représentées de
façon juxtaposées (diagramme en barres superposées (B)).
B
A
14
3-1-2- L’histogramme, le polygone et la courbe de fréquences
Dans le cas de variables continues, on représente les données graphiquement par un
histogramme (A), un polygone (B) ou une courbe de fréquences (C).
Dans les deux cas, il faut arrondir le nombre de classes à l’entier le plus proche, le nombre de
classes étant un entier.
- la borne inférieure d’une classe est la plus petite valeur admise dans la classe ;
- la borne supérieure d’une classe est au contraire la plus grande valeur admise dans la
classe ;
- l’intervalle des classes (ou amplitude des se calcule approximativement avec la formule
suivante :
15
𝑉𝑎𝑙𝑒𝑢𝑟 𝑚𝑎𝑥𝑖𝑚𝑎𝑙𝑒 − 𝑉𝑎𝑙𝑒𝑢𝑟 𝑚𝑖𝑛𝑖𝑚𝑎𝑙𝑒
𝐼𝐶 =
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠
Le polygone de fréquences s’obtient en reliant les points médians des sommets des rectangles
dans l’histogramme.
On utilise le plus souvent la courbe de fréquences pour représenter l’évolution d’une variable.
La courbe cumulative renseigne sur la proportion des éléments de la distribution qui ont une
modalité supérieure (ou inférieure) à un certain seuil.
16
3-1-4- Les caractéristiques des distributions (mesures de forme et loi de
probabilité)
Les mesures de forme n'ont de sens que lorsqu'on étudie des variables quantitatives mesurées
sur une échelle d'intervalles.
𝑢32
𝛽1 =
𝑢23
∑(𝑥𝑖 − ̅𝑥 ) 𝑟
𝑢𝑟 =
𝑁
r : indice de moment, xi : observation individuelle, 𝑥̅ : moyenne des observations, N : effectif
total des observations.
Dans le cas des données groupées, ces moments sont donnés par la formule suivante :
∑𝑓(𝑥𝑖 − ̅𝑥 ) 𝑟
𝑢𝑟 =
𝑁
17
f étant la fréquence absolu des individus appartenant à un groupe.
𝑢4
𝛽2 =
𝑢22
- La loi de Bernoulli : l’expérience n’a que deux résultats possibles (succès et échec,
présence ou absence). La variable est binaire, et répond à la loi Bernoulli.
- La loi binomiale : l’expérience n’a que deux résultats possibles comme dans la loi de
Bernoulli, sauf qu’on associe aux variables le nombre de succès ou d’échec (pourcentage).
- La loi de Poisson : c’est la loi du nombre d’événements observé pendant une période de
temps donnée. La distribution de Poisson est souvent utilisée pour modéliser les données
de comptage.
La loi normale ou loi gaussienne (de Laplace-Gauss), dont la représentation aborde une
courbe en cloche, repose sur l’estimation de deux paramètres de la population statistique :
18
- la moyenne, notée µ ;
- l’écart-type σ relatif à la population.
La distribution répondant à la loi normale est la plus importante en statistique, pour deux
raisons principale : (1) de nombreux phénomènes naturels sont modélisables avec des
variables normales, (2) la distribution normale joue un rôle central dans l’inférence statistique.
La loi normale, notée Ɲ (µ, σ²), est symétrique par rapport à la droite d’abscisse µ.
La distribution d’une variable suivant une loi normale est un pré-requis nécessaire à la
majorité des tests paramétriques (ANOVA, régression, …). L’examen graphique, notamment
l’existence de la symétrie de la densité, est un bon indicateur de la normalité d’une
distribution. Il existe des tests de conformité à la distribution normale, appelés tests de
normalité. Le test de normalité le plus utilisé est le test de Kolmogorov-Smirnov.
Il existe d’autres distributions répondant aux lois portant le nom de la distribution. Il s’agit
des distributions uniformes, Khi carrée, Student (t), Fischer-Snedecor (F) qui ne seront pas
abordées dans ce cours.
19
En dehors de la moyenne arithmétique, il existe d’autres types de moyenne telles que les
moyennes pondérée, harmonique, quadratique et géométrique.
La moyenne arithmétique pondérée est une moyenne à laquelle on introduit la notion de poids
via un terme supplémentaire qui peut s’avérer utile dans certaines situations, notamment
lorsque pour diverses raisons, certains individus ont davantage d’influence dans une
population que d’autres.
Dans le cas général le poids wi représente l’influence de l’élément xi par rapport aux autres.
La formule de la moyenne pondérée s’écrit alors :
∑𝑛𝑖=1 𝑤𝑖𝑥𝑖
𝑥̅ 𝑝 = 𝑛
∑𝑖=1 𝑤𝑖
La Moyenne harmonique
La moyenne harmonique est l'inverse de la moyenne arithmétique des inverses des termes. On
utilise la moyenne harmonique lorsqu'on veut déterminer un rapport moyen dans des
domaines où ils existent des liens de proportionnalité inverse (par exemple pour une distance
donnée, le temps de trajet est d'autant plus court que la vitesse est élevée).
La Moyenne quadratique
La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des
termes. La moyenne quadratique trouve des applications lorsque l'on a affaire à des
phénomènes présentant un caractère sinusoïdal avec alternance de valeurs positives et de
valeurs négatives.
20
Exemple : considérons les nombres suivants {-2, 5, -8, 9, -4} Nous pouvons en calculer la
moyenne arithmétique avec l'inconvénient de voir se neutraliser les valeurs positives et
négatives et d'aboutir à un résultat nul sans que cela ne nous apprenne quoi que ce soit. En
effet, .
La Moyenne géométrique
La moyenne géométrique est la racine nieme du produit des termes. La moyenne géométrique
permet de réduire l’influence des observations les plus grandes d’une série de valeurs et
d’augmenter celle des plus petites. La moyenne géométrique ne s’applique qu’aux nombres
positifs. La moyenne géométrique est utilisée dans le cas où l’on souhaite calculer un taux de
croissance moyen.
= n
x1 x 2 x3 ... xn
La Médiane
La médiane est une valeur de tendance centrale telle que la moitié des observations lui sont
inférieures et l’autre moitié des observations lui sont supérieures. La médiane de X, noté
med(X), est définie par :
La médiane est peu influencée par les valeurs extrêmes. Lorsque la distribution est
symétrique, la moyenne et la médiane sont égales.
21
s’appelle le ‘‘quantile d’ordre α’’ (qα). Autrement dit, le quantile d’ordre α est une valeur telle
qu’une proportion α des observations se trouve à sa gauche et une proportion 1-α à sa droite.
Comme pour la médiane, le procédé de calcul des quartiles est différent selon que le rapport «
nombre d’observations/nombres de groupes » soit un entier ou pas (n/4). Si n/4 n’est pas un
entier, le premier quartile est la valeur de rang immédiatement supérieur à n/4 ; si n/4 est un
entier, le premier quartile correspond à la moyenne des deux valeurs de rang n/4 et de rang
immédiatement supérieur à n/4 (pour le troisième quartile, il suffit de remplacer n par 3n).
L’Amplitude
L’amplitude mesure l’étendue de variation, ou range, d’une série de données. L’amplitude est
égale à la différence entre les valeurs extrêmes de la série étudiée.
A = Xmax - Xmin
22
L’Ecart interquartile
L’écart interquartile de X, noté Iq(X) est simplement défini comme la différence entre le 3eme
et le 1er quartile de X : Iq(X) = q0,75(X) – q0,25(X) ou Iq = Q3 - Q1
Plus cet écart est grand, plus la dispersion des observations est forte.
La Variance
La variance est la moyenne de la somme des carrés des écarts entre les observations et leur
moyenne. Elle permet d’estimer concrètement l’étendue des valeurs se trouvant autour de la
moyenne, donc la variabilité. Cette dernière peut être d’ordre biologique ou peut être causée
par la mauvaise qualité ou le faible nombre des mesures expérimentales.
2
(X i )2
n
L’Ecart-type
2
Un écart-type faible signifie que les valeurs sont relativement concentrées autour de la
moyenne et que la population regroupe des individus aux caractéristiques relativement
homogènes. A contrario, un écart-type élevé est révélateur de valeurs très dispersées autour de
la moyenne et d’une population hétérogène.
L’Erreur type
L'erreur type de la moyenne (ET) estime la variabilité entre les moyennes d'échantillons que
vous obtiendriez si vous preniez des échantillons répétés de la même population. Elle évalue
la variabilité d'un échantillon à un autre, tandis que l'écart type mesure la variabilité au sein
d'un même échantillon.
𝜎
𝐸𝑇 =
√𝑁
Lorsque la valeur de l'erreur type de la moyenne est moins élevée, l'estimation de la moyenne
de la population est plus précise. En règle générale, plus l'écart type est grand, plus l'erreur
type de la moyenne est élevée et moins l'estimation de la moyenne de la population est
23
précise. En revanche, plus l'effectif d'échantillon est élevé, plus l'erreur type de la moyenne
est faible et plus l'estimation de la moyenne de la population est précise.
Le Coefficient de variation
Le coefficient de variation (CV) également nommé écart-type relatif, est une mesure de
dispersion relative. C’est le rapport de l’écart-type à la moyenne. Plus la valeur du coefficient
de variation est élevée, plus la dispersion autour de la moyenne est grande. Il est généralement
exprimé en pourcentage. Sans unité, il permet la comparaison de distribution de valeurs dont
les échelles de mesure ne sont pas comparables. Le CV est une mesure neutre qui permet de
s’affranchir de la notion d’unité.
σx
CV 100
μ
Lorsque les échantillons sont de petite taille (n<20), on applique la correction suivante :
1
CV (1 ) CV
4n
NB : Le calcul du coefficient de variation n’est pas conseillé quand on a des séries des valeurs
positives et négatives. En effet, la moyenne peut être nulle ou proche de 0 et alors on obtient
des valeurs de CV qui peuvent être très grandes en valeur absolue et négatives.
L’intervalle de confiance permet de définir une marge d’erreur entre les résultats obtenus sur
un échantillon et un relevé exhaustif de la population totale. Plus généralement, l’intervalle de
confiance permet d’évaluer la précision de l’estimation d’un paramètre statistique sur un
échantillon. L’intervalle de confiance est obtenu par la relation suivante :
𝜎 𝜎
𝐼𝐶 = [𝑥̅ − 𝑍𝛼/2 ; 𝑥̅ + 𝑍𝛼/2 ]
√𝑛 √𝑛
24
3-4- Le Box plot (la boîte à moustaches)
L’une des manières de résumer numériquement et visuellement une distribution des données
est de construire la boîte à moustaches. Une boîte à moustaches indique les traits marquants
d’une série des données.
Plus l’étendue de la moustache est grande, plus les valeurs sont dispersées. A l’inverse, plus
elle est petite, plus les valeurs sont homogènes.
25
3-5- Les Corrélations
La corrélation désigne une association entre deux variables. Elle vise à informer si la valeur
d’une variable est influencée par la valeur d’une autre variable ou si la relation entre deux
variables est causale ou non. La corrélation peut être visualisée par l’analyse de la dispersion
des points autour de la relation moyenne, ou être calculée. Le calcul du coefficient de
corrélation peut être effectué en utilisant différentes méthodes. Il existe la corrélation r de
Pearson, la corrélation tau de Kendall et le coefficient de corrélation rho de Spearman.
COV ( x, y ) ( x ) ( y )
r
x y ( x )² ( y )²
Les paires d’observations (xi, yi), (xj, yj) sont dites concordantes, si xi < xj et yi < yj ou si xi >
xj et yi > yj. Elles sont dites discordantes si xi < xj et yi > yj ou si xi > xj et yi < yj. Dans le cas
où xi = xj ou yi = yj, la paire n’est ni concordante, ni discordante.
𝑐𝑜𝑣(𝑟𝑔𝑥 , 𝑟𝑔𝑦 )
𝜑 𝑜𝑢 𝑅ℎ𝑜 =
𝜎𝑟𝑔𝑥 × 𝜎𝑟𝑔𝑦
La corrélation entre deux variables est toujours comprise entre -1 et 1, et ces bornes maximale
et minimale sont atteintes lorsqu’il y a une relation linéaire parfaite entre les variables.
26
La signification d’une valeur du coefficient de corrélation calculée à partir d’un échantillon
doit être testée pour confirmer l’existence d’une relation entre les deux variables, dans la
population considérée. En général, on définit l’hypothèse nulle comme H0 : ρ = 0 alors que
l’hypothèse alternative est H1 : ρ ≠ 0.
𝑟√𝑛 − 2
𝑡=
√1 − 𝑟²
Ce critère statistique suit une distribution de Student t avec n-2 degrés de liberté.
27
CHAPITRE IV : LES TESTS STATTISTIQUES
En résumé, les tests statistiques ou tests d’hypothèses consistent à admettre ou non une
hypothèse.
1- La question biologique
2- Le choix du test
Dans de nombreux cas, les hypothèses d’un test peuvent se traduire sur la valeur d’un
paramètre d’une loi de probabilité. Les tests de ce type sont appelés tests paramétriques. Les
tests qui ne portent pas sur la valeur d’un paramètre sont appelés tests non paramétriques.
28
Le choix du test se fait donc en fonction d’un certain nombre de critères (type de variable,
taille de l’échantillon, loi de probabilité, …). Notons qu’on peut avoir le choix entre différents
tests, chacun d’entre eux possédant des conditions d’application.
- Une hypothèse nulle H0, qui est toujours une hypothèse de non-effet.
- Une hypothèse alternative H1, qui est une hypothèse d’effet.
4- Calcul du test
Le calcul du test consiste à générer une statistique appelée statistique de test qui va orienter la
décision.
L’analyse de variance a donc pour but de comparer la moyenne des groupes formés par le ou
les critères de classification soumis à l’analyse. Elle permet de répondre à la question suivante
: y a-t-il de la variabilité significative parmi ces moyennes, pour chacun des critères de
classification considérés ? Les données suivent généralement une distribution normale (test de
Normalité). Cependant dans certains cas la normalité n’a pu être vérifiée. Il est donc
indispensable de recourir à la statistique non paramétrique. En outre, la robustesse de ces tests
est indiscutable. L’analyse de variance non-paramétrique peut être adoptée pour l’ensemble
des traitements statistiques. De plus ce choix est conforté quand le nombre d’observations
(inférieur ou égal à 5 observations par station) est faible.
29
- L’écriture d’un modèle ; la modélisation statistique est une description mathématique
plus ou moins approximative d’un mécanisme biologique. Un bon modèle est une
représentation idéalisée (juste) de la réalité biologique. Le problème courant dans la
recherche c’est d’examiner les effets d’un certain nombre de variables (ou facteurs)
explicatives sur une variable de réponse.
Les expériences factorielles sont très efficaces car chaque observation apporte une
information sur tous les facteurs qui interviennent dans l’expérience.
On parle d’ANOVA à facteur, lorsque l’analyse porte sur un modèle décrit par un facteur et
d’ANOVA à deux facteurs (ou multifactorielles), lorsque l’analyse porte sur un modèle décrit
par deux facteurs (ou plusieurs facteurs).
L’énoncé des hypothèses se résume à avoir deux hypothèses qui s’excluent mutuellement (H0
et H1). La validité de l’hypothèse est soumise à l’épreuve à l’aide du test ANOVA avec des
risques d’erreur d’accepter ou de refuser l’hypothèse.
L’erreur de première espèce consiste à rejeter H0 alors qu’elle est vraie. L’erreur de
deuxième espèce consiste à rejeter H1 alors qu’elle est vraie.
- Le calcul du test
Lorsqu’on analyse l’effet de deux facteurs (ANOVA à deux facteurs) sans interaction, la
variation totale est décomposée par l’équation suivante :
30
Lorsqu’on analyse l’effet de deux facteurs (ANOVA à deux facteurs) avec interaction, la
variation totale est décomposée par l’équation suivante :
ni ( X i X ) 2
n-1 SCEA/n-1
CMA/CMr
i 1
Résiduelle SCEr =
(intragroupe) N-n k ni CMr= SCEr/N-n
( X
i 1 j 1
ij X i )2
31
Le tableau suivant résume la procédure de calcul de la statistique F pour l’ANOVA à deux
facteurs avec répétitions. On accède au terme d’interaction lorsque le plan d’expérience
contient des répétitions.
Facteur
(n-1)(p-1) 𝑟 ∑𝑖𝑗(𝑥
̅̅̅𝑖𝑗̅ − 𝑥̅𝑖 − 𝑥̅𝑗 + 𝑥̅ )² SCEA×B/(n-1)(p-1) CMA×B/CMr
A×B
2
Résiduelle N-np ∑ 𝑒𝑖𝑗𝑘 SCEr/N-np
𝑖𝑗𝑘
La lecture des résultats d’une ANOVA se fait par rapport à la valeur de F de Snedecor. Une
comparaison est faite entre le F calculé et la valeur critique de la table F de Snedecor avec les
ddl requis.
32
La normalité de la distribution est recommandée pour réaliser l’ANOVA. Dans le cas où la
distribution ne suit pas une loi normale, on peut procéder à la normalisation des données par
une transformation des données (logarithme, racine carrée, angulaire, arc sinus, inverse…).
L'hétérogénéité des variances est la violation des hypothèses de l'analyse de variance la plus
fréquente. L’application de l’analyse de variance est conditionnée normalement par
l’homoscédasticité des variances. Le critère statistique utilisé pour tester l’hypothèse d’égalité
des variances est :
𝑠12
𝐹=
𝑠22
Le critère statistique suit une distribution de F avec (n1-1, n2-1) degrés de liberté. La règle de
décision est la suivante: si la valeur calculée du critère statistique est inférieure à la valeur
critique de la distribution de F, au seuil de signification voulu, on accepte l’hypothèse nulle, à
savoir que les deux échantillons sont prélevés dans des populations de même variance. Dans
le cas contraire, l’hypothèse nulle est rejetée.
L’indépendance entre les différentes valeurs de la variable mesurée est une condition
essentielle à la réalisation de l’analyse de variance.
– la transformation en vecteur de rangs dont l’objectif est de se concentrer sur l’ordre des
valeurs des données et plus sur les valeurs elles-mêmes ;
33
Dans le cadre de ce chapitre, seule la troisième famille des méthodes de transformations des
données sera considérée. Dans cette famille on peut les différentes transformations : la
transformation logarithmique, l’élévation au carré, la mise sous racine carré, la transformation
arc-sinus, la mise à l’exponentielle, la transformation inverse, la transformation logistique.
Exemple d’un test post hoc : Test de Tukey ou test de la différence franchement
significative (HSD: honestly significative difference).
xi x j
Q où x i x j
E
34
Avec
𝐶𝑀𝑟
𝐸= √
𝑛
Si Qcal > QCrit (lu sur la table), on conclut à une différence significative entre les deux
moyennes constituant la paire.
Si Qcal < QCrit (lu sur la table), on conclut à l’inexistence d’une différence significative
entre les deux moyennes constituant la paire.
Après le calcul du critère t, on le compare avec la valeur de t donnée par la table de Student au
niveau de probabilité (α) souhaité pour n1 + n2 -2 ddl (degré de liberté).
Si la valeur calculée de t est supérieure à la valeur seuil, on déduit qu’il existe des différences
significatives entre les moyennes des deux échantillons.
Si la valeur calculée de t est inférieure à la valeur seuil, on déduit qu’il n’existe pas des
différences significatives entre les moyennes des deux échantillons.
35
propriétés de la partie basse et de la partie haute d’une plante etc...), le test statistique utilisé
est appelé test jumelé t.
𝑑̅
𝑡=
2
√𝑠𝑑
𝑛
Par exemple :
S’il existe 2 valeurs égales qui prennent la 8 et 9ème place, alors on leur donne le rang
8,5.
S’il existe 3 valeurs égales, qui prennent la 10, 11 et 12ème place, alors on leur donne à
chacune le rang de 11.
Ensuite on calcul la somme des rangs pour chacun des échantillons (SRK), puis la valeur
pratique (H) par la formule suivante :
Avec SRk = Somme des rangs des individus de l’échantillon K, nk = taille de l’échantillon K,
n = nombre total d’individu de tous les échantillons.
36
Dans le cas où il y a des ex-aequo qui sont communs à un ou plusieurs échantillons, il faut
ajuster la valeur pratique en prenant en compte la formule suivante :
𝑉𝑎𝑙𝑒𝑢𝑟 𝑝𝑟𝑎𝑡𝑖𝑞𝑢𝑒
𝑉𝑎𝑙𝑒𝑢𝑟 𝑝𝑟𝑎𝑡𝑖𝑞𝑢𝑒 𝑎𝑗𝑢𝑠𝑡é𝑒 =
𝑡𝑔 × (𝑡𝑔2 − 1)
1− ∑
𝑛3 − 𝑛
La valeur critique se lit selon le nombre d’individu par échantillon. Deux cas s’impose :
- si le nombre d’échantillon ou d’individu est faible (< 5), les valeurs tabulées de Kruskal-
Wallis sont utilisées. En effets, on cherche le nombre d’échantillons, puis la combinaison du
nombre d’individus par échantillon (permettant l’identification de la ligne). Ensuite on choisit
la colonne en fonction de la valeur α choisie.
La lecture de la comparaison entre la valeur pratique et la valeur critique se fait comme suit :
37
Soient ∑ 𝑟𝑢 et ∑ 𝑟𝑣 les sommes des rangs des observations dans les deux groupes ; soient nu et
nv les effectifs de deux groupes et n = nu + nv. La statistique calculée est la suivante (sans ex
aequo) :
𝑛+1
∑ 𝑟𝑢 −(𝑛𝑢 ) 𝑛𝑢 𝑛𝑣 (𝑛+1)
𝑡= 2
avec 𝐸 2 =
𝐸 12
La statistique calculée suit une loi des écarts studentisées de Tukey de paramètres k (nombre
de groupes) et +∞ ddl.
𝑛𝑢 𝑛𝑣 (𝑛(𝑛 + 1)²
𝐸2 = [ ∑ 𝑟²𝑖𝑗 − ]
𝑛(𝑛 − 1) 4
𝑖,𝑗=𝑢,𝑣
38
Caractériser l’indépendance entre deux variables qualitatives X et Y est très utile dans une
étude, en particulier pour une enquête.
La mesure de la liaison entre X et Y, est appréciée par le calcul du χ² observé (ou calculé) :
χ²
La valeur critique (χ² seuil) est lue sur la table χ². Le degré de liberté est égal au nombre total
des modalités (des deux facteurs) moins un.
𝑝−𝜋
𝑍=
√𝜋 × (1 − 𝜋)
𝑛
39
L’hypothèse H0 (p = π) est acceptée si la valeur calculée de Z est inférieure à la valeur
critique de Z lue sur la table Z. L’hypothèse H1 (p ≠ π) est acceptée si la valeur calculée de Z
est supérieure à la valeur critique de Z lue sur la table Z.
𝑃1 − 𝑃2
𝑍=
𝑃1 𝑞1 𝑃2 𝑞2
√
𝑛1 + 𝑛2
La règle de décision est basée sur la lecture de la valeur critique lue sur la table Z de la loi de
distribution normale standard.
L’hypothèse H0 (p1 = p2) est acceptée si la valeur calculée de Z est inférieure à la valeur
critique de Z lue sur la table Z. L’hypothèse H1 (p1 ≠ p2) est acceptée si la valeur calculée de
Z est supérieure à la valeur critique de Z lue sur la table Z.
40
CHAPITRE V : LA STATISTIQUE MULTIDIMENTIONNELLE
5-1- Introduction
On désigne par statistique multidimensionnelle (analyse multivariée) l'ensemble des méthodes
de la statistique permettant de traiter simultanément un nombre élévé de variables (il s'agit
d'aller au-delà de l'étude d'une seule ou de deux variables à la fois). Ces méthodes sont
purement descriptives, c'est-à-dire qu'elles ne supposent, à priori, aucun modèle sous-jacent
de type probabiliste. Ainsi, lorsqu'on considère un ensemble de variables quantitatives sur
lesquelles on souhaite par exemple réaliser une ACP (Analyse en Composantes Principales), il
n'est pas nécessaire de supposer que ces variables sont distribuées selon une loi normale.
Le tableau de départ qui sera soumis à une ACP se présente de la façon suivante :
Il s’agit d’un tableau de données quantitatives, avec les variables en colonnes, les individus en
lignes et les observations à l’intérieur du tableau.
Pour des raisons mathématiques de simplification, mais aussi parce que les variables dans ces
tableaux peuvent être de natures différentes, on transforme la matrice X en une matrice Z de
variables centrées réduites qui conserve la même information :
42
Ensuite, on recherche des combinaisons linéaires des variables, appelées facteurs, ou encore
composantes principales, puis on construit une matrice des corrélations.
Cette matrice est diagonaliser pour générer les vecteurs propres et les valeurs propres sur la
base d’une matrice de variance-covariance (V).
A l’aide des vecteurs propres et des valeurs propres calculés, on représente un nuage des
individus. Les axes ainsi générés sont appelés composantes princpales.
A chaque individu, on associe un point dans Rn (espace des individus). A chaque variable de
la matrice Z est associé un axe de RN.
On cherche donc à définir k nouvelles variables combinaisons linéaires des variables initiales
qui feront perdre le moins d’information possible.
L’inertie est la somme pondérée des carrés des distances des individus au centre de gravité.
L’inertie mesure la dispersion totale du nuage de points. L’inertie est donc aussi égale à la
somme des variances des variables étudiées.
43
La recherche d’axes portant le maximum d’inertie équivaut à la construction de nouvelles
variables (auxquelles sont associés ces axes) de variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de façon à se placer dans un
nouveau système de représentation où le premier axe apporte le plus possible de l’inertie
totale du nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le
premier axe, et ainsi de suite. Cette réorganisation s’appuie sur la diagonalisation de la
matrice de variances-covariances.
Le choix du nombre de compoantes est généralement effectué en utilisant le critère du coude
sur l’éboulis des valeurs propres (décrochement suivi d’une décroisance regulière). Les axes
sont chosis avant le décrochement.
Les « proximités » entre les composantes principales et les variables initiales sont mesurées
par les covariances, et surtout les corrélations.
44
Le cercle des corrélations est la projection du nuage des variables sur le plan des compoantes
principales.
Les variables bien représentées sont celles qui sont proches du cercle, celles qui sont proches
de l’origine sont mal représentées.
Les individus sont également reprrésentés dans les plans définis par les nouveaux axes, en
projetons leur coordonnées sur ces axes.
45
Les points proches désignent des individus semblables, les points éloignés désignent le
contraire.
46
La classification s’intéresse à des tableaux de données individus × variables quantitatives
En définissant un niveau de coupure, on construit une partition. Une partition est bonne si les
individus d’une même classe sont proches et si les individus de deux classes différentes sont
éloignés. Mathématiquement ça se traduit par une petite variabilité intra-classe et grande
variabilité inter-classes.
47
variables qualitatives en variables continues et la seconde permettra de construire le lien entre
les deux formats de variables.
a) Pour les modalités des variables qualitatives, la lecture est la même que pour une ACM.
La présence d’un groupe en terme de proximité de deux ou plusieurs modalités de
variables qualitatives impliquent un lien entre elles et donc que les individus qui ont
choisis l’une des modalités du groupe ont également choisis les autres modalités de ce
même groupe.
b) Pour les variables quantitatives, la lecture est la même que pour une ACP centrée-
réduite. Ainsi, un groupe de variables en terme de proximité sur le cercle de corrélation
implique une corrélation soit un lien linéaire croissant. Deux groupes de variables
opposés sur le cercle de corrélation implique une anti-corrélation soit un lien linéaire
décroissant. Deux groupes de variables dont l’angle formé est de 90° implique une
indépendance et donc l’absence de corrélation ou d’anti-corrélation entre eux.
48
CHAPITRE VI : LA MODELISATION STATISTIQUE
L’évaluation d’un modèle (notion de fiabilité) sur un plan pratique consiste à comparer une
série de données obtenues expérimentalement avec celles que prédit le modèle. Ensuite on fait
varier les paramètres du modèle jusqu'à l'obtention de la meilleure adéquation possible entre
les données observées et les données prédites.
yi = f(xi)
Pour définir la fonction affine, il faut se donner un critère quantifiant la qualité de l'ajustement
de la fonction f aux données.
49
Au vue du graphique, il semble inadéquat de proposer une régression linéaire pour les 2
premiers graphiques, le tracé présentant une forme sinusoïdale ou sigmoïdale. Par contre, la
modélisation par une droite de la relation entre Xi et Yi pour le dernier graphique semble
correspondre à une bonne approximation de la liaison y = α + βx.
Si la relation était parfaitement linéaire : sur l'échantillon, cela se traduirait par des points
alignés et l'on pourrait écrire la relation (l’équation générale du modèle de régression linaire
simple) entre Yi et Xi sous la forme :
y = α + βx
Cependant, on peut remarquer l’existence des observations ayant les mêmes coordonnées x i et
des coordonnées yi différentes.
Pour rendre compte de cette situation, on écrit la relation entre la tension et l'âge sous la forme
générale suivante : droite + erreur
y = α + βx + ε
Le terme d'erreur ε est une variable aléatoire. Elle synthétise toutes les facteurs influant sur la
variable de réponse et qui ne sont pas prises en compte par la relation de causalité.
50
Le modèle étant posé, il faut estimer numériquement les paramètres du modèle, c'est-à-dire
calculer les valeurs numériques des coefficients qui correspondent le mieux aux données. Cela
revient à déterminer la droite qui s'ajuste le mieux aux données, c'est-à-dire la droite qui est la
plus proche des points.
Les formules permettant de calculer les coefficients des estimées sont les suivantes :
𝑐𝑜𝑣(𝑥, 𝑦)
𝛽=
𝜎² (𝑥)
𝛼 = 𝑦̅ − 𝛽𝑥̅
Une fois les coefficients de la droite estimés, on calcule pour chaque individu, la valeur
ajustée ou prédite de Y par le modèle :
y = α + βx + ε
On peut obtenir une estimation des erreurs-type de α et β avec les formules suivantes :
51
∑𝑛 𝑥 2
̂²
𝜎 ̂ 2 𝑖=1 𝑖
𝜎
𝑛
𝑆𝐸(𝛽) = √ 𝑛 ; 𝑆𝐸(𝛼) = √ (∑𝑛
∑𝑛 2 (∑𝑖=1 𝑥𝑖 )² ∑𝑖=1 𝑥𝑖 − 𝑖=1 𝑖
𝑛 2 𝑥 )²
𝑥
𝑖=1 𝑖 −
𝑛 𝑛
∑𝑛 ̂)²
𝑖=1(𝑦𝑖 −𝑦
Où 𝜎̂ 2 =
𝑛
Pour comprendre les principes de base de la régression non linéaire, il est important d'en
connaître les similarités et les différences avec la régression linéaire. Les deux analyses : (i)
décrivent mathématiquement la relation entre une variable de réponse et une ou plusieurs
variables de prédiction ; (ii) peuvent modéliser une relation en courbe ; (iii) minimisent la
somme des carrés de l'erreur résiduelle (SCE) ; proposent des hypothèses similaires,
vérifiables à l'aide de graphiques des valeurs résiduelles.
La différence fondamentale entre la régression linéaire et la régression non linéaire tient aux
formes fonctionnelles acceptables du modèle. En revanche, une équation non linéaire peut
prendre différentes formes.
52
volume sur pied initial due à des facteurs externes, les effets résiduels des plantes
antérieurement cultivées sur le site etc…, peuvent faire office de covariables. L’ajout d’une
covariable dans un modèle d’ANOVA permet de réduire la composante de variabilité associée
à l’erreur, et donc augmente la puissance des tests.
Etape 1 : la première étape consiste à la somme des carrés due aux différentes composantes,
pour la variable y et la covariable x, comme pour une analyse de variance, à l’aide des
formules indiquées ci-après :
53
Etape 2 : le calcul des produits de x et y
Etape 3 : Elle consiste à vérifier si la covariable est affectée par les groupes expérimentaux.
Si les groupes n’ont aucune sur x, il ne doit pas y avoir de différences entre les groupes par
rapport à x. Le coefficient de régression à l’intérieur des groupes est donné par la relation :
On peut tester la signification de β à l’aide du test F. Le critère de test statistique F est donné
par :
54
Le critère statistique F suit une loi de F avec 1 et t(r-1)-1 degrés de liberté. Si le coefficient de
régression est significatif, on procède à des ajustements de la somme de carrés de y pour des
variations de x. Dans le cas contraire, les ajustements sont inutiles.
55
6-5- Le modèle linéaire mixte
Un modèle linéaire mixte est un modèle pour lequel le modèle comprend à la fois des effets
fixes et des effets aléatoires. Ces modèles incluent des variables (facteurs) à effets fixes et
aléatoires. Le mélange entre les deux types de facteurs dans un même modèle est à l’origine
du nom. Les effets fixes décrivent les relations entre les covariables et la variables dépendante
pour une population entière, les effets aléatoires sont spécifiques à l’échantillon. En d’autres
termes, un effet aléatoire est effet dont nous ne voulons pas généraliser les propriétés (les
modalités ont été choisies de manière aléatoire dans quelque chose de plus grand). Un effet
fixe est un effet dont on veut généraliser les propriétés. Il s’agit de la variable (facteur)
manipulée. Les niveaux de ce facteur ont été choisi de manière spécifique. Contrairement aux
facteurs fixes, les niveaux de la variable aléatoire ne représentent pas des conditions choisies
de manière spécifique pour répondre aux objectifs de l’étude. Il est important de comprendre
qu’une variable peut être considérée comme un effet fixe ou un effet aléatoire en fonction de
l’hypothèse qui va être testée.
En notation matricielle simplifiée, un modèle mixte peut être représenté comme suit :
y = Xβ + Zµ + Ɛ
56
BIBLIOGRAPHIE
Balan R., Lamothe G., 2018. Une introduction à la biostatistique. Presses de l’Université du
Québec, 352p.
Bertrand F., Claeys E., Maumy-Bertrand M., 2019. Modélisation statistique par la pratique
avec R. Cours et exercices corrigés. Ed. Dunod, 256p.
Dagnelie P., 1990. Théorie et méthodes statistiques: applications agronomiques (vol. 1).
Gembloux, Presses agronomiques, 378p.
Dagnelie P., 1994. Théorie et méthodes statistiques: applications agronomiques (vol. 2).
Gembloux, Presses agronomiques, 451p.
Das M.N. et Giri N.C., 1979. Design and Analysis of Experiments. Wiley Eastern Ltd. New
Delhi. 295p.
Kruskal W.H., Wallis W.A., 1952. Use ranks in one-criterion variance analysis. Journal of
the American Statistical Association, 47 (260) : 583-621.
Montogomery D.C. et Peck E.A., 1982. Introduction to Linear Regression Analysis. John
Wiley and Sons, New York. 504 p.
Montogomery D.C., 1991. Design and analysis of Experiments. John Wiley and Sons. New
York. 649p.
Snedecor G.W. et Cochran W.G., 1980. Statistical Methods. USA: The Iowa State
University Press, pp : 232-237.
Sokal R.R. et Rolhf FJ., 1969. Biometry. W. H. Freeman and Co., San Francisco. 776p.
Sprent P., 1992. Pratique des statistiques non paramétriques. INRA, 312p.
57