Vous êtes sur la page 1sur 61

Université MARIEN NGOUABI

Ecole Nationale Supérieure d’Agronomie et de


Foresterie (ENSAF)

DOCUMENT DE COURS

Année académique : 2020-2021

Niveau : M1

Biostatistique
Niveau : MRGE2

Année Académique : 2019-2020

Dr. Chrissy Garel Makouanzi Ekomono

Maître-assistant CAMES, ENSAF, Université Marien NGOUABI

Directeur Scientifique de l’Institut national de Recherche Forestière (IRF)

garelmak@yahoo.fr

Garel Makouanzi

i
Table des matières
Avant-propos ........................................................................................................................................... iv
CHAPITRE I : INTRODUCTION A LA BIOSTATISTIQUE............................................................................... 1
1-1- Définition ................................................................................................................................. 1
1-2- La terminologie en biostatistique ............................................................................................ 1
1-2-1- La population ........................................................................................................................ 1
1-2-2- L’échantillon.......................................................................................................................... 2
1-2-3- L’inférence statistique .......................................................................................................... 2
1-2-4- La variable ............................................................................................................................. 2
1-2-5- Le facteur .............................................................................................................................. 3
1-2-6- Les variantes, niveaux et modalités d’un facteur ................................................................. 3
1-2-7- Le traitement ou l’objet ........................................................................................................ 4
1-2-8- Le témoin ou l’objet de référence ........................................................................................ 4
1-2-9- L’unité expérimentale ........................................................................................................... 4
CHAPITRE II : L’EXPERIMENTATION STATISTIQUE ................................................................................... 6
2-1- La conception et l’organisation de l’expérimentation ................................................................. 6
2-2- Les dispositifs expérimentaux ...................................................................................................... 7
2-3- L’interprétation expérimentale.................................................................................................. 12
CHAPITRE III : LA STATISTIQUE DESCRIPTIVE......................................................................................... 13
3-1- Les représentations graphiques ................................................................................................. 13
3-1-1- Le diagramme en bâtons – Le camembert – Le diagramme en barres .............................. 13
3-1-2- L’histogramme, le polygone et la courbe de fréquences ................................................... 15
3-1-3- La fonction de répartition empirique (diagramme cumulatif ou Courbe cumulative) ....... 16
3-1-4- Les caractéristiques des distributions (mesures de forme et loi de probabilité) ............... 17
3-2- Les indicateurs numériques ....................................................................................................... 19
3-2-1- Les indicateurs de position ................................................................................................. 19
3-2-2- Les indicateurs de dispersion.............................................................................................. 22
3-3- L’Intervalle de confiance ............................................................................................................ 24
3-4- Le Box plot (la boîte à moustaches) ........................................................................................... 25
3-5- Les Corrélations.......................................................................................................................... 26
3-5-1- La corrélation et la causalité ............................................................................................... 27
3-5-2- Les Corrélations non linéaires............................................................................................. 27
CHAPITRE IV : LES TESTS STATTISTIQUES .............................................................................................. 28
4-1- Introduction aux tests statistiques ............................................................................................ 28

ii
4-1-1- Les tests paramétriques et non paramétriques.................................................................. 28
4-1-2- La mise en œuvre d’un test statistique .............................................................................. 28
4-2- L’analyse de variance ............................................................................................................. 29
4-2-1- Les conditions d’application de l’analyse de variance ........................................................ 32
4-2-2- Les transformations des données ....................................................................................... 33
4-2-3- Les tests post hoc ou tests à postériori .............................................................................. 34
4-3- La comparaison de deux moyennes (Test t-Student) ................................................................ 35
4-3-1- Echantillons indépendants.................................................................................................. 35
4-3-2- Echantillons appariés .......................................................................................................... 35
4-4- Les tests de Kruskal-Wallis et de Steel-Dwass ........................................................................... 36
4-4-1- Le test de Kruskal-Wallis ..................................................................................................... 36
4-4-2- Le test de steel-Dwass ........................................................................................................ 37
4-5- Le test d’indépendance du χ² de deux variables qualitatives .................................................... 38
4-6- Les tests de comparaison des proportions ................................................................................ 39
4-6-1- La comparaison d’une proportion à une référence ............................................................ 39
4-6-2- La comparaison de deux proportions ................................................................................. 40
CHAPITRE V : LA STATISTIQUE MULTIDIMENTIONNELLE ...................................................................... 41
5-1- Introduction ............................................................................................................................... 41
5-2- L’Analyse en composante principales ........................................................................................ 41
5-3- L’Analyse Factorielle des Correspondances ............................................................................... 46
5-4- La classification ascendante hiérarchique ................................................................................. 46
5-5- L’Analyse de Hill et Smith ........................................................................................................... 47
CHAPITRE VI : LA MODELISATION STATISTIQUE.................................................................................... 49
6-1 – Introduction à la modélisation biostatistique .......................................................................... 49
6-2- La régression linéaire ................................................................................................................. 49
6-2-1 – La représentation graphique................................................................................................. 49
6-2-2 – Le modèle général de régression .......................................................................................... 50
6-2-3 – L’estimation des paramètres du modèle de régression ....................................................... 51
6-3- La régression non linéaire .......................................................................................................... 52
6-4- L’analyse de covariance ............................................................................................................. 52
6-5- Le modèle linéaire mixte ............................................................................................................ 56
BIBLIOGRAPHIE ...................................................................................................................................... 57

iii
Avant-propos

Ce module de Biostatistique est destiné aux étudiants de première année de Master des
parcours SA (Sciences Agronomiques), STF (Sciences et Techniques Forestières), PV
(Production Végétale) et PSA (Production et Santé Animale) de l’Ecole Nationale Supérieure
d’Agronomie et de Foresterie (ENSAF) de l’Université Marien Ngouabi. Il présente la
terminologie en biostatistique et traite de l’expérimentation statistique. Ensuite les indicateurs
de description (graphiques et numériques) des données sont abordées, avant l’apprentissage
de l’utilisation des tests statistiques et de la régression linéaire simple. Enfin ce cours se
termine par la présentation des différentes méthodes de la statistique multidimensionnelle.

À la fin de ce module, l’étudiant doit :

 maitriser la terminologie de base en biostatistique ;


 comprendre les bases de l’expérimentation biostatistique ;
 comprendre l'utilité de la statistique descriptive lors de toute analyse préliminaire des
données ;
 savoir explorer les données graphiquement pour les caractériser, identifier les
problèmes et les tendances ;
 savoir utiliser les statistiques descriptives pour résumer adéquatement des données ;
 savoir identifier et mettre en œuvre le test statistique approprié à l’objectif d’une
étude ;
 savoir réaliser des analyses statistiques ;
 savoir interpréter les résultats avec fiabilité.

iv
CHAPITRE I : INTRODUCTION A LA BIOSTATISTIQUE

1-1- Définition
L’analyse des données est utilisée pour décrire les phénomènes étudiés, faire des prévisions et
prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes. Les données étudiées peuvent être
de toute nature, ce qui rend la statistique utile dans tous les champs disciplinaires, de
l’économie à la biologie en passant par les sciences humaines, et bien sûr les sciences de
l’ingénieur.

La biostatistique ou biométrie est l’application des concepts et principes statistiques à des


données biologiques.

Les expériences en biologie génèrent des quantités pharamineuses de données qu’il faille
synthétiser. La biostatistique regroupe un ensemble de méthodes qui visent : la collecte des
données, le traitement des données, l’analyse des données et l’interprétation des données. Une
interprétation incorrecte d’observations, peut conduire à des conclusions tout à fait erronées.
Les méthodes statistiques permettent d’éprouver la validité des résultats avec la plus grande
rigueur scientifique. Autrement dit la biostatistique aide au raisonnement en se basant sur un
formalisme éprouvé.

On appelle statistique descriptive l’ensemble des méthodes et techniques mathématiques


permettant de représenter, de décrire et de résumer un ensemble de données. On appelle
statistique inférentielle (ou inductive) l’ensemble des méthodes visant à modéliser un
ensemble de données afin de tirer des conclusions sur un ensemble plus vaste.

La statistique repose sur des modèles et des hypothèses issues des probabilités. Statistiques et
probabilités sont deux aspects complémentaires de l’étude des phénomènes aléatoires.

1-2- La terminologie en biostatistique

1-2-1- La population
La population correspond à l’ensemble des individus (éléments) sur lequel on aimerait que les
conclusions d’une étude portent. C’est l’ensemble des éléments qui composent la population
cible, caractérisés par au moins une caractéristique.

1
1-2-2- L’échantillon
En général, la population est trop grande pour qu’on puisse l’observer en entier, on fait
recours alors à un échantillon (sample), qui est un sous ensemble de la population. C’est la
fraction de la population statistique sur laquelle des mesures sont faites pour connaitre les
propriétés de cette population. L’échantillon est identifié par son effectif, noté n.

Si l’échantillon est constitué de tous les individus de la population, on parle de recensement.


Il est extrêmement rare que l’on se trouve dans cette situation, essentiellement pour des
raisons de coût

L’échantillonnage est le mécanisme de génération de l’échantillon. L’échantillonnage peut


être de deux types :

- L’échantillonnage aléatoire, au sein duquel on prélève au hasard et de façon indépendante


un certain nombre n d’éléments de la population statistique à N éléments. Chaque élément
de la population a la même probabilité d’être sélectionné.
- L’échantillonnage représentatif, reflétant fidèlement la composition de la population.
L’inventaire exhaustif ou recensement est un moyen qui permet d’obtenir un échantillon
représentatif d’une population.

1-2-3- L’inférence statistique


L’inférence statistique est une extrapolation des résultats observés sur un échantillon à la
population cible. Autrement dit, à partir d’un nombre réduit d’observations, on répond à des
hypothèses faites sur une population plus large avec un niveau de fiabilité donné.

ET ANALYSES

1-2-4- La variable
La variable est une caractéristique mesurable ou observable sur tous les éléments d’une
population ou d’un échantillon. Autrement dit, la variable est la grandeur statistique que l’on

2
souhaite étudier. On distingue deux types de variables : les variables quantitatives et les
variables qualitatives.

Les modalités d’une variable quantitative expriment des quantités numériques. Une variable
quantitative peut être continue (peut prendre, en théorie, une infinité des valeurs, formant un
ensemble continu) ou discrète (ne peut prendre que des valeurs entières).

Les modalités d’une variable qualitative n’expriment pas des quantités numériques. Une
variable qualitative peut être catégorielle, autrement dit nominale (les modalités ne sont pas
hiérarchisées); ordinale (les modalités sont hiérarchisées) ou binaire (présence/absence).

1-2-5- Le facteur
On appelle facteur toute série d’éléments de même nature pouvant être comparés au cours
d’une expérimentation.

Exemple : une série de variétés, une série d’essences forestières, un ensemble de produits
phytosanitaires, différentes rations alimentaires, etc.

Les facteurs peuvent être classés en :

- facteur qualitatif, caractérisé par des éléments qui ne peuvent être classés à priori
(exemples : une série de variétés, un ensemble de fongicides, …);
- facteur quantitatif, dont les éléments se classent de façon logique à priori (exemples :
doses d’un engrais, températures, …).

On distingue des facteurs étudiés et des facteurs aléatoires. Les facteurs étudiés sont ceux
introduits volontairement dans l’expérience (variétés, doses de fertilisation, …). Les facteurs
aléatoires ce dit des facteurs inhérents au milieu. Ceux-ci peuvent être contrôlés lorsque le
dispositif expérimental utilisé les prend en compte (le facteur devient alors étudié) ou
incontrôlés, sur lesquels il n’est pas ou il est difficilement possible d’agir et qui sont la source
de variances résiduelles, fréquemment considérés comme aléatoires.

1-2-6- Les variantes, niveaux et modalités d’un facteur


Les différents éléments individuels qui sont associés à un facteur sont appelés variantes,
niveaux ou modalités. Le terme « variante » convient mieux dans le cas des facteurs
qualitatifs (différentes variétés par exemple), et le terme « niveau » dans le cas des facteurs
quantitatifs (différentes températures par exemple), tandis que le vocable « modalités »
s’adapte bien aux deux situations.

3
1-2-7- Le traitement ou l’objet
On appelle communément traitement toutes variante ou niveau d’un facteur unique, de même
que toute combinaison de variantes ou de niveaux de deux ou plusieurs facteurs.

Exemples : la race ndama chez les bovins (une variante du facteur race), la race ndama traitée
avec une dose x d’un vermifuge (combinaison des variantes de deux facteurs).

1-2-8- Le témoin ou l’objet de référence


Lors de toute planification d’une expérience, on doit examiner l’opportunité d’introduire ou
non, dans l’expérience, un ou plusieurs témoins ou objets de référence. En matière
agronomique, ceux-ci peuvent être, par exemple, une ou quelques variétés largement utilisées
dans la région considérée, un ensemble de parcelles qui ne sont soumises à aucun des
traitements étudiés (parcelles sans engrais par exemple), un ensemble de parcelles qui sont
soumises à un traitement classique, considéré comme point de comparaison (parcelles traitées
avec un herbicide bien connu par exemple). Il faut cependant éviter d’inclure d’office un
témoin dans une expérience quand celui-ci n’est pas essentiel pour atteindre l’objectif fixé au
départ, et notamment quand on sait a priori que les différences par rapport au témoin sont
considérables. Dans de telles conditions, la prise en considération d’un ou plusieurs témoins
peut en effet être une source importante d’hétérogénéité et, parfois aussi, d’erreurs
d’interprétation des résultats. Dans une expérience de comparaison de fumures organisée sur
des sols très pauvres, par exemple, on peut s’abstenir de prévoir l’existence de parcelles sans
engrais. Le cas échéant, on introduira plutôt une fumure de référence couramment utilisée
dans la région considérée, pour autant qu’une telle fumure existe. Et s’il s’impose, pour des
raisons de vulgarisation ou de démonstration, de disposer de parcelles non traitées, on peut
prévoir l’existence de telles parcelles en marge ou en bordure de l’expérience proprement
dite, sans y consacrer nécessairement toute la place qui revient à chacun des autres objets
envisagés. Si le témoin ou l’objet de référence constitue un des éléments essentiels de
l’expérience, il peut être utile de lui consacrer plus d’importance qu’à chacun des autres
objets.

1-2-9- L’unité expérimentale


L’unité expérimentale est l’unité sur laquelle sont effectuées les observations. C’est l’élément
de base de l’expérience. La diversité des situations biologiques implique que le choix des
unités expérimentales, et corrélativement de leurs nombres, doit toujours être réalisé avec le
plus grand soin.

4
En production végétale, l’unité de base est souvent une parcelle comportant un certain nombre
de plantes. Mais l’unité de base peut aussi être une partie de plante (rameau, feuille, fruit…),
ou d’un groupe d’organes particuliers (lot de graines par exemple). En production animale,
l’unité de base de l’expérience peut être un groupe d’animaux soumis à un même traitement et
sont l’objet d’observations globales.

1-2-9-1- La notion de bordure


Dans la plupart des expériences relatives aux productions végétales, des interférences plus ou
moins importantes peuvent exister entre parcelles voisines, soit parce que les traitements
appliqués aux différentes parcelles ne s’arrêtent pas exactement aux limites des parcelles, soit
parce que le système radiculaire des plantes franchit tout naturellement ces limites, soit encore
parce que se produisent des phénomènes particuliers de compétition ou de contagion entre
plantes de parcelles contiguës.

Pour éviter que ces interférences n’influencent les résultats, on peut limiter l’observation à la
partie centrale de chacune des parcelles, en considérant le pourtour comme constituant une
simple bordure.

Les dimensions des bordures doivent toujours être fixées en tenant compte à la fois du
matériel disponible et de l’importance des interférences qui peuvent exister entre les parcelles
voisines.

La notion de bordure peut être transposée au cas des expériences relatives aux animaux, si on
considère comme analogues aux bordures les périodes de transition ou tampons, d’adaptation
à de nouvelles alimentations ou, d’une façon générale, à de nouveaux traitements.

1-2-9-2- La forme des unités expérimentales


Dans le cas des expériences en champ, quand le terrain ou le matériel disponible est
relativement homogène, il y a généralement intérêt à adopter une forme aussi carrée que
possible. C’est en effet dans ce cas que les interférences entre parcelles voisines sont les plus
réduites, et que l’importance relative des bordures éventuelles est la plus faible.

Si par contre, le terrain ou le matériel disponible présente une hétérogénéité marquée dans une
direction donnée, il peut être plus intéressant d’adopter des parcelles rectangulaires, allongées
parallèlement à la direction générale de cette hétérogénéité.

5
CHAPITRE II : L’EXPERIMENTATION STATISTIQUE

2-1- La conception et l’organisation de l’expérimentation


Le chercheur dispose de trois méthodes de travail : l’observation, l’expérimentation et
l’analyse. Chacune des méthodes a ses limites et l’utilisation simultanée de ces trois méthodes
constitue l’idéal pour mener à bien un travail de recherche. Le chercheur ne s’intéresse pas
seulement aux résultats bruts d’un essai, il doit aussi et surtout se préoccuper des mécanismes
qui expliquent les résultats pour mieux autoriser l’inférence.

L’expérimentation ou l’essai a pour but d’éprouver tout élément qui peut conduire à un
enrichissement des connaissances. L’expérimentation, et notamment en matière biologique,
est à la base de ce qu’il est convenu d’appeler les « sciences expérimentales » qui procèdent
par une succession de cycles « hypothèse - expérimentation - analyse - nouvelle hypothèse ».
Dans ce cycle, la qualité de l’expérimentation est primordiale car elle doit pouvoir conduire
aussi clairement que possible à l’acceptation ou au rejet de l’hypothèse de départ. Dans le
domaine agronomique et forestier, l’expérimentation a souvent comme objectif non pas la
validation d’une hypothèse mais l’estimation d’une valeur, par exemple la production,
comparativement à un témoin ou à une référence quelconque.

Problème Proposition d’action

Hypothèse à tester Expérience Hypothèse nouvelle

Connaissances préalables Enrichissement des


connaissances

6
L’expérience doit être l’objet d’une planification très stricte conduisant à la mise en place
d’un plan d’expérience ou d’un protocole expérimental. On peut considérer que les différents
éléments de base d’un protocole expérimental sont :

1- la définition du ou des buts et des conditions de réalisation de l’expérience. La


définition claire et précise du but de l’expérience est toujours un élément essentiel du
protocole expérimental ;
2- la définition du ou des facteurs dont on désire étudier l’influence, de ses modalités et
de leurs combinaisons ;
3- la définition des observations (variables) qui devront réalisées et des modalités de
collecte de données ;
4- la définition des unités expérimentales qu’on se propose d’observer ;
5- la répartition des unités expérimentales dans l’espace, ce qui constitue le dispositif
expérimental ;
6- les approches relatives à l’analyse des données.

Pour une validité de l’analyse statistique deux principes doivent impérativement être
appliqués : la randomisation (ou répartition aléatoire), et la répétition (pour prendre en
compte la variabilité du milieu et pour estimer l’erreur expérimentale ou erreur résiduelle).
Les deux principes concourent au contrôle de l’erreur (réduction de la part non contrôlée de
l’expérience, donc diminuer l’erreur expérimentale).
D’une certaine façon, ces deux principes se complètent mutuellement, puisqu’ils tentent
d’augmenter la précision de l’expérience et de garantir la validité du test de signification, tout
en conservant, dans toute l’expérience les caractéristiques propres à leurs rôles.
Un résultat n’est intéressant que s’il est possible de le généraliser à des conditions
suffisamment étendues.
Afin de mettre en place une expérimentation agronomique ou forestière en plein champ, il
faut choisir une parcelle sur laquelle se déroulera l’essai. Le choix de cette parcelle doit se
faire de façon à ce qu’il y ait : - le moins possible de facteurs aléatoires pouvant influencer les
résultats de l’expérimentation, - le plus d’homogénéité possible. Ensuite il va devoir définir
un dispositif expérimental à mettre en place sur la parcelle.

2-2- Les dispositifs expérimentaux


Le dispositif expérimental est l’ensemble des parcelles ou unités expérimentales. Son choix
est fonction du but de l’étude, du nombre de facteurs étudiés, du nombre de gradients

7
d’hétérogénéité potentiels ou réels en présence, des contraintes liées à l’expérimentation (mise
en place, conduite). Les dispositifs expérimentaux classiques sont :

 Le dispositif en randomisation totale (1 facteur étudié + aucun gradient


d’hétérogénéité)

La disposition des traitements est entièrement aléatoire. Ce dispositif a l’avantage d’être très
simple, mais peut s’avérer mal adapté lorsqu’il existe de l’hétérogénéité sur le terrain.

1 4 3 4 2
5 3 2 5 1
5 1 3 1 5
2 3 4 2 4
5 traitements, 4 répétitions

Généralement ce dispositif est beaucoup plus utilisé en pépinière et non en plein champ.

 Le dispositif en blocs aléatoires complets (1 facteur étudié + 1 gradient


d’hétérogénéité)

Quand un gradient existe sur la parcelle (variation de pente, de fertilité, …), il faut prendre en
considération l’hétérogénéité connue en mettant en place un dispositif en blocs. Un bloc est
une partie du terrain supposée homogène. Il est constitué d’un ensemble de parcelles
élémentaires recevant chacune une répétition de chacun des traitements étudiés. Il y a donc
autant de blocs que de répétitions des traitements. Afin de contourner le gradient observé sur
la parcelle, les blocs doivent être disposés perpendiculairement à celui-ci. De cette manière,
l’ensemble des répétitions de traitement issues d’un même bloc est affecté de la même
manière par l’hétérogénéité. Pour chaque bloc, une répétition de chaque traitement est
affectée aux parcelles élémentaires de façon aléatoire. Ce dispositif est le plus utilisé dans les
expérimentations végétales.

8
 Le dispositif factoriel en bloc (2 facteurs étudiés + 1 gradient d’hétérogénéité)

La disposition des blocs dans ce dispositif est perpendiculaire au sens du gradient


d’hétérogénéité. La répartition des traitements dans chaque bloc est faite de façon aléatoire.

6 traitements (3 x 2)

3 répétitions

Sens du gradient d’hétérogénéité

 Le dispositif en carré latin (1 facteur étudié + 2 gradients d’hétérogénéités


perpendiculaires)

Dans ce dispositif, chaque ligne et chaque colonne sont des blocs. La répartition des
traitements dans chaque bloc est aléatoire. Chaque traitement figure une seule fois par ligne et
par colonne.

9
Sens du 1er gradient
d’hétérogénéité

Sens du second gradient


d’hétérogénéité

Lorsque réalise une combinaison de traitements dans un carré latin, le dispositif est nommé
carré gréco-latin. Notons qu’un carré gréco-latin d’ordres 2 et 6 est impossible à réaliser.

Sens du 1er gradient


d’hétérogénéité

Sens du second gradient


d’hétérogénéité

 Le dispositif en split-plot (parcelles divisées) (2 facteurs étudiés + 1 gradient


d’hétérogénéité + 1 contrainte expérimentale)

Dans ce dispositif, chaque bloc est divisé en autant de sous bloc que de variantes du premier
facteur qualifié de principal. Les traitements du second facteur sont affectés au hasard dans
chaque sous bloc (facteur dit subsidiaire).

10
12 traitements (6 x 2)

3 répétitions

Sens du gradient
d’hétérogénéité

 Le dispositif en criss-cross (2 facteurs étudiés + 1 gradient d’hétérogénéité + des


contraintes expérimentales)

Il s’agit d’expérience où chaque bloc est divisé en autant de sous bloc que de variantes du
premier facteur, les traitements du second facteur sont vis-à-vis dans chaque sous bloc.

12 traitements (6 x 2)

3 répétitions

Sens du gradient
d’hétérogénéité

Dans le domaine agronomique ou forestier, l’utilisation du dispositif en criss-cross peut se


justifier quand pour une raison quelconque on est en présence des contraintes expérimentales
(mécanisation, facilité de réalisation de l’expérience, …). Une autre justification peut être
notée lorsqu’on souhaite mettre l’accent plus sur un des facteurs que sur l’autre ou, à la limite,
quand on s’intéresse uniquement à un des facteurs et à l’interaction des deux facteurs. Tel
peut être le cas par exemple si on souhaite comparer différents produits phytosanitaires et
11
étudier leur interaction éventuelle avec un certain nombre de variétés d’une culture donnée,
sans s’intéresser particulièrement aux différences pouvant exister entre les variétés. Un
troisième cas d’application concerne l’introduction, en cours d’expérience d’un facteur
supplémentaire non prévu initialement.

2-3- L’interprétation expérimentale


Un résultat expérimental est le plus souvent exprimé par un chiffre. Ce chiffre doit être obtenu
avec le maximum de sécurité. Avant toute validation statistique d’un essai, il est d’abord
nécessaire de valider la qualité biologique de l’essai. Cette validation se fait via l’expertise de
l’expérimentateur, les connaissances biologiques sur le sujet. Il s’agit de vérifier que les
conditions expérimentales n’ont pas été compromises de façon évidente par des facteurs non
contrôlés tels que des aléas climatiques ou l’invasion de ravageurs. Quand l’essai est
acceptable d’un point de vue biologique, on peut alors procéder à la validation statistique de
l’essai, des jeux de données et à l’analyse statistique des valeurs mesurées.

12
CHAPITRE III : LA STATISTIQUE DESCRIPTIVE

La statistique descriptive a pour but de résumer l’information contenue dans les données de
façon à en dégager les caractéristiques essentielles sous une forme simple et intelligible. Les
deux principaux outils de la statistique descriptive sont : les représentations graphiques et les
indicateurs statistiques.

3-1- Les représentations graphiques


La représentation graphique de données est un moyen de visualisation d’un résultat de façon
claire et adéquate. La représentation graphique, permet donc une appréhension globale des
données. Les représentations sont indispensables en statistique car le choix des paramètres
descriptifs et des tests statistiques en dépend.

 Le graphique doit contenir le maximum d'informations utiles (légendes, valeurs


numériques, ...) ; il doit être compris par lui-même, sans que l'on soit obligé de
recourir à la lecture d'un texte explicatif.
 Les informations ne doivent pas être déformées en raison d'un choix des unités peu
judicieux.
 Ne comparer des graphiques que si l’on a choisi des unités communes sur les axes.

En fonction du type de variable, on distingue différents types de graphiques.

- Pour représenter une variable qualitative ou quantitative discrète on utilise un diagramme


en bâtons, un camembert ou un diagramme en bâton.
- Pour représenter une variable quantitative continue on utilise un histogramme de
fréquences, un polygone de fréquences, une courbe de fréquences, une fonction de
répartition empirique, un graphe de probabilité ou une boîte à moustache (voir le point 3-
3).

3-1-1- Le diagramme en bâtons – Le camembert – Le diagramme en barres


Le diagramme en bâtons est utilisé pour représenter les variables quantitatives discrètes et les
variables qualitatives. Ce diagramme traduit le caractère « isolé » des valeurs. Si la variable
qualitative est ordinale, on respectera l’ordre dans l’énumération des modalités portées en
abscisses.

13
La représentation graphique en secteur (camembert, diagramme circulaire) des variables
qualitatives ou quantitatives discrètes permet de visualiser et comparer les fréquences des
différentes modalités. Le plus souvent, elle consiste à faire correspondre aux fréquences des
surfaces proportionnelles.

Le diagramme circulaire est rarement utilisé pour représenter les variables qualitatives
ordinales pour lesquelles l’ordre des modalités a son importance. Ce type de graphique n’est
pas adapté lorsque le nombre de modalités devient trop important ; on préférera représenter
les fréquences sur un diagramme en barres (A). Les barres peuvent aussi être représentées de
façon juxtaposées (diagramme en barres superposées (B)).

B
A

14
3-1-2- L’histogramme, le polygone et la courbe de fréquences
Dans le cas de variables continues, on représente les données graphiquement par un
histogramme (A), un polygone (B) ou une courbe de fréquences (C).

Pour tracer un histogramme de fréquence, on découpe l’ensemble du domaine des valeurs de


la variable étudiée en intervalle continus dont on choisit (ou calcule) le nombre et les bornes.
Un histogramme est formé d’une série de rectangles, dont les largeurs, ou bases, sont situées
sur un axe horizontal (axe x), et les longueurs (ou hauteurs) étant égales aux amplitudes des
classes d’intervalle. Les intervalles de classes peuvent être de même ou d’amplitude
différente.

Pour calculer le nombre de classes on peut appliquer différentes règles, dont :

- la règle de Sturge : nombre de classes = 1+ (3,322 * log(n)) ;

- la règle de Yule : nombre de classes = 2,5 * 4 n  2,5 * n

n représente l’effectif de l’échantillon.

Dans les deux cas, il faut arrondir le nombre de classes à l’entier le plus proche, le nombre de
classes étant un entier.

La détermination de l’intervalle et des bornes de classe s’effectue comme suit :

- la borne inférieure d’une classe est la plus petite valeur admise dans la classe ;
- la borne supérieure d’une classe est au contraire la plus grande valeur admise dans la
classe ;
- l’intervalle des classes (ou amplitude des se calcule approximativement avec la formule
suivante :

15
𝑉𝑎𝑙𝑒𝑢𝑟 𝑚𝑎𝑥𝑖𝑚𝑎𝑙𝑒 − 𝑉𝑎𝑙𝑒𝑢𝑟 𝑚𝑖𝑛𝑖𝑚𝑎𝑙𝑒
𝐼𝐶 =
𝑁𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠

- l’indice de classe correspond à la valeur centrale de la classe.

Le polygone de fréquences s’obtient en reliant les points médians des sommets des rectangles
dans l’histogramme.

On utilise le plus souvent la courbe de fréquences pour représenter l’évolution d’une variable.

3-1-3- La fonction de répartition empirique (diagramme cumulatif ou Courbe


cumulative)
Il est possible de représenter graphiquement la distribution des effectifs cumulés ou des
fréquences cumulées : cette représentation graphique porte le nom de courbe cumulative (des
effectifs ou des fréquences).

La courbe cumulative renseigne sur la proportion des éléments de la distribution qui ont une
modalité supérieure (ou inférieure) à un certain seuil.

16
3-1-4- Les caractéristiques des distributions (mesures de forme et loi de
probabilité)

On distingue généralement deux catégories de mesures de forme : les mesures d'asymétrie et


les mesures d'aplatissement.

Les mesures de forme n'ont de sens que lorsqu'on étudie des variables quantitatives mesurées
sur une échelle d'intervalles.

3-1-4-1- L’analyse de la symétrie d’une distribution (Skewness)

On distingue trois types de distributions selon qu'elles sont dissymétriques (asymétriques) à


gauche (graphique de gauche), symétriques (graphique du milieu) ou dissymétriques
(asymétriques) à droite (graphique de droite).

Il est également possible de caractériser l'asymétrie et d'en quantifier l'importance via le


coefficient d'asymétrie.

𝑢32
𝛽1 =
𝑢23

Où u2 et u3 sont des moments d’ordre 2 et 3 déterminés par les formules suivantes :

∑(𝑥𝑖 − ̅𝑥 ) 𝑟
𝑢𝑟 =
𝑁
r : indice de moment, xi : observation individuelle, 𝑥̅ : moyenne des observations, N : effectif
total des observations.

Dans le cas des données groupées, ces moments sont donnés par la formule suivante :

∑𝑓(𝑥𝑖 − ̅𝑥 ) 𝑟
𝑢𝑟 =
𝑁

17
f étant la fréquence absolu des individus appartenant à un groupe.

On peut vérifier que

 pour une distribution symétrique, β1 = 0 ;


 pour une distribution dissymétrique à gauche, β1 > 0 ;
 pour une distribution dissymétrique à droite, β1 < 0.

3-1-4-2- Les mesures d’aplatissement (Kurtosis ou Kurtose)

On caractérise l'aplatissement d'une distribution par le coefficient de Kurtosis (k ou β2) basé


sur le moment centré d'ordre 4.

𝑢4
𝛽2 =
𝑢22

Où u2 et u4 sont calculés comme dans le point précédemment.

On dit que la distribution mésokurtique si β2 = 3. Lorsque β2 est supérieur à 3, la distribution


est leptokurtique (la distribution est pointue au niveau de la moyenne avec les extrémités plus
longues). Si β2 est inférieur à 3, elle est platykurtique (le pic de la distribution est plus arrondi
autour de la moyenne avec les extrémités plus courtes).

3-1-4-3- Les distributions discrètes


Les distributions discrètes répondent aux lois de probabilité suivantes :

- La loi de Bernoulli : l’expérience n’a que deux résultats possibles (succès et échec,
présence ou absence). La variable est binaire, et répond à la loi Bernoulli.
- La loi binomiale : l’expérience n’a que deux résultats possibles comme dans la loi de
Bernoulli, sauf qu’on associe aux variables le nombre de succès ou d’échec (pourcentage).
- La loi de Poisson : c’est la loi du nombre d’événements observé pendant une période de
temps donnée. La distribution de Poisson est souvent utilisée pour modéliser les données
de comptage.

3-1-4-4- Les distributions continues


Les distributions continues répondent dans la majorité des cas à la loi normale.

La loi normale ou loi gaussienne (de Laplace-Gauss), dont la représentation aborde une
courbe en cloche, repose sur l’estimation de deux paramètres de la population statistique :

18
- la moyenne, notée µ ;
- l’écart-type σ relatif à la population.

La distribution répondant à la loi normale est la plus importante en statistique, pour deux
raisons principale : (1) de nombreux phénomènes naturels sont modélisables avec des
variables normales, (2) la distribution normale joue un rôle central dans l’inférence statistique.
La loi normale, notée Ɲ (µ, σ²), est symétrique par rapport à la droite d’abscisse µ.

La distribution d’une variable suivant une loi normale est un pré-requis nécessaire à la
majorité des tests paramétriques (ANOVA, régression, …). L’examen graphique, notamment
l’existence de la symétrie de la densité, est un bon indicateur de la normalité d’une
distribution. Il existe des tests de conformité à la distribution normale, appelés tests de
normalité. Le test de normalité le plus utilisé est le test de Kolmogorov-Smirnov.

Il existe d’autres distributions répondant aux lois portant le nom de la distribution. Il s’agit
des distributions uniformes, Khi carrée, Student (t), Fischer-Snedecor (F) qui ne seront pas
abordées dans ce cours.

3-2- Les indicateurs numériques


Une distribution de données est décrite par deux types d’indicateurs : les indicateurs de
position ou de localisation (indicateurs de tendance centrale et les autres indicateurs de
position) et les indicateurs de dispersion.

3-2-1- Les indicateurs de position

3-2-1-1- Les indicateurs de tendance centrale


Les indicateurs de tendance centrale les plus utilisées sont :

 La Moyenne arithmétique (ou moyenne empirique)

La moyenne arithmétique (µ ou ) est un paramètre de tendance centrale qui résume le milieu


d’une distribution de données. Toute seule la moyenne a peu d’intérêt car elle ne donne
aucune information sur la répartition des données ; de plus elle est très sensible aux valeurs
extrêmes : quelques valeurs aberrantes peuvent lui enlever toute signification. La moyenne
arithmétique d’un ensemble de nombres est égale à la somme des valeurs divisée par le
nombre de valeurs.

19
En dehors de la moyenne arithmétique, il existe d’autres types de moyenne telles que les
moyennes pondérée, harmonique, quadratique et géométrique.

 La Moyenne arithmétique pondérée

La moyenne arithmétique pondérée est une moyenne à laquelle on introduit la notion de poids
via un terme supplémentaire qui peut s’avérer utile dans certaines situations, notamment
lorsque pour diverses raisons, certains individus ont davantage d’influence dans une
population que d’autres.

Dans le cas général le poids wi représente l’influence de l’élément xi par rapport aux autres.
La formule de la moyenne pondérée s’écrit alors :

∑𝑛𝑖=1 𝑤𝑖𝑥𝑖
𝑥̅ 𝑝 = 𝑛
∑𝑖=1 𝑤𝑖

 La Moyenne harmonique

La moyenne harmonique est l'inverse de la moyenne arithmétique des inverses des termes. On
utilise la moyenne harmonique lorsqu'on veut déterminer un rapport moyen dans des
domaines où ils existent des liens de proportionnalité inverse (par exemple pour une distance
donnée, le temps de trajet est d'autant plus court que la vitesse est élevée).

La moyenne harmonique permet de calculer des moyennes sur des fractions si le


dénominateur change.

 La Moyenne quadratique

La moyenne quadratique est la racine carrée de la moyenne arithmétique des carrés des
termes. La moyenne quadratique trouve des applications lorsque l'on a affaire à des
phénomènes présentant un caractère sinusoïdal avec alternance de valeurs positives et de
valeurs négatives.

20
Exemple : considérons les nombres suivants {-2, 5, -8, 9, -4} Nous pouvons en calculer la
moyenne arithmétique avec l'inconvénient de voir se neutraliser les valeurs positives et
négatives et d'aboutir à un résultat nul sans que cela ne nous apprenne quoi que ce soit. En
effet, .

Le calcul de la moyenne quadratique pour la même série donne .

 La Moyenne géométrique

La moyenne géométrique est la racine nieme du produit des termes. La moyenne géométrique
permet de réduire l’influence des observations les plus grandes d’une série de valeurs et
d’augmenter celle des plus petites. La moyenne géométrique ne s’applique qu’aux nombres
positifs. La moyenne géométrique est utilisée dans le cas où l’on souhaite calculer un taux de
croissance moyen.

= n
x1  x 2  x3  ...  xn

 La Médiane

La médiane est une valeur de tendance centrale telle que la moitié des observations lui sont
inférieures et l’autre moitié des observations lui sont supérieures. La médiane de X, noté
med(X), est définie par :

𝑚𝑒𝑑 (𝑋) = 𝑥[𝑛+1] si n est impair


2

𝑚𝑒𝑑 (𝑋) = (𝑥[𝑛] + 𝑥[𝑛+1] )/2 si n est pair


2 2

La médiane est peu influencée par les valeurs extrêmes. Lorsque la distribution est
symétrique, la moyenne et la médiane sont égales.

3-2-1-2- Les autres paramètres de position


 Les Quantiles

On peut généraliser le procédé de la médiane en demandant qu’une proportion α des données


soit dans une première partie et le reste dans la deuxième. La limite entre les deux parties

21
s’appelle le ‘‘quantile d’ordre α’’ (qα). Autrement dit, le quantile d’ordre α est une valeur telle
qu’une proportion α des observations se trouve à sa gauche et une proportion 1-α à sa droite.

Les quantiles les plus fréquemment utilisés sont :

 Les quartiles (1er quartile : q1 =1/4 ; 2e quartile : q2 = ½ ; 3e quartile : q3 = ¾)

Les 3 quartiles partagent la série statistique ordonnée en 4 sous-ensembles qui contiennent


chacun (environ) un quart (25%) des observations.

Comme pour la médiane, le procédé de calcul des quartiles est différent selon que le rapport «
nombre d’observations/nombres de groupes » soit un entier ou pas (n/4). Si n/4 n’est pas un
entier, le premier quartile est la valeur de rang immédiatement supérieur à n/4 ; si n/4 est un
entier, le premier quartile correspond à la moyenne des deux valeurs de rang n/4 et de rang
immédiatement supérieur à n/4 (pour le troisième quartile, il suffit de remplacer n par 3n).

3-2-2- Les indicateurs de dispersion


Les indicateurs de dispersion renseignent sur l’étalement des valeurs observés, et
correspondent donc à la variabilité de la série étudiée. Ils complètent les paramètres de
position en permettant de comparer des séries dont les paramètres de position sont proches,
mais où la forme de la dispersion est très déférente. La mesure de dispersion (ou
éparpillement) la plus utilisée est la variance, et plus particulièrement sa racine carrée appelée
l’écart-type. D’autres mesures alternatives sont l’amplitude, le coefficient de variation et
l’écart interquartile.

 L’Amplitude

L’amplitude mesure l’étendue de variation, ou range, d’une série de données. L’amplitude est
égale à la différence entre les valeurs extrêmes de la série étudiée.

A = Xmax - Xmin

22
 L’Ecart interquartile

L’écart interquartile de X, noté Iq(X) est simplement défini comme la différence entre le 3eme
et le 1er quartile de X : Iq(X) = q0,75(X) – q0,25(X) ou Iq = Q3 - Q1

Plus cet écart est grand, plus la dispersion des observations est forte.
 La Variance

La variance est la moyenne de la somme des carrés des écarts entre les observations et leur
moyenne. Elle permet d’estimer concrètement l’étendue des valeurs se trouvant autour de la
moyenne, donc la variabilité. Cette dernière peut être d’ordre biologique ou peut être causée
par la mauvaise qualité ou le faible nombre des mesures expérimentales.

 2

(X i  )2
n
 L’Ecart-type

L’écart-type est défini comme la racine carrée de la variance :

  2

Un écart-type faible signifie que les valeurs sont relativement concentrées autour de la
moyenne et que la population regroupe des individus aux caractéristiques relativement
homogènes. A contrario, un écart-type élevé est révélateur de valeurs très dispersées autour de
la moyenne et d’une population hétérogène.

 L’Erreur type

L'erreur type de la moyenne (ET) estime la variabilité entre les moyennes d'échantillons que
vous obtiendriez si vous preniez des échantillons répétés de la même population. Elle évalue
la variabilité d'un échantillon à un autre, tandis que l'écart type mesure la variabilité au sein
d'un même échantillon.

𝜎
𝐸𝑇 =
√𝑁

Lorsque la valeur de l'erreur type de la moyenne est moins élevée, l'estimation de la moyenne
de la population est plus précise. En règle générale, plus l'écart type est grand, plus l'erreur
type de la moyenne est élevée et moins l'estimation de la moyenne de la population est

23
précise. En revanche, plus l'effectif d'échantillon est élevé, plus l'erreur type de la moyenne
est faible et plus l'estimation de la moyenne de la population est précise.

On utilise l'erreur type de la moyenne pour calculer l'intervalle de confiance.

 Le Coefficient de variation

Le coefficient de variation (CV) également nommé écart-type relatif, est une mesure de
dispersion relative. C’est le rapport de l’écart-type à la moyenne. Plus la valeur du coefficient
de variation est élevée, plus la dispersion autour de la moyenne est grande. Il est généralement
exprimé en pourcentage. Sans unité, il permet la comparaison de distribution de valeurs dont
les échelles de mesure ne sont pas comparables. Le CV est une mesure neutre qui permet de
s’affranchir de la notion d’unité.

σx
CV  100 
μ

Lorsque les échantillons sont de petite taille (n<20), on applique la correction suivante :

1
CV  (1  )  CV
4n

NB : Le calcul du coefficient de variation n’est pas conseillé quand on a des séries des valeurs
positives et négatives. En effet, la moyenne peut être nulle ou proche de 0 et alors on obtient
des valeurs de CV qui peuvent être très grandes en valeur absolue et négatives.

3-3- L’Intervalle de confiance

L’intervalle de confiance permet de définir une marge d’erreur entre les résultats obtenus sur
un échantillon et un relevé exhaustif de la population totale. Plus généralement, l’intervalle de
confiance permet d’évaluer la précision de l’estimation d’un paramètre statistique sur un
échantillon. L’intervalle de confiance est obtenu par la relation suivante :

𝜎 𝜎
𝐼𝐶 = [𝑥̅ − 𝑍𝛼/2 ; 𝑥̅ + 𝑍𝛼/2 ]
√𝑛 √𝑛

24
3-4- Le Box plot (la boîte à moustaches)
L’une des manières de résumer numériquement et visuellement une distribution des données
est de construire la boîte à moustaches. Une boîte à moustaches indique les traits marquants
d’une série des données.

Les éléments de la boîte à moustaches sont :

 la médiane, qui renseigne sur le milieu de la série ;


 les largeurs des deux parties de la boîte rendent compte de la dispersion des valeurs
situées au centre de la série (la boîte contient 50% (environ) de l'ensemble des
observations : 25% à gauche de la médiane et 25% à sa droite) ;
 la longueur des moustaches renseigne sur la dispersion des valeurs situées au début de
la série ordonnée (les valeurs les plus petites correspondant à 25% des observations)
ou à la fin de celle-ci (les valeurs les plus grandes correspondant aussi à 25% des
observations) ;
 de façon générale, la boîte et les moustaches seront d'autant plus étendues que la
dispersion de la série statistique est grande.

Plus l’étendue de la moustache est grande, plus les valeurs sont dispersées. A l’inverse, plus
elle est petite, plus les valeurs sont homogènes.

25
3-5- Les Corrélations
La corrélation désigne une association entre deux variables. Elle vise à informer si la valeur
d’une variable est influencée par la valeur d’une autre variable ou si la relation entre deux
variables est causale ou non. La corrélation peut être visualisée par l’analyse de la dispersion
des points autour de la relation moyenne, ou être calculée. Le calcul du coefficient de
corrélation peut être effectué en utilisant différentes méthodes. Il existe la corrélation r de
Pearson, la corrélation tau de Kendall et le coefficient de corrélation rho de Spearman.

La méthode de corrélation de Pearson calcule un coefficient de corrélation appelé


paramétrique. Les méthodes de test de corrélation de Kendall et de Spearman sont non
paramétriques. Ce sont des tests de corrélation basés sur le rang.

Le coefficient de corrélation linéaire de Pearson est donné par la formule suivante :

COV ( x, y ) ( x   )  ( y   )
r 
x  y ( x   )²  ( y   )²

Le coefficient de corrélation de Kendall (𝜏) est donné par la formule suivante :

(𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑎𝑖𝑟𝑒𝑠 𝑐𝑜𝑛𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑠) − (𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑝𝑎𝑖𝑟𝑒𝑠 𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑠)


𝜏=
1
2 × 𝑛 × (𝑛 − 1)

Les paires d’observations (xi, yi), (xj, yj) sont dites concordantes, si xi < xj et yi < yj ou si xi >
xj et yi > yj. Elles sont dites discordantes si xi < xj et yi > yj ou si xi > xj et yi < yj. Dans le cas
où xi = xj ou yi = yj, la paire n’est ni concordante, ni discordante.

n = nombre total des paires.

Le coefficient de corrélation de Spearman (Rho ou 𝜑) est donné par la formule suivante :

𝑐𝑜𝑣(𝑟𝑔𝑥 , 𝑟𝑔𝑦 )
𝜑 𝑜𝑢 𝑅ℎ𝑜 =
𝜎𝑟𝑔𝑥 × 𝜎𝑟𝑔𝑦

𝑐𝑜𝑣(𝑟𝑔𝑥 , 𝑟𝑔𝑦 ) représente la covariance des variables de rang.

𝜎𝑟𝑔𝑥 et 𝜎𝑟𝑔𝑦 sont les écart-type des variables de rang.

La corrélation entre deux variables est toujours comprise entre -1 et 1, et ces bornes maximale
et minimale sont atteintes lorsqu’il y a une relation linéaire parfaite entre les variables.

26
La signification d’une valeur du coefficient de corrélation calculée à partir d’un échantillon
doit être testée pour confirmer l’existence d’une relation entre les deux variables, dans la
population considérée. En général, on définit l’hypothèse nulle comme H0 : ρ = 0 alors que
l’hypothèse alternative est H1 : ρ ≠ 0.

L’hypothèse nulle (ρ= 0) peut être testée à l’aide du critère statistique :

𝑟√𝑛 − 2
𝑡=
√1 − 𝑟²

Ce critère statistique suit une distribution de Student t avec n-2 degrés de liberté.

3-5-1- La corrélation et la causalité


Une erreur de raisonnement courante consiste à dire : « X et Y sont corrélés, donc X cause
Y ». On confond alors corrélation et causalité car en réalité, il se pourrait que X et Y aient une
cause commune Z, ou encore que X et Y soient accidentellement liés mais n’aient aucun lien
de causalité.
- L’effet cigogne
En France par exemple, dans les communes qui abritent des cigognes, le taux de natalité est
plus élevé que dans l’ensemble du pays. Conclusion : les cigognes apportent les bébés !
Voici une explication plus probable : les cigognes nichent de préférence dans les villages
plutôt que dans les grandes agglomérations, et il se trouve que la natalité est plus forte en
milieu rural que dans les villes. Voilà pourquoi l’on nomme « effet cigogne » cette tendance à
confondre corrélation et causalité.
La longévité moyenne est supérieure dans les pays où l’on fume le plus. Peut-on en conclure
que si vous fumez énormément, vous vivrez plus longtemps ?

3-5-2- Les Corrélations non linéaires


Il est important de rappeler qu’elle absence de corrélation linéaire n’est pas égale à une
absence de toute corrélation (liaison) entre deux variables. Il se peut que les variables soient
liées par un autre type de relation tel que : les liaisons hyperbolique, exponentielle, puissance,
semi-logarithmique, logistique.

27
CHAPITRE IV : LES TESTS STATTISTIQUES

4-1- Introduction aux tests statistiques


Dans tous les domaines, de l’expérimentation statistique à la vie quotidienne, on est amené à
prendre des décisions au vu de résultats d’expériences ou d’observation de phénomènes dans
un contexte incertain.

Le problème de décision consiste à trancher, au vu d’observations, entre une hypothèse


appelée hypothèse nulle, notée H0, et une autre hypothèse dite hypothèse alternative, notée
H1. En général, on suppose qu’une et une seule de ces deux hypothèses est vraie. Un test
d’hypothèses est une procédure qui permet de choisir entre ces deux hypothèses.

En résumé, les tests statistiques ou tests d’hypothèses consistent à admettre ou non une
hypothèse.

4-1-1- Les tests paramétriques et non paramétriques


Il existe deux grandes familles de tests : les tests paramétriques, et les tests non paramétriques.
Les tests paramétriques fonctionnent en supposant que les données que l’on a à disposition
suivent un type de loi de distribution connu (en général la loi normale). Ces tests sont en
général très fins, mais ils nécessitent que les données suivent effectivement la loi de
distribution supposée. Ils sont en particulier très sensibles aux valeurs aberrantes et ne sont
pas conseillés si des valeurs aberrantes sont détectées. Les tests non paramétriques ne font
aucune hypothèse sur le type de loi de distribution des données. Ils se basent uniquement sur
les propriétés numériques des échantillons.

4-1-2- La mise en œuvre d’un test statistique


La mise en œuvre d’un test statistique nécessite cinq étapes :

1- La question biologique

On formule la problématique à l’aide d’une question simple.

2- Le choix du test

Dans de nombreux cas, les hypothèses d’un test peuvent se traduire sur la valeur d’un
paramètre d’une loi de probabilité. Les tests de ce type sont appelés tests paramétriques. Les
tests qui ne portent pas sur la valeur d’un paramètre sont appelés tests non paramétriques.

28
Le choix du test se fait donc en fonction d’un certain nombre de critères (type de variable,
taille de l’échantillon, loi de probabilité, …). Notons qu’on peut avoir le choix entre différents
tests, chacun d’entre eux possédant des conditions d’application.

3- La déclaration des hypothèses

On traduit la question biologique en hypothèses statistiques. On définit deux hypothèses :

- Une hypothèse nulle H0, qui est toujours une hypothèse de non-effet.
- Une hypothèse alternative H1, qui est une hypothèse d’effet.

4- Calcul du test

Le calcul du test consiste à générer une statistique appelée statistique de test qui va orienter la
décision.

5- Décision statistique et conclusion biologique

Elle consiste à accepter ou refuser l’hypothèse H0.

4-2- L’analyse de variance


L’analyse de variance (de l’anglais ANOVA : ANalysis Of VAriance) est un test statistique
paramétrique permettant de vérifier que plusieurs échantillons sont issus d’une même
population ou non. Le principe de base de l’analyse de variance est donc de chercher à voir si
la variabilité des observations peut être expliquée par les différences entre traitements.

L’analyse de variance a donc pour but de comparer la moyenne des groupes formés par le ou
les critères de classification soumis à l’analyse. Elle permet de répondre à la question suivante
: y a-t-il de la variabilité significative parmi ces moyennes, pour chacun des critères de
classification considérés ? Les données suivent généralement une distribution normale (test de
Normalité). Cependant dans certains cas la normalité n’a pu être vérifiée. Il est donc
indispensable de recourir à la statistique non paramétrique. En outre, la robustesse de ces tests
est indiscutable. L’analyse de variance non-paramétrique peut être adoptée pour l’ensemble
des traitements statistiques. De plus ce choix est conforté quand le nombre d’observations
(inférieur ou égal à 5 observations par station) est faible.

La réalisation d’une ANOVA nécessite :

29
- L’écriture d’un modèle ; la modélisation statistique est une description mathématique
plus ou moins approximative d’un mécanisme biologique. Un bon modèle est une
représentation idéalisée (juste) de la réalité biologique. Le problème courant dans la
recherche c’est d’examiner les effets d’un certain nombre de variables (ou facteurs)
explicatives sur une variable de réponse.

Voici l’exemple d’une écriture de modèle : Y = µ + α + β + αβ + ε

Les expériences factorielles sont très efficaces car chaque observation apporte une
information sur tous les facteurs qui interviennent dans l’expérience.

On parle d’ANOVA à facteur, lorsque l’analyse porte sur un modèle décrit par un facteur et
d’ANOVA à deux facteurs (ou multifactorielles), lorsque l’analyse porte sur un modèle décrit
par deux facteurs (ou plusieurs facteurs).

- L’énoncé des hypothèses

L’énoncé des hypothèses se résume à avoir deux hypothèses qui s’excluent mutuellement (H0
et H1). La validité de l’hypothèse est soumise à l’épreuve à l’aide du test ANOVA avec des
risques d’erreur d’accepter ou de refuser l’hypothèse.

Il existe deux types d’erreur auquel l’expérimentateur est confronté :

L’erreur de première espèce consiste à rejeter H0 alors qu’elle est vraie. L’erreur de
deuxième espèce consiste à rejeter H1 alors qu’elle est vraie.

- Le calcul du test

Le calcul du test s’effectue à partir de la décomposition de la variance. Lorsqu’on analyse


l’effet d’un seul facteur (ANOVA à un facteur), la variation totale est décomposée par
l’équation suivante :

SCET = SCEA+ SCER

Lorsqu’on analyse l’effet de deux facteurs (ANOVA à deux facteurs) sans interaction, la
variation totale est décomposée par l’équation suivante :

SCET = SCEA+ SCEB + SCER

30
Lorsqu’on analyse l’effet de deux facteurs (ANOVA à deux facteurs) avec interaction, la
variation totale est décomposée par l’équation suivante :

SCET = SCEA+ SCEB+ SCEAxB + SCER


Le tableau suivant résume la procédure de calcul de la statistique F pour l’ANOVA à un
facteur.

Source de Degré de Somme des carrés Carré moyen Fobs


variabilité liberté (ddl) des écarts (SCE) (CM)
Facteur A SCEA =
(intergroupe) k

 ni ( X i  X ) 2
n-1 SCEA/n-1
CMA/CMr
i 1

Résiduelle SCEr =
(intragroupe) N-n k ni CMr= SCEr/N-n
 ( X
i 1 j 1
ij  X i )2

Total N-1 SCET = SCEA + SCEr

Le tableau suivant résume la procédure de calcul de la statistique F pour l’ANOVA à deux


facteurs sans répétition.

Source de Degré de Somme des carrés des Carré moyen Fobs


variabilité liberté (ddl) écarts (SCE) (CM)

Facteur A 𝑆𝐶𝐸𝐴 = ∑ 𝑛 (𝑥̅𝑖 − 𝑥̅ ) ²


n-1 SCEA/n-1 CMA/CMr
𝑖

Facteur B 𝑆𝐶𝐸𝐵 = ∑ 𝑝 (𝑥̅𝑗 − 𝑥̅ ) ²


p-1 SCEB/p-1 CMB/CMr
𝑗

Résiduelle (n-1)(p-1) 𝑆𝐶𝐸𝑟 = ∑ (𝑥𝑖𝑗 − 𝑥̅𝑖 − 𝑥̅𝑗 + 𝑥̅ ) ² SCER/(n-1)(p-1)


𝑖𝑗

Total N-1 SCET = SCEA + SCEB + SCEr

31
Le tableau suivant résume la procédure de calcul de la statistique F pour l’ANOVA à deux
facteurs avec répétitions. On accède au terme d’interaction lorsque le plan d’expérience
contient des répétitions.

Source de Degré de Sommes des carrés des Carré moyen


Fobs
variabilité liberté (ddl) écarts (SCE) (CM)

Facteur A n-1 𝑟𝑝 ∑(𝑥̅𝑖 − 𝑥̅ )² SCEA/n-1 CMA/CMr


𝑖

Facteur B p-1 𝑟𝑛 ∑(𝑥̅𝑗 − 𝑥̅ )² SCEB/p-1 CMB/CMr


𝑗

Facteur
(n-1)(p-1) 𝑟 ∑𝑖𝑗(𝑥
̅̅̅𝑖𝑗̅ − 𝑥̅𝑖 − 𝑥̅𝑗 + 𝑥̅ )² SCEA×B/(n-1)(p-1) CMA×B/CMr
A×B

2
Résiduelle N-np ∑ 𝑒𝑖𝑗𝑘 SCEr/N-np
𝑖𝑗𝑘

Total N-1 ∑(𝑥𝑖𝑗𝑘 − 𝑥̅ )²


𝑖𝑗𝑘

- La lecture des résultats

La lecture des résultats d’une ANOVA se fait par rapport à la valeur de F de Snedecor. Une
comparaison est faite entre le F calculé et la valeur critique de la table F de Snedecor avec les
ddl requis.

Si Fcal < Fcritique, Acceptation de l’hypothèse H0

Si Fcal > Fcritique, Rejet de l’hypothèse H0

4-2-1- Les conditions d’application de l’analyse de variance


- La normalité de la distribution des données

32
La normalité de la distribution est recommandée pour réaliser l’ANOVA. Dans le cas où la
distribution ne suit pas une loi normale, on peut procéder à la normalisation des données par
une transformation des données (logarithme, racine carrée, angulaire, arc sinus, inverse…).

- L’homoscédacité des variances

L'hétérogénéité des variances est la violation des hypothèses de l'analyse de variance la plus
fréquente. L’application de l’analyse de variance est conditionnée normalement par
l’homoscédasticité des variances. Le critère statistique utilisé pour tester l’hypothèse d’égalité
des variances est :

𝑠12
𝐹=
𝑠22

Où 𝑠12 désigne la variance la plus élevée.

Le critère statistique suit une distribution de F avec (n1-1, n2-1) degrés de liberté. La règle de
décision est la suivante: si la valeur calculée du critère statistique est inférieure à la valeur
critique de la distribution de F, au seuil de signification voulu, on accepte l’hypothèse nulle, à
savoir que les deux échantillons sont prélevés dans des populations de même variance. Dans
le cas contraire, l’hypothèse nulle est rejetée.

- L’analyse des résidus (indépendance entre les différentes valeurs de la variable)

L’indépendance entre les différentes valeurs de la variable mesurée est une condition
essentielle à la réalisation de l’analyse de variance.

4-2-2- Les transformations des données

Les méthodes de transformation des données se déclinent donc en trois familles:

– la standardisation ou l’action de centrer-réduire les données pour diminuer l’échelle de


dispersion tout en conservant la forme des distributions conjointes ;

– la transformation en vecteur de rangs dont l’objectif est de se concentrer sur l’ordre des
valeurs des données et plus sur les valeurs elles-mêmes ;

– la normalisation des données qui consistent à rechercher la transformation adaptée au


travers de laquelle elles suivront une loi normale.

33
Dans le cadre de ce chapitre, seule la troisième famille des méthodes de transformations des
données sera considérée. Dans cette famille on peut les différentes transformations : la
transformation logarithmique, l’élévation au carré, la mise sous racine carré, la transformation
arc-sinus, la mise à l’exponentielle, la transformation inverse, la transformation logistique.

4-2-2-1- La Transformation logarithmique


La transformation logarithmique est la plus appropriée quand l’écart-type est proportionnel à
la moyenne ou que les effets sont multiplicatifs. Cette situation est assez fréquente lorsque des
processus de croissance ou de multiplication sont en jeu. Pour effectuer une transformation
logarithmique sur un ensemble de valeurs, il suffit de prendre le logarithme de chaque valeur.
Si le jeu de données comporte des petites valeurs (en pratique inférieures à 1) et surtout des
valeurs nulles, il est préférable d’utiliser log (x + 1) à la place de log(x).

4-2-2-2- La Transformation racine carrée


La transformation racine carrée est la plus appropriée quand la variance est proportionnelle à
la moyenne. Cela peut se produire quand dans le cas des variables de comptage.

4-2-2-3- La Transformation Arc sinus


La transformation Arc sinus est souvent utilisée lorsque les données représentent des
proportions ou des pourcentages. La transformation Arc sinus n’est pas unique, on peut
également utilisée la transformation logistique.
La réalisation de la transformation Arc sinus nécessite de remplacer les valeurs égales à 0%
par 1/4n et la valeur 100% par 100 – 1/4n, où n représente le dénominateur utilisé pour
calculer le pourcentage =, c’est-à-dire, la taille de la population.

4-2-3- Les tests post hoc ou tests à postériori


En cas de rejet de H0, il faut rechercher les distributions dont la moyenne s’écarte des autres.
Il existe pour cela plusieurs tests permettant de résoudre ce problème (tests de comparaison
multiples de moyennes de Tukey, de Bonferonni, …).

Exemple d’un test post hoc : Test de Tukey ou test de la différence franchement
significative (HSD: honestly significative difference).

La statistique du test Q se calcule par la formule suivante :

xi  x j
Q où x i  x j
E
34


Avec
𝐶𝑀𝑟
𝐸= √
𝑛

Si Qcal > QCrit (lu sur la table), on conclut à une différence significative entre les deux
moyennes constituant la paire.

Si Qcal < QCrit (lu sur la table), on conclut à l’inexistence d’une différence significative
entre les deux moyennes constituant la paire.

4-3- La comparaison de deux moyennes (Test t-Student)

4-3-1- Echantillons indépendants


Pour vérifier l’hypothèse H0 (µ1 = µ2) ou H1 (µ1 ≠ µ2) avec le test t-Student, on calcule la
moyenne et l’écart-type de chaque échantillon. Le critère t est donné par la formule suivante :

Après le calcul du critère t, on le compare avec la valeur de t donnée par la table de Student au
niveau de probabilité (α) souhaité pour n1 + n2 -2 ddl (degré de liberté).

Si la valeur calculée de t est supérieure à la valeur seuil, on déduit qu’il existe des différences
significatives entre les moyennes des deux échantillons.

Si la valeur calculée de t est inférieure à la valeur seuil, on déduit qu’il n’existe pas des
différences significatives entre les moyennes des deux échantillons.

4-3-2- Echantillons appariés


Lorsqu’on compare les moyennes de deux groupes d’observations sont appariés (par exemple
lorsque l’on compare l’état d’un ensemble d’individus avant et après un traitement, ou les

35
propriétés de la partie basse et de la partie haute d’une plante etc...), le test statistique utilisé
est appelé test jumelé t.

𝑑̅
𝑡=
2
√𝑠𝑑
𝑛

Où 𝑑̅ désigne la moyenne des différences entre les observations à comparer, n désigne le


1 (∑ 𝑑𝑖 )²
nombre d’observation, et 𝑠𝑑2 = [∑ 𝑑𝑖2 − ]
𝑛−1 𝑛

4-4- Les tests de Kruskal-Wallis et de Steel-Dwass

4-4-1- Le test de Kruskal-Wallis


Le test de Kruskal-Wallis est un test non paramétrique développé comme une alternative à
l’ANOVA dans le cas où l'hypothèse de normalité n'est pas acceptable. Il permet de tester si k
échantillons (k>2) proviennent de la même population, ou de populations ayant des
caractéristiques identiques. Comme tout test non paramétriques, le test de Kruskal Wallis
compare des rangs de données. Il peut ainsi comparer des moyennes, des fréquences ou en
encore des variances traitées sous forme de rangs. Le rang de chacune des valeurs est donné
par rapport à l’ensemble des valeurs des 2 échantillons. La complexité réside dans le cas où
nous il existe des ex-aequo. Pour cela, on utilise la méthode des rangs moyens.

Par exemple :

 S’il existe 2 valeurs égales qui prennent la 8 et 9ème place, alors on leur donne le rang
8,5.
 S’il existe 3 valeurs égales, qui prennent la 10, 11 et 12ème place, alors on leur donne à
chacune le rang de 11.

Ensuite on calcul la somme des rangs pour chacun des échantillons (SRK), puis la valeur
pratique (H) par la formule suivante :

Avec SRk = Somme des rangs des individus de l’échantillon K, nk = taille de l’échantillon K,
n = nombre total d’individu de tous les échantillons.

36
Dans le cas où il y a des ex-aequo qui sont communs à un ou plusieurs échantillons, il faut
ajuster la valeur pratique en prenant en compte la formule suivante :

𝑉𝑎𝑙𝑒𝑢𝑟 𝑝𝑟𝑎𝑡𝑖𝑞𝑢𝑒
𝑉𝑎𝑙𝑒𝑢𝑟 𝑝𝑟𝑎𝑡𝑖𝑞𝑢𝑒 𝑎𝑗𝑢𝑠𝑡é𝑒 =
𝑡𝑔 × (𝑡𝑔2 − 1)
1− ∑
𝑛3 − 𝑛

Avec n = nombre total d’individu pour l’ensemble des échantillons, tg = le nombre


d’observation associé à la valeur ex-æquo. Si par exemple on a 2 valeurs de 6, alors tg sera de
2.

La valeur critique se lit selon le nombre d’individu par échantillon. Deux cas s’impose :

- si le nombre d’échantillon ou d’individu est faible (< 5), les valeurs tabulées de Kruskal-
Wallis sont utilisées. En effets, on cherche le nombre d’échantillons, puis la combinaison du
nombre d’individus par échantillon (permettant l’identification de la ligne). Ensuite on choisit
la colonne en fonction de la valeur α choisie.

- si le nombre d’échantillon ou d’individu est supérieur à 5, on se réfère à la loi du χ² pour un


degré de liberté de k-1.

La lecture de la comparaison entre la valeur pratique et la valeur critique se fait comme suit :

Résultat Conclusion Conclusion pratique


statistique
Valeur pratique < Valeur On retient H0 Il n’y a pas de différence significative entre les
critique différents échantillons.
Valeur pratique > Valeur On rejette H0 Il y a une différence significative entre les différents
critique échantillons.

4-4-2- Le test de steel-Dwass


Dans le cas où l’on rejette l’hypothèse nulle, on conclut qu’au moins un groupe de mesure
diffère des autres. La question est donc de savoir lequel de ces groupes est différent des
autres. Un test post-hoc non paramétrique doit être alors utilisé, à l’instar du test de Steel-
Dwass. La comparaison de deux groupes quelconques U et V est effectuée de la manière
suivante :

37
Soient ∑ 𝑟𝑢 et ∑ 𝑟𝑣 les sommes des rangs des observations dans les deux groupes ; soient nu et
nv les effectifs de deux groupes et n = nu + nv. La statistique calculée est la suivante (sans ex
aequo) :

𝑛+1
∑ 𝑟𝑢 −(𝑛𝑢 ) 𝑛𝑢 𝑛𝑣 (𝑛+1)
𝑡= 2
avec 𝐸 2 =
𝐸 12

La statistique calculée suit une loi des écarts studentisées de Tukey de paramètres k (nombre
de groupes) et +∞ ddl.

Dans le cas où il y a des ex aequo, on calcule E² par la formule suivante :

𝑛𝑢 𝑛𝑣 (𝑛(𝑛 + 1)²
𝐸2 = [ ∑ 𝑟²𝑖𝑗 − ]
𝑛(𝑛 − 1) 4
𝑖,𝑗=𝑢,𝑣

4-5- Le test d’indépendance du χ² de deux variables qualitatives


Le test d’indépendance du χ² permet de réaliser une analyse bivariée sur des variables
qualitatives.

Soit deux distributions des données suivantes :

Avec ces données, on peut générer le tableau de contingence suivant :

38
Caractériser l’indépendance entre deux variables qualitatives X et Y est très utile dans une
étude, en particulier pour une enquête.

La mesure de la liaison entre X et Y, est appréciée par le calcul du χ² observé (ou calculé) :

χ²

Si χ² calculé est supérieur à la valeur du χ² seuil, l’hypothèse d’indépendance de X et Y est


rejetée.

Si χ² calculé est inférieur à la valeur du χ² seuil, l’hypothèse d’indépendance de X et Y est


acceptée.

La valeur critique (χ² seuil) est lue sur la table χ². Le degré de liberté est égal au nombre total
des modalités (des deux facteurs) moins un.

4-6- Les tests de comparaison des proportions


4-6-1- La comparaison d’une proportion à une référence
Le contexte de ce test est de savoir si dans une population donnée, une proportion diffère ou
non d’une valeur de référence. L’utilisation de ce test repose sur le calcul de la valeur de Z.

𝑝−𝜋
𝑍=
√𝜋 × (1 − 𝜋)
𝑛

où p est la proportion observée et π la proportion théorique ou de référence.

39
L’hypothèse H0 (p = π) est acceptée si la valeur calculée de Z est inférieure à la valeur
critique de Z lue sur la table Z. L’hypothèse H1 (p ≠ π) est acceptée si la valeur calculée de Z
est supérieure à la valeur critique de Z lue sur la table Z.

4-6-2- La comparaison de deux proportions


Ce test éprouve l’hypothèse d’une égalité ou non de deux proportions indépendantes. Pour
tester l’égalité de deux proportions, on calcule la valeur de Z.

𝑃1 − 𝑃2
𝑍=
𝑃1 𝑞1 𝑃2 𝑞2

𝑛1 + 𝑛2

Où P1 et P2 sont respectivement les proportions à comparer, n1 et n2 sont la taille des


échantillons respectifs, q1 = 1-p1 et q2 = 1-p2.

La règle de décision est basée sur la lecture de la valeur critique lue sur la table Z de la loi de
distribution normale standard.

L’hypothèse H0 (p1 = p2) est acceptée si la valeur calculée de Z est inférieure à la valeur
critique de Z lue sur la table Z. L’hypothèse H1 (p1 ≠ p2) est acceptée si la valeur calculée de
Z est supérieure à la valeur critique de Z lue sur la table Z.

40
CHAPITRE V : LA STATISTIQUE MULTIDIMENTIONNELLE

5-1- Introduction
On désigne par statistique multidimensionnelle (analyse multivariée) l'ensemble des méthodes
de la statistique permettant de traiter simultanément un nombre élévé de variables (il s'agit
d'aller au-delà de l'étude d'une seule ou de deux variables à la fois). Ces méthodes sont
purement descriptives, c'est-à-dire qu'elles ne supposent, à priori, aucun modèle sous-jacent
de type probabiliste. Ainsi, lorsqu'on considère un ensemble de variables quantitatives sur
lesquelles on souhaite par exemple réaliser une ACP (Analyse en Composantes Principales), il
n'est pas nécessaire de supposer que ces variables sont distribuées selon une loi normale.

5-2- L’Analyse en composante principales


Lorsqu'on étudie simultanément un nombre important de variables quantitatives (ne serait ce
que 4), comment en faire une représentation graphique globale ? La diffculté vient de ce que
les individus étudiés ne sont plus représentés dans un plan espace de dimension 2, mais dans
un espace de dimension plus importante (par exemple 4). L'objectif de l'Analyse en
Composantes Principales est de représenter dans un plan espace de dimension réduite (2 le
plus souvent) en déformant le moins possible la réalité. Il s'agit donc d'obtenir le résumé le
plus pertinent possible des données initiales.
C'est la matrice des variances-covariances (ou celle des corrélations) qui permet de réaliser ce
résumé pertinent, parce qu'on analyse essentiellement la dispersion des données considérées.
De cette matrice, on va extraire, par un procédé mathématique appropriée, les facteurs que
l'on recherche, en petit nombre. Ils vont permettre de réaliser les graphiques désirés dans cet
espace de petite dimension, en déformant le moins possible la configuration globale des
individus telle qu'elle est définie par l'ensemble des variables initiales.
C'est l'interprétation de ces graphiques qui permettra de comprendre la structure des données
analysées. Cette interprétation sera guidée par un certain nombre d'indicateurs numériques,
appelées aides à l'interprétation, qui sont là pour aider l'utilisateur à faire l'interprétation la
plus juste et la plus objective possible.
Pour réaliser une ACP on suit la démarche suivante :
- La préparation des données
On doit s’assurer que les données sont quantitatives. Dans la pratique, on considère souvent
les variables qualitatives ordinales comme des quantitatives. L’ACP ne sait pas traiter les
données manquantes. Certains logiciels proposent de supprimer les individus possédant des
données manquantes, alors que d’autres vont remplacer la donnée manquante par un zéro.
41
- La formalisation mathématique
La formalisation mathématique de l’ACP va consister à généraliser une situation
multidimensionnelle à un espace de dimension réduite.

Le tableau de départ qui sera soumis à une ACP se présente de la façon suivante :

Il s’agit d’un tableau de données quantitatives, avec les variables en colonnes, les individus en
lignes et les observations à l’intérieur du tableau.

L’objectif de l’ACP est d’analyser l’information contenue dans le tableau, c'est-à-dire la


structure du nuage des individus dans l’espace Rn et des variables dans l’espace RN.

Pour des raisons mathématiques de simplification, mais aussi parce que les variables dans ces
tableaux peuvent être de natures différentes, on transforme la matrice X en une matrice Z de
variables centrées réduites qui conserve la même information :

La matrice Z des variables centrées réduites s’écrit alors :

42
Ensuite, on recherche des combinaisons linéaires des variables, appelées facteurs, ou encore
composantes principales, puis on construit une matrice des corrélations.

Cette matrice est diagonaliser pour générer les vecteurs propres et les valeurs propres sur la
base d’une matrice de variance-covariance (V).

A l’aide des vecteurs propres et des valeurs propres calculés, on représente un nuage des
individus. Les axes ainsi générés sont appelés composantes princpales.
A chaque individu, on associe un point dans Rn (espace des individus). A chaque variable de
la matrice Z est associé un axe de RN.
On cherche donc à définir k nouvelles variables combinaisons linéaires des variables initiales
qui feront perdre le moins d’information possible.
L’inertie est la somme pondérée des carrés des distances des individus au centre de gravité.
L’inertie mesure la dispersion totale du nuage de points. L’inertie est donc aussi égale à la
somme des variances des variables étudiées.

43
La recherche d’axes portant le maximum d’inertie équivaut à la construction de nouvelles
variables (auxquelles sont associés ces axes) de variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de façon à se placer dans un
nouveau système de représentation où le premier axe apporte le plus possible de l’inertie
totale du nuage, le deuxième axe le plus possible de l’inertie non prise en compte par le
premier axe, et ainsi de suite. Cette réorganisation s’appuie sur la diagonalisation de la
matrice de variances-covariances.
Le choix du nombre de compoantes est généralement effectué en utilisant le critère du coude
sur l’éboulis des valeurs propres (décrochement suivi d’une décroisance regulière). Les axes
sont chosis avant le décrochement.

Les « proximités » entre les composantes principales et les variables initiales sont mesurées
par les covariances, et surtout les corrélations.

44
Le cercle des corrélations est la projection du nuage des variables sur le plan des compoantes
principales.

Les variables bien représentées sont celles qui sont proches du cercle, celles qui sont proches
de l’origine sont mal représentées.
Les individus sont également reprrésentés dans les plans définis par les nouveaux axes, en
projetons leur coordonnées sur ces axes.

45
Les points proches désignent des individus semblables, les points éloignés désignent le
contraire.

5-3- L’Analyse Factorielle des Correspondances


L’Analyse Factorielle des Correspondances (A.F.C.) est une m´ethode factorielle de
Statistique Descriptive Multidimensionnelle dont l’objectif est d’analyser la liaison existant
entre deux ou plusieurs variables qualitatives. On notera qu’on dispose aussi d’un test
statistique, le test d’indépendance du khi-deux basé sur l’indice khi-deux, permettant de tester
s’il existe ou non une liaison significative entre deux variables qualitatives. L’A.F.C. est, en
fait, une Analyse en Composantes Principales particulière, réaliséee sur les profils associés à
la table de contingence croisant les deux variables considérées. Plus précisemment, l’A.F.C.
consiste à réaliser une A.C.P. sur les profils-lignes et une autre sur les profils-colonnes. Les
résultats graphiques de ces deux analyses sont ensuite superposés pour produire un graphique
(éventuellement plusieurs) de type nuage de points, dans lequel sont réunies les modalités des
deux variables considérées, ce qui permet d’étudier les correspondances entre ces modalités,
autrement dit la liaison entre les deux variables.

5-4- La classification ascendante hiérarchique


La classification agglomérative (encore appelée classification hiérarchique ascendante) est
une méthode de classification dont le principe est de regrouper des individus selon leurs
ressemblances et les représenter sous la forme d'un arbre de classification appelé
dendrogramme (structure arborescente permettant la mise en évidence de liens hiérarchiques
entre individus ou groupes d’individus). La CAH permet de ce fait de déterminer le nombre
de classes « naturel » au sein dune population. Le nombre de groupes (cluster) n'est pas connu
a priori . L'élaboration de cet arbre est ascendante, par regroupements successifs des
individus. L'arbre de classification relie un individu à un autre ou à un sous-groupe
d'individus issus eux-mêmes de regroupements antérieurs.

46
La classification s’intéresse à des tableaux de données individus × variables quantitatives

En définissant un niveau de coupure, on construit une partition. Une partition est bonne si les
individus d’une même classe sont proches et si les individus de deux classes différentes sont
éloignés. Mathématiquement ça se traduit par une petite variabilité intra-classe et grande
variabilité inter-classes.

5-5- L’Analyse de Hill et Smith


L’analyse de Hill et Smith ou Analyse Factorielle Multiple (AFM) permet de fusionner les
variables qualitatives et quantitatives au sein d’une seule et même analyse. Elle permet de
mixer une ACP et une ACM. L’objectif de l’analyse de Hill et Smith est de synthétiser
l’information en réduisant le nombre de dimensions afin d’avoir une lecture visuelle et simple
des interactions se produisant entre les diverses variables du jeu de données en dépit de leur
format divergent.Elle commence par l’éxécution d’une ACP sur les données quantitiatives,
puis l’exécution d’une ACM sur les données qualitatives. Cette analyse se base donc sur la
possibilité de mixer les deux formats principaux de variables et de produire des axes factoriels
synthétisant les corrélations et liaisons au sein d’un jeu de données. La méthodologie est une
sorte de mélange d’ACM et d’ACP, ainsi la première phase permettra de transformer les

47
variables qualitatives en variables continues et la seconde permettra de construire le lien entre
les deux formats de variables.

Les résultats d’une AFM s’interpréte en trois volet :

a) Pour les modalités des variables qualitatives, la lecture est la même que pour une ACM.
La présence d’un groupe en terme de proximité de deux ou plusieurs modalités de
variables qualitatives impliquent un lien entre elles et donc que les individus qui ont
choisis l’une des modalités du groupe ont également choisis les autres modalités de ce
même groupe.
b) Pour les variables quantitatives, la lecture est la même que pour une ACP centrée-
réduite. Ainsi, un groupe de variables en terme de proximité sur le cercle de corrélation
implique une corrélation soit un lien linéaire croissant. Deux groupes de variables
opposés sur le cercle de corrélation implique une anti-corrélation soit un lien linéaire
décroissant. Deux groupes de variables dont l’angle formé est de 90° implique une
indépendance et donc l’absence de corrélation ou d’anti-corrélation entre eux.

c) Pour le mixte entre variable(s) continue(s) et variable(s) qualitative(s), il faudra mixer


les deux interprétations. Ainsi, si une ou plusieurs variables qualitatives sont au sein
d’un groupe de variables continues, cela implique que plus les variables continues
croient et plus les individus ont choisis cette ou ces modalité(s)

48
CHAPITRE VI : LA MODELISATION STATISTIQUE

6-1 – Introduction à la modélisation biostatistique


La modélisation biostatistique est la démarche permettant l’élaboration d’un modèle qui
simplifie au mieux la réalité d’un phénomène biologique. Les finalités sont diverses : la
modélisation peut être utilisée à des fins de prédiction ou à des fins de compréhension.

La modélisation se déroule en 5 grandes étapes: (1) on fixe les objectifs de la modélisation ;


(2) on fait l'inventaire des informations (données expérimentales) ; (3) on réalise un modèle ;
(4) on valide en confrontant le modèle à la réalité ; (5) on tire des conclusions.

L’évaluation d’un modèle (notion de fiabilité) sur un plan pratique consiste à comparer une
série de données obtenues expérimentalement avec celles que prédit le modèle. Ensuite on fait
varier les paramètres du modèle jusqu'à l'obtention de la meilleure adéquation possible entre
les données observées et les données prédites.

6-2- La régression linéaire


La régression linaire simple a pour but d'expliquer une variable Y à l'aide d'une variable X. La
variable Y est appelée variable dépendante, variable à régresser, variable de réponse ou
variable à expliquer et la variable X est appelée variable indépendante, variable explicative ou
régresseur.

Avant toute analyse de régression, il convient de représenter les données. Le but de la


régression simple est de chercher une fonction f telle que :

yi = f(xi)

Pour définir la fonction affine, il faut se donner un critère quantifiant la qualité de l'ajustement
de la fonction f aux données.

6-2-1 – La représentation graphique


Une étude de régression simple débute toujours par un tracé des observations (xi,yi). Cette
première représentation permet de savoir si le modèle linéaire est pertinent. Si le nuage a une
forme particulière s'apparentant à une courbe mathématique, on choisira la fonction
mathématique correspondant à cette courbe.

Le graphique suivant représente trois nuages de points différents.

49
Au vue du graphique, il semble inadéquat de proposer une régression linéaire pour les 2
premiers graphiques, le tracé présentant une forme sinusoïdale ou sigmoïdale. Par contre, la
modélisation par une droite de la relation entre Xi et Yi pour le dernier graphique semble
correspondre à une bonne approximation de la liaison y = α + βx.

6-2-2 – Le modèle général de régression


Le modèle y = α + βx comporte deux paramètres (coefficients) :

- Le coefficient β : la pente de la droite; β > 0 si la droite est croissante, β = 0 si la droite est


horizontale et β < 0 si la droite est décroissante;
- Le coefficient α: l'ordonnée du point d'intersection de la droite avec l'axe vertical en x = 0.

Si la relation était parfaitement linéaire : sur l'échantillon, cela se traduirait par des points
alignés et l'on pourrait écrire la relation (l’équation générale du modèle de régression linaire
simple) entre Yi et Xi sous la forme :

y = α + βx

Cependant, on peut remarquer l’existence des observations ayant les mêmes coordonnées x i et
des coordonnées yi différentes.

Pour rendre compte de cette situation, on écrit la relation entre la tension et l'âge sous la forme
générale suivante : droite + erreur

y = α + βx + ε

Le terme d'erreur ε est une variable aléatoire. Elle synthétise toutes les facteurs influant sur la
variable de réponse et qui ne sont pas prises en compte par la relation de causalité.

50
Le modèle étant posé, il faut estimer numériquement les paramètres du modèle, c'est-à-dire
calculer les valeurs numériques des coefficients qui correspondent le mieux aux données. Cela
revient à déterminer la droite qui s'ajuste le mieux aux données, c'est-à-dire la droite qui est la
plus proche des points.

6-2-3 – L’estimation des paramètres du modèle de régression

6-2-3-1- La méthode des moindres carrés


Cette méthode permet de chercher la droite pour laquelle la somme des carrés des écarts
verticaux des points à la droite est minimale parmi toutes les droites possibles.

6-2-3-2- Le calcul des coefficients des estimés


Les valeurs de α et β sont estimées par la méthode des moindres carrées de sorte que la
somme des carrés des différences entre les valeurs observées et prévues soit minimale.

Les formules permettant de calculer les coefficients des estimées sont les suivantes :

𝑐𝑜𝑣(𝑥, 𝑦)
𝛽=
𝜎² (𝑥)

𝛼 = 𝑦̅ − 𝛽𝑥̅

Une fois les coefficients de la droite estimés, on calcule pour chaque individu, la valeur
ajustée ou prédite de Y par le modèle :

y = α + βx + ε

On peut obtenir une estimation des erreurs-type de α et β avec les formules suivantes :

51
∑𝑛 𝑥 2
̂²
𝜎 ̂ 2 𝑖=1 𝑖
𝜎
𝑛
𝑆𝐸(𝛽) = √ 𝑛 ; 𝑆𝐸(𝛼) = √ (∑𝑛
∑𝑛 2 (∑𝑖=1 𝑥𝑖 )² ∑𝑖=1 𝑥𝑖 − 𝑖=1 𝑖
𝑛 2 𝑥 )²
𝑥
𝑖=1 𝑖 −
𝑛 𝑛

∑𝑛 ̂)²
𝑖=1(𝑦𝑖 −𝑦
Où 𝜎̂ 2 =
𝑛

6-3- La régression non linéaire


La régression non linéaire génère une équation permettant de décrire la relation non linéaire
entre une variable de réponse continue et une ou plusieurs variables de prédiction, et prévoit
de nouvelles observations. On utilise la régression non linéaire lorsque on ne peut pas
modéliser de manière adéquate la relation avec des paramètres linéaires.

Pour comprendre les principes de base de la régression non linéaire, il est important d'en
connaître les similarités et les différences avec la régression linéaire. Les deux analyses : (i)
décrivent mathématiquement la relation entre une variable de réponse et une ou plusieurs
variables de prédiction ; (ii) peuvent modéliser une relation en courbe ; (iii) minimisent la
somme des carrés de l'erreur résiduelle (SCE) ; proposent des hypothèses similaires,
vérifiables à l'aide de graphiques des valeurs résiduelles.

La différence fondamentale entre la régression linéaire et la régression non linéaire tient aux
formes fonctionnelles acceptables du modèle. En revanche, une équation non linéaire peut
prendre différentes formes.

Le choix de la fonction de prévision dépend souvent des connaissances préalables sur la


forme de la courbe de la réponse ou du comportement des propriétés physiques du système.
Les formes de courbes non linéaires possibles sont notamment : à courbe puissance, à
croissance ou décroissance exponentielle, à courbe sigmoïde et asymptotique.

6-4- L’analyse de covariance


L’analyse de la covariance ou ANCOVA est une méthode d’analyse faisant appel à un modèle
linéaire dans lequel on retrouve des variables explicatives discrètes (facteurs) et continues
(covariables). L’analyse de covariance est une synthèse des méthodes de l’analyse de la
variance et de la régression. Les covariables encore appelées variables additionnelles,
variables concomitantes ou encore variables accessoires sont des variables associées aux
principales variables étudiées. Par exemple, dans les essais de rendement, la variation du

52
volume sur pied initial due à des facteurs externes, les effets résiduels des plantes
antérieurement cultivées sur le site etc…, peuvent faire office de covariables. L’ajout d’une
covariable dans un modèle d’ANOVA permet de réduire la composante de variabilité associée
à l’erreur, et donc augmente la puissance des tests.

L’analyse de la covariance étant essentiellement une extension de l’analyse de la variance,


toutes les hypothèses sur lesquelles se fonde cette dernière s’appliquent aussi. Dans une
analyse de la covariance, d’autres hypothèses sont également nécessaires, notamment :

- la relation liant le caractère principal considéré y et la covariable x est linéaire ;


- l’importance de la relation entre x et y est la même dans chaque groupe expérimental ;
- la variation de la covariable n’est pas la résultante de différences internes au groupe.

Les différentes étapes de l’analyse de la covariance sont :

Etape 1 : la première étape consiste à la somme des carrés due aux différentes composantes,
pour la variable y et la covariable x, comme pour une analyse de variance, à l’aide des
formules indiquées ci-après :

53
Etape 2 : le calcul des produits de x et y

Etape 3 : Elle consiste à vérifier si la covariable est affectée par les groupes expérimentaux.
Si les groupes n’ont aucune sur x, il ne doit pas y avoir de différences entre les groupes par
rapport à x. Le coefficient de régression à l’intérieur des groupes est donné par la relation :

On peut tester la signification de β à l’aide du test F. Le critère de test statistique F est donné
par :

54
Le critère statistique F suit une loi de F avec 1 et t(r-1)-1 degrés de liberté. Si le coefficient de
régression est significatif, on procède à des ajustements de la somme de carrés de y pour des
variations de x. Dans le cas contraire, les ajustements sont inutiles.

Etape 4 : Calcul des valeurs ajustées de y par les formules suivantes :

Le tableau ci-après résume le processus de réalisation de l’ANCOVA.

55
6-5- Le modèle linéaire mixte
Un modèle linéaire mixte est un modèle pour lequel le modèle comprend à la fois des effets
fixes et des effets aléatoires. Ces modèles incluent des variables (facteurs) à effets fixes et
aléatoires. Le mélange entre les deux types de facteurs dans un même modèle est à l’origine
du nom. Les effets fixes décrivent les relations entre les covariables et la variables dépendante
pour une population entière, les effets aléatoires sont spécifiques à l’échantillon. En d’autres
termes, un effet aléatoire est effet dont nous ne voulons pas généraliser les propriétés (les
modalités ont été choisies de manière aléatoire dans quelque chose de plus grand). Un effet
fixe est un effet dont on veut généraliser les propriétés. Il s’agit de la variable (facteur)
manipulée. Les niveaux de ce facteur ont été choisi de manière spécifique. Contrairement aux
facteurs fixes, les niveaux de la variable aléatoire ne représentent pas des conditions choisies
de manière spécifique pour répondre aux objectifs de l’étude. Il est important de comprendre
qu’une variable peut être considérée comme un effet fixe ou un effet aléatoire en fonction de
l’hypothèse qui va être testée.

En notation matricielle simplifiée, un modèle mixte peut être représenté comme suit :

y = Xβ + Zµ + Ɛ

Où Y désigne le vecteur des observations, β le vecteur de l’effet fixe, µ le vecteur de l’effet


aléatoire, Ɛ le vecteur résiduel aléatoire, X et Z les matrices d’incidence liant respectivement y
à β et µ.

56
BIBLIOGRAPHIE

Balan R., Lamothe G., 2018. Une introduction à la biostatistique. Presses de l’Université du
Québec, 352p.

Bertrand F., Claeys E., Maumy-Bertrand M., 2019. Modélisation statistique par la pratique
avec R. Cours et exercices corrigés. Ed. Dunod, 256p.

Dagnelie P., 1986. Analyse statistique à plusieurs variables. Gembloux, Presses


agronomiques, 362p.

Dagnelie P., 1990. Théorie et méthodes statistiques: applications agronomiques (vol. 1).
Gembloux, Presses agronomiques, 378p.

Dagnelie P., 1994. Théorie et méthodes statistiques: applications agronomiques (vol. 2).
Gembloux, Presses agronomiques, 451p.

Dagnelie P., 2012. Principe d’expérimentation. Planification des expériences et analyse de


leurs résultats. Les presses agronomiques de Gembloux, 414p.

Dagnelie P., 2013. Statistique théorique et appliquée. Ed. De Boeck, 736p.

Das M.N. et Giri N.C., 1979. Design and Analysis of Experiments. Wiley Eastern Ltd. New
Delhi. 295p.

Depauw J., 2012. Statistiques : Cours et exercices corrigés. Vuibert, 166p.

Kruskal W.H., Wallis W.A., 1952. Use ranks in one-criterion variance analysis. Journal of
the American Statistical Association, 47 (260) : 583-621.

Laberche J-C., 2008. Statistiques et expérimentation en biologie. Collection Technosup,


192p.

Montogomery D.C. et Peck E.A., 1982. Introduction to Linear Regression Analysis. John
Wiley and Sons, New York. 504 p.

Montogomery D.C., 1991. Design and analysis of Experiments. John Wiley and Sons. New
York. 649p.

Snedecor G.W. et Cochran W.G., 1980. Statistical Methods. USA: The Iowa State
University Press, pp : 232-237.

Sokal R.R. et Rolhf FJ., 1969. Biometry. W. H. Freeman and Co., San Francisco. 776p.

Sprent P., 1992. Pratique des statistiques non paramétriques. INRA, 312p.

57

Vous aimerez peut-être aussi