Académique Documents
Professionnel Documents
Culture Documents
OUARGLA
FACULTE DES SCIENCES DE LA NATURE ET DE LA VIE
DEPARTEMENT DES SCIENCES AGRONOMIQUES
Semestre 2
Support de cours de
Biostatistiques appliquées
Introduction aux Biostatistiques
L'analyse des données est utilisée pour décrire les phénoménes étudiés, faire des prévisions et
prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les
champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l'économie à la biologie en passant par la psychologie, et bien sûr les sciences
de l'ingénieur.
Là, la réponse sera : disons… entre 800 kg et 1,2 tonnes à peu près, mais certains arrivent même
à être encore plus gros. Ils sont plus légers bien sûr si la pâture n’a pas été bonne, et puis il faut
savoir qui était le père et la mère, parce que la génétique… Cet expert est incapable de donner
une réponse claire et nette sur un sujet qu’il connaît soi-disant à fond ? Doit on l’accabler ?
Non, évidemment.
Contrairement aux voitures, les taureaux ne sont pas construits dans des conditions contrôlées
et à partir de pièces qui sont automatiquement rejetées si elles ne satisfont pas le cahier des
charges. Il est impossible d’échapper à cette marge d’incertitude, intrinsèque à tout phénomène
1
Introduction aux Biostatistiques
vivant. Chaque caractéristique d’un organisme résulte de l’interaction entre son génome et
l’environnement, lui-même, fort variable.
En biologie, la grande variabilité des individus oblige à se baser sur des échantillons de
plusieurs individus (et tant mieux s’ils sont nombreux).
2
Chapitre I. Généralités et notions de base
Population (P) : correspond à l'ensemble des individus sur lequel porte l’étude ou la prévision,
(il est généralement difficile de l’étudier dans sa totalité), et l’échantillon représente la fraction
de cette population qui est réellement observée ou étudiée :
o Population cible (Pc) : ensemble des éléments visés, en principe, par l'échantillonnage.
o Population statistique (Ps) : ensemble des éléments considérés dans une étude
particulière. Réunion des individus sur lesquels on étudie une ou plusieurs propriétés.
o Population biologique (Pb) : ensemble des individus d'une même espèce habitant un
lieu donné à un moment donné. Notion qui relève davantage de la biologie que de la
statistique.
Individu : c’est les éléments d’un échantillon ou d’une population sont appelés généralement
des individus, cependant cette notion peut être remplacé par plusieurs dénominations : unité
statistique, sujet, objet, élément, observation, mesure, doses,… toutefois, dès que la
dénomination est choisi aucune ambiguïté ne doit persistée.
Echantillon (E) : est le fragment d’un ensemble prélevé pour juger de cet ensemble. En d’autres
termes, c’est une fraction de la population statistique sur laquelle des mesures sont faites pour
connaître les propriétés de cette population. L’échantillon (notre sélection par le hasard ou non
de français) est identifié par son effectif, noté n.
E doit être représentatif par rapport à P (même chance pour tous les individus ;
E doit être de taille suffisamment élevée pour extrapoler les résultats.
3
Chapitre I. Généralités et notions de base
Taille de l’échantillon (N) : Pour une population qu’on ne connait pas l’écartype, on peut
tolérer une marge d’erreur de ±5%. Pour cela, on peut appliquer la formule suivante si la
population est de grande taille :
N = 1 / Er2
N : taille de E ;
Er : erreur acceptable qui de 5%.
Sinon, si elle est relativement faible à 400 unités, on peut utiliser la formule suivante :
Variabilités
Tout échantillon est soumis à des facteurs de variabilité. Ils peuvent être soit factorielles
(dimorphisme sexuel) ou résiduelles (relatives aux erreurs de mesures et caractéristiques
génétiques).
4
Chapitre I. Généralités et notions de base
Variable qualitative : c'est un caractère qualitatif, dans ce type de variable les modalités ne sont
pas quantifiables ou mesurables (race, couleur de pelage, sexe,…). Elles peuvent être, binaire
avec deux modalités comme le sexe (mâle ou femelle) ou présence/absence (+ ou -), nominale
dans le cas où les nombres ou symboles identifient les groupes auxquels divers objets
appartiennent, comme le sexe (2 mâles ou 3 femelles), ou ordinale lorsque les modalités
peuvent être classées selon un ordre logique, comme les stade de développement d’une maladie
(cancer), plante (levé, montaison, épiaison..) et âge (juvénile, subadulte…).
5
Chapitre I. Généralités et notions de base
I.3.1. Tableaux
Plusieurs types de tableaux sont notés.
Variables
Observations Var1 Var2 Var3 Var…
Obs1 1 6 - -
Obs2 6 - 21 41
Obs3 3 - 23 -
Obs4 4 1 - 36
Obs… … ..
Une fois les données traitées par des analyses statistiques, les résultats peuvent être exposés
sous formes de tableaux, contenant des paramètres statistiques, comme moyenne, écartype,
variance…..ect.
Variables
Paramètres Var1 Var2 Var3 Var…
Min 1 … … …
Max 6 … … …
Moyenne 3,9 … … …
Ecartype 1,8 … … …
Variance 3,24 … … …
N° de Centre …
Intervalle Fa Fa % Fa Cum
classe de classe
1 [0 ; 10] 5 1 … … … …
2 [10 ; 20] 15 3 … … … …
3 [20 ; 30] 25 9 … … … …
4 [30 ; 40] 35 2 … … … …
….. … … … … … …
Fa : fréquence absolue ou effectif ; Fr : fréquence relative ; Cum : cumulée.
I.3.2. Graphiques
Les données peuvent être exposées sous différentes formes de graphiques :
6
Chapitre I. Généralités et notions de base
40 40
35 35
Pourcentage (%)
Pourcentage (%)
30 30
25 25
20 20
15 15
10 10
5 5
0 0
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Nombre de classes Nombre de classes
Histogramme Courbe
200 y = 0,7091x + 110,2 40 80
70
Précipitations (mm)
R² = 0,9118
Températures (°C.)
150 30 60
50
100 20 40
Y
30
10 20
50
10
0 0
0 I II III IV V VI VIIVIIIIX X XI XII
0 5101520253035404550556065707580859095100
105 Mois
X (M+m)/2
Nuage de point avec droite de régression Courbes à double axe
Chiroptera 100% Diptera
Insectivora Arachnida
0,2 % Insecta 90%
4,3 % 0,2 % Lepidoptera
31,0 % 80%
Abondances relatives
Hymenoptera
70%
60% Coleoptera
50% Neuroptera
Reptilia 40%
Homoptera
0,2 % 30%
Aves 20% Heteroptera
Rodentia
1,6 %
62,6 % 10% Dermaptera
0%
Orthoptera
Ghott Pivot P.T. Oliveraie
Stations
171,900 50
180
160
40
140
120 30
100
71,805 20
80
60 10
64,700
40
20 0
Trifaoui Debila Reguiba Miha wensa Hassi
0 18,600
khalifa
Stations
7
Chapitre I. Généralités et notions de base
8
Chapitre II. Statistiques descriptives
Il est utilisé :
Paramètres de position (Indicateurs de localisation) ;
Paramètres de dispersion (Indicateurs de variabilité).
II.1. Univariés
II.1.1. Paramètres de position
Moyenne ( )
Elle est l'analogue d'un centre de gravité. Pour un caractère ou une série statistique, elle est la
somme de toutes les modalités divisées par l'effectif total de la population.
• Cas de la série statistique discrète triée mais non regroupée : On a alors la formule
usuelle d'une moyenne ;
9
Chapitre II. Statistiques descriptives
N° de classe Centre
Intervalle Fa
de classe
1 [0 ; 10] 5 1
2 [10 ; 20] 15 3
3 [20 ; 30] 25 9
4 [30 ; 40] 35 2
Fa : fréquence absolue ou effectif ;
Poids (kg) 10 20 30 40
Fa 3 5 1 2
Médiane (Me)
La 'médiane' est la valeur (le plus souvent fictive) partageant la population en deux classes de
même effectif. En d’autres termes, c’est la valeur correspondant à 50% des observations
Partage la population en 2 proportions bien égale.
Mode (Mo)
Le mode est la valeur de la variable statistique la plus fréquente de la série statistique. Dans le
cas d'une variable statistique continue, on parle plutôt de classe modale. Une valeur modale
(ou mode) est une modalité d'effectif maximal.
Ex: 1, 2, 2, 2, 3, 4, 5, 5, 6, 7, 8 Mo = 2
Quantiles
Généralisent la médiane. C’est les valeurs qui divisent un jeu de données en intervalles
contenant le même nombre de données. Il y a donc un quantile de moins que le nombre de
groupes créés. Ainsi,
Quartiles : partagent les observations en 4 groupes égaux, chacun représentant 25% des
observations ;
Déciles : partagent les observations en 10 groupes égaux, chacun représentant 10% des
observations ;
Centiles : partagent les observations en 100 groupes égaux, chacun représentant 1% des
observations.
Ex : 1 , 3, 4, 5, 6, 7, 9, 10, 15
Q1 Q2 Q3
Moyen > médiane > mode Moyen = médiane = mode Moyen < médiane < mode
11
Chapitre II. Statistiques descriptives
En d’autres termes :
Étendue : Valeur Max – Valeur min
Variance
C'est la caractéristique de dispersion la plus utilisée avec l'écart quadratique moyen. C’est la
moyenne des carrés des écarts par rapport à la moyenne. En termes plus mathématiques elle
peut être considérée comme une mesure servant à caractériser la dispersion d’une distribution
ou d’un échantillon. Pour une population, la formule est :
Ecartype
C’est la racine carrée de la variance (cas d’échantillon) :
(I)
12
Chapitre II. Statistiques descriptives
(I)
% 100
̅
Fréquence absolue (Fa) : pour une classe = Effectifs, ou le nombre d’individus appartenant à
une classe.
Fréquence relative (Fr) d’une classe = Rapport de son effectif (n’) sur le total de l’E (N)
13
Chapitre II. Statistiques descriptives
Fréquences (Fa ou Fr) cumulées (Cum) : c’est la somme de la fréquence d’une classe et des
classes inférieures.
Pourcentage cumulé (%Cum) : c’est la somme de pourcentage d’une classe et des classes
inférieures.
II.2. Bivariés
Les statistiques bivariés : c’est les statistiques à deux dimensions, employées lorsqu'on étudie
conjointement (en même temps) deux variables aléatoires, X et Y.
Ex : l'envergure et le poids de chauves-souris sont-ils distribués de manière dépendante ou
indépendante l'un de l'autre ?
II.2.1. Corrélation
La corrélation est un concept issu de la biologie. C'est par le biais des travaux de Francis Galton
que la corrélation devient un concept statistique. Toutefois pour Galton, la notion de corrélation
n'est pas définie précisément et il l'assimile dans un premier temps à la droite de régression d'un
modèle de régression linéaire. C'est ensuite Karl Pearson qui propose en 1896 une formule
mathématique pour la notion de corrélation et un estimateur de cette grandeur.
Diagramme de dispersion
Les statistiques à deux dimensions s'appliquent non plus aux valeurs de X et Y considérées de
manière individuelle, mais bien aux couples (X;Y), qui représentent les deux mesures qui ont
été réalisées sur un même individu.
Dans notre exemple, pour chaque chauve-souris, un couple (envergure; poids) a été mesuré.
14
Chapitre II. Statistiques descriptives
Calcule de centre de gravité du nuage de points est un point fictif qui a pour coordonnées (X;
Y).
Pour chaque point, on peut quantifier son écart par rapport à ce centre de gravité en réalisant le
calcul du produit des écarts: PE=(Xi-Mx).(Yi-My)
PE est positif pour les points situés dans les quadrants roses du graphique ci-dessus, et négatif
s'ils sont situés dans les quadrants bleus (PE majoritairement positifs dans notre exemple).
15
Chapitre II. Statistiques descriptives
500 500
400 400
300
300
Y
Y
200
200
100
100
0
0 80 90 100 110 120 130 140
60 80 100 120 140 160 -100
X X
Individus Prédictions
Individus Prédictions
Conf. préd. (95,00%) Conf. moyenne (95,00%) Conf. préd. (95,00%) Conf. moyenne (95,00%)
La covariance est donc le PE moyen du nuage de points. Elle est positive lorsque le nuage de
points a une orientation ascendante, et négative lorsque ce nuage a une orientation descendante.
A partir de la covariance, on peut déduire le coefficient de corrélation :
Coefficient de corrélation est calculé comme suit :
A première vue, le nuage de point des deux variables étudiées peut indiquer l’importance des
relations, qui varient en fonction de r.
16
Chapitre II. Statistiques descriptives
Graphiquement :
Plus R² se rapproche de 0, plus le nuage de points est diffus autour de la droite de régression.
Plus le R² tend vers 1, plus le nuage de points se rapproche de la droite de régression.
Donc: 0 ≤ R² ≤ 1
Avec les paramètres a et b on peut estimer des valeurs de Y pour des valeurs de X qu'on n'a pas
pu mesurer (car cela coûte cher, ou que c'est difficile à réaliser...).
Cependant, la précision de cette estimation d'une valeur de Y varie fort selon qu'elle est estimée
à partir d'un X compris dans l'intervalle des mesures initiales (intrapolation) ou si elle est
estimée à partir d'un X situé à l'extérieur de cet intervalle (extrapolation).
17
Chapitre II. Statistiques descriptives
Intrapolation Extrapolation
18
Chapitre II. Statistiques descriptives
Ex : mettez en évidence les relations qui existent entre les résultats (nombre de têtes) des
deux paramètres X et Y affichés ci-dessous.
X Y
Eleveurs (Race Holstein) (Race charolais)
M1 10 111
M2 20 120
M3 30 132
M4 40 144
M5 50 156
M6 60 159
M7 70 162
M8 80 155
M9 90 170
M10 100 183
19
Chapitre III. Statistiques inférentielles
20
Chapitre III. Statistiques inférentielles
De même, en statistique, on limite le risque de rejeter l’hypothèse nulle alors qu’elle est vraie.
Il est bien clair qu’en limitant ce risque, on augmente l’autre : plus on acquitte facilement les
accusés, moins on condamne d’innocents, mais plus on acquitte de coupables.
• Risque de première espèce la probabilité de rejeter l’hypothèse nulle alors qu’elle est
vraie (erreur de première espèce) risque a
• Risque de seconde espèce la probabilité d’accepter l’hypothèse nulle alors qu’elle est
fausse (erreur de seconde espèce) risque b
21
Chapitre III. Statistiques inférentielles
Si on décide de réaliser un test au seuil a = 5% par exemple, cela signifie que l’on se donne 5
chances sur 100 de rejeter H0 (95% d’acceptation intervalle de confiance) même si H0
est vraie et ne devrait donc pas être rejetée.
Les confiances généralement utilisées seront donc de 1-α = 95%, 99%, ou 99,9%. La confiance
(1-α) étant centrée, l'erreur α se répartit de part et d'autre : α/2 à gauche, et α/2 à droite dans
le cas d’un test bilatéral.
22
Chapitre III. Statistiques inférentielles
23
Chapitre III. Statistiques inférentielles
• Test paramétrique (très robuste) : est un test pour lequel on fait une hypothèse
paramétrique sur la distribution des données sous H0 (distribution normale, de
Poisson...). Les hypothèses du test concernent alors les paramètres de cette distribution ;
24
Chapitre III. Statistiques inférentielles
• Test non-paramétrique (moins robuste) : est un test ne nécessitant pas d'hypothèse sur
la distribution des données. Les données sont alors remplacées par des statistiques ne
dépendant pas des moyennes/variances des données initiales (tableau de contingence,
statistique d'ordre comme les rangs...).
● Calcul des sommes des carrés des écarts (SCE = SS (Sum of Squares))
SCE totaux = SCE inter groupes + SCE intra groupes (= residuels)
● Calcul des carrés moyens (CM = MS (Mean squares)) en divisant par les degrés de liberté
(ddl = df (degrees of freedom) = N-1)
CMtot = SCE tot /N-1
CMg=SCE g /k-1
CMr=SCE r /n-k
Ou, k = groupes et N = observations
25
Chapitre III. Statistiques inférentielles
26
Chapitre III. Statistiques inférentielles
Ex : Faite un test d’anova pour le tableau ci-dessous afin de test l’égalité ou les différences qui
existent entre les 3 engrais pour améliorer le rendement.
27