Cours - Biostatistique Appliquée

UNIVERSITE KASDI MERBAH.
OUARGLA
FACULTE DES SCIENCES DE LA NATURE ET DE LA VIE
DEPARTEMENT DES SCIENCES AGRONOMIQUES
1 ère année Master
Spécialité : Parcours et élevage en zones arides
Semestre 2
Support de cours de
Biostatistiques appliquées
Préparer par : Sekour M.
Année universitaire :2019_2020

Plan de cours

Introduction aux biostatistiques…………………...………………………………. 1
Chapitre I. Généralités et notions de base………….………………...................... 3
Chapitre II Statistiques descriptives……...……………………………………….. 9
Chapitre III Statistiques inférentielles …………………….……...……………….. 20

Introduction aux Biostatistiques

La biostatistique est un champ scientifique constitué par l'application de la science

statistique à la biologie et à la médecine. Il peut s'agir de la conception méthodologique des
études biologiques ou cliniques ou du recueil, de l'analyse et du traitement des données
recueillis lors des études biologiques et cliniques (Fig. 1).
Figure 1 : Démarche méthodologique en biostatistique
L'analyse des données est utilisée pour décrire les phénoménes étudiés, faire des prévisions et
prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous les
champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l'économie à la biologie en passant par la psychologie, et bien sûr les sciences
de l'ingénieur.
Pourquoi des stats en biologie ?

Un expert en industrie de voiture peut nous toutes les informations nécessaires, avec exactitude,
sur le model qu’on veut l’acheter, par exemple, la vitesse en pointe, la consommation en
carburant selon le circuit (urbain, mixte et….), le poids de la voiture….ect.
Alors que si on demande à un expert mondial incontesté de la race bovine charolaise, combien
pèse un taureau Charolais de trois ans ?
Là, la réponse sera : disons… entre 800 kg et 1,2 tonnes à peu près, mais certains arrivent même
à être encore plus gros. Ils sont plus légers bien sûr si la pâture n’a pas été bonne, et puis il faut
savoir qui était le père et la mère, parce que la génétique… Cet expert est incapable de donner
une réponse claire et nette sur un sujet qu’il connaît soi-disant à fond ? Doit on l’accabler ?
Non, évidemment.
Contrairement aux voitures, les taureaux ne sont pas construits dans des conditions contrôlées
et à partir de pièces qui sont automatiquement rejetées si elles ne satisfont pas le cahier des
charges. Il est impossible d’échapper à cette marge d’incertitude, intrinsèque à tout phénomène
1


vivant. Chaque caractéristique d’un organisme résulte de l’interaction entre son génome et
l’environnement, lui-même, fort variable.
En biologie, la grande variabilité des individus oblige à se baser sur des échantillons de
plusieurs individus (et tant mieux s’ils sont nombreux).
En d’autres termes, l’utilisation des statistiques permet de confirmer ou d’infirmer une

hypothèse avec une marge d’erreur la plus petite possible, et/ou prédire un évènement à l’aide
d’outils. Sur l’organigramme ci-contre représentant le processus de démarche scientifique, les
tests statistiques permettent d’une part l’interprétation des résultats, et d’autre par la
confirmation ou l’information d’une hypothèse.
2

Chapitre I. Généralités et notions de base


I.1. Définitions
Ensemble : c’est la collection (finie ou infinie) d'unités, ou d'éléments, sur laquelle porte
l'observation. Pour que cet ensemble soit correctement défini, il faut lui donner une définition
précise de façon à ce que deux personnes différentes aboutissent toujours à la même liste
d'éléments. L'ensemble des éléments observés sera appelé E.
Population (P) : correspond à l'ensemble des individus sur lequel porte l’étude ou la prévision,
(il est généralement difficile de l’étudier dans sa totalité), et l’échantillon représente la fraction
de cette population qui est réellement observée ou étudiée :
o Population cible (Pc) : ensemble des éléments visés, en principe, par l'échantillonnage.
o Population statistique (Ps) : ensemble des éléments considérés dans une étude
particulière. Réunion des individus sur lesquels on étudie une ou plusieurs propriétés.
o Population biologique (Pb) : ensemble des individus d'une même espèce habitant un
lieu donné à un moment donné. Notion qui relève davantage de la biologie que de la
statistique.
Communauté : ensemble des individus de diverses espèces retrouvés dans un espace et un

temps donné. Notion qui relève davantage de la biologie que de la statistique.
Individu : c’est les éléments d’un échantillon ou d’une population sont appelés généralement
des individus, cependant cette notion peut être remplacé par plusieurs dénominations : unité
statistique, sujet, objet, élément, observation, mesure, doses,… toutefois, dès que la
dénomination est choisi aucune ambiguïté ne doit persistée.
Elément : membre d'une population statistique (spécimen, prélèvement d'eau, individu...).

C’est un objet bien déterminé dont l'appartenance à tel ou tel ensemble E est sans ambiguïté.
Unité statistique : chaque élément de la population (Objet, individu, unité d’échantillonnage,

sujet, événement, comportement, localité, parcelle, observation, prélèvement, entité …)
Echantillon (E) : est le fragment d’un ensemble prélevé pour juger de cet ensemble. En d’autres
termes, c’est une fraction de la population statistique sur laquelle des mesures sont faites pour
connaître les propriétés de cette population. L’échantillon (notre sélection par le hasard ou non
de français) est identifié par son effectif, noté n.
 E doit être représentatif par rapport à P (même chance pour tous les individus ;
 E doit être de taille suffisamment élevée pour extrapoler les résultats.
3


Taille de l’échantillon (N) : Pour une population qu’on ne connait pas l’écartype, on peut
tolérer une marge d’erreur de ±5%. Pour cela, on peut appliquer la formule suivante si la
population est de grande taille :
N = 1 / Er2
N : taille de E ;
Er : erreur acceptable qui de 5%.
L’application pour 5% de marge d’erreur  n = 1/0,052  n = 1/0,0025  n = 400 unités
Sinon, si elle est relativement faible à 400 unités, on peut utiliser la formule suivante :

N’ : taille de l’échantillon corrigé ;

N : taille de E ;
n : taille de P.
Variabilités
Tout échantillon est soumis à des facteurs de variabilité. Ils peuvent être soit factorielles
(dimorphisme sexuel) ou résiduelles (relatives aux erreurs de mesures et caractéristiques
génétiques).
Variable : Caractéristique mesurable ou observable sur un individus ou un groupe dans son

environnement. Deux grands groupes de variables peuvent être distinguées, à savoir variables
quantitatives et qualitatives.
4


Variable quantitatif : c'est un caractère mesurable (quantifiable). On distingue alors deux

types de caractère quantitatif, soit discrète représenté par un nombre fini (chiffre entier)
comme, 3 vaches, 5 taureaux et 40 dromadaires étudiés dans 3 stations, elle peut être aussi
continue quand le caractère étudié peut prendre différentes valeurs d'un intervalle [0 ; 3],
comme le poids d’une vache (666,66kg), son tour de taille (2,36m), la matière grâce de son lait
(0,89g/l) et les Unités Fourragères de son repas…… Ses valeurs sont alors regroupées en
classes.
Variable qualitative : c'est un caractère qualitatif, dans ce type de variable les modalités ne sont
pas quantifiables ou mesurables (race, couleur de pelage, sexe,…). Elles peuvent être, binaire
avec deux modalités comme le sexe (mâle ou femelle) ou présence/absence (+ ou -), nominale
dans le cas où les nombres ou symboles identifient les groupes auxquels divers objets
appartiennent, comme le sexe (2 mâles ou 3 femelles), ou ordinale lorsque les modalités
peuvent être classées selon un ordre logique, comme les stade de développement d’une maladie
(cancer), plante (levé, montaison, épiaison..) et âge (juvénile, subadulte…).
I.2. Mesures des variables

Pour les variables quantitatives, ils concernent des dénombrements (comptages) comme le
comptage des oiseaux et les mesures (mensurations) de variables continues (hauteur, poids,
surface, concentration, température..).
En fonction du nombre de caractères étudiés, on distingue :
• Un seul caractère étudié, série numérique à une dimension (série stat simple).
Ex : Mesure de la longueur de 100 palmiers dattiers  Données relatives à une variable.
• Deux caractères étudiés, série numérique à deux dimensions (série stat double).
Ex : Mesure du poids et de la taille de 50 tourterelles  Données relatives à deux variables.
• Plus de deux caractères, on doit utiliser les techniques de l’analyse multidimensionnelle
(série stat multiple)  Données relatives à + deux variables.
I.3. Présentation et organisation des données

Après l’introduction des données en logiciel Excel (logiciel tableur), le premier tableau est
souvent appelé tableau brut. Les variables sont placées en colonnes alors que les observations
sont mises en lignes.
5


I.3.1. Tableaux
Plusieurs types de tableaux sont notés.
Variables
Observations Var1 Var2 Var3 Var…
Obs1 1 6 - -
Obs2 6 - 21 41
Obs3 3 - 23 -
Obs4 4 1 - 36
Obs… … ..
Une fois les données traitées par des analyses statistiques, les résultats peuvent être exposés
sous formes de tableaux, contenant des paramètres statistiques, comme moyenne, écartype,
variance…..ect.
Variables
Paramètres Var1 Var2 Var3 Var…
Min 1 … … …
Max 6 … … …
Moyenne 3,9 … … …
Ecartype 1,8 … … …
Variance 3,24 … … …
Ou bien sous forme de classe :
N° de Centre …
Intervalle Fa Fa % Fa Cum
classe de classe
1 [0 ; 10] 5 1 … … … …
2 [10 ; 20] 15 3 … … … …
3 [20 ; 30] 25 9 … … … …
4 [30 ; 40] 35 2 … … … …
….. … … … … … …
Fa : fréquence absolue ou effectif ; Fr : fréquence relative ; Cum : cumulée.
I.3.2. Graphiques
Les données peuvent être exposées sous différentes formes de graphiques :
6


40 40
35 35
Pourcentage (%)
Pourcentage (%)
30 30
25 25
20 20
15 15
10 10
5 5
0 0
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Nombre de classes Nombre de classes
Histogramme Courbe
200 y = 0,7091x + 110,2 40 80
70
Précipitations (mm)
R² = 0,9118
Températures (°C.)
150 30 60
50
100 20 40
Y
30
10 20
50
10
0 0
0 I II III IV V VI VIIVIIIIX X XI XII
0 5101520253035404550556065707580859095100
105 Mois
X (M+m)/2
Nuage de point avec droite de régression Courbes à double axe
Chiroptera 100% Diptera
Insectivora Arachnida
0,2 % Insecta 90%
4,3 % 0,2 % Lepidoptera
31,0 % 80%
Abondances relatives
Hymenoptera
70%
60% Coleoptera
50% Neuroptera
Reptilia 40%
Homoptera
0,2 % 30%
Aves 20% Heteroptera
Rodentia
1,6 %
62,6 % 10% Dermaptera
0%
Orthoptera
Ghott Pivot P.T. Oliveraie
Stations
Secteur 3D Histogramme empilé

Box plot - 44.8 - 7 60
200
Pourcentage (%)
171,900 50
180
160
40
140
120 30
100
71,805 20
80
60 10
64,700
40
20 0
Trifaoui Debila Reguiba Miha wensa Hassi
0 18,600
khalifa
Stations
Boxplot Courbe avec barre d’erreur
7


I.4. Analyses statistiques

. Il existe deux types de statistiques :
• Les statistiques descriptives, permettant de décrire une série de données, subdivisées en
paramètres de position et de despersion.
• Les statistiques inférentielles, consistant en des tests permettant de confirmer ou infirmer
une hypothèse.
8

Chapitre II. Statistiques descriptives

La statistique descriptive, statistique exploratoire ou analyse des données, a pour but de

résumer l'information contenue dans les données de façon efficace. Elle utilise pour cela des
représentations de données sous forme de graphiques, de tableaux et d'indicateurs numériques
(par exemple des moyennes). Elle permet de dégager les caractéristiques essentielles du
phénomène étudié et de suggérer des hypothèses pour une étude ultérieure plus sophistiquée.
Les probabilités n'ont ici qu'un rôle mineur.
C’est ensemble des méthodes qui permettent de décrire (tableaux, graphiques) les unités
statistiques qui composent une population. Décrit une situation et permet d’en tirer des
renseignements.
Elles ont pour rôle :
_ Contrôle de qualité des données, descriptifs simples (moyennes, …).
_ Synthétiser, résumer, structurer l'information contenue dans les données.
_ Mettre en évidence des propriétés de l'échantillon.
Il est utilisé :
 Paramètres de position (Indicateurs de localisation) ;
 Paramètres de dispersion (Indicateurs de variabilité).
II.1. Univariés
II.1.1. Paramètres de position
Moyenne ( )
Elle est l'analogue d'un centre de gravité. Pour un caractère ou une série statistique, elle est la
somme de toutes les modalités divisées par l'effectif total de la population.
• Cas de la série statistique discrète triée mais non regroupée : On a alors la formule
usuelle d'une moyenne ;
Ex : x = (2+6+7+8+3+5+3+9+7+8)/10 = 58/10 =5,8
9


• Cas de la série statistique discrète regroupée : On a la formule d'une moyenne pondérée ;
N° de classe Centre
Intervalle Fa
de classe
1 [0 ; 10] 5 1
2 [10 ; 20] 15 3
3 [20 ; 30] 25 9
4 [30 ; 40] 35 2
Fa : fréquence absolue ou effectif ;
X = (5x1 + 15x3 + 25x9 + 35x2)/15 = 23

(sachant que le total des effectif : Fa = 15)
Cas de la série continue : On a la formule usuelle d'une moyenne pondérée de moyennes.
Poids (kg) 10 20 30 40
Fa 3 5 1 2
X = (10x3 + 20x5 + 30x1 + 40x2)/11 = 21,19

(Sachant que le total des effectif : Fa = 11)
Caractéristiques d’une moyenne :

 Significative si elle est calculée sur un grand échantillon ;
 Elle est sensible aux valeurs extrêmes ;
 Ne suffit pas pour caractériser finement une série ;
 Bien connaitre les variables dont on calcule la moyenne.
Médiane (Me)
La 'médiane' est la valeur (le plus souvent fictive) partageant la population en deux classes de
même effectif. En d’autres termes, c’est la valeur correspondant à 50% des observations 
Partage la population en 2 proportions bien égale.
Si la variable est discrète : On désigne par n le nombre d'observations.

ème
•n est impair : Me est la ((n+1)/2) observation.
Ex: 1, 2, 2, 2, 3, 4, 5, 5, 6, 7, 8  Me = 4.
• n est pair : n = 2k. Alors Me est la moyenne arithmétique des deux observations
ème ème
centrales. Me = (k observation + (k + 1) observation)/2
Ex: 1, 2, 2, 2, 3, 4, 5, 5, 6, 7  Me = 3+4 = 3,5.
10


 NB: Me N’est pas sensible pour les valeurs extrêmes
Mode (Mo)
Le mode est la valeur de la variable statistique la plus fréquente de la série statistique. Dans le
cas d'une variable statistique continue, on parle plutôt de classe modale. Une valeur modale
(ou mode) est une modalité d'effectif maximal.
Ex: 1, 2, 2, 2, 3, 4, 5, 5, 6, 7, 8  Mo = 2
Quantiles
Généralisent la médiane. C’est les valeurs qui divisent un jeu de données en intervalles
contenant le même nombre de données. Il y a donc un quantile de moins que le nombre de
groupes créés. Ainsi,
 Quartiles : partagent les observations en 4 groupes égaux, chacun représentant 25% des
observations ;
 Déciles : partagent les observations en 10 groupes égaux, chacun représentant 10% des
observations ;
 Centiles : partagent les observations en 100 groupes égaux, chacun représentant 1% des
observations.
Ex : 1 , 3, 4, 5, 6, 7, 9, 10, 15
Q1 Q2 Q3
Forme d’une distribution

La comparaison entre le mode, la médiane et la moyenne fait sortir 3 formes :
Moyen > médiane > mode Moyen = médiane = mode Moyen < médiane < mode
II.1.2. Paramètres de dispersion

Extrêmes (Minimum, Maximum)
• Très sensible aux valeurs extrêmes
• Permet de détecter les erreurs (les valeurs atypiques)
11


Entendue ou intervalle de variation (Range)

L'étendue, notée e, représente la différence entre les valeurs extrêmes de la distribution :
e = xn - x 1
En d’autres termes :
Étendue : Valeur Max – Valeur min
Variance
C'est la caractéristique de dispersion la plus utilisée avec l'écart quadratique moyen. C’est la
moyenne des carrés des écarts par rapport à la moyenne. En termes plus mathématiques elle
peut être considérée comme une mesure servant à caractériser la dispersion d’une distribution
ou d’un échantillon. Pour une population, la formule est :
Pour le cas d’un échantillon, la formule est :
Ecartype
C’est la racine carrée de la variance (cas d’échantillon) :
Intervalle interquartile (I)

L'intervalle interquartile, notée I, est la différence entre les deux quartiles Q3 et Q1:
I = Q3 - Q1
Cet intervalle contient 50% de la population en en éliminant 25% à chaque extrémité. Cette
caractéristique est nettement meilleure que l'étendue.
(I)
12


(I)
Coefficient de variation (CV%)

Le coefficient de variation est une mesure de dispersion des observations d'une variable
quantitative.
% 100
̅
• C'est une mesure neutre.

• Elle est calculée en divisant l'écart-type par la moyenne.
• On exprime souvent le coefficient de variation en pourcentage.
• Sans unité, il permet de comparer facilement la dispersion des variables différentes.
II.1.3. Regroupement des données en classes

Nombre de classe
Pour le calcule de nombre de classes on peut utiliser :
La règle de Sturge : Nombre de classe :
Ls = 1+ (3,3log N)
La règle de Yule : Nombre de classe :

Ly= 2,5 √
Max – Min Etendue

Intervalle de classe Cl= ------------------- = ----------------
nbr Cl nbr Cl
Indice de Classe : Moyenne entre la borne supérieure et inférieure de chaque intervalle de

classe.
Fréquence absolue (Fa) : pour une classe = Effectifs, ou le nombre d’individus appartenant à
une classe.
Fréquence relative (Fr) d’une classe = Rapport de son effectif (n’) sur le total de l’E (N)
13


Pourcentage (%) : Fréquence relative exprimée d’une classe en pour cent
Fréquences (Fa ou Fr) cumulées (Cum) : c’est la somme de la fréquence d’une classe et des
classes inférieures.
Pourcentage cumulé (%Cum) : c’est la somme de pourcentage d’une classe et des classes
inférieures.
Ex : Exploiter et classer les données du tableau suivant :

153 165 160 150 159 151 163
160 158 149 154 153 163 140
158 150 158 155 163 159 157
162 160 152 164 158 153 162
166 162 165 157 174 158 171
162 155 156 159 162 152 158
164 164 162 158 156 171 164
158
II.2. Bivariés
Les statistiques bivariés : c’est les statistiques à deux dimensions, employées lorsqu'on étudie
conjointement (en même temps) deux variables aléatoires, X et Y.
Ex : l'envergure et le poids de chauves-souris sont-ils distribués de manière dépendante ou
indépendante l'un de l'autre ?
II.2.1. Corrélation
La corrélation est un concept issu de la biologie. C'est par le biais des travaux de Francis Galton
que la corrélation devient un concept statistique. Toutefois pour Galton, la notion de corrélation
n'est pas définie précisément et il l'assimile dans un premier temps à la droite de régression d'un
modèle de régression linéaire. C'est ensuite Karl Pearson qui propose en 1896 une formule
mathématique pour la notion de corrélation et un estimateur de cette grandeur.
Diagramme de dispersion
Les statistiques à deux dimensions s'appliquent non plus aux valeurs de X et Y considérées de
manière individuelle, mais bien aux couples (X;Y), qui représentent les deux mesures qui ont
été réalisées sur un même individu.
Dans notre exemple, pour chaque chauve-souris, un couple (envergure; poids) a été mesuré.
14


Calcule de centre de gravité du nuage de points est un point fictif qui a pour coordonnées (X;
Y).
Pour chaque point, on peut quantifier son écart par rapport à ce centre de gravité en réalisant le
calcul du produit des écarts: PE=(Xi-Mx).(Yi-My)
PE est positif pour les points situés dans les quadrants roses du graphique ci-dessus, et négatif
s'ils sont situés dans les quadrants bleus (PE majoritairement positifs dans notre exemple).
SPE : Somme des Produits des Ecarts

En réalisant la somme des PE, on peux avoir une estimation de l'orientation du nuage de points
par rapport à son centre de gravité.
 Si la SPE est positive, comme c'est le cas ici, le nuage de points est orienté de manière
ascendante.
 Si la SPE du nuage de points est négative, c'est qu'il est orienté de manière descendante.
La SPE amène donc énormément d'informations sur le sens de la relation qui pourrait
éventuellement exister entre X et Y.
15


Droite de régression ascendante Droite de régression déscendante

600 600
500 500
400 400
300
300
Y
Y
200
200
100
100
0
0 80 90 100 110 120 130 140
60 80 100 120 140 160 -100
X X
Individus Prédictions
Individus Prédictions
Conf. préd. (95,00%) Conf. moyenne (95,00%) Conf. préd. (95,00%) Conf. moyenne (95,00%)
Coefficient de corrélation (r)

Il quantifie l'intensité et le sens de la relation qui existe entre deux variables.
Si les deux variables varient indépendamment l'une de l'autre  r= 0.
Si les deux variables évoluent parallèlement (Y augmente lorsque X augmente) r 1
Si les deux variables évoluent à l'inverse l'une de l'autre,  r -1.
Donc: -1 ≤ r ≤ +1
Le coefficient de corrélation est calculé à partir de la covariance, ou variance commune à X et

à Y, qui est calculée selon la formule suivante (population):
Covariance est calculée comme suit :
La covariance est donc le PE moyen du nuage de points. Elle est positive lorsque le nuage de
points a une orientation ascendante, et négative lorsque ce nuage a une orientation descendante.
A partir de la covariance, on peut déduire le coefficient de corrélation :
Coefficient de corrélation est calculé comme suit :
Soit Sx : écartype de x ; Sy : écartype de y.
A première vue, le nuage de point des deux variables étudiées peut indiquer l’importance des
relations, qui varient en fonction de r.
16


II.2.2. Régression linéaire

Cette relation peut être linéaire ou non. Dans le cas du modèle linéaire l'équation de la
régression est:
Modèle linéaire: Y=aX+b
a) pente ;
b) ordonnée à l'origine.
Coefficient de détermination (R²)

Détermine à quel point l'équation de régression est adaptée pour décrire la distribution des
points.
Si le R² = 0  l’équation utilisée n'explique pas la distribution des points.
Si le R² = 1  le modèle mathématique utilisé, ainsi que les paramètres a et b calculés sont
ceux qui déterminent la distribution des points (les points sont alignés sur la droite de
régression).
Graphiquement :
Plus R² se rapproche de 0, plus le nuage de points est diffus autour de la droite de régression.
Plus le R² tend vers 1, plus le nuage de points se rapproche de la droite de régression.
Donc: 0 ≤ R² ≤ 1
Avec les paramètres a et b on peut estimer des valeurs de Y pour des valeurs de X qu'on n'a pas
pu mesurer (car cela coûte cher, ou que c'est difficile à réaliser...).
Cependant, la précision de cette estimation d'une valeur de Y varie fort selon qu'elle est estimée
à partir d'un X compris dans l'intervalle des mesures initiales (intrapolation) ou si elle est
estimée à partir d'un X situé à l'extérieur de cet intervalle (extrapolation).
17


Intrapolation Extrapolation
Linéarisation de modèles non linéaires

Pour déterminer les paramètres de telles régressions, on transforme les valeurs de X et/ou Y
pour retrouver le modèle linéaire.
Modèle exponentiel  Y=a.ebx

Le modèle exponentiel se linéarise en calculant le logarithme népérien de y.
Ex : Analyse de la croissance du nombre de campagnols par km carré en fonction du temps.
Modèle puissance  Y=a.xb

Le modèle puissance se linéarise en calculant les logarithmes népériens de x et y.
Ex : étude de la relation entre la taille et la masse de truites Farios.
Modèle double inverse  Y=(a.x)/(b+x)

Le modèle double inverse se linéarise en calculant les inverses de x et y (1/x et 1/y).
Ex : analyse de la relation entre la concentration en substrat et la vitesse de réaction d'une
enzyme.
18


Ex : mettez en évidence les relations qui existent entre les résultats (nombre de têtes) des
deux paramètres X et Y affichés ci-dessous.
X Y
Eleveurs (Race Holstein) (Race charolais)
M1 10 111
M2 20 120
M3 30 132
M4 40 144
M5 50 156
M6 60 159
M7 70 162
M8 80 155
M9 90 170
M10 100 183
19

Chapitre III. Statistiques inférentielles

Partie de la statistique qui, contrairement à la statistique descriptive, ne se contente pas

de décrire des observations, mais extrapole les constatations faites à un ensemble plus vaste,
permet de tester des hypothèses sur cet ensemble, et de prendre des décisions le concernant.
La statistique inférentielle va au-delà de la simple description des données. Elle a pour but de
faire des prévisions et de prendre des décisions au vu des observations. Les probabilités jouent
ici un rôle fondamental.
L'objet de ce cours est de décrire les techniques de la statistique inférentielle utilisées pour
recueillir de l'information et prendre des décisions à partir des données observées.
Population est souvent trop importante, elles sont utilisées pour :

 Pour réduire le coût de collecte et le temps de réalisation, on utilise un échantillon
de la population observée
A partir de l’étude de cet échantillon, possibilité d’estimer les comportements ou

caractéristiques pour toute la population (contrôle de la qualité)
III.1. Test d’hypothèse

La démarche, dans un test statistique, est strictement analogue : on suppose que la variable
aléatoire étudiée possède une propriété particulière, appelée hypothèse nulle (H0 = vrai), et
pour remettre en cause cette propriété, il faut apporter la preuve qu’elle est fausse (H1 = faux).
• Contrôler la validité d’une hypothèse considérée comme vraie a priori, appelée

hypothèse nulle et notée H0  Différence non significative
• Admettre une hypothèse différente lorsque le contrôle se révèle négatif, appelée
hypothèse alternative et notée H1  Différence significative
20


III.2. Erreur en test d’hypothèse

Il existe donc deux façons de se tromper.
• Erreur de rejeter l’hypothèse nulle alors qu’elle est vraie : on condamne quelqu’un
d’innocent  Erreur de première espèce (Type I)
• Erreur d’accepter l’hypothèse nulle alors qu’elle est fausse : cela revient à acquitter
un coupable faute de preuve  Erreur de seconde espèce (Type II)
De même, en statistique, on limite le risque de rejeter l’hypothèse nulle alors qu’elle est vraie.
Il est bien clair qu’en limitant ce risque, on augmente l’autre : plus on acquitte facilement les
accusés, moins on condamne d’innocents, mais plus on acquitte de coupables.
• Risque de première espèce la probabilité de rejeter l’hypothèse nulle alors qu’elle est
vraie (erreur de première espèce)  risque a
• Risque de seconde espèce la probabilité d’accepter l’hypothèse nulle alors qu’elle est
fausse (erreur de seconde espèce)  risque b
Deux risques d’erreur lorsqu’on réalise un test statistique
Ex 1: Le coût moyen d’un séjour dans un hôpital = 11.000 da en 2018.

Le directeur des finances doit établir le budget pour 2022; peut il admettre que le coût moyen
sera de 11.000 da ? Ne vaut-il pas mieux qu’il suppose qu’il sera supérieur ? En d’autres termes,
si μ indique le coût moyen pour 2022, les hypothèses sont:
21


H0 : μ = 11.000; H1 : μ > 11.000

(Coût ne change pas) (Coût augmente = change)
Ex 2: Hypothèse nulle H0 : Dominique est une femme

Hypothèse alternative H1 : Dominique est un homme
Statistique : pointure
1) Observation : Dominique chausse du 43.

Décision : Peu de femmes chaussant du 43, on peut considérer que l’observation est en
contradiction avec H0. Donc Dominique n’est pas une femme (rejet de H0) , c’est un homme
(acceptation de H1).
2) Observation : Dominique chausse du 40.

Décision : La pointure 40 est fréquente chez les femmes. On peut considérer que l’observation
n’est pas contradictoire avec H0. Donc Dominique peut être une femme (acceptation de H0et
rejet de H1).
III.3. Seuil de signification et intervalle de confiance

Le chercheur doit déterminer quelle est la probabilité d’erreur a qu’il est prêt à tolérer. Ce choix
est arbitraire, mais on emploie souvent :
 = 0,05 (résultat significatif  avec un signe de 1 étoile près du résultat de p *) ;
 = 0,01 (hautement significatif avec un signe de 2 étoiles près du résultat de p **) ;
 = 0,001 (très hautement significatif avec un signe de 3 étoiles près du résultat de p ***).
Si on décide de réaliser un test au seuil a = 5% par exemple, cela signifie que l’on se donne 5
chances sur 100 de rejeter H0 (95% d’acceptation  intervalle de confiance) même si H0
est vraie et ne devrait donc pas être rejetée.
Les confiances généralement utilisées seront donc de 1-α = 95%, 99%, ou 99,9%. La confiance
(1-α) étant centrée, l'erreur α se répartit de part et d'autre : α/2 à gauche, et α/2 à droite dans
le cas d’un test bilatéral.
22


III.4. Etapes d’un test

• 1. Énoncé de H0 que l’on accepte provisoirement ;
• 2. Énoncé des hypothèses alternatives H1 et choix d’un test bilatéral ou unilatéral ;
• 3. Choix d’une statistique T (ex Khi2, t de Student, anova ...) : fonction des observations
dont on connaît la loi de probabilité quand H0 est vraie et qui va permettre de prendre
une décision ;
• 4. Détermination de la valeur critique C calculée d’après cette loi et d’après le risque
alpha accepté ;
• 5. Calcul tiré de l’échantillon de la valeur prise t par cette statistique T ;
• 6. Comparaison de t et de C qui aboutit à accepter ou à rejeter H0 ;
• 7. Calcul du seuil de signification p : probabilité d’observer au moins cette différence
du fait du hasard.
III.5. Test bilatéral et test unilatéral

• L’hypothèse nulle H0 retenue est le plus souvent l’égalité. Les hypothèses alternatives
peuvent être alors toutes les autres situations que l’on peut diviser en deux grandes
catégories  comme, plus grand que et/ou plus petit que.
• Lorsque l’on considère l’ensemble des hypothèses alternatives on parle de test
bilatéral.
• Lorsque pour des questions de bon sens à priori, on ne considère qu’une partie des
hypothèses alternatives : soit plus grand que soit plus petit que on parle de test
unilatéral.
•
Ex : on désire comparer la taille des enfants de 3 et 4 ans. Dans ce cas, on ne peut en aucun
cas raccourcir les gosses (enfant)  donc, le test est unilatéral
Test unilatéral à gauche Test bilatéral
23


III.6. Méthodes d’échantillonnage

Un échantillon doit être valide c'est-à-dire le plus représentatif possible de la population.
Parallèlement, aucun échantillon ne reproduit parfaitement toutes les caractéristiques de la
population à cause des fluctuations aléatoires. De ce fait, la méthode d’échantillonnage et la
taille de l'échantillon sont un moyen d'augmenter la précision et la fiabilité des résultats.
Il existe deux grands groupes de méthodes d’échantillonnages :

Échantillonnage probabiliste (Aléatoire)
 Aléatoire simple
 Systématique
 Stratifié
 En grappes
 Proportionnelle à la taille
 A plusieurs degrés
Échantillonnage non probabiliste (non aléatoire)
 Selon le jugement
 De convenance
 Par quota
 Boule de neige
 Volontaire
III.7. Différents groupes de tests

Il existe deux grands groupes de tests :
• Test paramétrique (très robuste) : est un test pour lequel on fait une hypothèse
paramétrique sur la distribution des données sous H0 (distribution normale, de
Poisson...). Les hypothèses du test concernent alors les paramètres de cette distribution ;
24


• Test non-paramétrique (moins robuste) : est un test ne nécessitant pas d'hypothèse sur
la distribution des données. Les données sont alors remplacées par des statistiques ne
dépendant pas des moyennes/variances des données initiales (tableau de contingence,
statistique d'ordre comme les rangs...).
III.8. Test d’analyse de la variance (ANOVA : test paramétrique)

Permet de comparer entre plusieurs moyennes observées (groupes étudiés), selon un plan
expérimental prédéterminé. Elle se fonde sur une décomposition de la variance en une partie «
explicable » (variance inter-groupes) et une partie « erreur » (variance intragroupe ou
variance résiduelle), supposée distribuée selon une loi normale.
ANOVA pas à pas :

● Calcul des moyennes
● Calcul des sommes des carrés des écarts (SCE = SS (Sum of Squares))
SCE totaux = SCE inter groupes + SCE intra groupes (= residuels)
● Calcul des carrés moyens (CM = MS (Mean squares)) en divisant par les degrés de liberté
(ddl = df (degrees of freedom) = N-1)
CMtot = SCE tot /N-1
CMg=SCE g /k-1
CMr=SCE r /n-k
Ou, k = groupes et N = observations
● Calcul de F, le rapport entre CMg et CMr

Sous H0, F suit une loi de Fisher à k-1 et n-k degrés de liberté, on compare F observée et F de
la table statistique.
25


26


Ex : Faite un test d’anova pour le tableau ci-dessous afin de test l’égalité ou les différences qui
existent entre les 3 engrais pour améliorer le rendement.
On exprime cela en notant que :

 H0 : μ1 = μ2 = μ 3 ;
 H1 : μ1 ≠ μ2 ≠ μ 3.
On doit lire l’expression H0 : μ1 = μ2 = μ 3 comme suit : Il n’y a pas de différence dans la

moyenne des trois populations d’engrais ou encore il n’y a pas de différence entre les trois
engrais.
27

Cours - Biostatistique Appliquée

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours - Biostatistique Appliquée

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE KASDI MERBAH.

1 ère année Master

Spécialité : Parcours et élevage en zones arides

Préparer par : Sekour M.

Année universitaire :2019_2020

Introduction aux biostatistiques…………………...………………………………. 1

Chapitre I. Généralités et notions de base………….………………...................... 3

Chapitre II Statistiques descriptives……...……………………………………….. 9

Chapitre III Statistiques inférentielles …………………….……...……………….. 20

Introduction aux Biostatistiques

La biostatistique est un champ scientifique constitué par l'application de la science

Figure 1 : Démarche méthodologique en biostatistique

Pourquoi des stats en biologie ?

En d’autres termes, l’utilisation des statistiques permet de confirmer ou d’infirmer une

Chapitre I. Généralités et notions de base

Communauté : ensemble des individus de diverses espèces retrouvés dans un espace et un

Elément : membre d'une population statistique (spécimen, prélèvement d'eau, individu...).

Unité statistique : chaque élément de la population (Objet, individu, unité d’échantillonnage,

L’application pour 5% de marge d’erreur  n = 1/0,052  n = 1/0,0025  n = 400 unités

N’ : taille de l’échantillon corrigé ;

Variable : Caractéristique mesurable ou observable sur un individus ou un groupe dans son

Variable quantitatif : c'est un caractère mesurable (quantifiable). On distingue alors deux

I.2. Mesures des variables

I.3. Présentation et organisation des données

Ou bien sous forme de classe :

Secteur 3D Histogramme empilé

Boxplot Courbe avec barre d’erreur

I.4. Analyses statistiques

Chapitre II. Statistiques descriptives

La statistique descriptive, statistique exploratoire ou analyse des données, a pour but de

Ex : x = (2+6+7+8+3+5+3+9+7+8)/10 = 58/10 =5,8

• Cas de la série statistique discrète regroupée : On a la formule d'une moyenne pondérée ;

X = (5x1 + 15x3 + 25x9 + 35x2)/15 = 23

Cas de la série continue : On a la formule usuelle d'une moyenne pondérée de moyennes.

X = (10x3 + 20x5 + 30x1 + 40x2)/11 = 21,19

Caractéristiques d’une moyenne :

Si la variable est discrète : On désigne par n le nombre d'observations.

 NB: Me N’est pas sensible pour les valeurs extrêmes

Forme d’une distribution

II.1.2. Paramètres de dispersion

Entendue ou intervalle de variation (Range)

Pour le cas d’un échantillon, la formule est :

Intervalle interquartile (I)

Coefficient de variation (CV%)

• C'est une mesure neutre.

II.1.3. Regroupement des données en classes

La règle de Yule : Nombre de classe :

Max – Min Etendue

Indice de Classe : Moyenne entre la borne supérieure et inférieure de chaque intervalle de

Pourcentage (%) : Fréquence relative exprimée d’une classe en pour cent

Ex : Exploiter et classer les données du tableau suivant :

SPE : Somme des Produits des Ecarts

Droite de régression ascendante Droite de régression déscendante

Coefficient de corrélation (r)

Le coefficient de corrélation est calculé à partir de la covariance, ou variance commune à X et

Soit Sx : écartype de x ; Sy : écartype de y.

II.2.2. Régression linéaire

Coefficient de détermination (R²)

Linéarisation de modèles non linéaires

Modèle exponentiel  Y=a.ebx

Modèle puissance  Y=a.xb

Modèle double inverse  Y=(a.x)/(b+x)

Chapitre III. Statistiques inférentielles