Biostatistique Appliquée

Université frères Mentouri.
Constantine1
Faculté des sciences de la nature et de la vie
Département de biologie appliquée
Licence
Bio-informatique
Matière
Biostatistique
Appliquée
Dr. Habiba BOUHALLOUF
Année universitaire 2020/2021

III
Estimations et Tests
Statistiques
6 Théorie statistique de l’estimation

47
6.1 Définition
6.2 Estimation ponctuelle
6.3 Estimation par intervalle
7 Tests statistiques . . . . . . . . . . . . . . . . . . 52
7.1 Définition
7.2 Condition d’utilisation d’un test
7.3 Conditions d’application
7.4 Principe des tests de comparaisons
7.5 Hypothèses nulle et hypothèse alternative
7.6 Etapes d’un test statistique
8 Tests de comparaison . . . . . . . . . . . 58
8.1 Introduction
8.2 Test Z de l’écart réduit
8.3 Test T de Student
8.4 Test F de Fisher
8.5 Test de c 2
6. Théorie statistique de l’estimation
Du point de vue pratique, il est souvent très important de pouvoir obtenir de l’informa-
tion sur la population à partir des échantillons. De tel problème se trouve dans la décision
statistique, qui utilise le principe de la théorie d’échantillonnage comme le problème
d’estimation des paramètres d’une population (moyenne, variance, pourcentage, ...) à partir
des statistiques d’échantillonnage correspondantes.
Faire une estimamtion, c’est tenter de définir les paramètres d’une population à partir des
paramètres observés sur un échantillon.
Lorsqu’on observe un paramètre sur un échantillon, on pressent :
1. que la valeur observée a fort peu de chances d’être exactement la valeur inconnue de
la population.
2. que cette valeur est néanmoins assez proche de la valeur inconnue si notre échantillon
est représentatif.
3. qu’en répétant l’échantillonnage, on trouverait d’autres valeurs, toutes assez proches

les unes des autres.
Ces trois hypothèses sont une sorte de pari. Nous parions que la valeur observée est proche
de la valeur exacte. Mais il faut préciser ce que l’on entend par "proche".
Le but de l’estimation en statistique est de calculer les bornes qui permettent de situer
avec une confiance suffisamment grande où se trouve la valeur inconnue du paramètre
dans la population. Une estimation aboutit donc à calculer ce qu’on nomme "intervalle de
confiance". Ce terme est parfois appelé trivialement "fourchette d’estimation".
Le statisticien se sait donc incapable de connaître la vraie valeur, mais il en fournit
modestement une estimation à l’aide de deux bornes.

Département de biologie appliquée, SNV, UFMC1
48 Chapitre 6. Théorie statistique de l’estimation
6.1 Définition
Soit une variable x à étudier : il s’agit d’otenir une approximation d’un certain para-
mètre q de sa distribution (médiane, moyenne, variance, ...) à partir de n valeurs : x1 , x2 ,
..., xn de x.
En considérant x1 : la réalisation d’une variable aléatoire X1 , x2 : la réalisation d’une
variable aléatoire X2 , ..., xn : la réalisation d’une variable aléatoire Xn .
On dit que X1 , X2 , ..., Xn forment un échantillon de la variable X ayant la taille (effectif) n.
6.2 Estimation ponctuelle

Le terme estimation désigne aussi le résultat de procédé : on dira donc que t (la
valeur calculée sur l’échantillon) est l’estimation ponctuelle de q (la valeur théorique
de la distribution), mais on dira aussi que t est un paramètre d’échantillon (estimant un
paramètre de distribution).
6.2.1 Médiane d’échantillon

Une première estimation simple concerne la médiane. La médiane théorique d’une
variable étudiée dans une population de N individus est située au milieu de la liste des
valeurs individuelles classées par ordre croissant.
Donc, sur un échantillon de n valeurs classées par ordre croissant (x1  x2  ...,  xk 
...,  xn ), la grandeur t est, par définition, la valeur centrale si le nombre des observations
est impair, ou la demi-somme des deux valeurs centrale si le nombre des observation est
pair :
xk + xk+1
t = xk+1 t= (6.1)
2
6.2.2 Moyenne d’échantillon

La moyenne théorique d’une variable étudiée dans une population de N individus
x1 + x2 + ... + xN
s’obtenant par la formule µ = . Sachant que la moyenne d’échantillon
N
x1 + x2 + ... + xn
est : x̄ = . Ici t = x̄, est une estimation de µ.
n
6.2.3 Variance d’échantillon

La variance théorique d’une variable étudiée dans une population de N individus :
(x1 µ)2 + (x2 µ)2 + ... + (xN µ)2

s p2 =
N
mène à utiliser t = se2 , comme estimation de la variance s p2 .
6.2.4 Estimateurs non biaisés

Si la moyenne d’une statistique d’échantillonnage est égale au paramètre correspondant
de la population, on dit que la statistique est un estimateur non biaisé de ce paramètre.

6.3 Estimation par intervalle 49
Dans le cas contraire, on dit que l’on a un estmateur biaisé.
la moyenne : moy(x̄) = µ =) x̄ est une estimation non biaisée.
N 1 2
la variance : moy(se2 ) = N sp =) se2 est une estimation biaisée.
où s p2 est la variance de la population.
Remarque
En terme de propbabilité, on dira qu’une statistique est non biaisée si son espérance
mathématique est égale à la valeur du paramètre de la population correspondant :
E(x̄) = µ (6.2)
E(se2 ) = s p2 (6.3)
6.2.5 Estimateurs efficaces

Quand on désire estimer la moyenne, la distribution d’échantillonnage de deux sta-
tistiques ont la même espérance, la statistique qui a la variance la plus faible est appelée
"estimateur efficace" de la moyenne, et l’autre statistique sera donc "l’estimateur ineffi-
cace". Parfois, l’estimateur efficace est nomé "meilleur estimateur".
6.3 Estimation par intervalle

Quand, dans une population, l’estimation d’un paramètre est donnée par un seul nombre,
on dit que c’est une "estimation ponctuelle" du paramètre.
Quand on estime un paramètre d’une population donnée par deux nombres entre lesquels
celui-ci peut varier, on dit que l’on a une "estimation par intervalle" de ce paramètre. Et
on appelle l’erreur de précision d’un estimateur : "confiance" ou "fiabilité".
6.3.1 Estimation d’une moyenne inconnue

a. Estimation d’une moyenne d’un échantillon
On considère que la population est nombreuse (n 30) de moyenne µ et de l’écart-type
s p relatif à un caractère quatitatif.
On désigne par x̄, la moyenne d’un échantillon prélevé au hasard de la population.
D’après le théorème central limite, on démontre que x̄ suit une loi normale d’esperance
sp2
mathématique µ et de variance s 2 = n lorsque la taille de l’échantillon est n 30.
Definition 6.3.1 On peut exprimer x̄ dans un intervalle comme suit :
sp sp
µ ta p  x̄  µ + ta p (6.4)
n n
h i
s s
La probabilité pour que la moyenne x̄ soit dans l’intervalle I = µ ta ppn , µ + ta ppn
est :
P (I) = 1 a (6.5)

50 Chapitre 6. Théorie statistique de l’estimation
Risque d’erreur a
Ici on appelle l’intervalle I, intervalle de confiance, (1 a) s’appelle Seuil de confiance
et a, risque d’erreur.
ta est une valeur donnée par la table de la loi normale centrée réduite.
D’après les propriètés de la loi normale, on choisit on général, le risque d’erreur (a = 5%),
et dans certain cas, on donne (a = 1%) :
1. pour a = 5%, on choisit ta = 1.96, et dans ce cas P (I) = 0.95.
2. pour a = 1%, on choisit ta = 2.6, et on donne P (I) = 0.99.
b. Estimation d’une moyenne d’une population

Le problème qui se pose généralement est d’estimer la moyenne µ de la population à
partir des paramètres observés dans l’échantillon choisit au hasard, c-à-d : en fonction de
(x̄, n, se ), où se est l’écart-type de l’échantillon.
Definition 6.3.2 L’intervalle de confiance dans lequel on estime trouver la moyenne

associée à la population est donnée par :
se se
x̄ ta p  µ  x̄ + ta p (6.6)
n 1 n 1
On donne :
n
s p2 ⇡ se2 (6.7)
n 1
La quantité : h = ta psn e 1 , s’appelle "la précision de l’estimation".
6.3.2 Estimation d’un pourcentage inconnu

Lorsquòn a un pourcentage sur un échantillon, le problème est d’estimer le véritable
pourcentage P inconnu de la population d’où est extrait l’échantillon.
a. Intervalle de confiance d’un pourcentage

Estimer la valeur du pourcentage inconnu de la population à partir d’une observation
sur un seul échantillon, c’est estimer un intervalle dans lequel le pourcentage inconnu P à
la plus grande probabilité de se trouver.
Definition 6.3.3 D’après le théorème central limite, il y a 95% de chances que le

pourcentage P de la population se trouve compris dans l’intervalle :
r r
p(1 p) p(1 p)
p 1.96  P  p + 1.96 (6.8)
n n
 q q
p(1 p)
p 1.96 n , p + 1.96 p(1n p) est l’intervalle de confiance à 95% du pourcentage
P de la population, où : p est le pourcentage calculé sur l’échantillon.

7. Tests statistiques
7.1 Définition
Le test statistique est l’outil de la comparaison, de même que le calcul de l’intervalle
de confiance était l’outil statistique de l’estimation.
Une comparaison statistique porte des séries de données qui sont en moyenne, pourcentage,
distribution par classes, indicateurs de liaison entre deux variables, ... ect.
7.2 Condition d’utilisation d’un test

Un test statistique doit être réalisé dans le cadre d’une réflexion scientifique qui consiste
à bâtir des hypothèses à partir des faits antérieurs observés. Ensuite, ces hypothèses sont
testées et selon les résultats des tests, elles sont soit rejetées, soit acceptées. Puis de nou-
velles hypothèses peuvent ensuite être bâties et à nouveau testées.
Donc un test statistique n’a de sens que s’il teste une hypothèse préalablement posée afin
de répendre à une question :
Observation ! Hypothèse ! Test
7.3 Conditions d’application

Tous les tests sont basés sur les lois du distributions théoriques issues de la théorie des
probabilités.
Une série d’observations portant sur une variable peut être décrite soit par des paramètres
résumant la distribution (moyenne, pourcentage, variance, ...), soit par la distribution des
effectifs sous forme de tebleau ou diagramme.
Donc il existe parallèlement deux familles de tests :

7.4 Principe des tests de comparaisons 53
— Les tests paramétriques qui composent des paramètres.
— Les tests semi-paramétriques (test de c 2 ) et les tests de rang qui comparent des
distributions.
7.4 Principe des tests de comparaisons

Il existe schématiquement deux situations de comparaison :
1. Comparer un échantillon observé à une population de référence.
2. Comparer deux ou plusieurs échantillon entre eux.
7.5 Hypothèses nulle et hypothèse alternative

7.5.1 Hypothèse nulle H0
Cela consiste à poser à priori l’hypothèse que les paramètres ou les distributions des
populations d’où sont issus les échantillons étudiés, sont identiques :
Hypothèse nulle H0
,
Paramètre de la Population 1 = Paramètre de la Population 2
Proposer l’hypothèse nulle c’est supposer que la différence observée provient seulement
des fluctuations d’échantillonnage.
7.5.2 Hypothèse alternative H1

L’hypothèse alternative H1 est l’hypothèse qui sera retenue au cas où les résultats du
test aboutiraient à rejeter l’hypothèse nulle H0 .
Selon le la nature du problème, on distingue deux types d’hypothèses alternatives :
a. Hypothèse alternative bilatérale

On choisit l’hypothèse alternative bilatérale lorsqu’on ne cherche pas à connaître le
sens de la différence :
Hypothèse alternative H1 bilatérale

m
Paramètre de la Population 1 6= Paramètre de la Population 2

54 Chapitre 7. Tests statistiques
b. Hypothèse alternative unilatérale

On choisit l’hypothèse alternative unilatérale lorsqu’on s’intéresse à un sens particulier
de l’intégralité des deux paramètres tel que :
Hypothèse alternative H1 unilatérale

m
Paramètre de la Population 1 > Paramètre de la Population 2
ou
Paramètre de la Population 1 < Paramètre de la Population 2
TABLE 7.1 – Hypothèses

Hypothèse Comparaison de paramètres ou Liaison entre deux va-
de distributions riables
H0 Les paramètres ou les distributions Absence de liaison
sont identiques
H1 bilatérale - Les paramètres ou les distributions - Présence d’une liaison
sont différents
H1 unilatérale - Un des paramètres est supérieur à - Présence d’une liaison
l’autre
7.6 Etapes d’un test statistique

Quelque soit le test utilisé, la méthode du test d’hypothèse comporte les étapes sui-
vantes :
1. Formulation de l’hypothèse nulle H0 .
2. Choix de test statistique qui convient.
3. Choix du seuil de signification, il est implicitement égale à 5% si rien n’est spécifié.
4. Conditions d’application du test statistique.
5. Exécution du test statistique.
6. Décision au seuil choisi et le sens de la liaison.
La décision consiste donc à rejeter ou à retenir H0 et dépend seulement du seuil de

signification choisi.
7.6.1 Espèces d’erreur

Lorsque l’on fait un test d’hypothèse, deux sortes d’erreur sont possibles :

7.6 Etapes d’un test statistique 55
— On peut rejeter l’hypothèse nulle alors qu’elle est vraie ; cela se produit si la valeur
de la statistique de test tombe dans la région de rejet alors que l’hypothèse H0 est
vraie, la probabilité de cet événement est le niveau de signification (probabilité de
rejeter H0 à tort) est appelé risque d’erreur ou erreur de première espèce et on le
note a.
— Si on ne rejette pas H0 alors qu’elle est fausse, on commette une erreur de second
espèce ou (manque d’erreur) et se note conventionnement b . C’est le cas si la valeur
de la statistique de test tombe dans la région de non rejet (ou d’acceptation) alors
que H0 est fausse (c’est-à-dire si H1 est vraie).
Zone de rejet
Soit U le paramètre test tel que :
1. Pour les moyennes :

x̄ µ
U= s (7.1)
pp
n
2. Pour les pourcentages :

f p
U=q (7.2)
p(1 p)
n
où :
- x̄ et f sont la moyenne et la fréquence de x dans l’échantillon de taille n , respective-

ment.
- µ et p sont la moyenne et la fréquence de x dans la population ayant l’écart-type s p .
Au risque a choisi, correspond un intervalle [ ta , +ta ]. (1 a) (voir la figure 9.1) est la

chance de se trouver.
Donc la zone de rejet de l’hypothèse H0 comprend deux parties comme il est montré
dans la (figure 9.2) : Alors :
1. Si : |U| ta ,
U tombe dans la zone de rejet de H0 avec erreur de première espèce.
2. Si : |U|  ta ,
U ne tombe pas dans la zone de rejet de H0 , on ne rejette pas H0 . Si on l’accepte,
cette décision est associée à un risque d’erreur du deuxième espèce b .
7.6.2 Puissance du test

Lorsque la valeur inconne est dans H1 , la probabilité d’obtenir un résultat dans la
région de rejet est appelée "Puissance du test" de H0 face à H1 . Elle dépend de plusieurs

56 Chapitre 7. Tests statistiques
F IGURE 7.1 – Risque d’erreur et zone de rejet de H0
F IGURE 7.2 – Zone d’acceptation et zone de rejet de H0
facteurs :
— Le niveau de signification du test (risque d’erreur).
— La vraie valeur du paramètre testé.
— La taille de l’échantillon n (la puissance augmente avec n).
— Le type du test utilisé.
De manière générale, plus on tient compte d’informations pertinentes dans un test plus sa
puissance est élevée.
7.6.3 Synthèse
— Les risques d’erreurs a et b sont antagonistent, si on choisit un risque a très petit,
on ne peut le plus souvent rejeter H0 .
— On choisit le plus souvent, un risque d’erreur a de 5% (seuil de signification), dans

ce cas la puissance de test est (1 b ).
Réalité Décision de ne pas rejeter H0 Décision de rejeter H0

H0 vraie 1 a a
H0 fausse b 1 b
TABLE 7.2 – Puissance du test statistique

8. Tests de comparaison
8.1 Introduction
Dans ce chapitre, on s’intéresse aux lois de distribution théoriques principales utilisées
pour les tests statistiques de comparaison :
— La loi normale centrée réduite Z.

— La loi de Student T.
— La loi de Fisher F.
— La loi de c 2 .
8.1.1 Comment choisir un test statistique ?

Le choix d’un test statistique dépend de plusieurs facteurs qu’on doit péalablement
identifier :
La nature des variables à comparer : vérifier si
— la variable est quatitative (continue ou discrète).

— la variable est qualitative (binaire, nominale à plusieurs classes ou ordinale).
Les grandeurs étudiées : vérifier si :
— la grandeur est une moyenne.

— la grandeur est une variance.
— la grandeur est un pourcentage.
— la grandeur est un effectif.
— ...

8.1 Introduction 59
La nature du problème : vérifier si on doit
— comparer un échantillon à une population de référence.

— comparer deux échantillons.
— comparer plusieurs échantillons.
Le type de séries comparées : vérifier si :
— les séries sont appariées.

— les séries sont indépendantes.
La taille des échantillons : vérifier si :
— l’échantillon a un grand nombre d’individus.

— l’échantillon a un petit nombre d’individus.
Les conditions d’application des tests : vérifier s’il s’agit d’une
— normalité des distributions associées à la population d’où est issu l’échantillon.

— égalité des variances.
— taille minimale des échantillons.
8.1.2 Principaux tests de comparaison et domaine d’application

Les tests de comparaison servent à comparer les moyennes, les variances, les pourcen-
tages, ... des différentes distributions.
Leur principe consiste á poser une hypothèse nulle H0 et de décider de l’accepter si l’égalité
entre les paramètres est vérifiée ou de la rejeter si elle n’est pas vérifiée au profit d’une
hypothése alternative H1 .
Pour effectuer le calcul du test, on choisit selon la nature de la comparaison la loi de
distribution à suivre :
1. La loi normale centrée réduite (Z) sert à comparer :
— deux moyennes.
— deux moyenne observées de deux séries appariées.
— une moyenne observée à une moyenne théorique.
2. La loi de Student (T ) sert à comparer :
— deux moyennes.
— deux moyenne observées de deux séries appariées.
— une moyenne observée à une moyenne théorique.
3. La loi de Fisher (F) sert à comparer :

60 Chapitre 8. Tests de comparaison
— deux variances.
— plusieurs moyennes.
— deux pourcentage.
4. La loi (c 2 ) sert à comparer :
— une distribution observée à une distribution théorique.

— plusieurs distributions.
— plusieurs pourcentages.
8.2 Test Z de l’écart réduit

8.2.1 Comparer une moyenne observée à une moyenne théorique
Conditions
Soit la variable quantitative x d’un échantillon de grande taille (n 30) ayant la
moyenne x̄ et l’écart type s .
On cherche à décider si la moyenne de l’échantillon x̄ et la moyenne d’une population de
référence µ sont significativement différentes. On teste alors, au risque de a :
* l’hypothèse nulle H0 : x̄ = µ.
* l’hypothèse alternative H1 bilatérale : x̄ 6= µ.
* l’hypothèse alternative H1 unilatérale : x̄ < µ ou x̄ > µ.

Calcul
Pour identifier la région de rejet ou d’acceptation de l’hypothèse nulle, on calcule et on
compare la quantité :
x̄ µ
z= s (8.1)
p
n
avec z a2 pour l’hypothèse bilatérale ou avec za si l’hypothèse est unilatérale.

Si on prend a = 5% : z a2 = 1, 96 et za = 1, 65.
Décision
H1 Z H0 Décision
bilatérale |z| < z a2 accepée x̄ n’est pas significativement différente de µ
bilatérale |z| z a2 rejetée x̄ est significativement différente de µ
unilatérale z < za accepée x̄ n’est pas significativement supérieure
(ou inférieure) à µ
unilatérale z za rejetée x̄ est significativement supérieure (ou inférieure) à µ
On trouve les valeurs de za et z a2 dans la table de la loi Z de la loi normale centrée

réduite.

8.2 Test Z de l’écart réduit 61
8.2.2 Comparer deux moyennes

Conditions
Maintenant on veut comparer deux moyennes x̄1 , x̄2 de deux échantillons indépendants
de tailles supérieurs à 30 (n1 30, n2 30). Sachant les écart types (s1 , s2 ), On pose au
risque de a, les hypothèses nulle et alternative :
* H0 : µ1 = µ2 .
* H1 bilatérale : µ1 6= µ2 .
* H1 unilatérale : µ1 < µ2 ou µ1 > µ2 .
où µ1 , µ2 sont les moyennes inconnues des deux populations d’où sont issus nos échan-
tillons.
Calcul
On calcul la quantité z à partir de la formule suivante :
x̄1 x̄2
z= q 2 (8.2)
s1 s2 2
n1 + n2
Décision
H1 Z H0 Décision
bilatérale |z| < z a2 accepée x̄1 n’est pas significativement différente de x̄2
bilatérale |z| z a2 rejetée x̄1 est significativement différente de x̄2
unilatérale z < za accepée x̄1 n’est pas significativement supérieure
(ou inférieure) à x̄2
unilatérale z za rejetée x̄1 est significativement supérieure

réduite.
8.2.3 Comparer deux moyennes pour deux séries appariées

Conditions
Dans ce cas, nous avons un seul échantillon de taille (n 30). On désire comparer deux
valeurs qui appartiennent à deux séries de valeurs dites appariées d’une même grandeur
(ici la moyenne) observée chez un individu. Chaque couple de mesures constitue une paire
((xi , yi ), i = 1,¯n).
Le principe est de construire des paires de mesure puis calculer la différence observée pour
chacune di = |xi yi |.
Pour cela on pose les hypothèses nulle et alternative en fonction des moyennes calculées à
partir des différences trouvées (x̄d et sd ) :

* H0 : x̄d = 0.
* H1 bilatérale : x̄d 6= 0.
* H1 unilatérale : x̄d < 0 ou x̄d > 0.

où
x̄d = Â di (8.3)
Calcul
x̄d 0
z= q (8.4)
sd 2
n
où
✓ ◆
1 1
sd2 =
n 1 Â di2
n
(Â di )2 (8.5)
Décision
H1 Z H0 Décision
bilatérale |z| < z a2 accepée les moyennes des séries ne sont pas signifi-
cativement différentes
bilatérale |z| z a2 rejetée les moyennes des séries sont significativement
différentes
unilatérale z < za accepée les moyennes des 2 séries sont significativement
différentes
unilatérale z za rejetée la moyenne d’une série est significativement
supérieure (ou inférieure) à l’autre

réduite.
8.3 Test T de Student

8.3.1 Comparer une moyenne observée à une moyenne théorique
Conditions
On a vu qu’on peut utiliser le test Z pour comparer une moyenne observée à une
moyenne connue dans une population de référence lorsqu’il s’agit d’un échatillon ayant
une taille supérieures ou égale à 30.
Pour les petits échantillons (n < 30), on utilise plutôt le test de Student.
En effet, soient x̄ et s la moyenne observée et l’écart type de l’échantillon respectivement,
et µ la moyenne de la population de référence.
On au risque de (a = 10%), pose les hypothèses nulle et alternatives au risque de
(a = 10%) :

8.3 Test T de Student 63
* H0 : x̄ = µ.
* H1 bilatérale : x̄ 6= µ.
* H1 unilatérale : x̄ < µ ou x̄ > µ.
Calcul
de la même façon, on calcule la valeur de t du test de Student :
x̄ µ
t= s (8.6)
p
n
Si l’hypothèse nulle (x̄ = µ) est vraie (au risque de a = 10%), la quantité t suit une loi T
de Student à (n 1) degrés de liberté (ddl).
Décision
H1 T H0 Décision
bilatérale |t| < t a2 accepée x̄ n’est pas significativement différente de µ
bilatérale . |t| z a2 rejetée x̄ est significativement différente de µ
unilatérale t < za accepée x̄ n’est pas significativement supérieure
(ou inférieure) à µ
unilatérale t za rejetée x̄ est significativement supérieure (ou inférieure) à µ
On trouve les valeurs de t5% et t10% dans la table de la loi de Student.
8.3.2 Comparer deux moyennes

Conditions
On choisit le test de Student aussi lorsqu’on désire comparer deux moyennes observées
dans deux échantillons de petites tailles (n1 < 30, n2 < 30 ).
En effet, on pose les hypothèses :
* H0 : µ1 = µ2 .
* H1 bilatérale : µ1 6= µ2 .
* H1 unilatérale : µ1 < µ2 ou µ1 > µ2 .

tillons.
Calcul
x̄1 x̄2
t=q 2 (8.7)
s1 s2 2
n1 + n2
avec un nombre de degrés de liberté (ddl = n1 + n2 2).

Décision
H1 T H0 Décision
bilatérale |t| < t a2 accepée x̄1 n’est pas significativement différente de x̄2
bilatérale |t| t a2 rejetée x̄1 est significativement différente de x̄2
unilatérale t < ta accepée x̄1 n’est pas significativement supérieure
unilatérale t ta rejetée x̄1 est significativement supérieure
8.3.3 Comparer deux moyennes pour deux séries appariées

Conditions
Ce cas est similaire à celui où on utilise le test Z pour comparer deux moyennes de
deux séries apparées observées dans un seul échantillon. Ce dernier doit avoir une taille
inférieure à 30. En effet :
* H0 : x̄d = 0.
* H1 bilatérale : x̄d 6= 0.
* H1 unilatérale : x̄d < 0 ou x̄d > 0.

tillons.
Calcul
On calcul la quantité t à partir de la formule suivante :
x̄d 0
t=q (8.8)
sd 2
n
où x̄d et sd sont la moyenne des diffénces des moyennes (respectivement des écart types)
des paires :
x̄ = Â di ,
✓ ◆
1 1
sd2 =
n 1 Â di2 n Â
( di ) 2
Le nombre de degrés de liberté est : dll = n 1.

8.4 Test F de Fisher 65
Décision
H1 T H0 Décision
bilatérale |t| < t a2 accepée les moyennes des séries ne sont pas signifi-
cativement différentes
bilatérale |t| t a2 rejetée les moyennes des séries sont significativement
différentes
unilatérale t < ta accepée les moyennes des 2 séries sont significativement
différentes
unilatérale t ta rejetée la moyenne d’une série est significativement
supérieure (ou inférieure) à l’autre
8.4 Test F de Fisher

8.4.1 Comparer deux variances
Conditions
On utilise le test de Fisher lorsqu’il s’agit de comparer deux variances s1 2 et s2 2 de
deux séries indépendantes de variables quantitatives quelque soit la taille des échantillons
(n1 et n2 ).
Pour cela soient au risque de a = 5%, les hypothèses :
* H0 : s1 2 = s2 2 .
* H1 bilatérale : s1 2 6= s2 2 .
* H1 unilatérale : s1 2 < s2 2 ou s1 2 > s2 2 .
où s1 et s2 sont respectivement les variances inconnues des deux populations d’où sont
issus les échantillons.
Calcul
Soit s1 2 la variance la plus élevée, on définit la quantité F par :
s1 2
F= (8.9)
s2 2
avec : (dll1 = k1 = n1 1), (dll2 = k2 = n2 1) et (a = 5%).
Décision
H1 F H0 Décision
bilatérale |F| < Fa2 accepée s1 2 n’est pas significativement différente de s2 2
bilatérale |F| Fa2 rejetée s1 2 est significativement différente de s2 2
unilatérale F < Fa accepée s1 2 n’est pas significativement différente de s2 2
unilatérale F Fa rejetée s1 2 est significativement supérieure à s2 2

On trouve les valeurs de F5% et F2,5% dans la table de la loi de Fisher.
8.4.2 Comparer plusieurs moyennes

Conditions
On choisit le test de Fisher également lorsqu’on désir comparer les moyennes observées
lors d’une experience d’une variable quantitative pour plusieurs échantillons. Pour cela
les distributions des populations d’où proviennent les échantillons doivent suivre la loi
normale et avoir la même variance.
En effet, au risque de (a = 5%), les hypothèses nulle et alternatives sont :
* H0 : Les moyennes ne sont pas significativement différentes.
* H1 : Les moyennes sont significativement différentes.
Alors, si les séries étudiées sont indépendantes, on test le rapport entre deux variances :
1. La variance entre individus de chaque série (variance résiduelle) (sr 2 ).
2. La variance entre les séries étudées (variance générale) (sg 2 ).

où
xi 2 xg 2 xi 2
Â ni N Â x2 Â ni
sg 2 = , 2
sr = (8.10)
c 1 N c
avec :
* xi : est la somme des valeurs observées sur chaque série.
* xg : est la somme des valeurs observées sur toutes les séries.
* Â x2 : est la somme des carrées des valeurs observées sur toutes les séries.
* n : est le nombre des effectifs de chaque série.
* N : est le nombre des effectifs de toutes les séries.
* c : est le nombre de séries à comparer.
Calcul
on teste le rapport suivant :
sg 2
F= (8.11)
sr 2
avec : (dll1 = k1 = c 1), (dll2 = k2 = N c) et (a = 5%).

8.5 Test de c 2 67
Décision
H1 F H0 Décision
bilatérale F < Fa accepée Les moyennes ne sont pas significativement
différentes
bilatérale F Fa rejetée Les moyennes sont significativement
différentes
8.5 Test de c 2
Il est fréquent d’avoir à comparer deux grandeurs caractérisées par des variables
qualitatives comme en épidémiologie par exemple (malade / non malade).
On compare, Le plus souvent des distributions ou des pourcentages observés dans deux
échantillons ou plus, mais parfois on est tombé dans des situations où on doit comparer
un pourcentage observé dans un échantillon à un pourcentage théorique (de référence)
pour savoir si la différence entre eux est due aux fluctuations d’échantillonnage ou elle
correspond à une différence réelle.
Pour tous ça, si tous les effectifs théoriques (de référence) sont supérieurs ou égaux à 5, on
utilise le test de comparaison de c 2 (chi-2).
8.5.1 Comparer une distribution observée à une distribution théorique (Test de

c 2 d’ajustement)
Conditions
Les effectifs observés sont généralement différents des effectifs théoriques, donc on
teste la conformité entre la distribution expérimentale et la distribution théorique. Ce genre
de test se fait en utilisant "Test de c 2 " d’ajustement (ou de conformité) à condition d’avoir
un nombre d’effectifs supérieur ou égal à 5.
On considère un échantillon de taille n extrait au hasard d’une population partagée en
classes, chaque classe est une modalité de réalisation du caractère. Et on attribut les
effectifs : fo1 , fo2 , fo3 , ..., fok , tels que :
k
n = Â foi (8.12)
i=1
où foi sont appelés " effectifs observés ".
D’autre part, on attribut à ces classes les probabilités : P1 , P2 , P3 , ..., Pk . Pi représente la
probabilité de présence de la modalité du caractère étudié dans la classe i (i = 1,¯ k) avec :
k
Â Pi = 1 (8.13)
i=1
Donc, on peut définir les effectifs théoriques en fonction des probabilités ainsi :
fti = nPi (8.14)
où
k
n = Â fti (8.15)
i=1
On peut finalement construire le tableau suivant :

Classe 1 2 ... i ... k Total

Effectifs Observés ( foi ) fo1 fo2 ... foi ... fok n
Effectifs Théoriques ( fti ) ft1 ft2 ... fti ... f tk n
On pose alors les hypothèses suivantes au risque de (a = 5% ou a = 1%) :
* H0 : "Il y a une conformité entre la distribution étudiée (expérimentale) et la distribu-

tion théorique".
* H1 : "Il y a une différence significative entre la distribution étudiée (expérimentale)

et la distribution théorique".
Calcul
Pour décider si on accepte ou on rejette l’hypothèse H0 , on calcule la statistique de c 2 :
k ( f oi fti )2
c 2c = Â (8.16)
i=1 f ti
c 2 c doit être comparée avec c 2 a qui peut être obtenue par la table de c 2 en fonction de
n = k 1 (k est le nombre de classes étudiées).
Décision
H1 c2 H0 Décision
biilatérale c 2c < c 2a accepée Les distributions ne sont pas significativement
différentes
biilatérale c 2c c 2a rejetée Les distributions sont significativement
différentes
8.5.2 Comparer plusieurs pourcentages ( Test de c 2 d’homogénéité)

Conditions
On applique le test de c 2 d’homogénéité pour comparer plusieurs distributions ou
plusieurs pourcentages (pour une variable qualitative à plusieurs classes).
Comme nous avons vu dans la section précédente, on va s’intéresser aux effectifs plutôt
que les pourcentages. Par conséquent, on obtient le tableau suivant :
échantillon! éch(1) éch(2) ... éch(j)

Classe#
1 fo11 ( ft11 ) fo12 ( ft12 ) ... fo1 j ( ft1 j )
2 fo21 ( ft21 ) fo22 ( ft22 ) ... fo2 j ( ft2 j )
3 fo31 ( ft31 ) fo32 ( ft32 ) ... fo3 j ( ft3 j )
.. .. .. .. ..
. . . . .
i foi1 ( fti1 ) foi2 ( fti2 ) ... foi j ( fti j )

8.5 Test de c 2 69
foi j ( fti j ) sont respectivement les effectifs observés (les effectifs théoriques) de la classe
(modalité du caractère) (i) de l’échantillon ( j).
Tous les effectifs théoriques doivent être supérieurs ou égaux à 5 pour pouvoir appliquer
la loi de c 2 .
Au risque de (a = 5%), les hypothèses nulle et alternative sont données par :
* H0 : "Il n’ y a pas une différence significative entre les pourcentages (distributions).
* H1 : "Il y a pas une différence significative entre les pourcentages (distributions).
Calcul
Pour décider si on accepte ou on rejette l’hypothèse H0 au risque de (a = 5%), on
calcule c 2 c :
k c ( f oi j fti j )2
c 2c = Â Â (8.17)
i=1 j=1 fti j
c 2 c doit être comparée avec c 2 a qui peut être obtenue par la table de c 2 à l’aide du nombre
de degrés de liberté : dll = (c 1)(k 1) (k est le nombre de classes étudiées, c est le
nombre d’échantillon).
Décision
H1 c2 H0 Décision
biilatérale c 2c < c 2a accepée Les pourcentage (les distributions) ne sont pas
significativement différentes
biilatérale c 2c c 2a rejetée Les pourcentage (les distributions) sont
significativement différentes

VI
Références bibliographiques
Références bibliographiques
1. T. Ancelle, "STATISTIQUE ÉPIDÉMIOLOGIE".

3me édition Maloine 2011, (308 pages), Faculté de médecine, Université, Paris-
Déscartes. ISBN : 978 2 334 03042 1.
2. D. Commenges, H. Jacqmin-Gadda, "Modèles biostatistiques pour l’épidémiologie".

1me édition De Boeck Supérieur s.a., 2015, (416 pages), ISBN-13-9782807300262.
3. A. Bezzaoucha, "ÉPIDÉMIOLOGIE ET STATISTIQUE".

édition 3.01.4107, (262 pages), POU 12 1996, Ben Aknoun, Alger.
ISBN 9961.0.0214.8.
4. F. Carrat, A. Mallet, V. Morice, "BIOSTATISTIQUE".

2013, (179 pages), Faculté de médecine, Université Pierre et Marie Curie, ParisVI.
5. C. Huber, "BIOSTATISTIQUE 1 : Bases (Probabilités, Estimation et Tests".

UFR Biomédicale, Université René Descartes, Paris, (35 pages).
6. L. Foucan, "PROBABILITÉS ET STATISTIQUES".

(48 pages), PAPES 2012 2013
7. J. Bouyer, "MÉTHODES STATISTIQUES".

Médecine-Biologie INSERM 1996, (353 pages), Paris, ISBN 2 909455 74 2.
8. R. Bonita, R. Beaglehole et T. Kjellström, "ÉLÉMENTS D’ÉPIDÉMIOLOGIE".

2me édition, 2012, (233 pages), Organisation mondiale de la Santé "OMS".
ISBN 978 92 4 254707 8.

104
9. J. P. Vaughan, R. H. Morrow, "MANUEL D’ÉPIDÉMIOLOGIE POUR LA SANTé

AU NIVEAU DU DISTRICT". 2me édition, 1991, (186 pages), Organisation mon-
diale de la Santé "OMS". ISBN 92 4 254404 3.
10. A. Vergnenegre, "ÉPIDÉMIOLOGIE-ESSAIS CLINIQUES-ÉVALUATION".

2010 2011, (139pages), Faculté de Médecine de Limoges.


Biostatistique Appliquée

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Biostatistique Appliquée

Transféré par

Droits d'auteur :

Formats disponibles

Université frères Mentouri.

Dr. Habiba BOUHALLOUF

Année universitaire 2020/2021

6 Théorie statistique de l’estimation

3. qu’en répétant l’échantillonnage, on trouverait d’autres valeurs, toutes assez proches

Dr. Habiba BOUHALLOUF

6.2 Estimation ponctuelle

6.2.1 Médiane d’échantillon

6.2.2 Moyenne d’échantillon

6.2.3 Variance d’échantillon

(x1 µ)2 + (x2 µ)2 + ... + (xN µ)2

6.2.4 Estimateurs non biaisés

Dr. Habiba BOUHALLOUF

Dans le cas contraire, on dit que l’on a un estmateur biaisé.

la moyenne : moy(x̄) = µ =) x̄ est une estimation non biaisée.

où s p2 est la variance de la population.

6.2.5 Estimateurs efficaces

6.3 Estimation par intervalle

6.3.1 Estimation d’une moyenne inconnue

Dr. Habiba BOUHALLOUF

1. pour a = 5%, on choisit ta = 1.96, et dans ce cas P (I) = 0.95.

2. pour a = 1%, on choisit ta = 2.6, et on donne P (I) = 0.99.

b. Estimation d’une moyenne d’une population

Definition 6.3.2 L’intervalle de confiance dans lequel on estime trouver la moyenne

6.3.2 Estimation d’un pourcentage inconnu

a. Intervalle de confiance d’un pourcentage

Definition 6.3.3 D’après le théorème central limite, il y a 95% de chances que le

Dr. Habiba BOUHALLOUF

7.2 Condition d’utilisation d’un test

Observation ! Hypothèse ! Test

7.3 Conditions d’application

Dr. Habiba BOUHALLOUF

— Les tests paramétriques qui composent des paramètres.

7.4 Principe des tests de comparaisons

1. Comparer un échantillon observé à une population de référence.

2. Comparer deux ou plusieurs échantillon entre eux.

7.5 Hypothèses nulle et hypothèse alternative

7.5.2 Hypothèse alternative H1

Selon le la nature du problème, on distingue deux types d’hypothèses alternatives :

a. Hypothèse alternative bilatérale

Hypothèse alternative H1 bilatérale

Dr. Habiba BOUHALLOUF

b. Hypothèse alternative unilatérale

Hypothèse alternative H1 unilatérale

TABLE 7.1 – Hypothèses

7.6 Etapes d’un test statistique

1. Formulation de l’hypothèse nulle H0 .

2. Choix de test statistique qui convient.

3. Choix du seuil de signification, il est implicitement égale à 5% si rien n’est spécifié.

4. Conditions d’application du test statistique.

5. Exécution du test statistique.

6. Décision au seuil choisi et le sens de la liaison.

La décision consiste donc à rejeter ou à retenir H0 et dépend seulement du seuil de

7.6.1 Espèces d’erreur

Dr. Habiba BOUHALLOUF

1. Pour les moyennes :

2. Pour les pourcentages :

- x̄ et f sont la moyenne et la fréquence de x dans l’échantillon de taille n , respective-

- µ et p sont la moyenne et la fréquence de x dans la population ayant l’écart-type s p .

Au risque a choisi, correspond un intervalle [ ta , +ta ]. (1 a) (voir la figure 9.1) est la

7.6.2 Puissance du test

Dr. Habiba BOUHALLOUF

F IGURE 7.1 – Risque d’erreur et zone de rejet de H0