Académique Documents
Professionnel Documents
Culture Documents
Biostatistique Appliquée
Biostatistique Appliquée
Constantine1
Faculté des sciences de la nature et de la vie
Département de biologie appliquée
Licence
Bio-informatique
Matière
Biostatistique
Appliquée
7 Tests statistiques . . . . . . . . . . . . . . . . . . 52
7.1 Définition
7.2 Condition d’utilisation d’un test
7.3 Conditions d’application
7.4 Principe des tests de comparaisons
7.5 Hypothèses nulle et hypothèse alternative
7.6 Etapes d’un test statistique
8 Tests de comparaison . . . . . . . . . . . 58
8.1 Introduction
8.2 Test Z de l’écart réduit
8.3 Test T de Student
8.4 Test F de Fisher
8.5 Test de c 2
6. Théorie statistique de l’estimation
Du point de vue pratique, il est souvent très important de pouvoir obtenir de l’informa-
tion sur la population à partir des échantillons. De tel problème se trouve dans la décision
statistique, qui utilise le principe de la théorie d’échantillonnage comme le problème
d’estimation des paramètres d’une population (moyenne, variance, pourcentage, ...) à partir
des statistiques d’échantillonnage correspondantes.
Faire une estimamtion, c’est tenter de définir les paramètres d’une population à partir des
paramètres observés sur un échantillon.
Lorsqu’on observe un paramètre sur un échantillon, on pressent :
1. que la valeur observée a fort peu de chances d’être exactement la valeur inconnue de
la population.
2. que cette valeur est néanmoins assez proche de la valeur inconnue si notre échantillon
est représentatif.
Ces trois hypothèses sont une sorte de pari. Nous parions que la valeur observée est proche
de la valeur exacte. Mais il faut préciser ce que l’on entend par "proche".
Le but de l’estimation en statistique est de calculer les bornes qui permettent de situer
avec une confiance suffisamment grande où se trouve la valeur inconnue du paramètre
dans la population. Une estimation aboutit donc à calculer ce qu’on nomme "intervalle de
confiance". Ce terme est parfois appelé trivialement "fourchette d’estimation".
Le statisticien se sait donc incapable de connaître la vraie valeur, mais il en fournit
modestement une estimation à l’aide de deux bornes.
6.1 Définition
Soit une variable x à étudier : il s’agit d’otenir une approximation d’un certain para-
mètre q de sa distribution (médiane, moyenne, variance, ...) à partir de n valeurs : x1 , x2 ,
..., xn de x.
En considérant x1 : la réalisation d’une variable aléatoire X1 , x2 : la réalisation d’une
variable aléatoire X2 , ..., xn : la réalisation d’une variable aléatoire Xn .
On dit que X1 , X2 , ..., Xn forment un échantillon de la variable X ayant la taille (effectif) n.
xk + xk+1
t = xk+1 t= (6.1)
2
N 1 2
la variance : moy(se2 ) = N sp =) se2 est une estimation biaisée.
Remarque
En terme de propbabilité, on dira qu’une statistique est non biaisée si son espérance
mathématique est égale à la valeur du paramètre de la population correspondant :
E(x̄) = µ (6.2)
E(se2 ) = s p2 (6.3)
P (I) = 1 a (6.5)
Risque d’erreur a
Ici on appelle l’intervalle I, intervalle de confiance, (1 a) s’appelle Seuil de confiance
et a, risque d’erreur.
ta est une valeur donnée par la table de la loi normale centrée réduite.
D’après les propriètés de la loi normale, on choisit on général, le risque d’erreur (a = 5%),
et dans certain cas, on donne (a = 1%) :
7.1 Définition
Le test statistique est l’outil de la comparaison, de même que le calcul de l’intervalle
de confiance était l’outil statistique de l’estimation.
Une comparaison statistique porte des séries de données qui sont en moyenne, pourcentage,
distribution par classes, indicateurs de liaison entre deux variables, ... ect.
— Les tests semi-paramétriques (test de c 2 ) et les tests de rang qui comparent des
distributions.
Hypothèse nulle H0
,
Paramètre de la Population 1 = Paramètre de la Population 2
Proposer l’hypothèse nulle c’est supposer que la différence observée provient seulement
des fluctuations d’échantillonnage.
— On peut rejeter l’hypothèse nulle alors qu’elle est vraie ; cela se produit si la valeur
de la statistique de test tombe dans la région de rejet alors que l’hypothèse H0 est
vraie, la probabilité de cet événement est le niveau de signification (probabilité de
rejeter H0 à tort) est appelé risque d’erreur ou erreur de première espèce et on le
note a.
— Si on ne rejette pas H0 alors qu’elle est fausse, on commette une erreur de second
espèce ou (manque d’erreur) et se note conventionnement b . C’est le cas si la valeur
de la statistique de test tombe dans la région de non rejet (ou d’acceptation) alors
que H0 est fausse (c’est-à-dire si H1 est vraie).
Zone de rejet
Soit U le paramètre test tel que :
où :
Donc la zone de rejet de l’hypothèse H0 comprend deux parties comme il est montré
dans la (figure 9.2) : Alors :
1. Si : |U| ta ,
U tombe dans la zone de rejet de H0 avec erreur de première espèce.
2. Si : |U| ta ,
U ne tombe pas dans la zone de rejet de H0 , on ne rejette pas H0 . Si on l’accepte,
cette décision est associée à un risque d’erreur du deuxième espèce b .
facteurs :
De manière générale, plus on tient compte d’informations pertinentes dans un test plus sa
puissance est élevée.
7.6.3 Synthèse
— Les risques d’erreurs a et b sont antagonistent, si on choisit un risque a très petit,
on ne peut le plus souvent rejeter H0 .
8.1 Introduction
Dans ce chapitre, on s’intéresse aux lois de distribution théoriques principales utilisées
pour les tests statistiques de comparaison :
— deux moyennes.
— deux moyenne observées de deux séries appariées.
— une moyenne observée à une moyenne théorique.
— deux moyennes.
— deux moyenne observées de deux séries appariées.
— une moyenne observée à une moyenne théorique.
— deux variances.
— plusieurs moyennes.
— deux pourcentage.
* l’hypothèse nulle H0 : x̄ = µ.
Décision
H1 Z H0 Décision
bilatérale |z| < z a2 accepée x̄ n’est pas significativement différente de µ
bilatérale |z| z a2 rejetée x̄ est significativement différente de µ
unilatérale z < za accepée x̄ n’est pas significativement supérieure
(ou inférieure) à µ
unilatérale z za rejetée x̄ est significativement supérieure (ou inférieure) à µ
* H0 : µ1 = µ2 .
* H1 bilatérale : µ1 6= µ2 .
où µ1 , µ2 sont les moyennes inconnues des deux populations d’où sont issus nos échan-
tillons.
Calcul
On calcul la quantité z à partir de la formule suivante :
x̄1 x̄2
z= q 2 (8.2)
s1 s2 2
n1 + n2
Décision
H1 Z H0 Décision
bilatérale |z| < z a2 accepée x̄1 n’est pas significativement différente de x̄2
bilatérale |z| z a2 rejetée x̄1 est significativement différente de x̄2
unilatérale z < za accepée x̄1 n’est pas significativement supérieure
(ou inférieure) à x̄2
unilatérale z za rejetée x̄1 est significativement supérieure
(ou inférieure) à x̄2
* H0 : x̄d = 0.
* H1 bilatérale : x̄d 6= 0.
où
✓ ◆
1 1
sd2 =
n 1 Â di2
n
(Â di )2 (8.5)
Décision
H1 Z H0 Décision
bilatérale |z| < z a2 accepée les moyennes des séries ne sont pas signifi-
cativement différentes
bilatérale |z| z a2 rejetée les moyennes des séries sont significativement
différentes
unilatérale z < za accepée les moyennes des 2 séries sont significativement
différentes
unilatérale z za rejetée la moyenne d’une série est significativement
supérieure (ou inférieure) à l’autre
* H0 : x̄ = µ.
* H1 bilatérale : x̄ 6= µ.
Calcul
de la même façon, on calcule la valeur de t du test de Student :
x̄ µ
t= s (8.6)
p
n
Si l’hypothèse nulle (x̄ = µ) est vraie (au risque de a = 10%), la quantité t suit une loi T
de Student à (n 1) degrés de liberté (ddl).
Décision
H1 T H0 Décision
bilatérale |t| < t a2 accepée x̄ n’est pas significativement différente de µ
bilatérale . |t| z a2 rejetée x̄ est significativement différente de µ
unilatérale t < za accepée x̄ n’est pas significativement supérieure
(ou inférieure) à µ
unilatérale t za rejetée x̄ est significativement supérieure (ou inférieure) à µ
* H0 : µ1 = µ2 .
* H1 bilatérale : µ1 6= µ2 .
Calcul
On calcul la quantité z à partir de la formule suivante :
x̄1 x̄2
t=q 2 (8.7)
s1 s2 2
n1 + n2
Décision
H1 T H0 Décision
bilatérale |t| < t a2 accepée x̄1 n’est pas significativement différente de x̄2
bilatérale |t| t a2 rejetée x̄1 est significativement différente de x̄2
unilatérale t < ta accepée x̄1 n’est pas significativement supérieure
(ou inférieure) à x̄2
unilatérale t ta rejetée x̄1 est significativement supérieure
(ou inférieure) à x̄2
* H0 : x̄d = 0.
* H1 bilatérale : x̄d 6= 0.
Calcul
On calcul la quantité t à partir de la formule suivante :
x̄d 0
t=q (8.8)
sd 2
n
où x̄d et sd sont la moyenne des diffénces des moyennes (respectivement des écart types)
des paires :
x̄ = Â di ,
✓ ◆
1 1
sd2 =
n 1 Â di2 n Â
( di ) 2
Décision
H1 T H0 Décision
bilatérale |t| < t a2 accepée les moyennes des séries ne sont pas signifi-
cativement différentes
bilatérale |t| t a2 rejetée les moyennes des séries sont significativement
différentes
unilatérale t < ta accepée les moyennes des 2 séries sont significativement
différentes
unilatérale t ta rejetée la moyenne d’une série est significativement
supérieure (ou inférieure) à l’autre
* H1 bilatérale : s1 2 6= s2 2 .
où s1 et s2 sont respectivement les variances inconnues des deux populations d’où sont
issus les échantillons.
Calcul
Soit s1 2 la variance la plus élevée, on définit la quantité F par :
s1 2
F= (8.9)
s2 2
avec : (dll1 = k1 = n1 1), (dll2 = k2 = n2 1) et (a = 5%).
Décision
H1 F H0 Décision
bilatérale |F| < Fa2 accepée s1 2 n’est pas significativement différente de s2 2
bilatérale |F| Fa2 rejetée s1 2 est significativement différente de s2 2
unilatérale F < Fa accepée s1 2 n’est pas significativement différente de s2 2
unilatérale F Fa rejetée s1 2 est significativement supérieure à s2 2
Alors, si les séries étudiées sont indépendantes, on test le rapport entre deux variances :
xi 2 xg 2 xi 2
 ni N  x2  ni
sg 2 = , 2
sr = (8.10)
c 1 N c
avec :
* xi : est la somme des valeurs observées sur chaque série.
* Â x2 : est la somme des carrées des valeurs observées sur toutes les séries.
Calcul
on teste le rapport suivant :
sg 2
F= (8.11)
sr 2
Décision
H1 F H0 Décision
bilatérale F < Fa accepée Les moyennes ne sont pas significativement
différentes
bilatérale F Fa rejetée Les moyennes sont significativement
différentes
8.5 Test de c 2
Il est fréquent d’avoir à comparer deux grandeurs caractérisées par des variables
qualitatives comme en épidémiologie par exemple (malade / non malade).
On compare, Le plus souvent des distributions ou des pourcentages observés dans deux
échantillons ou plus, mais parfois on est tombé dans des situations où on doit comparer
un pourcentage observé dans un échantillon à un pourcentage théorique (de référence)
pour savoir si la différence entre eux est due aux fluctuations d’échantillonnage ou elle
correspond à une différence réelle.
Pour tous ça, si tous les effectifs théoriques (de référence) sont supérieurs ou égaux à 5, on
utilise le test de comparaison de c 2 (chi-2).
Calcul
Pour décider si on accepte ou on rejette l’hypothèse H0 , on calcule la statistique de c 2 :
k ( f oi fti )2
c 2c = Â (8.16)
i=1 f ti
c 2 c doit être comparée avec c 2 a qui peut être obtenue par la table de c 2 en fonction de
n = k 1 (k est le nombre de classes étudiées).
Décision
H1 c2 H0 Décision
biilatérale c 2c < c 2a accepée Les distributions ne sont pas significativement
différentes
biilatérale c 2c c 2a rejetée Les distributions sont significativement
différentes
foi j ( fti j ) sont respectivement les effectifs observés (les effectifs théoriques) de la classe
(modalité du caractère) (i) de l’échantillon ( j).
Tous les effectifs théoriques doivent être supérieurs ou égaux à 5 pour pouvoir appliquer
la loi de c 2 .
Calcul
Pour décider si on accepte ou on rejette l’hypothèse H0 au risque de (a = 5%), on
calcule c 2 c :
k c ( f oi j fti j )2
c 2c = Â Â (8.17)
i=1 j=1 fti j
c 2 c doit être comparée avec c 2 a qui peut être obtenue par la table de c 2 à l’aide du nombre
de degrés de liberté : dll = (c 1)(k 1) (k est le nombre de classes étudiées, c est le
nombre d’échantillon).
Décision
H1 c2 H0 Décision
biilatérale c 2c < c 2a accepée Les pourcentage (les distributions) ne sont pas
significativement différentes
biilatérale c 2c c 2a rejetée Les pourcentage (les distributions) sont
significativement différentes