Académique Documents
Professionnel Documents
Culture Documents
Pr Ndziessi G.
JUIN 2023
Démarche et applications des tests statistiques
Ho est vraie α 1- α
H1 est vraie 1- β β
Degré de signification p
• La règle de décision du test permet de dire si on rejette
ou on accepte Ho. Il manque cependant de donner un
poids à la conclusion retenue.
Etape 1 :
Ho : = o (hypothèse nulle)
H1 : o (hypothèse alternative, bilatérale)
−
X−
TCL : suit N(0,1)
n
−
x − o
Etape 2 : sous Ho, la variable aléatoire u= suit N(0,1) (valeur prise par U sur échantillon, une réalisation de U)
s
n
Etape 3 : région critique
(Chercher u tel que : p(IuI≥ u )= )
- u u
Zone de rejet de Ho Zone de rejet de Ho
Hypothèses
Ho : = o (hypothèse nulle)
H1 : o (hypothèse alternative, bilatérale)
−
X − o
Sous Ho, suit N(0,1)
s
n
Calcul de la statistique du test.
−
x − o 2,6 - 2,5
u= = = 2,5
s 0,4
n 100
Calcul de U sur la table statistique : = 5% U = 1,96
Région de rejet de Ho
-1,96 +1,96
Zone de rejet de Ho Zone de rejet de Ho
Décision
La valeur U calculée ne se trouve pas dans l’intervalle de [- u ; u ]. Donc rejet de Ho : le médicament ne respecte
pas les spécificités (la norme), au risque de 5%.
2. Test T pour comparer une moyenne observée à
une moyenne théorique
Si petits échantillons : n30
Etape 1 :
Ho : = o (hypothèse nulle)
H1 : o (hypothèse alternative, bilatérale)
H1 : > o (hypothèse alternative, unilatérale)
H1 : < o (hypothèse alternative, unilatérale)
−
X−
TCL : suit N(0,1)
n
−
x − o
Etape 2 : sous Ho, la variable aléatoire T= suit Tn - 1; (loi de studdent à n - 1 degré de liberté (ddl)
s
n
−
x − o
On pratique t = (valeur prise par T sur échantillon, une réalisation de T)
s
n
Etape 3 : région critique
(Chercher t tel que : p(IuI≥ t )= ). t est donnée par la table de Student
2 2
- t t
Zone de rejet de Ho Zone de rejet de Ho
Région de rejet de Ho
-2,77 +2,77
Zone de rejet de Ho Zone de rejet de Ho
Décision
La valeur t calculée ne se trouve pas dans l’intervalle de [-2,77 ; 2,77]. Donc rejet de Ho : diffère significativement de
o . Le médicament a un effet sur le poids, au risque de 5%.
3. Comparaison d’une moyenne observée à une
moyenne observée: test d'homogénéité
Soit deux populations P1 ( 1, 1) et P2 ( 2, 2) . On veut comparer si 1 = 2. dans ce cas,
on prélève deux échantillons.
_
E1, de taille n1 avec x1 et s1 (échantill on tiré de P1)
_
E2, de taille n 2 avec x2 et s2 (échantill on tiré de P2)
Question : sur la base des deux échantillons, peut-on dire que les moyennes 1 et 2
sont significativement différentes ?
3. Test Z: Cas des grands échantillons (n1>30, n2>30)
TCL
_ 1
x1 suit N ( 1 , )
n1 _ _ 12 2 2
_ 2 X 1− X 2 suit N(1 - 2 ; +
x2 suit N ( 2 , ) n1 n2
n1
X1− X 2 1 − 2
suit N ( ; 1) )
1 2 1 2
2 2
+ +
n1 n 2 n1 n2
_ _
X 1− X 2
Sous Ho ( 1 = 2 1 − 2 = 0 ). Donc : U = suit une N(0,1) .
1 2
2 2
+
n1 n2
_ _
x 1− x 2
Sur les deux échantillons, U =
s1 2 s 2 2
+
n1 n 2
Pour α donné, on cherche, p=P(IuI≥ u )= α
3. Test Z: Cas des grands échantillons (n1>30, n2>30)
Exercice : Poids des pommes.
_
100 pommes en début de récolte : x1 =170,7 cg ; s1 2 = 432 ,9 cg
_
150 pommes en fin de récolte : x 2 =168,5 cg ; s 2 2 = 182 ,7 cg
_ _ _ _
X 1− X 2 x1− x 2
Sous Ho : U = suit une N(0,1) . Sur les deux échantillons : U = = −13,88
1 22 2 2
s1 s 2 2
+ +
n1 n 2 n1 n 2
_ _
α=0,05, U0, 05=1,96<I-13,88I. Conclusion : différence significative entre x1 et x 2
4. Test T de Student : (si au moins un échantillon < 30)
_ _
x 1− x 2
t= suit une loi T de Student lorsque les effectifs sont faibles
2 2
s s
+
n1 n 2
(n1 − 1) s12 + ( n 2 − 1) s 2
Variance commune aux échantillons : s = 2
n1 + n 2 − 2
s2 s2
L' ecart - type de la différence 1 - 2 est : sd = +
n1 n 2
ddl = n1 + n2 − 2
si t t5% : Non rejet de Ho. donc les deux moyennes ne sont pas différente s
si t t5% : rejet de Ho. donc les deux moyennes différent significat ivement
4. Test T de Student : (si au moins un échantillon < 30)
Exemple : mesure d’un marqueur biologique sur deux échantillons non appariés
Alors : X ~ N( n , n (1 − ) )
X − n
D’après le TCL : si X ~ N( n , n (1 − ) ) ~ N(0,1).
n (1 − )
X
Considérant F= : proportion théorique d’individu de E présentant le caractère A.
n
X
−
n ~ N(0,1)
n (1 − )
n
F −
la statistique du Test : ~ N(0,1)
(1 − )
n
F − o
Donc Ho : π = πo, on a : ~ N(0,1)
o (1 − o )
n
f − o
u = est la réalisation de U sur l’échantillon.
o (1 − o )
n
Pour un risque α donné, on cherche uα tel que P(IUI≥uα)=α
Règle de décision
Si IuI ϵ [ -Uα, Uα], non rejet de Ho
Si IuI ≥ [-Uα, Uα], rejet de Ho : différence significative entre π et πo
5. Pourcentage observé à une fréquence théorique
Exercice
• 15% de Rh- dans la population d’un pays
(Population de référence).
• Soit la population d’un département.
• On tire un échantillon de 200 personnes du
département, on obtient 44 personnes Rh-
• Peut-on dire que les populations du
département sont différentes du reste de la
population du pays au risque de 5%.
5. Pourcentage observé à une fréquence théorique
Réponse :
i. π = πo.
π πo.
On a :
πo =0,15
44
est estimée par : f = = 0,22
200
n=200≥30
nπ=200*0,15≥5
n(1-π)=200(1-0,15) ≥5
f − o 0,22 − 0,15
u= = = 2,77 (on peut appeler cela U calculé)
o(1 − o ) 0,15(1 − 1,5)
n 200
iii. On détermine U lu : U0, 05=1,96 (il y a 5 chance sur 100 pour que U soit supérieur à 1,96)
iv. Conclusion : IUI> U0, 05 Rejet de H0. Donc, il y a une différence significative entre la
proportion des Rh- chez les populations de la région X et la proportion des Rh- chez les
autres habitants du pays X.
Réponse :
i. π = πo.
π πo.
On a :
πo =0,15
44
est estimée par : f = = 0,22
200
n=200≥30
nπ=200*0,15≥5
n(1-π)=200(1-0,15) ≥5
f − o 0,22 − 0,15
u= = = 2,77 (on peut appeler cela U calculé)
o(1 − o ) 0,15(1 − 1,5)
n 200
iii. On détermine U lu : U0, 05=1,96 (il y a 5 chance sur 100 pour que U soit supérieur à 1,96)
iv. Conclusion : IUI> U0, 05 Rejet de H0. Donc, il y a une différence significative entre la
proportion des Rh- chez les populations de la région X et la proportion des Rh- chez les
autres habitants du pays X.
6. Comparaison de deux pourcentage observés sur échantillons
indépendants
Test 2 à 4 cases
N (ad − bc)
Calcul du test : 2 =
n1. n2 .t1 .t2
* * Ho: la fréquence des complications est identique qu’il ait ou non une fracture
ouverte f1=f2
** H1: f1 différente de f2
On vérifie que l’effectif théorique le plus petit > 5: 33 x 29/165 est > 5
Exercice
M+ M- T M+ M- T
Exp+ 10 3 13 Exp+ 13 x 12/30=5,2 7,8 13
Exp - 2 15 17 Exp - 6,8 10,2 17
12 18 30 12 18 30
(10 − 5, 2 )2 ( 2 − 7 , 8 )2 ( 2 − 6 , 8 )2 (15−10 , 2 )2
* * obs
2
= + + + = 13, 03
5, 2 7 ,8 6,8 10 , 2
•Sur tableau 2 x2
•Lorsqu’au moins un effectifs théoriques <5
•Lorsque tous les effectifs théoriques > 2,5.
Hypothèses: idem
nth
ddl = 1
conclusion : idem
Test exact de FISHER
•Sur tableau 2 x2
•Lorsqu’au moins un effectifs théoriques <5
•Lorsque tous les effectifs théoriques > 2,5.
Hypothèses: idem
nth
ddl = 1
conclusion : idem
TEST EXACT DE FISHER obésite liée à l' âge?
77 8 82 3
24 1 p=0,2591 0,054 19 6 p=0,0038 -0,205
78 7 83 2
23 2 p=0,3189 0,002 18 7 p=0,0004 -0,256
79 6 84 1
22 3 p=0,2166 -0,049 17 8 p=0,00002 -0,308
80 5 85 0 -0,36
21 4 p=0,0894 -0,101 16 9 p=0
6) la prob d'observer une diffrence aumoins sup est 34,8% trop largement >5%
Ce qui veut dire le risque encouru est troprand.
Les diffrences observées sont dues au hasard: la proportion d'obese ne peut etre consideres comme superieure chez les moins de 50 ans
TEST DE COMPARAISON DE POUCENTAGES SUR DEUX
ECHANTILLONS APPARIES
Présentation équivalente
Echantillon 1
+ -
Echantillon 2 + e f *
- g * h
• H0 : les deux échantillons donnent des résultats semblables
𝑓+𝑔 2 𝑓+𝑔 2
𝑓− 2 + 𝑓− 2 𝑓−𝑔 2 𝑔−𝑓 2 𝑓−𝑔 2
𝑓+𝑔 𝑓+𝑔
+ 2 𝑓−𝑔 2
2
𝛘 𝑜𝑏𝑠= 2 2 = 2 2 2
= 𝑓+𝑔 =
𝑓+𝑔 𝑓+𝑔 𝑓+𝑔
2 2 2
𝑓−𝑔 2
𝛘2 𝑜𝑏𝑠 = 𝑓 + 𝑔
La variable aléatoire associé suit une loi du Khi- 2 à 1 degré liberté (voir test
classique).
Exemple :
Comparaison de 2 techniques biologiques dans le diagnostic
d’un kyste.
On a 56 malades testés pour les 2 techniques.
Les résultats sont présentés dans le tableau 1 ci-dessous :
Résultat Résultat Nombre
+ + 43
- + 2
+ - 10
- - 1
Déroulement du test :
TEST 1 : 3 erreurs
TEST 2 : 11 erreurs
𝑥2 𝑓−𝑔 2 10−2 2
𝑜𝑏𝑠= = =5,33
𝑓 +𝑔 10+2
Conclusion:
𝛘2 𝑜𝑏𝑠 > 𝜒2 . Donc rejet de 𝐻0 : les deux tests biologiques sont
significativement différents. Le test 1 est plus sensible que le test
2.
ANALYSE DE LA VARIANCE: TEST d’ANOVA
à un facteur
Pourquoi analyser la variance ?
• Etudier le lien entre les données quantitatives et les modalités de
la variable qualitative
• Comparer les moyennes de l'endogène pour chaque modalité
des facteurs
• Etudier l'effet de ces facteurs sur la variable réponse
x(i) correspond à la série des données triées, et ai sont des constantes fournies
I
1
▪ Statistique de test : Bobs [(n 1) ln(s² R ) (ni 1) ln(s² c,i )]
C i 1
1
avec C 1 (( I
1 ) 1 )
3(I 1)
i 1 ni 1 n 1
1. Statistique du test :
SCEint
𝐹 = ddl1
SCEintra
ddl2
avec : SCEint=∑ni (mi -𝑌̅)2
SCEintra=∑(y i-mi )2
SCEintra=∑(yi-mi)2
2. calcul de SCEintraclasse
ethinie 1 ethnie 2 ethnie 3
289,0 25,0 0,7 (yi-mi)²
144,0 225,0 17,2
36,0 16,0 3,4
Ceintra=valeur de chaque 729,0 169,0 192,0
observation moins la 9,0 1,0 51,0
moyenne associée a la 1,0 9,9
classe 4,6
∑(yi-mi)² 1208,0 436,0 278,9 1922,9 SCEintra SCEintra=∑(yi-mi)2
On clacul la statistique du test . La lettre assocé au test est F
Satistique du test
𝑖𝑛
𝐹= 𝑑𝑑1 >>>>
𝑖𝑛 𝑟𝑎
𝑑𝑑𝑙2
SCEint= 1 335,76
SCEintra= 1922,9
1 5
2
𝐹 = 1 22 = 5 21
15
Exemple 1
• Valeur Flu : ddl1=2 et ddl2=15, a vec α=5%,
la tableau de Fischer SINEDECOR nous
donnent F €[ 3,49 ; 4,10]
• Conclusion :
• FCal >Flu : rejet H0.
• Alors, H1 est vraie : il Ya un lien entre le poids et
l’ethnie
Exemple 1
• Quelle est la part de contribution de l’ethnie dans la
variation du poids ?
Pour répondre a cette question, on mesure l’intensité qui est
le rapport entre SCEint/SCEtotal
Pour cela, on mesure l’intensité qui est le rapport entre SCEint/SCEtotal
SCEtotal=SCEint+SCintra
i𝑛
i𝑛 𝑒𝑛𝑠i é =
𝑜 𝑎𝑙
1353,76
𝐼𝑛 𝑒𝑛𝑠i é = = 0,40
3 258,61