Vous êtes sur la page 1sur 55

Statistique inférentielle:

Introduction à l’usage des Tests


statistiques

Pr Ndziessi G.

JUIN 2023
Démarche et applications des tests statistiques

• Un test statistique est une procédure qui permet,


avec un risque d’erreur connu, d’effectuer un
choix entre deux hypothèses complémentaires ou
alternatives (Ho et H1) au vu des observations
réalisées sur un échantillon.
Démarche logique des tests
• TS réalisé dans le cadre d’un travail scientifique.
• Bâtir des hypothèses sur des faits observés, les
tester, et selon les résultats, les accepter ou les
rejeter.
• TS a un sens si hypothèse préalablement posée
afin de répondre à une question.
• Les tests statistiques de la théorie des
probabilités et doivent ainsi respecter les
conditions strictes d’application.
Démarche logique des tests statistiques
L’objet du test des de comparer les populations

• 1er cas : comparer un échantillon observé à une


population théorique : la distribution de la
Population dont est issue l’échantillon est-elle
identique à la distribution théorique ?

• 2e cas : comparer 2 ou plusieurs échantillons


entre eux : les distributions des populations dont
sont issues les échantillons sont identiques ou
différentes ?
Types de tests statistiques
Types de tests Objet du test Situation
d’utilisation des
tests

En statistique 1. soit par des Tests comparaison test de


descriptive, une paramètres qui paramétriques des comparaison
série de résument la paramètres
données peut distribution : Tests de liaison
être résumée de moyenne,
deux façons : pourcentage,
variance,

2. soit par la Test de rangs Comparaison


distribution des des
effectifs : tableaux, distributions
diagrammes.
Différentes étapes de réalisation d’un test statistique
1. Formulation des hypothèses
– Hypothèse H0 (hypothèse nulle de similitude)
– hypothèse H1 (hypothèse alternative)
2. Choix du risque (risque de première espèce : risque de rejet à tort
Ho)
3. Choix du test statistique (en fonction des données à étudier)
4. Déterminer la zone de rejet Ho (région critique)
5. Calcul de la statistique de test à partir des observations
(déterminer ce que devraient être les observations si H0 est vraie)
6. confronter la valeur de la statistique calculée à la valeur de la
statistique lue sur la table statistique
7. conclure au rejet ou non rejet de l’hypothèse nulle selon que la
valeur de la statistique calculée appartient ou non à la zone de rejet
de Ho
8. calculer le degré de signification « P » du test
Différentes étapes de réalisation d’un test statistique

Formulation des hypothèses


• Le principe général d’un test est de conclure si la
différence que l’on observe est du au hasard ou il
est peu probable que la différence observée soit
le fait du hasard.

• La formulation des hypothèses Ho et H1 est la


traduction statistique du problème à résoudre.
Risque d’erreur
Puisque la décision du test est fondée sur des observations sur
des échantillons, cela comporte des risques

Réalité Conclusion du test

Rejet de Ho Non rejet de Ho

Ho est vraie α 1- α

H1 est vraie 1- β β
Degré de signification p
• La règle de décision du test permet de dire si on rejette
ou on accepte Ho. Il manque cependant de donner un
poids à la conclusion retenue.

• P est la limite du risque pris en rejetant Ho au risque α.


P est donc la probabilité d’observer la valeur calculée du
test à partir des échantillons, quand on conclut à une
différence (rejet de Ho) entre deux paramètres ou à un
lien entre deux variables.
• On conclut au rejet de Ho si p est plus petit que le risque :
p<0,005 ( différence ou lien statistiquement significative)
Caractéristiques des échantillons
• Deux échantillons E1 et E2 sont dit appariés lorsque
chaque valeur x1,i de E1 est associée à une valeur x2,i
de E2 (appariés = associés par paire : variables
dépendantes). Par exemple E1 peut être un groupe de
malades avant traitement et E2 le groupe des mêmes
malades après traitement
• Si les valeurs d'un échantillon influencent les valeurs de
l'autre, les échantillons sont dépendants.
• Si les valeurs d'un échantillon n'apportent aucune
information concernant celles de l'autre, les
échantillons sont indépendants.
1. Test Z comparer une moyenne observée à une
moyenne théorique : test de conformité
Si grands échantillons (n>30)
Soit une population P, et une variable X de moyenne  et d' écart - type  .
Soit o : moyenne de référence dans la population. Ex : une norme

Etape 1 :
Ho :  = o (hypothèse nulle)
H1 :   o (hypothèse alternative, bilatérale)

X− 
TCL : suit N(0,1)

n

x − o
Etape 2 : sous Ho, la variable aléatoire u= suit N(0,1) (valeur prise par U sur échantillon, une réalisation de U)
s
n
Etape 3 : région critique
(Chercher u tel que : p(IuI≥ u )=  )

- u u
Zone de rejet de Ho Zone de rejet de Ho

Etape 4 : règle de décision


Si u calculé se trouve dans l’intervalle de [- u ; u ], non rejet de Ho :  et o ne différent pas significativement
Si u calculé ne se trouve pas dans l’intervalle de - u ; u , rejet de Ho :   o avec un risque 
o

x

1. Test Z comparer une moyenne observée à une


moyenne théorique : test de conformité

Exercice 1 : spécification d’un médicament

Un certain médicament doit contenir =2,5 g de substance


active (Norme).on prélève un échantillon de 100 comprimés
sur la chaine de production. On trouve que la moyenne de
la substance active est de =2,6 g, écart-type s=0,4 g.
On voudrait savoir si le médicament respecte t-il la norme ?
(on considère α=5% ).
1. Test Z comparer une moyenne observée à une
moyenne théorique : test de conformité
Résultats

Il s’agit du test de conformité à o =2,5 g.


n=100  (n>30)

Hypothèses
Ho :  = o (hypothèse nulle)
H1 :   o (hypothèse alternative, bilatérale)

X − o
Sous Ho, suit N(0,1)
s
n
Calcul de la statistique du test.

x − o 2,6 - 2,5
u= = = 2,5
s 0,4
n 100
Calcul de U sur la table statistique :  = 5%  U = 1,96

Région de rejet de Ho

-1,96 +1,96
Zone de rejet de Ho Zone de rejet de Ho
Décision
La valeur U calculée ne se trouve pas dans l’intervalle de [- u ; u ]. Donc rejet de Ho : le médicament ne respecte
pas les spécificités (la norme), au risque de 5%.
2. Test T pour comparer une moyenne observée à
une moyenne théorique
Si petits échantillons : n30

Etape 1 :
Ho :  = o (hypothèse nulle)
H1 :   o (hypothèse alternative, bilatérale)
H1 :  > o (hypothèse alternative, unilatérale)
H1 :  < o (hypothèse alternative, unilatérale)

X−
TCL : suit N(0,1)

n

x − o
Etape 2 : sous Ho, la variable aléatoire T= suit Tn - 1; (loi de studdent à n - 1 degré de liberté (ddl)
s
n

x − o
On pratique t = (valeur prise par T sur échantillon, une réalisation de T)
s
n
Etape 3 : région critique
(Chercher t  tel que : p(IuI≥ t )=  ). t est donnée par la table de Student
 
2 2

- t t
Zone de rejet de Ho Zone de rejet de Ho

Etape 4 : règle de décision


Si t calculé se trouve dans l’intervalle de [- t ; t ], non rejet de Ho :  et o ne différent pas significativement
Si t calculé ne se trouve pas dans l’intervalle de - t ; t , rejet de Ho :   o avec un risque 
 = 5%

2. Test T pour comparer une moyenne observée à


une moyenne théorique

Exercice : effet d’un médicament


Le poids (kg) des femmes après prise d’un traitement: 83, 81, 84,
80, 85.
Une étude précédente sur un grand nombre de femmes hors ce
traitement avait montré que le poids moyen était de 87,6 kg.
Le poids des femmes traitées est –il significativement différents
de cette valeur de référence ?
(on considère α=5% ).
2. Test T pour comparer une moyenne observée à
une moyenne théorique
Résultats

Il s’agit du test de conformité à o =87,6 kg


n=5  (n<30) (petit échantillon)
Hypothèses
Ho :  = o =87,6
H1 :   o

X−
Sous Ho, T= suit une loi de Tn - 1

n
Calcul de la statistique du test.

x − o 82,6 − 87,6
t= = = -5,39
s 2,07
n 5

Calcul de t sur la table statistique :  = 5%  t ( 4;0,05) = 2,77

Région de rejet de Ho

-2,77 +2,77
Zone de rejet de Ho Zone de rejet de Ho
Décision
La valeur t calculée ne se trouve pas dans l’intervalle de [-2,77 ; 2,77]. Donc rejet de Ho :  diffère significativement de
o . Le médicament a un effet sur le poids, au risque de 5%.
3. Comparaison d’une moyenne observée à une
moyenne observée: test d'homogénéité
Soit deux populations P1 ( 1,  1) et P2 (  2,  2) . On veut comparer si 1 =  2. dans ce cas,
on prélève deux échantillons.
_
E1, de taille n1 avec x1 et s1 (échantill on tiré de P1)
_
E2, de taille n 2 avec x2 et s2 (échantill on tiré de P2)

Question : sur la base des deux échantillons, peut-on dire que les moyennes  1 et  2
sont significativement différentes ?
3. Test Z: Cas des grands échantillons (n1>30, n2>30)
TCL
_ 1
x1 suit N ( 1 , )
n1 _ _  12  2 2
_ 2  X 1− X 2 suit N(1 -  2 ; +
x2 suit N (  2 , ) n1 n2
n1
X1− X 2 1 −  2
suit N ( ; 1) )
1  2 1  2
2 2
+ +
n1 n 2 n1 n2
_ _
X 1− X 2
Sous Ho ( 1 =  2  1 −  2 = 0 ). Donc : U = suit une N(0,1) .
1  2
2 2

+
n1 n2
_ _
x 1− x 2
Sur les deux échantillons, U =
s1 2 s 2 2
+
n1 n 2
Pour α donné, on cherche, p=P(IuI≥ u )= α
3. Test Z: Cas des grands échantillons (n1>30, n2>30)
Exercice : Poids des pommes.
_
100 pommes en début de récolte : x1 =170,7 cg ; s1 2 = 432 ,9 cg

_
150 pommes en fin de récolte : x 2 =168,5 cg ; s 2 2 = 182 ,7 cg

_ _ _ _
X 1− X 2 x1− x 2
Sous Ho : U = suit une N(0,1) . Sur les deux échantillons : U = = −13,88
1  22 2 2
s1 s 2 2

+ +
n1 n 2 n1 n 2

_ _
α=0,05,  U0, 05=1,96<I-13,88I. Conclusion : différence significative entre x1 et x 2
4. Test T de Student : (si au moins un échantillon < 30)
_ _
x 1− x 2
t= suit une loi T de Student lorsque les effectifs sont faibles
2 2
s s
+
n1 n 2

(n1 − 1) s12 + ( n 2 − 1) s 2
Variance commune aux échantillons : s = 2
n1 + n 2 − 2

s2 s2
L' ecart - type de la différence 1 -  2 est : sd = +
n1 n 2

ddl = n1 + n2 − 2
si t  t5% : Non rejet de Ho. donc les deux moyennes ne sont pas différente s
si t  t5% : rejet de Ho. donc les deux moyennes différent significat ivement
4. Test T de Student : (si au moins un échantillon < 30)

Exemple : mesure d’un marqueur biologique sur deux échantillons non appariés

Effectifs (n) Moyenne du marqueur Ecart-type


Sujets sains 15 1,6 0,19
Sujets alcooliques 12 1,4 0,21

Ho : la valeur moyenne du marqueur est identique dans les deux groupes


H1 : la valeur moyenne du marqueur est différente chez les sujets atteints d’hépatite alcoolique.
(15 − 1)0,19 2 + (12 − 1)0,212 0,04 0,04
s =
2
= 0,04; sd = + = 0,077
15 + 12 − 2 15 12
1,6 − 1,4
t= = 2,60 ; ddl = 15 + 12 - 2 = 25  t5% = 2,06
0,077
On a : t  t5%, donc on rejette Ho. les deux moyennes différent significat ivement
5. Pourcentage observé à une fréquence théorique
Soit une Population P.
A= un caractère qualitatif (ex. maladie,…)
π : une proportion théorique de A dans P (π est inconnu)
πo : proportion de référence.
On prélève un échantillon E de taille n et de proportion f (proportions de A dans E)

On veut comparer π et πo sur la base de l’échantillon E.


Etape 1 : Hypothèse
Ho : π = πo
H1 : π  πo (test bilatéral)
H1 : π > πo (test unilatéral)
H1 : π< πo
X est la variable aléatoire « nombre d’individus de E présentant la caractéristique A. il y a donc une
répétition de prélèvement de Bernoulli.
Donc :
X ~ в(nπ) ; p(x=k)= C nk  k (1 −  )n − k
Si les conditions suivantes sont remplies :
n≥30,
nπ≥5,
n(1-π) ≥5

Alors : X ~ N( n , n (1 −  ) )
X − n
D’après le TCL : si X ~ N( n , n (1 −  ) )  ~ N(0,1).
n (1 −  )

X
Considérant F= : proportion théorique d’individu de E présentant le caractère A.
n
X
−
 n ~ N(0,1)
n (1 −  )
n
F −
 la statistique du Test : ~ N(0,1)
 (1 −  )
n
F − o
Donc Ho : π = πo, on a : ~ N(0,1)
o (1 − o )
n
f − o
 u = est la réalisation de U sur l’échantillon.
o (1 − o )
n
Pour un risque α donné, on cherche uα tel que P(IUI≥uα)=α

Règle de décision
Si IuI ϵ [ -Uα, Uα], non rejet de Ho
Si IuI ≥ [-Uα, Uα], rejet de Ho : différence significative entre π et πo
5. Pourcentage observé à une fréquence théorique
Exercice
• 15% de Rh- dans la population d’un pays
(Population de référence).
• Soit la population d’un département.
• On tire un échantillon de 200 personnes du
département, on obtient 44 personnes Rh-
• Peut-on dire que les populations du
département sont différentes du reste de la
population du pays au risque de 5%.
5. Pourcentage observé à une fréquence théorique
Réponse :

i. π = πo.
π  πo.

On a :

πo =0,15

44
 est estimée par : f = = 0,22
200

ii. Calcul de la statistique du test :


• Vérification des conditions du TCL

n=200≥30
nπ=200*0,15≥5
n(1-π)=200(1-0,15) ≥5
f − o 0,22 − 0,15
u= = = 2,77 (on peut appeler cela U calculé)
o(1 − o ) 0,15(1 − 1,5)

n 200

iii. On détermine U lu : U0, 05=1,96 (il y a 5 chance sur 100 pour que U soit supérieur à 1,96)

iv. Conclusion : IUI> U0, 05  Rejet de H0. Donc, il y a une différence significative entre la
proportion des Rh- chez les populations de la région X et la proportion des Rh- chez les
autres habitants du pays X.
Réponse :

i. π = πo.
π  πo.

On a :

πo =0,15

44
 est estimée par : f = = 0,22
200

ii. Calcul de la statistique du test :


• Vérification des conditions du TCL

n=200≥30
nπ=200*0,15≥5
n(1-π)=200(1-0,15) ≥5
f − o 0,22 − 0,15
u= = = 2,77 (on peut appeler cela U calculé)
o(1 − o ) 0,15(1 − 1,5)

n 200

iii. On détermine U lu : U0, 05=1,96 (il y a 5 chance sur 100 pour que U soit supérieur à 1,96)

iv. Conclusion : IUI> U0, 05  Rejet de H0. Donc, il y a une différence significative entre la
proportion des Rh- chez les populations de la région X et la proportion des Rh- chez les
autres habitants du pays X.
6. Comparaison de deux pourcentage observés sur échantillons
indépendants

• Si l’on veut juste comparer deux pourcentages


entre eux (variable binaire), on utilise le test de
à 4 cases
Ho: les % des deux populations d’où sont issus les
échantillons sont identiques
H1: les % des deux populations d’où sont issus les
échantillons sont différents
6. Comparaison de deux pourcentage observés sur échantillons
indépendants
Echantillon 1 Echantillon 2
Caractère + a b t1
Caractère - c d t2
Total n1 n2 N
% P1=a/n1 P2=b/n2 T

Test  2 à 4 cases

Conditions d’application : n1t1/N, n1t2/N, n2t1/N, n2t2/N doivent être ≥5

N (ad − bc)
Calcul du test :  2 =
n1. n2 .t1 .t2

Si on considère α=5% alors ddl=1,  2 lu = 3,84 ( lu sur la tble du khi - deux)

Conclusion :  2 <3,84, non rejet de HO Donc P1 ne diffère pas de


significativement de P2.
 2 ≥3,84, rejet de HO Donc P1 diffère significativement de P2.
6. Comparaison de deux pourcentage observés sur échantillons indépendants
Exercice: Risque de complications après traitement pour fracture en fonction de
l’existence d’une ouverture cutanée sur une série de 165 cas opérés dans un
service de chirurgie
Facture ouverte complications Absence de Total % des
complication complications
Oui a=23 B=113 136 16,9%
Non c=10 D=19 29 34,5%
Total 33 132 165

* * Ho: la fréquence des complications est identique qu’il ait ou non une fracture
ouverte f1=f2
** H1: f1 différente de f2
On vérifie que l’effectif théorique le plus petit > 5: 33 x 29/165 est > 5

N ( ad − bc) 2 ( 23 *19 − 113 *10) 2


**  = 2
= 165 = 4,6
n1. n2 .t1 .t2 33 *132 *136 * 29

* * On rejette Ho : Khi - deux obs  3,84


Conclusion : la frequence des complications post opératoire est significtivement
plus elevée chez les sujets presentant une fracture ouverte
Test d’indépendance entre deux variables

▪ Test du khi-deux d’indépendance de deux


caractères de PEARSON
▪ Test du khi-deux de YATES
▪ Test du khi-deux de FISCHER
Test du khi-deux d’indépendance de deux caractères
▪ choix entre deux hypothèses:
▪ H0= les deux variables A et B sont indépendantes
▪ H1 : les deux variables A et B ne sont pas indépendantes
▪ on calcul les effectifs théoriques que l’on aurait en cas
d’indépendance des 2 variables (à savoir sous H0) et on les compare
aux effectifs observés 2

nij obs −nij th 
* Statistique du test :  obs = 
2 
nij th
• ddl=(l-1)(C-1) au risque α donnée

( cas du tableau 2x2: ddl (2-1)(2-1)=1 et α=5%


  lu 2 = 3,84 ( lu sur la table du Khi 2 de Pearson)
* Conclusion : obs 2   lu 2 : on rejette H0
Test du khi-deux d’indépendance de deux caractères

Exercice
M+ M- T M+ M- T
Exp+ 10 3 13 Exp+ 13 x 12/30=5,2 7,8 13
Exp - 2 15 17 Exp - 6,8 10,2 17
12 18 30 12 18 30

(10 − 5, 2 )2 ( 2 − 7 , 8 )2 ( 2 − 6 , 8 )2 (15−10 , 2 )2
* *  obs
2
= + + + = 13, 03
5, 2 7 ,8 6,8 10 , 2

ddl = ( 2 − 1)( 2 − 1) = 1 degré de liberté

** Au risque alpha =5%, lu =3,84


2 2
* * Comme  obs   lu ; on rejette l' hypothèse d' independance des

deux variables avec (un risque de se tromper) risque alpha de 5%.


Test du  2d ' independance avec correction de Yates

•Sur tableau 2 x2
•Lorsqu’au moins un effectifs théoriques <5
•Lorsque tous les effectifs théoriques > 2,5.

Hypothèses: idem

statistique du test :  2 obs =


( nobs − nth − 0,5)

nth
ddl = 1
conclusion : idem
Test exact de FISHER

•Sur tableau 2 x2
•Lorsqu’au moins un effectifs théoriques <5
•Lorsque tous les effectifs théoriques > 2,5.

Hypothèses: idem

statistique du test :  2 obs =


( nobs − nth − 0,5)

nth
ddl = 1
conclusion : idem
TEST EXACT DE FISHER obésite liée à l' âge?

Sur un tableau 2x2


Conditions du Khi-deux de YATES non remplies
Situation frequente en epidemiologie ( faible effectif dans une case)

age normal obese total


<50 ans 77 8 85 w
sup 50 ans 24 1 25 x
total 101 9
y z

1. calculer les p1 0,09 on a : P1-P2=0,054, soit un écart de 0,054


proportions p2 0,04

2. H1: OBESITE PLUS FREQUENTE CHEZ LES MOINS DE 50 ANS

3. probabilite associé au tableau 2 x 2 dont les marges sont WXYZ,?

age normal obese


<50 ans 77 8 85 w
sup 50 ans 24 1 25 x
101 9
y z

P(77, 8,24,1)= (85)!(25)!(101)!(9)!/(77)!(8)!(24)!(1)!=0,259


: Ho: pas de liaison entre age et obesité
H1: Obésite plus frquente chez les moins de 50ans
On calcul la poba et ecart de chaqe configuration
4) tableaux possibles de meme marges
76 9 proba Ecart p1 et p2 81 4 Ecart p1 et p2
25 0 p=0,0866 0,106 20 5 p=0,0232 -0,153

77 8 82 3
24 1 p=0,2591 0,054 19 6 p=0,0038 -0,205

78 7 83 2
23 2 p=0,3189 0,002 18 7 p=0,0004 -0,256

79 6 84 1
22 3 p=0,2166 -0,049 17 8 p=0,00002 -0,308

80 5 85 0 -0,36
21 4 p=0,0894 -0,101 16 9 p=0

* on a les tableaux 1 et 2 avec des ecart s sup ou egal à 0,054

5) On determine la p-value=somme des probablités des configurations en bleu


p= 0,0886+0,259
p= 0,348

6) la prob d'observer une diffrence aumoins sup est 34,8% trop largement >5%
Ce qui veut dire le risque encouru est troprand.
Les diffrences observées sont dues au hasard: la proportion d'obese ne peut etre consideres comme superieure chez les moins de 50 ans
TEST DE COMPARAISON DE POUCENTAGES SUR DEUX
ECHANTILLONS APPARIES

▪ Test du 𝛘𝟐 de MAC NEMAR pour


séries appariés
✓ Sur un tableau 2 x2
✓ Comparaison de % sur 2 échantillons
appariés
Démarche du test
• Comparaison de 2 techniques biologiques dans le diagnostic d’un kyste.
• On travaille sur les paires discordantes (2 tests en désaccord)
→ Tableau 1 des résultats

Présentation équivalente
Echantillon 1

+ -

Echantillon 2 + e f *

- g * h
• H0 : les deux échantillons donnent des résultats semblables

• Effectifs théoriques sous H0 : autant de paires discordantes (*) +/-


𝑓+𝑔
que -/+ : c'est-à-dire f=g= moitié des paires discordantes = 2

𝑓+𝑔 2 𝑓+𝑔 2
𝑓− 2 + 𝑓− 2 𝑓−𝑔 2 𝑔−𝑓 2 𝑓−𝑔 2
𝑓+𝑔 𝑓+𝑔
+ 2 𝑓−𝑔 2
2
𝛘 𝑜𝑏𝑠= 2 2 = 2 2 2
= 𝑓+𝑔 =
𝑓+𝑔 𝑓+𝑔 𝑓+𝑔
2 2 2
𝑓−𝑔 2
𝛘2 𝑜𝑏𝑠 = 𝑓 + 𝑔

Correction de YATES si effectif théorique


/𝑓−𝑔 Τ−1 2
𝛘2 𝑜𝑏𝑠 = 𝑓+𝑔
≤ 5 𝑑𝑜𝑛𝑐 𝑓 + 𝑔 ≤ 10
𝑓+𝑔 2

La variable aléatoire associé suit une loi du Khi- 2 à 1 degré liberté (voir test
classique).
Exemple :
Comparaison de 2 techniques biologiques dans le diagnostic
d’un kyste.
On a 56 malades testés pour les 2 techniques.
Les résultats sont présentés dans le tableau 1 ci-dessous :
Résultat Résultat Nombre

TEST 1 TEST 2 de malades

+ + 43

- + 2

+ - 10

- - 1

Déroulement du test :

TEST 1 : 3 erreurs

TEST 2 : 11 erreurs

Se (Test1)=53/56=94,3% ; Se (Test 2)=45/56=77,1%

Test 1 a priori plus sensible que test 2.

* Comparaison des 2 tests : on regarde les paires discordantes (2 tests en


désaccord)
Conditions du test : 𝑓 + 𝑔 = 12 > 10

𝑥2 𝑓−𝑔 2 10−2 2
𝑜𝑏𝑠= = =5,33
𝑓 +𝑔 10+2

𝛘2 𝑙𝑢=3,84 (𝑎𝑢 𝑟𝑖𝑠𝑞𝑢𝑒 5%)

Conclusion:
𝛘2 𝑜𝑏𝑠 > 𝜒2 . Donc rejet de 𝐻0 : les deux tests biologiques sont
significativement différents. Le test 1 est plus sensible que le test
2.
ANALYSE DE LA VARIANCE: TEST d’ANOVA
à un facteur
Pourquoi analyser la variance ?
• Etudier le lien entre les données quantitatives et les modalités de
la variable qualitative
• Comparer les moyennes de l'endogène pour chaque modalité
des facteurs
• Etudier l'effet de ces facteurs sur la variable réponse

L’analyse de variance à un facteur teste


l’effet d’un facteur contrôlé A ayant p
modalités sur les moyennes d’une variable
quantitative Y.
ANALYSE DE LA VARIANCE: TEST d’ANOVA
à un facteur
Conditions pour l’utilisation de test de l’ANOVA:
1. Les p échantillons comparés sont indépendants.

2. La variable quantitative étudiée suit une loi


normale dans les p populations comparées.

3. Les p populations comparées ont même variance :


Homogénéité des variances ou homoscédasticité.
Conditions préalables
• 1. Indépendance :
• Pas de test statistique simple pour étudier
l’indépendance.
• Les conditions de l’expérience choisie nous
déterminent si nous sommes dans le cas de
l’indépendance.
• Exemple => Les ethnies sont indépendantes.
• Normalité :
• Test de Shapiro-Wilk sur l’ensemble des
résidus
• (H0) : les résidus suivent une loi normale
• (H1) : les résidus ne suivent pas une loi
normale
• Statistique de test :

x(i) correspond à la série des données triées, et ai sont des constantes fournies

par des tables spécifiques.


▪ Décision : On rejette H0 si W <Wcrit* .
*valeurs pour risque donné lues sur table de Shapiro-Wilk.
Homogénéité
Test de Bartlett : Comparaison des plusieurs variances
▪ Comparaison multiple de variances
(H0) : ²1 ²2 ... ² I

(H1) : les ²I ne sont pas toutes égales

I
1
▪ Statistique de test : Bobs [(n 1) ln(s² R ) (ni 1) ln(s² c,i )]
C i 1
1
avec C 1 (( I
1 ) 1 )
3(I 1)
i 1 ni 1 n 1

et Bobs suit une loi du Khi-Deux à I-1 ddl.

▪ Décision : Si Bobs < c → (H0) vrai donc


homogénéité des variances
Normalité et homogénéité:
Interprétation des résultats des tets
Exemple
Retour à l’exemple :
▪ Normalité (Shapiro) : nombre d'observations trop faible pour tester sur
chaque forêt donc on va tester sur tout l'échantillon.
Test de Shapiro-Wilk
W=0.9748 P-value=0.882
p-value = 0.882 > 0.05 donc on accepte H0 => normalité.

▪ Homogénéité (Bartlett) : nombre d'observations trop faible pour tester


sur chaque forêt donc on va tester sur tout l'échantillon.
Test de Bartlett
B=2.8279 Df=2 P-value= 0.2432
p-value = 0.2432 donc on accepte H0 => homogénéité des variances
Exemple 1
Le poids des individus dans 3 ethnies est donné
dans le tableau ci-dessous
ethinie 1 ethnie 2 ethnie 3
18 51 24
13 31 29
41 42 23
62 59 11
32 47 32
34 28
27

La question est celle de savoir si le poids différence d’une


ethnie à une autre et si cela est le fait du hasard.
Pour cela on utilise l’analyse de la variance ou ANOVA (en
anglais)
Exemple 1
• Hypothèses
• - H0 : Les données n’ont pas un lien avec l’ethnie
• - H1 : Les données ont un lien avec l’ethnie

1. Statistique du test :
SCEint
𝐹 = ddl1
SCEintra
ddl2
avec : SCEint=∑ni (mi -𝑌̅)2

SCEintra=∑(y i-mi )2

ddl1= n-1 ; n ici est le nombre total des observations du tableau


ddl 2= n-K ; k ici est le nombre des catégorie de la variable qualitative
Exemple 1
• Hypothèses
• - H0 : Les données n’ont pas un lien avec l’ethnie
• - H1 : Les données ont un lien avec l’ethnie
1) CALCULE DE SCE int SCEint=∑ni(mi-𝑌)2

ethinie 1 ethnie 2 ethnie 3


18 51 24
23 31 29
41 42 23
62 59 11
32 47 32
34 28
27
Nombre d'elements 6 5 7
moyenne 35,0 46,00 24,86
moyenne total 35,30
Exemple 1
calcul de SCEinterclasse
ethinie 1 ethnie 2 ethnie 3
CEint 0,49 573,98 761,29 1 335,76 SCEint= SCEint=∑ni(mi-𝑌)2

SCEintra=∑(yi-mi)2
2. calcul de SCEintraclasse
ethinie 1 ethnie 2 ethnie 3
289,0 25,0 0,7 (yi-mi)²
144,0 225,0 17,2
36,0 16,0 3,4
Ceintra=valeur de chaque 729,0 169,0 192,0
observation moins la 9,0 1,0 51,0
moyenne associée a la 1,0 9,9
classe 4,6
∑(yi-mi)² 1208,0 436,0 278,9 1922,9 SCEintra SCEintra=∑(yi-mi)2
On clacul la statistique du test . La lettre assocé au test est F

Satistique du test
𝑖𝑛
𝐹= 𝑑𝑑1 >>>>
𝑖𝑛 𝑟𝑎
𝑑𝑑𝑙2
SCEint= 1 335,76
SCEintra= 1922,9

ddl1:=K-1=3-1=2 avec 3 nombre de modalités de la variable


ddl1:=n-k=18-3=15 avec n nombre total des observations de toutes les modalités de la variable

1 5
2
𝐹 = 1 22 = 5 21
15
Exemple 1
• Valeur Flu : ddl1=2 et ddl2=15, a vec α=5%,
la tableau de Fischer SINEDECOR nous
donnent F €[ 3,49 ; 4,10]

• Conclusion :
• FCal >Flu : rejet H0.
• Alors, H1 est vraie : il Ya un lien entre le poids et
l’ethnie
Exemple 1
• Quelle est la part de contribution de l’ethnie dans la
variation du poids ?
Pour répondre a cette question, on mesure l’intensité qui est
le rapport entre SCEint/SCEtotal
Pour cela, on mesure l’intensité qui est le rapport entre SCEint/SCEtotal
SCEtotal=SCEint+SCintra
i𝑛
i𝑛 𝑒𝑛𝑠i é =
𝑜 𝑎𝑙

1353,76
𝐼𝑛 𝑒𝑛𝑠i é = = 0,40
3 258,61

Ce qui veut dire que l’ethnie explique à 40% la variabilité du poids


et 60% reste inexpliqués.
Test de rangs

Vous aimerez peut-être aussi