Vous êtes sur la page 1sur 40

Chap 3 : Tests statistiques et analyse de la

variance

Présenté par MBEKE Stanislas Kévin


mbekegabrielromain@yahoo.com
Université Dénis Sassou N’guesso
Faculté des sciences appliquées
Année académique 2020-2021.

+242056793200/+242066872856

S.K. MBEKE séries temporelles 1


Plan de l’exposé

1 Principes des tests ;


2 Test d’indépendance de deux variables qualitatives ;
3 Le test de comparaison de deux échantillons ;
4 L’analyse de la variance.

S.K. MBEKE séries temporelles 2


Définition d’une hypothèse statistique

Définitions
D1. Une hypothèse est un énoncé quantitatif sur les
caractéristiques d’une population.
D2. Un test d’hypothèse est un mécanisme qui permet de
trancher entre deux hypothèses : l’hypothèse nulle notée
H0 contre l’hypothèse alternative H1 au seuil d’un risque
α. Les hypothèses envisagées a priori s’appellent :

S.K. MBEKE séries temporelles 3


Définition d’une hypothèse statistique

Définitions
B L’hypothèse nulle H0 : C’est l’hypothèse selon laquelle on
fixe a priori la valeur d’un paramètre. On la considère vraie
au depart.
B L’hypothèse alternative H1 : On peut choisir pour cette
hypohèse n’importe quelle hypothèse compatible avec le
problème étudié, mais différente de H0.

S.K. MBEKE séries temporelles 4


Principe des tests

Test d’hypothèse
Dans un test, on peut commettre deux types d’erreurs
L’erreur de première espèce rejeter H0 alors que H0 est
vraie
L’erreur de deuxième espèce rejeter H1 alors que H1 est
vraie

S.K. MBEKE séries temporelles 5


Principe des tests

Risque α; risque β
Le risque, noté α, qui est le risque de rejeter à tort l’hypothèse
H0 alors qu’elle est vraie et qui favorise donc l’hypothèse H1
s’appelle seuil de signification ou risque de première
espèce.

α = P (rejeter H0/H0 vraie) = P (choisir H1/H0 vraie)

S.K. MBEKE séries temporelles 6


Principe des tests

Risque α; risque β
Ce risque α définit la région critique W , d’aire α et de
probabilité α, sous l’hypothèse H0. C’est l’ensemble des
valeurs de la variable aléatoire de décision qui conduisent à
écarter H0 au profit de H1. La région complémentaire, W ,
d’aire (1-α) et de probabilité (1-α), représente la région
d’acceptation de l’hypothèse H0.

S.K. MBEKE séries temporelles 7


Principe des tests

Risque α; risque β
Le risque, noté β ou risque de deuxième espèce, est le risque
de ne pas rejeter l’hypothèse H0 alors que H1 est vraie.

β = P ( ne pas rejeter H0/H1 vraie) = P (choisir H0/H1 vraie)


 
P W /H0 vraie = 1 − α

P (W/H1 vraie) = 1 − β

S.K. MBEKE séries temporelles 8


L’usage courant de la P-valeur
La décision d’accepter ou de refuser une hypothèse est sujette
au choix du risque de première espèce α
(α = 0, 1ou0, 05ou0, 01). Afin d’éviter ce choix on peut recourir,
et c’est ce que font les logiciels, à la notion de P-valeur pour
simplement rendre compte du résultat d’un test. La p-valeur est
comprise ente zéro et un.
 Si p − value < α, alors le test n’est pas significatif. Le
resultat est le fruit du hasard. (Le resultat n’est pas
concluant. )
 Si p − value > α, alors le test est significatif. Le resultat
n’est pas le fruit du hasard (le resultat est concluant. )

S.K. MBEKE séries temporelles 9


Remarques

Puissance d’un test


La probabilité α, est aussi appelée risque du client. En
revanche, la probabilité β,est aussi appelée risque du
fournisseur.
Les deux risques de première et deuxième espèces sont
antagonistes. (Si le risque α diminue, la zone de non-rejet
de l’hypothèse H0 augmente. Dans ces conditions, le
risque β augmente, donc la région de refus de l’hypothèse
H1 augmente).

S.K. MBEKE séries temporelles 10


Remarques

Puissance d’un test


La quantité (1-β) est la puissance du test à l’égard de la
valeur du paramètre figurant dans l’hypothèse H1. Elle
représente la probabilité d’accepter H1 alors que celle-ci
est vraie.

S.K. MBEKE séries temporelles 11


Quelques tests statistiques

Le test de conformité ou d’ajustement : conformité d’un


paramètre à une valeur standard donnée. Adéquation ou
ajustement entre une distribution théorique et une
distribution expérimentale.
Le test d’indépendance : l’existence ou non d’une
relation entre deux caractères au sein d’une population.
Le test de comparaison : comparaison de deux
échantillons.

S.K. MBEKE séries temporelles 12


Quelques tests statistiques

Les deux grandes familles sont les tests paramétriques ( qui


portent sur le paramètre de la distribution associée aux
données considérées) et les tests non paramétriques ( qui ne
font pas d’hypothèses sur ladite distribution).

S.K. MBEKE séries temporelles 13


II/ Test d’indépendance de deux variables qualitatives

Première étape : Mise en place du test


L’hypothèse nulle (H0 ) : les deux variables sont
indépendantes au seuil de risque α.
L’hypothèse alternative (H1 ) : les deux variables ne sont
pas indépendantes au seuil de risque α

NB : On rejette l’hypothèse H0 au profit de l’hypothèse H1 sans


conclure que l’hypothèse H0 est fausse, mais elle a une forte
probabilité de l’être, le test est significatif
Explication du mot significatif
Une difference par exemple est significative lorsqe le reultat
n’est pas dû au hasard.

S.K. MBEKE séries temporelles 14


Deuxième étape : Détermination et comparaison du
khi-deux tabulé c et du khi-deux calculé D.

Tableau de contingence des effectifs observés


(Échantillon) P
x \y y1 y2 y3
P3
x1 O11 O12 O13 O1j
Pj=1
3
x2 O21 O22 O23 j=1 O2j
P P2 P2 P2
i=1 Oi1 i=1 Oi2 i=1 Oi3 Total

S.K. MBEKE séries temporelles 15


Tableau de contingence des effectifs théoriques

Tableau de contingence des effectifs théoriques estimés


P
x \y y1 y2 y3
P3
x1 T11 T12 T13 O1j
Pj=1
3
x2 T21 T22 T23 j=1 O2j
P P2 P2 P2
i=1 Oi1 i=1 Oi2 i=1 Oi3 Total

P2 P3
i=1 Oi1 × j=1 O1j
T11 = (1)
T
P2 P3
i=1 Oi3 × j=1 O2j
T23 = (2)
T

S.K. MBEKE séries temporelles 16


Remarque

Tableau de contingence des effectifs théoriques


Le tableau de contingence des effectifs théoriques est obtenu à
partir du tableau de contingence des effectifs observés en
conservant les totaux marginaux et en supposant une situation
d’indépendance.

S.K. MBEKE séries temporelles 17


Le khi-deux calculé

Le khi-deux calculé
Oij Tij (Oij − Tij )2 (Oij − Tij )2 /Tij
O11 T11 (O11 − T11 )2 (O11 − T11 )2 /T11
O12 T12 (O12 − T12 )2 (O12 − T12 )2 /T12
O13 T13 (O13 − T13 )2 (O13 − T13 )2 /T13
O21 T21 (O21 − T21 )2 (O21 − T21 )2 /T21
O22 T22 (O22 − T22 )2 (O22 − T22 )2 /T22
O23 T23 (O23 − T23 )2 (O23 − T23 )2 /T23
P
Khi-deux cal. D=

S.K. MBEKE séries temporelles 18


Le khi-deux tabulé

Le khi-deux tabulé
Degré de liberté ν = (n − 1)(p − 1) où n est le nombre de
lignes et p le nombre de colonnes.
connaissant ν et le seuil de risque α ( le plus souvent 1 %, 5%
ou 10%) on détermine aisément c le khi-deux tabulé tel que

P(χ2 > c) = α (3)

S.K. MBEKE séries temporelles 19


Le khi-deux tabulé

Le khi-deux tabulé
Avec Excel
=LOI.KHIDEUX.INVERSE(1 − α ; ν) ou
=KHIDEUX.INVERSE(0,05;1)
Avec la table
1 − α en colonne et ν en ligne
Exemples
(α = 0, 05 ; ν = 1) alors c= 3,841
(α = 0, 02 ; ν = 4) alors c= 11,668. Uniquement par excel.

S.K. MBEKE séries temporelles 20


Troisième étape : Prise de décision

Troisième étape : Prise de décision


Si c > D, alors l’hypothèse nulle H0 est vraie, les deux
variables sont indépendantes au seuil de risque α
Si D > c, alors l’hypothèse alternative H1 est vraie, les
deux variables sont dépendantes au seuil de risque α

S.K. MBEKE séries temporelles 21


Condition pour appliquer le test d’indépendance

Condition pour appliquer le test d’indépendance


Pour appliquer le test de khi-deux ou le test d’indépendance il
faut que les effectifs théoriques estimés soient tous supérieurs
à 5.

S.K. MBEKE séries temporelles 22


Application

Exercice d’application
Le but de l’exercice est de vérifier s’il y a un lien entre le genre
et les résultats scolaires. On note alors, chez un certain
nombre d’élèves, s’ils sont de sexe féminin ou masculin et si
leurs résultats sont excellents, bons, moyens ou faibles. On
admet que Les effectifs observés ont été regroupés dans un
tableau de contingence comme suit :
1) Compléter le tableau en déterminant les inconnues.
2) Par un test de khi-deux, vérifier au seuil de 10% si le genre
et les résultats scolaires sont indépendants.

S.K. MBEKE séries temporelles 23


Application

Exercice d’application
Résultats scolaires Masculin Féminin Total
Excellents h a 28
Bons t 17 46
Moyens 192 m 392
Faibles n 19 99
Total 302 w b

1) Compléter le tableau en déterminant les inconnues.


2) Par un test de khi-deux, vérifier au seuil de 10% si le genre
et les résultats scolaires sont indépendants.

S.K. MBEKE séries temporelles 24


Application

Correction
1) Tableau Complet.
Résultats scolaires Masculin Féminin Total
Excellents h=1 a=27 28
Bons t=29 17 46
Moyens 192 m=200 392
Faibles n=80 19 99
Total 302 w b=565

S.K. MBEKE séries temporelles 25


Application

Correction
2) Mise en place du test
H0: Les résultats scolaires sont indépendants aux genres
au risque α = 10%.
H1: Les résultats scolaires sont dépendants aux genres
au risque α = 10%.. (1 point)
Calcul du khi-deux tabulé (c) et du khi-deux calculé
(D).
On trouve c=6,25 et D= 62,628.
Prise de décision.
c < D . Alors On rejette H0. Les résultats scolaires sont
liés aux genres au risque α = 10%. (1 point).

S.K. MBEKE séries temporelles 26


III Test de comparaison

Test de comparaison des moyennes de deux échantillons


Soient N(mi ; σi ), les lois suivies par les deux populations
(i = 1 ou 2) de tailles n1 et n2 . On admet l’hypothèse de i.I.d.
Lavariable aléatoire
s D = X 1 − X 2 suit alors la loi normale
σ12 σ22 
N m1 − m2 ; + .
n1 n2
En effet :

 
E (D) = E X 1 − X 2 (4)
= m1 − m2 (5)

S.K. MBEKE séries temporelles 27


III Test de comparaison

Test de comparaison des moyennes de deux échantillons


 
V (D) = V X 1 − X 2 (6)
   
= V X1 + V X2 hypothèse i.i.d (7)
   
= V X1 + V X2 (8)
σ12 σ22
= + (9)
n1 n2

S.K. MBEKE séries temporelles 28


Test de comparaison des moyennes

Test de comparaison des moyennes


Si X1 suit une loi normale de paramètre m1 et σ1 , et si X2 suit
une loi normale de paramètre m2 et σ2 , on teste :

H0 : m1 = m2 contre H1 : m1 6= m2 au risque α.

On dispose d’un échantillon de taille n1 , de moyenne x 1 et


d’écart-type s1 et d’un échantillon de taille n2 , de moyenne x 2
et d’écart-type s2 .

S.K. MBEKE séries temporelles 29


Test de comparaison des moyennes

A/ Règle de décision : Si les variances σ12 et σ22 sont connues


on calcule :

x1 − x2
D=s
σ12 σ22
+
n1 n2
 

On accepte H0 au risque α si D ∈ ±Z α


1−
2

Zα désigne le quantile d’orde alpha. de la loi normale centrée


réduite

S.K. MBEKE séries temporelles 30


Test de comparaison des moyennes

B/ Règle de décision : Si les variances σ12 et σ22 sont inconnues


Si n1 > 30 et n2 > 30, on calcule :

x1 − x2 x1 − x2
D=s =s
2 2
sC1 sC2 s12 s22
+ +
n1 n2 n1 − 1 n2 − 1
 

On accepte H0 au risque α si D ∈ ±Z α


1−
2

S.K. MBEKE séries temporelles 31


Test de comparaison des moyennes

B/ Règle de décision : Si les variances σ12 et σ22 sont inconnues


Si n1 < 30 et n2 < 30, et en supposant que σ12 = σ22 on
calcule :
s
x − x2 n1 s12 + n2 s22
D= r1 , SC =
1 1 n1 + n2 − 2
sC +
n1 n2
h i
On accepte H0 au risque α si D ∈ ±t1− α2 ;n1 +n2 −2

tα;n désigne le quantile d’orde alpha à n degré de liberté de la


loi de Student.

S.K. MBEKE séries temporelles 32


Test de comparaison des moyennes

B/ Règle de décision : Si les variances σ12 et σ22 sont inconnues


Si n1 < 30 et n2 < 30, et en supposant que σ12 6= σ22 :

x1 − x2 x1 − x2
on calcule D = s =s
2 s2
sC1 s12 s22
+ C2 +
n1 n2 n1 − 1 n2 − 1
h i
On accepte H0 au risque α si D ∈ ±t1− α2 ;ν

où ν est l’entier le plus" proche de #


s12 s22 s14 s24
 
+ ÷ +
n1 − 1 n2 − 1 (n1 − 1)3 (n2 − 1)3

S.K. MBEKE séries temporelles 33


Test de comparaison de deux variances

On teste :

H0 : σ12 = σ22 vs H1 : σ12 6= σ22 au risque α.

Règle de décision
On calcule :
2
SC1 Variance corrigée de l’échant.1
D= 2
=
SC1 Variance corrigée de l’échant. 2
On accepte
h H0 au risque α si i
D ∈ F α2 (n1 − 1; n2 − 1); F1− α2 (n1 − 1; n2 − 1) où

S.K. MBEKE séries temporelles 34


Test de comparaison de deux variances

où Fα (p; q) est le quantile d’ordre α de la loi de


Fisher-Snédecor à p et q degré de liberté.
Remarque

1
F α2 (n1 − 1; n2 − 1) =
F1− α2 (n2 − 1; n1 − 1)

S.K. MBEKE séries temporelles 35


Test de comparaison de deux proportions

Soit p1 (respectivement p2 ) la proportion d’individus d’une


certaine modalité A dans la population-mère n1
(respectivement n2). On prélève un échantillon de taille n1
(respectivement n2 ) dans la population n1 (respectivement n2).

On teste :

H0 : p1 = p2 vs H1 : p1 6= p2 au risque α.

On suppose que nF1 et nF2 suivent approximativent les lpis


normales.

S.K. MBEKE séries temporelles 36


Test de comparaison de deux proportions

Soit f1 (respectivement f2 ) la proportion d’individus de la


modalité A dans l’échantillon n1 (respectivement n2).
Règle de décision
On calcule :

n1 f1 + n2 f2 f1 − f2
Fn = puis D = s
n1 + n2 
1 1

Fn (1 − Fn ) +
n1 n2
 

On accepte H0 au risque α si D ∈ ±Z α


1−
2
Zα désigne le quantile d’orde alpha de la loi normale centrée
réduite ç

S.K. MBEKE séries temporelles 37


D/ L’analyse de la variance
Le test de comparaison consistait à comparer deux paramètres
de deux échantillons. Le procédé qui consiste à tester l’égalité
des moyennes de chaque couple n’est pas satisfaisant. Il faut
utiliser une procédure permettant de tester globalement
l’ensemble de tous les échantillons : c’est la théorie de
l’analyse de la variance.

S.K. MBEKE séries temporelles 38


D/ L’analyse de la variance
Le but de cette théorie est d’étudier la variabilité d’un produit en
fonction d’un ensemble de facteurs de production dont on peut
contrôler systématiquement les modes d’intervention et dont on
souhaite dissocier la part revenant à chaque facteur. On
distingue :

S.K. MBEKE séries temporelles 39


l’analyse de la variance à simple entrée, un seul facteur est
contrôlé, les autres facteurs étant regroupés sous le nom  fac-
teurs non contrôlés , l’analyse de la variance à double entrée,
qui étudie l’action simultanée de deux facteurs contrôlés,
chacun agissant individuellement avec une possibilité
d’interaction entre les deux, l’analyse de la variance à entrées
multiples, plusieurs facteurs contrôlés.

S.K. MBEKE séries temporelles 40

Vous aimerez peut-être aussi