Vous êtes sur la page 1sur 16

Tests d’hypothèses

Q. Leclère – GM4IP-MSP
I) Principe des tests d’hypothèses:
Un test d’hypothèse est une procédure standardisée permettant de valider ou rejeter objectivement ou
automatiquement une affirmation faite sur une ou plusieurs populations statistiques.
Les tests d’hypothèse sont à la base des processus décisionnels utilisés notamment en production, et de manière
générale en Maitrise Statistique des Procédés.

Nous allons dans ce cours étudier deux types de tests :


1) les tests de conformité à un standard : le paramètre de population  est il égal au standard 0 ?
2) les tests de comparaison : le paramètre de deux populations 1 et 2 sont ils égaux ?
NB : ici le symbole générique  représentera le paramètre de population étudié, il peut s’agir de l’espérance , la variance ² ou
encore la proportion 

L’hypothèse nulle H0 sera la réponse affirmative à cette question. C’est l’hypothèse qu’on souhaite confirmer ou
infirmer avec la mise en place du test.
H0 : «  = 0 » pour le test de conformité
H0 : « 1 = 2 » pour le test de comparaison.
L’hypothèse alternative H1 pourra prendre plusieurs formes suivant le contexte.
H1 : «   0 » , «  > 0 » ou «  < 0 » pour le test de conformité
H1 : « 1  2 » ou « 1 > 2 » pour le test de comparaison.

Le test mis en place aura pour objectif de choisir entre H0 et H1


Mise en place du test
Etape 1 : on admet H0
On choisit une VA d’observation V basée sur un ou des échantillonnages, qui suivra une loi de probabilité standard
(loi Normale centrée réduite, Student , chi2 …)
On construit un intervalle de confiance (risque ) pour cette variable d’observation. L’IC sera latéralisé suivant le
contexte, en fonction de la forme de l’hypothèse alternative H1
Etape 2 : on réalise l’échantillonnage.
On évalue numériquement la variable d’observation choisie : Vobs.
Etape 3 : décision
Si la Vobs appartient à l’IC : on admet H0. Sinon, on admet H1
NB : les étapes 2 et 3 sont répétées périodiquement dans le cadre d’un suivi de population

Risques associés :
Le risque  est la probabilité de rejeter H0 alors qu’elle est vraie :  = p(V IC |H0)
On parle de risque de 1ere espèce, ou de risque « fournisseur » (c’est le risque pour un fournisseur de
se voir refuser une livraison alors qu’elle est conforme au cahier des charges)
Le risque  est la probabilité d’accepter H0 alors qu’H1 est vraie :  = p(V IC |H1)
On parle de risque de 2nde espèce, ou de risque « client » (c’est le risque pour un client d’accepter une livraison
alors qu’elle n’est pas conforme au cahier des charges)
Si le risque  est connu car imposé,  est généralement inconnu car dépendant des paramètres réels de population
Exemple : Contrôle de conformité de l’espérance d’une population gaussienne au standard 0 avec  connu.
On a donc H0: « =0 ».
Pour l’exemple, on formule l’hypothèse alternative H1: « >0 ». C’est un choix approprié si l’on souhaite
détecter plus spécifiquement un dépassement de seuil 0.

En admettant H0 (étape 1) on sait que m = N(μ0; σ²/𝑛)


m est ici l’estimation ponctuelle de . Si sa valeur devient significativement supérieure au standard 0, H0 sera rejetée.

m − μ0
Le test sera réalisé sur la variable d’observation V : V= = N(0 ; 1)
σ/ n
On cherchera une valeur maximale admissible pour V, notée Vmax, telle que p(V> Vmax)=
On aura donc ici Vmax = 𝐹𝑁−10;1 (1 − 𝛼)

m−μ0
Etape 2 (prélèvement) : on prélève l’échantillon de taille n, on évalue Vobs= σ/ pour cet échantillon
n

Etape 3 (décision) : si Vobs<Vmax alors on choisit H0. Si Vobs>Vmax on choisi H1.


La densité de probabilité de la variable d’observation V est tracée ci-dessous :

fV(x) sachant =1 


fV(x) sachant H0 1-


 μ1 − μ0
σ/ n
μ1 − μ0 x 2Vmax
0 Vmax
σ/ n
Plus H0 est fausse, plus  est faible.
La limite de  quand 𝝁𝟏 → 𝝁𝟎 est 1-
Risque  : admettons maintenant que  est en réalité égale à 1 > 0 .
Alors on a m = N(μ1; σ²/𝑛)
m−μ0 μ1−μ0
La variable d’observation du test reste définie par V = qui suit donc la loi N ;1
σ/ n σ/ n
μ −μ0
On peut calculer  le risque que V soit inférieur à Vmax :  = p(V<Vmax) = p(U<Vmax − σ/1 n
) où U=N(0;1)
μ1−μ0
Soit finalement  = 𝐹𝑁 0;1 (Vmax − σ/ n
)
Valeur-p :

Les test d’hypothèses seront généralement ramenés à la comparaison de la variable d’observation à une valeur
max.
On définira la valeur-p, pour un échantillonnage donné, comme la probabilité que la variable observée ait été
supérieure à sa valeur toujours sous l’hypothèse H0.

fV(x) sachant H0

 valeurp = p(V>Vobs|H0)

0 Vmax x
Vobs

Une valeur-p inférieure à  (cad Vobs>Vmax) est synonyme de rejet de H0.


L’intérêt de la valeur-p est de quantifier la confiance associée à la décision de façon plus nuancée que le risque .
Si la valeur-p <<  alors la décision est statistiquement sûre
Si la valeur-p est seulement légèrement inférieure ou supérieure à , le risque de se tromper (en acceptant ou en
rejetant H0) devient non négligeable
II) Tests portant sur l’espérance
II.1 ) test de conformité à un standard : H0=« =0 »

Suivant le cas d’application, on utilisera (cf. chapitre 3)


e=  ; L=N pour population gaussienne, ² connue
μ0−m
U= ≈ L, avec e= sc ; L=Tn-1 pour population gaussienne, ² inconnue
𝑒/ n
e= sc ; L=N pour population de loi inconnue, n grand
La variable d’observation sera appelée Rapport Critique (RC)
Nous venons de voir son expression pour l’hypothèse alternative H1=« >0 » :
m − μ0 le RCmax est dépassé si m est
H1=« >0 » : RC = 𝑅𝐶𝑚𝑎𝑥 = 𝐹𝐿−1 1 − 𝛼
e/ n significativement supérieur à 𝜇0

Dans le but de simplifier le plus possible le test, on fait en sorte que quelle que soit H1, le RC soit comparé à une
valeur maximale admissible notée RCmax. Pour cela, le RC prendra les formes suivantes :
μ0 − m le RCmax est dépassé si m est
H1=« <0 » : RC = 𝑅𝐶𝑚𝑎𝑥 = 𝐹𝐿−1 1 − 𝛼
e/ n significativement inférieure à 𝜇0

μ0 − m Le RCmax est dépassé si m est


𝑅𝐶𝑚𝑎𝑥 = 𝐹𝐿−1 1 − 𝛼ൗ2
H1=« 0 » : RC = significativement différent de 𝜇0
e/ n

Décision : si RC < RCmax on choisit H0 , si RC > RCmax on choisit H1


II.2 ) test de comparaison de deux populations : H0=« 1=2 »

a) Pour des populations gaussiennes ayant pour variance connues 𝝈𝟐𝟏 et 𝝈𝟐𝟐 , on a
où n1, n2 sont les tailles d’échantillons
m1 = N(μ1; σ12 /𝑛1 ) m2 = N(μ2; σ22 /𝑛2 )
prélevés dans les populations 1 et 2
σ12 σ22 m1 − m2
En admettant H0 , on a m1 − m2 = N 0; + , soit = N 0 ;1
𝑛1 𝑛2 2 2
σ1 /𝑛1 + σ2 /𝑛2

b) Pour des populations gaussiennes de variances inconnues, mais en admettant σ12 = σ22
m2 − m1
Sous l’hypothèse H0, on admettra le résultat = Tn1+n2−2
sp . 1/n1 + 1/n2
… où sp² est la variance pondérée, c’est la variance obtenue en moyennant sc1² et sc2² :
(𝑛1 − 1)𝑠𝑐12 + (𝑛2 − 1)𝑠𝑐2²
𝑠𝑝2 =
𝑛1 + 𝑛2 − 2
c) Pour des populations de lois inconnues avec échantillons de grande taille, on aura, en application du TCL :
m1 − m2
≈ N 0 ;1
s𝑐12 /𝑛1 + sc22 /𝑛2
Dans les trois cas a,b et c, on pourra écrire, de manière générique :

m1 − m2 a) ei= i ; L=N(0;1) pour populations gaussiennes, i² connues


=𝐿 avec b) ei= sp ; L=Tn1+n2-2 pour populations gaussiennes, i² inconnues mais σ12 = σ22 admis
𝑒12 /𝑛1 + e22 /𝑛2 c) ei= sci ; L=N(0;1) pour population de lois inconnues, n grand

Pour les différentes options de l’hypothèse alternative, on définira le Rapport Critique suivant :

m1 − m2
H1=« 21 » : RC = Le RCmax est dépassé si les moyennes
𝑅𝐶𝑚𝑎𝑥 = 𝐹𝐿−1 1 − 𝛼ൗ2
𝑒12 /𝑛1 + e22 /𝑛2 sont significativement différentes

m2 − m1 Le RCmax est dépassé si m2 est


H1=« 2 > 1 » : RC = 𝑅𝐶𝑚𝑎𝑥 = 𝐹𝐿−1 1 − 𝛼
significativement supérieur à m1
𝑒12 /𝑛1 + e22 /𝑛2
NB : pour l’hypothèse alternative H1=« 2 < 1 » il suffit d’inverser les deux populations 1 et 2 ….

Décision : si RC < RCmax on choisit H0 , si RC > RCmax on choisit H1


III) Tests portant sur la proportion
III.1) comparaison à un standard : H0=«  = 0 »

On a vu au chapitre 3, en admettant H0 et pour un échantillon de grande taille, que la π0 1 − π0


P ≈ N π0;
proportion P dans un échantillon de taille n suit approximativement une loi normale n
𝑃 − π0
soit ≈ N 0; 1
π0 1 − π0 /𝑛
Le rapport critique est défini, comme pour l’espérance, en fonction de H1 :
𝑃 − π0 Le RCmax est dépassé si P est 𝑅𝐶𝑚𝑎𝑥 = 𝐹𝑁−1 1 − 𝛼ൗ2
H1=« π  π0 » : RC = significativement différent de π0
π0 1 − π0 /𝑛

𝑃 − π0 Le RCmax est dépassé si P est 𝑅𝐶𝑚𝑎𝑥 = 𝐹𝑁−1 1 − 𝛼


H1=« π > π0 » : RC =
π0 1 − π0 /𝑛 significativement supérieur à π0

π0 − 𝑃 Le RCmax est dépassé si P est 𝑅𝐶𝑚𝑎𝑥 = 𝐹𝑁−1 1 − 𝛼


H1=« π < π0 » : RC =
π0 1 − π0 /𝑛 significativement inférieur à π0

Décision : si RC < RCmax on choisit H0 , si RC > RCmax on choisit H1


III.2) comparaison de deux populations : H0=« 1 = 2 »

En considérant deux échantillons de grandes tailles n1 et n2 dans les populations 1 et 2, et sous


l’hypothèse 1 = 2 =  on peut écrire
P1 − P2
(n1 + n2) soit ≈ N 0 ;1
P1 − P2 ≈ N 0 ; π 1 − π (n1 + n2)
n1n2 π 1−π n1n2

Pour définir un rapport critique, il faut remplacer π par une estimation ponctuelle qui peut être faite en
considérant P la proportion dans les deux échantillons réunis : P=(n1P1+n2P2)/(n1+n2)
Selon l’hypothèse H1, on aura finalement
P1 − P2 −1
RCmax = FN 1 − αൗ2
H1=« 2 1 » : RC =
(n1 + n2)
P 1−P n1n2

P2 − P1 −1
RCmax = FN 1−α
H1=« 2> 1 » : RC =
(n1 + n2)
P 1−P n1n2

Décision : si RC < RCmax on choisit H0 , si RC > RCmax on choisit H1


IV) Tests portant sur la variance
IV.1) comparaison à un standard : H0=« ² = 0² »

On a vu au chapitre 3, en admettant H0, pour un échantillon de taille n prélevé dans une population gaussienne, que
ns²
= χ2n−1
σ 0²
ns²
On va donc s’intéresser à la variable d’observation χ2obs = σ0²
. Sous l’hypothèse H0, les IC de χ2obs seront
définis par [kmin kmax] comme suit :

kmin kmax

H1=« ² 0² » : 𝐹χ−1


2 𝛼/2 𝐹χ−1
2 1 − 𝛼/2
n−1 n−1

H1=« ² > 0² » : 0 𝐹χ−1


2 1−𝛼
n−1

H1=« ² < 0² » : 𝐹χ−1


2 𝛼 +∞
n−1

Décision : si 𝒌𝒎𝒊𝒏 < 𝝌𝟐𝒐𝒃𝒔 < 𝒌𝒎𝒂𝒙 on admet H0 , sinon on choisit H1


IV.2) test de comparaison de deux variances : H0=« 1² = 2² »
On se limite au cas des populations gaussiennes.
Soient sc1² et sc2² les variances corrigées de deux échantillons de tailles n1 et n2 prélevés dans les populations 1 et
2. Sous l’hypothèse H0, on pourra démontrer que le rapport des variances corrigées suit une loi de Fisher de
paramètres n1-1, n2-1 : 2
𝑠𝑐1
2 = F𝑛1−1,𝑛2−1
𝑠𝑐2
Loi de Fisher (Fisher-Snedecor, loi F de Snedecor)
Soient X=²n , Y=²p indépendantes. Alors le rapport Z=(X/n)/(Y/p)
suit une loi de Fisher de parametres n,p : 𝑍 = F𝑛,𝑝

E[ Fn,p ] = p/(p-2) (pour p>2) 𝐹F5,20 0.44


=1−𝐹
Z-1
on remarque que = F𝑝,𝑛 F20,5 2.3
𝑝(𝑍 < 𝐷) = 𝐹F𝑛,𝑝 (𝐷)
= 𝑝 𝑍 −1 > 𝐷−1 = 1 − 𝐹F𝑝,𝑛 (𝐷 −1 )
Ronald A. Fisher George W. Snedecor
Statisticien, biologiste
soit 𝐹F𝑛,𝑝 𝐷 = 1 − 𝐹F𝑝,𝑛 (𝐷−1 )
Statisticien américain
britannique 1881 -1974
1890 - 1962
Densités de proba. pour quelques lois de Fisher
On peut donc établir un IC pour le rapport de variances corrigées. L’espérance de ce rapport étant voisine de
1, la borne à gauche sera inférieure à 1 et la droite supérieure à 1. Pour simplifier le test, on fait en sorte de
ne tester que la borne supérieure.
Pour l’hypothèse alternative H1: « 1²  2² », on fera en sorte que le rapport observé soit supérieur à 1, en
imposant que la population 1 soit celle présentant la variance d’échantillon la plus forte :

2
𝑠𝑐1 De cette manière, seule la borne supérieure doit être
H1: « 1²  2² », 𝐹𝑐 = avec toujours
2
𝑠𝑐2 sc1²>sc2² testée : 𝐹𝑐𝑚𝑎𝑥 = 𝐹F−1
𝑛 −1,𝑛 −1
(1 − 𝛼/2)
1 2

Pour l’hypothèse alternative H1: « 2² > 1² », on ne testera que la borne supérieure

2
𝑠𝑐2
H1 : « 2² > 1² » 𝐹𝑐 = avec les populations 1 et 2
2
𝑠𝑐1 définies par le sens de H1 𝐹𝑐𝑚𝑎𝑥 = 𝐹F−1
𝑛 −1,𝑛 −1
(1 − 𝛼)
2 1

Décision : si 𝑭𝒄 < 𝑭𝒄𝒎𝒂𝒙 on admet H0 , sinon on choisit H1

NB : la loi de Fisher étant à deux paramètres, on ne peut fournir des tables comme pour Student ou khi2.
Les tables de la loi de Fisher permettent seulement d’obtenir pour une valeur 𝛼 donnée les valeurs Fcmax en
fonction de paramètres n1-1 et n2-1 en entêtes de lignes et colonnes
V) Comparaison de plusieurs échantillons décrits par une variable qualitative

• Une variable qualitative prend des valeurs discrètes (par exemple, admis/redouble/exclu, ou bien choix du produit A
/ choix du produit B). Ce test est utile quand on segmente une population en plusieurs groupes (par exemple, sexe de
l'acheteur) sur lesquels on mesure des variables qualitatives. Si on divise les effectifs par l'effectif total, on obtient le
tableau des fréquences.

niveau 1 niveau 2 … niveau m


groupe 1 N11 N12 N1m
Nombres d’individus de chaque
groupe 2 N21 N22 … … groupe prenant le niveau i de la VA
… … … … … qualitative
groupe n Nn1 Nn2 … Nnm
tableau de contingence N est le nombre total d’individus

fij=Nij/N
Fréquences
niveau 1 niveau 2 … niveau m marginales
groupe 1 f11 f12 f1m f1. des groupes
Fréquences groupe 2 f21 f22 … … f2. 𝑓𝑗. = σ𝑖 𝑓𝑖𝑗
marginales des … … … … … …
niveaux de la VA groupe n fn1 fn2 … fnm fm.
𝑓. 𝑖 = σ𝑗 𝑓𝑖𝑗 f.1 f.2 … f.m 1
tableau des fréquences
• On définit d² la distance entre fréquences observées fij et fréquence prédites à partir des fréquences marginales fi.f.j

𝑛 𝑚
(𝑓𝑖𝑗 − 𝑓𝑖. 𝑓. 𝑗)²
𝑑2 = 𝑁 ෍ ෍
𝑓𝑖. 𝑓. 𝑗
𝑖=1 𝑗=1

On admet que d² suit une loi de Khi2 à (n-1)(m-1) ddl sous l’hypothèse H0 que les groupes ne sont pas différenciés par
la VA.

Test : si d² < 𝐹χ−1


2 1 − 𝛼 on admet H0,
(n−1)(m−1)

sinon on admet H1 (au moins 1 groupe se comporte différemment des autres)

Vous aimerez peut-être aussi