Vous êtes sur la page 1sur 11

Outils statistiques en sciences

Introduction à la philosophie des sciences


2022-2023

1 Probabilités conditionnelles
La méthode expérimentale héritée de Claude Bernard s’est trouvée métamorpho-
sée par les tests statistiques, non seulement par la dimension quantitative des « ex-
périences comparatives » effectuées, mais plus encore qualitativement par l’hori-
zon d’un contrôle du risque d’erreur.
Les lois statistiques sont désormais omniprésentes dans les sciences empi-
riques de la nature. Une bonne référence à ce sujet est le livre de Gérard Biau,
Jérôme Droniou et Marc Herzlich, Mathématiques et statistique pour les sciences
de la nature (EDP Sciences, 2010), que je suis ici.
La nature fourmille de phénomènes irréductiblement aléatoires, soumis à des
causes innombrables et en partie accidentelles, dont l’enchevêtrement nous échappe
par sa complexité. Un exemple est le risque qu’un foetus développe le syndrome
dit de Down (trisomie 21). Ce syndrome touche 1 naissance sur 700 si l’on ne
tient pas compte de l’âge de la mère. Un prélèvement sanguin permet de détermi-
ner le dosage de l’hormone alpha-foetoprotéine, dont le taux élevé peut indiquer
un syndrome de Down. Mais la corrélation n’a rien de systématique : 1 trisomie
sur 4 engendre des taux anormalement élevés et 1 grossesse sur 100 présente un
taux anormalement élevé en l’absence du syndrome.
Face à ce genre de phénomènes, il ne s’agit pas d’expliquer par les causes,
mais plutôt de prédire avec un degré de fiabilité raisonnable. Cela étant, la mise
en évidence de corrélations permet d’opter pour une explication par opposition à
une autre. Le cadre des probabilités et de la statistique permet de tout simplement
donner forme à des phénomènes qui sinon ne constitueraient même pas des phé-
nomènes cohérents et étudiables. L’analyse statistique ne constitue donc pas un
pis-aller face à l’impossibilité d’expliquer, mais bien plutôt le moyen de consti-
tuer des phénomènes et de les expliquer en quelque sorte par eux-mêmes, au sens
où multiplier et recouper les données suffit à littéralement expliquer les corréla-
tions compliquées qu’elles impliquent.

1
Le cadre général pour tout calcul de probabilités est un univers Ω de tous les
résultats, chaque résultat étant obtenu comme une combinaison de résultats élé-
mentaires possibles. Par exemple, dans le cas de deux lancers successifs d’un dé,
Ω = {(1, 1), (1, 2), . . . }. Tout événement correspond à une partie A de Ω, c’est-à-
dire à toutes les façons possibles de le réaliser. Par exemple, l’événement « le 6 sort
au moins une fois » correspond au sous-ensemble {(6, 1), (6, 2), . . . , (1, 6), (2, 6), . . .}
de Ω. Dire que l’événement A s’est réalisé, c’est dire que le résultat de l’expé-
rience appartient à A vu comme sous-ensemble de Ω.
On appelle probabilité sur Ω une fonction P qui à tout événement A ⊆ Ω
associe un nombre réel P (A) ∈ [0, 1] (la probabilité que A se produise), et qui
vérifie en outre deux conditions : (i) P (Ω) = 1 ; (ii) A ∩ B = ∅ implique P (A ∪
B) = P (A) + P (B). (Étant donnés deux événements A et B, on note A ∩ B
l’événement « les événements A et B se produisent tous les deux » et A ∪ B
l’événement « l’un au moins des deux événements A et B se produit ».)
La probabilité conditionnelle de A sachant B est par définition P (A|B) :=
P (A∩B)
P (B)
. On en déduit la formule de Bayes (en notant B c l’événement non-B,
c’est-à-dire « B ne se produit pas ») :
P (A ∩ B) P (A|B)P (B)
P (B|A) = c
= .
P ((A ∩ B) ∪ (A ∩ B )) P (A|B)P (B) + P (A|B c )P (B c )
On peut appliquer cette formule à l’exemple du syndrome de Down : Ω = univers
de toutes les grossesses, B = événement « le foetus est atteint du syndrome », A
= événement « le taux indiqué par le test sanguin est anormal ». Si l’on exprime
1
les données dont on dispose : P (B) = 700 , P (A|B) = 41 et P (A|T c ) = 1001
.
On souhaite déterminer, lorsque le test indique un taux anormal, le risque que le
foetus soit effectivement atteint du syndrome. On trouve par la formule de Bayes :
P (B|A) = P (A|B)PP(B)+P
(A|B)P (B)
(A|T c )P (T c )
= 3, 5%. Le risque, sans aucune présélection
1
des grossesses, est lui de 700 = 0, 14%. La différence justifie de faire un test
sanguin systématique.

2 Variables aléatoires
Dans le cas des phénomènes complexes, une description complète de Ω est en
général impossible. Une démarche synthétique doit prendre la relève de la dé-
marche analytique propre au calcul des probabilités : c’est celle de la statistique.
À la détermination d’un résultat que nous ne connaissons pas, on substitue une
détermination quantitative du résultat d’une observation déjà effectuée.
La statistique repose sur l’étude de variables aléatoires. Une variable aléatoire
est une fonction X : Ω → R de mesure, et les événements ne sont plus analysés
en termes de résultats élémentaires possibles, mais prennent la forme (X ∈ I) =

2
{ω ∈ Ω : X(ω) ∈ I}. Par exemple, le phénomène « couleur des yeux » peut être
modélisé par une variable aléatoire C sur un univers Ω qui correspond à toutes
les distributions possibles des deux allèles du gène responsable de la couleur des
yeux (b = yeux bleus, m = yeux marrons) : Ω = {bb, bm, mb, mm} et comme m
est dominant et b récessif : C(bb) = 0, C(bm) = C(mb) = C(mm) = 1.
Les variables aléatoires qui peuvent prendre un nombre fini de valeurs sont
dites discrètes, les autres continues. Étant donnée une variable aléatoire discrète
X, on appelle loi de probabilité de X la fonction x 7→ P (X = x) qui à toute
valeur possible x de X associe la probabilité que X soit égale à x. Pour une va-
riable aléatoire continue X à valeurs dans un intervalle I de R, on appelle densité
de probabilité de X touteR fonction f : I → R+ telle que, pour tout sous-intervalle
J de I, P (X ∈ J) = J f (x)dx. Les probabilités individuelles d’une variable
aléatoire discrète ou la densité de probabilité d’une variable aléatoire continue
peuvent s’interpréter comme la signature du phénomène empirique représenté par
X. Comme pour une variable aléatoire discrète, la donnée de P (X ∈ J) pour tout
sous-intervalle J de I définit la loi de probabilité de X.
Si X est une variable aléatoire de loi L, on note : X ∼ L. Un exemple de loi
est la loi de Bernoulli : c’est la loi d’une variable aléatoire discrète ne prenant que
deux valeurs possibles 0 et 1, la première avec une probabilité p et la seconde avec
une probabilité 1 − p. C’est la loi du sexe d’un bébé à la naissance, par exemple.
On note cette loi B(p). Un autre exemple de loi est la loi de Gauss : une variable
aléatoire continue X suit une loi de Gauss de paramètres m ∈ R et σ 2 ∈ R+∗ si
1 (x−m) 2
sa densité f est donnée par f (x) = √2πσ 1
2
e− 2 ( σ ) . On note cette loi N (m, σ 2 ).
L’espérance E(X) d’une variable aléatoire discrète ayant x1 , . . . , xn pour va-
leurs possibles correspond au portrait type du résultat (valeur de X) auquel on
peut s’attendre. Elle est définie comme étant la moyenne de ces valeurs pondérée
par leurs probabilités respectives :

E(X) = x1 P (X = x1 ) + . . . + xn P (X = xn ) .

(Pour une variable aléatoireRcontinue X, une somme est remplacée par une
intégrale : on définit E(X) = I xf (x)dx . Mais pour éviter trop de mathéma-
tiques, on peut laisser ce cas de côté et ne considérer que des variables aléatoires
discrètes.)
L’espérance d’une variable fournit une moyenne, mais doit cependant être
mise en regard de la dispersion de la variable par rapport à cette moyenne. Consi-
dérons en effet une variable aléatoire discrète prenant la valeur 0 avec une proba-
bilité de 1/3 et la valeur 3 avec une probabilité de 2/3. Considérons par ailleurs
une variable aléatoire discrète prenant les valeurs −100 et +104 avec la même
probabilité de 1/2. Les deux variables X et Y ont la même espérance, mais pas
du tout la même distribution. La variance V (X) d’une variable aléatoire permet

3
de mesurer cette distribution. Pour une variable aléatoire discrète X :

V (X) = (x1 − E(X))2 P (X = x1 ) + . . . + (xn − E(X))2 P (X = xn ) .

Fait :

• pour X ∼ B(p), on a : E(X) = p et V (X) = p(1 − p) ;

• pour X ∼ N (m, σ 2 ), on a : E(X) = m et V (X) = σ 2 .

3 Estimation d’un paramètre


La statistique se définit comme l’étude d’observations répétées d’un phénomène
aléatoire. Chaque observation enregistre une valeur d’une variable aléatoire X
sur un individu membre d’une certaine population. Cette population, elle-même
trop vaste, fait l’objet d’un échantillonnage : le prélèvement d’un certain nombre
d’individus pris au hasard.
Deux cas peuvent alors se présenter :

• la loi de la variable aléatoire X est connue de l’expérimentateur ;

• la loi de X n’est pas entièrement connue de l’expérimentateur.

Dans le premier cas, on est dans le domaine du calcul de probabilités. Dans le


second cas, on entre à proprement parler dans le domaine de la statistique : il s’agit
alors d’approcher certaines caractéristiques de la loi inconnue de X au moyen
d’une suite de n observations x1 , . . . , xn . Ces n observations sont conçues comme
les réalisations simultanées de variables aléatoires indépendantes X1 , . . . , Xn ayant
a priori la même loi de probabilité que X, appelée variable mère. En effet, X1 est
le résultat du test portant sur le premier individu de l’échantillon ; or ce résultat
obéit a priori à la même loi que le résultat portant sur n’importe quel individu pris
au hasard dans la population totale.
(Deux variables aléatoire X et Y sont dites indépendantes si, quels que soient
I et J, P (X ∈ I, Y ∈ J) = P (X ∈ I)P (Y ∈ J).)
La suite X1 , . . . , Xn s’appelle un échantillon aléatoire de taille n ; c’est une
série de résultats seulement potentiels, par opposition aux valeurs observées em-
piriquement que sont x1 , . . . , xn . Encore une fois, la théorie statistique est un
langage dans lequel on considère essentiellement des variables aléatoires. Tout
résultat empirique est donc pensé par la valeur que prend une variable aléatoire
correspondante. Ainsi, X1 est la variable aléatoire « le résultat obtenu au cours
du test à propos du premier individu de l’échantillon », et x1 n’est que la valeur
effectivement prise par X1 au cours du test qu’on a réalisé : si le résultat avait été

4
différent, x1 aurait été une valeur différente, mais la variable aléatoire X1 serait
restée la même.
Étant donné un échantillon aléatoire X1 , . . . , Xn , on appelle moyenne empi-
rique de l’échantillon la variable aléatoire
n
1X
X := Xi .
n i=1

(On note aussi parfois X n au lieu de X, pour ne pas oublier que X dépend de la
taille n de l’échantillon qui est pris en compte.) Il s’agit d’une variable aléatoire
« empirique », parce qu’elle se fonde sur l’observation, par opposition à la loi mère
X, qui n’est pas directement observable.
Lorsque la taille de l’échantillon aléatoire s’accroît, X converge « presque
sûrement » vers E(X) : c’est la « loi des grands nombres ». Cela signifie que la
valeur qui réalise X est, pour n assez grand, une approximation empirique de
E(X).
Précisément, la statistique vise à inférer, à partir des informations obtenues
sur un échantillon, des résultats concernant l’ensemble de la population. La clef
de voûte de la statistique consiste à supposer que la loi mère X associée à un
échantillon aléatoire dépend d’un paramètre θ dont la valeur est inconnue : ce
paramètre est par exemple l’espérance E(X) ou la variance V (X). Le statisticien
cherche alors à déterminer une valeur approchée de ce paramètre θ. Un estimateur
de θ est une fonction Θn (X1 , . . . , Xn ) de l’échantillon aléatoire destiné à fournir
une approximation de θ.
(Parenthèse. Un critère pour juger de la bonne approximation de θ est le risque
quadratique :

R(Θn , θ) := E((Θn − θ)2 ) = V (Θn ) + (B(Θn ))2 ,

où B(Θn ) := E(Θn ) − θ, appelé le biais de l’estimateur, mesure la proximité


entre la moyenne de Θn et la cible θ. On dit qu’un estimateur est convergent si
son risque quadratique tend vers 0 lorsque n tend vers l’infini. Par ailleurs, on dit
qu’il est sans biais si B(Θn ) = 0.
Par exemple, X est un estimateur convergent et sans biais de E(X). En effet,
chaque Xi a parPhypothèse la même la même espérance que X, donc
Pn loi et donc nE(X)
1 n 1
E(X) = E( n i=1 Xi ) = n i=1 E(Xi ) = n = E(X). Par conséquent
2
R(X, E(X)) = V (X) = V ( n1 ni=1 Xi ) = n12 ni=1 V (Xi ) = (V (X))
P P
n
−→ 0.
n→+∞
Fin de la parenthèse.)
Lorsqu’un statisticien propose, au vu d’observations x1 , . . . , xn , une estima-
tion θn de θ, quelle confiance peut-il avoir en son résultat ? Pour un risque maxi-
mal d’erreur α fixé (typiquement égal à 0, 05), on appelle intervalle de confiance

5
de niveau 1 − α, et on note IC1−α (θ), tout couple de deux variables aléatoires
An (X1 , . . . , Xn ) et Bn (X1 , . . . , Xn ) telles que P (An ≤ θ ≤ Bn ) = 1 − α.
Reprenons l’exemple de l’estimation de l’espérance µ := E(X) de la va-
riable aléatoire mère X, et supposons que la variance σ 2 de X soit connue du
statisticien. On peut alors employer un résultat fondamental de la théorie des pro-
babilités : le théorème central limite.
Ce théorème s’énonce ainsi : étant donné un échantillon aléatoire X1 , . . . , Xn
dont toutes les variables sont indépendantes et ont même loi, d’espérance µ et de

variance σ 2 , la variable aléatoire n Xnσ−µ « converge en loi » (lorsque n tend vers
l’infini) vers une variable aléatoire de loi N (0, 1). Cela signifie que, quels que
soient a, b ∈ R, on a :

√ Xn − µ
lim P (a ≤ n ≤ b) = P (a ≤ N (0, 1) ≤ b) .
n→∞ σ
(Ici et dans ce qui suit, « N (0, 1) » ne désigne pas une loi, mais n’importe quelle
variable aléatoire ayant N (0, 1) pour loi de probabilité : peu importe laquelle,
seule importe sa loi.)
On note zβ le quantile d’ordre β de la loi N (0, 1), c’est-à-dire le nombre qui
vérifie : P (N (0, 1) ≤ zβ ) = β. (Pour n’importe quel β donné, la valeur de zβ peut
être calculée par ordinateur.) Comme la loi de densité de N (0, 1) est symétrique,
on a : zβ = −z1−β . On en déduit, pour n assez grand :

√ X −µ
P (−z1− α2 ≤ n ≤ z1− α2 ) = P (N (0, 1) ≤ z1− α2 ) − P (N (0, 1) ≤ −z1− α2 )
σ
= P (N (0, 1) ≤ z1− α2 ) − P (N (0, 1) ≤ z α2 )
α α
= 1− −
2 2
= 1−α.

On en déduit :
σ σ
P (X − z1− α2 √ ≤ µ ≤ X + z1− α2 √ ) = 1 − α ,
n n

c’est-à-dire :
σ σ
IC1−α (µ) = (X − z1− α2 √ , X + z1− α2 √ ) .
n n

Exemple. Un pépiniériste souhaite connaître le taux de germination des graines


de roses qu’il vend : les graines peuvent être mises en vente si leur taux de ger-
mination est d’au moins 85%. Le pépiniériste fait un test avec 1000 graines et
constate que 870 d’entre elles donnent naissance à des roses. Il considère donc la

6
réalisation d’un échantillon X1 , . . . , X1000 , où chaque Xi correspond à une graine,
en prenant la valeur 1 si la rose éclot et 0 sinon, et suit donc une loi B(p), p étant
inconnu.
Le test concerne ici la variable aléatoire X qui prend la valeur 1 si une graine
prise au hasard parmi la totalité des graines de la production du pépinériste éclot,
et 0 sinon. La production du pépiniériste comprend énormément de graines, et il
n’est pas question de tester toutes les graines, car le pépiniériste n’aura sinon plus
rien à vendre – d’où le recours à un échantillon. Néanmoins, chaque graine parmi
toutes celles de la production donne virtuellement lieu à une valeur pour X : la
valeur (0 ou 1) qu’on obtiendrait si l’on semait cette graine pour savoir si elle
germe ou non. La variable aléatoire X est donc, comme toute variable aléatoire,
une entité idéale qu’il n’est pas question d’observer directement, mais seulement
d’approximer. Plus exactement, ce qui intéresse le pépiniériste est d’approximer
l’espérance E(X) : c’est le nombre de roses qu’on obtiendrait si l’on semait ab-
solument toutes les graines de la production.
Revenons à notre échantillon. Comme on l’a dit, on peut supposer que chaque
variable aléatoire Xi (pour i = 1, . . . , 1000) suit la même loi que X, et on a vu
que cette loi était de la forme B(p), p étant donc E(X). En effet (voir le « Fait »
plus haut), si une variable aléatoire a B(p) pour loi de probabilité, p est égal à
E(X).
Le paramètre-cible θ est donc ici la probabilité p = E(X) d’obtenir une
Pnune fois une graine plantée. Son estimateur naturel est la moyenne X =
rose
1
n i=1 Xi . On a E(X) = p, donc on est dans le cas d’un estimateur sans biais
et convergent. Comme chaque Xi vérifie E(Xi ) = p et V (Xi ) = p(1 − p), on
obtient :
r r
p(1 − p) p(1 − p)
IC1−α (p) = (X − z1− α2 , X + z1− α2 ).
n n
Mais comment aller plus loin, sachant qu’on ne connaît pas la valeur de p, puis-
qu’on cherche justement à l’approximer ?
L’idée est de remplacer p par X dans la formule ci-dessus : en effet, en vertu
de la loi des grands nombres, X est une approximation de E(X) = p. En réappli-
quant ainsi le théorème central limite :
s s
X(1 − X) X(1 − X)
IC1−α (p) = (X − z1− α2 , X + z1− α2 ).
n n
Pour α = 0, 95, on trouve z1− α2 = 1, 96. Comme le test donne X = 0, 87, on
trouve :
IC0,95 (p) = (0, 849; 0, 891) .
La norme est donc respectée.

7
4 Tests statistiques paramétriques
Dans de nombreuses situations, on ne dispose pas de différentes valeurs réalisées
d’un certain paramètre : au contraire, on doit opter pour une certaine hypothèse
sur le paramètre, sans pouvoir être certain de cette hypothèse. Par exemple, un
généticien s’intéresse aux croisements possibles d’une version dominante D et
d’une version récessive R d’un gène rare dont il vient de découvrir l’existence.
Connaissant la loi de Mendel, il sait qu’on doit normalement observer le phé-
notype D avec une probabilité de 3/4. Cependant, ses recherches le conduisent
à envisager que la combinaison DD soit non viable. Dans ce cas, la proportion
des phénotypes D devrait être de 2/3 (puisqu’il ne reste plus que DR, RD et RR
comme combinaisons possibles). Tout le problème est donc de savoir si p := p(D)
vaut 3/4 ou 2/3. Le généticien suppose que c’est 3/4, mais cherche à le vérifier,
car il n’est pas exclu que ce soit 2/3. Pour cela, il procède à un test, et observe 70
sujets de phénotype D et 30 de phénotype R sur un échantillon de taille n = 100.
La proportion empirique 0, 7 ne permet pas au généticien de trancher.
Un test statistique est justement une procédure pour décider, sur la base d’un
échantillon aléatoire X1 , . . . , Xn , si une caractéristique de la variable mère X vé-
rifie ou non une certaine hypothèse H0 , appelée hypothèse nulle, par opposition
à une hypothèse contraire H1 , appelée hypothèse alternative. Il existe par consé-
quent deux types d’erreur possible : soit on rejette H0 à tort (erreur dite « de
première espèce »), soit on conserve H0 à tort (erreur dite « de seconde espèce »),
Dans la théorie classique, élaborée par Jerzy Neyman et Egon Sharpe Pearsons,
on choisit principalement de contrôler le risque de première espèce, en le limitant
à une probabilité α appelée niveau du test.
Dans notre exemple, H0 est « p = 3/4 » et H1 est « p = 2/3 ». Chaque
observation est la réalisation d’une variable aléatoire X de Bernoulli qui prend
la valeur 1 si le phénotype est D et la valeur 0 s’il est R, et le test porte sur
l’espérance p = E(X) de X.
Le problème de départ qui motive le test est que X = 0, 7 < 3/4. On recherche
donc le seuil pour X en deçà duquel il est impossible de maintenir H0 , autrement
dit le nombre cα tel que P (X ≤ cα |H0 ) = α, α étant très petit (typiquement,
α = 0, 01). Autrement dit, cα est le nombre à partir duquel « X ≤ cα » est à rejeter
comme étant improbable : toute la question est de savoir si le résultat obtenu pour
X se situe au-dessus de ce seuil cα .
Par le théorème central limite, on sait que, pour n assez grand :

√ X −p
P ( np ≤ zα ) ' α ,
p(1 − p)

8
d’où : r
p(1 − p)
P (X ≤ p + zα )'α.
n
Si l’on se place dans l’hypothèse H0 , on a :
r
p(1 − p)
P (X ≤ p + zα |H0 ) ' α avec p = 3/4.
n
q
On prend donc : cα = p + zα p(1−p) n
avec p = 3/4. Pour α = 0, 01 et la valeur
correspondante de zα , on aboutit à : c0,01 = 0, 649. Par conséquent, le test n’inva-
lide pas H0 au niveau de test choisi : on peut donc maintenir l’hypothèse que la
combinaison de gènes DD est viable.
Remarquons que, comme c0,01 < 2/3, l’hypothèse H0 n’aurait pas été in-
validée même si on avait obtenu X = 2/3 (c’est-à-dire la valeur correspondant à
l’hypothèse alternative H1 ) ! En effet, le choix de travailler avec α très petit (0, 01)
a pour conséquence qu’on ne rejettera H0 que si on obtient une valeur empirique
très éloignée de celle prévue par H0 : 2/3 est trop proche de 3/4 pour rejeter H0 .

5 Tests statistiques non paramétriques


Dans bon nombre de cas pratiques, il est impossible de proposer un modèle a
priori de la loi mère de l’échantillon, et par conséquent de procéder à un test para-
métrique. Pour contourner ces difficultés, on élabore un test non paramétrique, qui
vise la distribution globale des observations. Il s’agit alors de tester l’adéquation
entre d’une part une série d’observations concernant une variable aléatoire X, et
d’autre part la loi de probabilité, notée L0 , qu’on suppose être celle de X. L’hy-
pothèse nulle qui est testée est donc « X ∼ L0 ». (Cette démarche est fréquente
en biologie, lorsqu’un modèle (une certaine loi) a été élaboré pour un phénomène
quantifiable et qu’on cherche à mettre le modèle à l’épreuve des faits.)
L’un des tests les plus employés est le « test du χ2 » : on découpe les valeurs
possibles de X en K classes, et on range les observations x1 , . . . , xn en notant les
effectifs observés dans chaque classe :

C1 ... CK
n1 ... nK
avec n1 + n2 + . . . + nK = n.
Sous l’hypothèse H0 (X ∼ L0 ), la loi de probabilité de X est connue, et par
conséquent chaque probabilité P (X ∈ Ci ) (i = 1, . . . , K) aussi ; on note pi la
valeur de cette probabilité sous l’hypothèse H0 . Pour i fixé entre 1 et K, l’effectif
ni de Ci suit une loi binomiale B(n, pi ), qui est en effet la loi de la somme de n

9
variables aléatoires indépendantes suivant chacune la loi B(pi ). (Ces n variables
aléatoires sont celles qui correspondent aux observations x1 , . . . , xn , et à chaque
fois la variable qui correspond à une observation xj vaut 1 si xj ∈ Ci , et 0 sinon,
avec une probabilité pi dans le premier cas et 1−pi dans le second.) Par conséquent
E(Ci ) = E(B(n, pi )) = npi . Les effectifs attendus sont donc :

C1 ... CK
np1 ... npK

Le χ2 mesure l’écart entre les effectifs observés et les effectifs attendus. Les
effectifs observés sont n1 , . . . , nK et, sous l’hypothèse H0 , les effectifs attendus
sont np1 , . . . , npK . On pose :

(n1 − np1 )2 (nK − npK )2


χ2H0 = + ... + .
np1 npK

Par ailleurs la théorie des probabilités établit que la variable aléatoire χ2 qui
correspond à χ2emp converge en loi (lorsque n tend vers l’infini) vers la variable
aléatoire K−r−1 Xi2 , r étant le nombre de paramètres qu’il a fallu estimer pour
P
i=1
spécifier H0 , et les Xi étant des variables aléatoires indépendantes de même loi
N (0, 1). Autrement dit, pour n assez grand, la loi de χ2 peut être identifiée à la loi
PK−r−1
de i=1 Xi2 . Cette dernière loi, notée χ2 (K − r − 1), est celle d’une variable
ayant une espérance égale à K − r − 1 et une variance égale à 2(K − r − 1).
Le principe du test du χ2 consiste alors à comparer χ2H0 avec le quantile
d’ordre 1 − α de la loi χ2 (K − r − 1) (écrivons pour simplifier χ2 ), c’est-à-
dire avec le nombre cK−r−1α (écrivons pour simplifier cα ) auquel l’écart χ2 doit
être inférieur avec une probabilité très forte de 1 − α : P (χ2 ≤ cα ) = 1 − α. Si
χ2H0 > cα , c’est qu’on peut être à peu près sûr (avec une probabilité d’erreur de
seulement α) que l’hypothèse H0 est fausse.
Exemple. Des spécialistes du comportement animal testent la mémoire des
singes. Ils enferment un singe dans un espace clos qui comporte cinq portes de
couleurs différentes, dont une seule permet de sortir. On procède à 50 expériences
en regardant le nombre de tentatives qu’il a fallu faire au singe avant de réussir à
sortir :
Nombre i de tentatives du singe 1 2 3 4 5 ou plus
Nombre d’expériences où le singe a fait i tentatives 14 11 8 8 9

Sous l’hypothèse H0 où « le singe n’a aucune mémoire », p1 = 15 , p2 = 45 × 15 ,


p3 = 45 × 45 × 15 , etc. En effet, la probabilité p1 que le singe réussisse du premier
coup est de 1/5 (1 chance sur 5). La probabilité p2 qu’il réussisse exactement après
deux tentatives est la probabilité qu’il choisisse d’abord l’une des 4 mauvaises

10
portes (4/5) multipliée par la probabilité qu’il choisisse ensuite la bonne sachant
qu’il choisit en repartant à zéro (donc avec une probabilité de 1/5). Et de même
pour le calcul de p3 , p4 et de p≥5 . On obtient ainsi :

Nombre i de tentatives 1 2 3 4 5 ou plus


Effectifs attendus 10 8 6,4 5,12 20,48

On trouve : χ2H0 = 11, 18. Comme aucune estimation n’a été nécessaire pour
spécifier la loi théorique, r = 0, et donc K − r − 1 = 4. Il faut à présent comparer
χ2 avec le quantile d’ordre 1 − α de la loi χ2 (4). Pour α = 5%, on trouve c40,95 =
9, 488 : le χ2 est inférieur à 9, 488 avec une certitude de 95%. Comme χ2H0 =
11, 18 > 9, 488, il faut rejeter l’hypothèse H0 .
On fait en conséquence une nouvelle hypothèse H1 : « le singe se souvient
de chaque porte qu’il a déjà essayé d’ouvrir ». Sous cette hypothèse, p1 = 51 ,
p2 = 45 × 14 , p3 = 45 × 34 × 13 , etc. En effet, la probabilité p1 reste la même. En
revanche, la probabilité p2 qu’il réussisse exactement après deux tentatives est la
probabilité qu’il choisisse d’abord l’une des 4 mauvaises portes (4/5) multipliée
par la probabilité qu’il choisisse ensuite la bonne sachant qu’il garde en mémoire
la mauvaise porte et l’élimine de son choix (d’où un choix seulement parmi les
4 restantes, ce qui donne cette fois une probabilité de 1/4). Et de même pour le
calcul de p3 , p4 et de p≥5 . Si l’on réécrit le tableau ci-dessus avec ces nouvelles
valeurs, on trouve cette fois : χ2H1 = 2, 6 ≤ 9, 488. C’est donc clairement l’hypo-
thèse H1 qu’il faut retenir.

(Une référence philosophique sur le sujet : Ian Hacking, Logic of Statistical


Inference (Cambridge University Press, 2016).)

11

Vous aimerez peut-être aussi