Vous êtes sur la page 1sur 8

Savez-vous faire la différence entre des cacahuètes chères et des cacahuètes pas chères ?

Faites-vous la différence entre l’eau du robinet et l’eau en bouteille ? Entre le Pepsi et le Coca-Cola ?

Si on vous donne deux médicaments aux effets différents, saurez-vous identifier quel médicament
vous a été donné ?

Ce genre de choses, ça se teste !

Mais il y a plusieurs façons de s’y prendre.

Beaucoup de mauvaises façons et quelques bonnes façons.

L’une de ces bonnes façons, c’est en construisant votre expérience autour de ce que les statisticiens
nomment « La distribution hypergéométrique ».

Pour se faire, 4 règles simples à respecter !

Règle 1 : mise en place


Tu aligneras devant toi 𝑁 objets dont 𝐾 ont une caractéristique d’intérêt (conséquence : 𝑁 − 𝐾
n’auront pas cette caractéristique d’intérêt). Cette caractéristique d’intérêt dépend de ton
problème. Si tu compares l’eau du robinet à l’eau en bouteille, tu pourrais remplir 3 gobelets d’eau
en bouteille et 7 d’eau du robinet. Dans cette situation,

𝐾=3
𝑁−𝐾 =7
ou encore

𝐾=7
𝑁−𝐾 =3
Si 𝐾 = 3, tu sous-entends que ce qui t’intéresse est l’eau en bouteille. Si 𝐾 = 7, tu sous-entends que
ce qui t’intéresse est l’eau du robinet. En réalité, il s’agit de deux angles de vue différents d’une
même situation. Le fond du problème ne sera pas impacté par l’angle de vue. Pour des raisons
purement pratiques, on prend toujours l’angle de vue aboutissant à la plus petite valeur de 𝐾. Dans
l’exemple des eaux, la caractéristique d’intérêt est donc l’eau en bouteille et 𝐾 = 3.

Règle 2 : transparence
Signale à la personne qui prétend avoir un don1 que parmi les 𝑁 objets face à elle, 𝐾 ont la
caractéristique d’intérêt.

Idéalement, il faut faire les choses en double aveugle. Un premier organisateur s’occupe de la mise
en place avant de communiquer à un second organisateur qu’il y a 𝐾 objets ayant la caractéristique
d’intérêt parmi les 𝑁 et rien de plus. Seul ce second organisateur va ensuite interagir avec la
personne qui prétend avoir un don. Le second organisateur ne sait en définitive pas plus que la
personne qui prétend avoir un don où se trouve les 𝐾 objets ayant la caractéristique d’intérêt !

1
C’est à dire la personne qui prétend être capable de distinguer les objets ayant la caractéristique d’intérêt
des objets ne l’ayant pas.
Règle 3 : les choix
La personne qui prétend avoir un don indique en une unique étape au second organisateur quels
sont les objets qu’elle pense ont la caractéristique d’intérêt parmi les 𝑁 objets. Elle peut prendre
tout son temps, prendre des notes, mais n’a qu’une seule et unique chance et ne peut pas donner
des résultats partiels.

S’il s’agit par exemple de retrouver les 4 rois parmi 52 cartes posées sur une table, pas question de
retourner une carte à la fois. Il faut pointer 4 cartes et les retourner toutes en même temps !

Règle 4 : mieux que le hasard ?


Le second organisateur délivre au premier organisateur les choix de la personne qui prétend avoir un
don. Le premier organisateur va alors compter combien de fautes ont été réalisées (au minimum 0).

La personne à avoir un don aura démontré faire mieux que quelqu’un qui choisit au hasard si le
nombre d’erreurs est égal ou inférieur à ce qui se trouve dans le tableau ci-après. Ce nombre
maximum d’erreurs que l’on peut tolérer varie selon ce que valent 𝑁 et 𝐾.

La partie supérieure droite du tableau est vide car cela correspond à des situations impossibles. Si
𝑁 = 6 par exemple, 𝐾 ne peut être égal à 7, 8 ou 26 !

Les squelettes de chatons correspondent à des situations possibles mais qui n’ont aucune valeur sur
le plan scientifique.
Exemple concret
On place 52 cartes sur une table, ce que représente chaque carte étant caché. 𝑁 = 52.

On sait qu’il y a 4 rois au total. 𝐾 = 4.

Une personne prétend avoir un don pour retrouver les rois dans un paquet de 52 cartes. On lui laisse
tout le temps nécessaire pour se concentrer.

Elle pointe 4 cartes. On les retourne toutes et les résultats sont : 3 rois et une dame (aïe ! Une
erreur !)

Que conclure ?

On regarde le tableau.
Le tableau indique que si on fait deux fautes ou moins, ça passe !

Ici, la personne a fait une seule erreur. C’est donc convaincant : elle a démontré une capacité à faire
mieux que quelqu’un qui retournerait les cartes au hasard. Bravo à elle !

Le présent document a été rédigé à l’occasion de la vidéo ci-après dont le visionnage est
chaudement recommandé : https://youtu.be/AoFa59UUf-U

Vous lisez la v2 de ce document. Pour télécharger la version la plus à jour, rendez-vous ici :
https://fr.tipeee.com/chatsceptique/news/97056

L’auteur du présent document, docteur en sciences et statisticien, peut être contacté via l’adresse

chatsceptique@gmail.com
Pour aller plus loin : c’est quoi la distribution hypergéométrique ?
Vous avez 𝑁 éléments face à vous. 𝐾 possèdent une caractéristique d’intérêt (ils sont par exemple
rouges), le reste ne possède pas cette caractéristique d’intérêt (ils sont d’une autre couleur).

Vous prenez au hasard 𝑛 éléments parmi les 𝑁 en une étape. Combien de ces 𝑛 éléments auront
la caractéristique d’intérêt ?

Si 𝑋 représente le nombre d’éléments parmi les 𝑛 prélevés au hasard à avoir la caractéristique


d’intérêt, on est intéressé par les probabilités suivantes :

𝑃(𝑋 = 0)
𝑃(𝑋 = 1)
𝑃(𝑋 = 2)

𝑃(𝑋 = 𝑁)

Supposons pour commencer que vous ne prélevez qu’un seul élément, c’est-à-dire que 𝑛 = 1.
Quelles sont vos chances de ne pas avoir prélevé un élément ayant la caractéristique d’intérêt ?
𝑁−𝐾
Facile : 𝑁 , c’est-à-dire le nombre d’éléments sans la caractéristique d’intérêt, divisé par le
nombre d’éléments tout court.

On peut donc noter :


𝑁−𝐾
𝑃(𝑋 = 0) =
𝑁

Quelles sont vos chances d’avoir prélevé un élément ayant la caractéristique d’intérêt ?
𝐾
Facile : 𝑁

On note dans ce cas :


𝐾
𝑃(𝑋 = 1) =
𝑁

Et les autres probabilités, par exemple 𝑃(𝑋 = 2) ?

Comme vous n’avez prélevé qu’un seul objet (𝑛 = 1), ce n’est pas possible de se retrouver avec
autre chose que 0 ou 1 objet ayant la caractéristique d’intérêt dans les mains. Du coup :

𝑃(𝑋 = 2) = 0
𝑃(𝑋 = 3) = 0

𝑃(𝑋 = 𝑁) = 0

Autre situation, vous prenez TOUS les objets face à vous. C’est-à-dire que 𝑛 = 𝑁.
Dans cette situation, c’est sûr, vous aurez choppé tous les objets ayant la caractéristique d’intérêt.
On peut donc noter :
𝑃(𝑋 = 𝐾) = 1

Comme vous avez pris tous les objets sans exception, tout résultat différent d’un sans-faute est
impossible : toutes les autres probabilités valent 0 !

Et si 𝑛 vaut autre chose que 1 ou 𝑁 ?


Hé bien, c’est compliqué. L’expression ci-après permet de calculer

𝑃(𝑋 = 𝑘)

peu importe la valeur de 𝑘, 𝑛, 𝐾, 𝑁 :

Cette expression est nommée « distribution hypergéométrique ».


Elle est très embêtante à calculer. La bonne nouvelle : pas besoin de le faire à la main. Vous
pouvez le faire en langage R2 très facilement. Il suffit d’éditer les 4 premières lignes de code ci-
après, puis de copier le tout et de coller…

k=0
n=4
K=5
N=10
dhyper(k, K, N-K, n)

…ici : https://rextester.com/l/r_online_compiler

Pour obtenir un résultat, cliquer sur « Run it (F8) ».

2
Le langage R est très utilisé par les statisticiens. Voici une vidéo d’introduction que j’ai réalisée à
son propos : https://youtu.be/sav3Mbe0_DM
Armé de notre code R, nous allons essayer de comprendre comment j’en suis arrivé au tableau de
tantôt dont voici les deux premières lignes.

On notera que dans la vidéo qui présente le tableau ainsi que dans le début du présent document,
on suppose toujours que 𝑛 = 𝐾, c’est-à-dire que la personne ayant un don doit toujours choisir
autant d’objets qu’il y a d’objets ayant la caractéristique d’intérêt parmi tous les objets face à elle.
S’il y a 6 cacahuètes dont 3 ayant une caractéristique d’intérêt, la personne doit prélever 3 objets.

Il s’agit en réalité d’une situation plus restrictive que ce que la distribution hypergéométrique
autorise. Restreindre ainsi les choses correspond à travailler dans une sous-région de la région
hypergéométrique.

Dans le cas 𝑁 = 6 et 𝐾 = 3, si on prélève 𝑛 = 3 objets, il devient intéressant de calculer les


probabilités ci-après :

𝑃(𝑋 = 0)
𝑃(𝑋 = 1)
𝑃(𝑋 = 2)
𝑃(𝑋 = 3)

Ce sont les probabilités de faire 3, 2, 1 et 0 fautes quand on prélève au hasard.

Via le code R, on obtient ces 4 probabilités en exécutant les lignes ci-après.


n=3
N=6
K=3
k=0
dhyper(k, K, N-K, n)
k=1
dhyper(k, K, N-K, n)
k=2
dhyper(k, K, N-K, n)
k=3
dhyper(k, K, N-K, n)

On obtient :
C’est à dire qu’il y a 5% de chance (dernière probabilité) de faire un sans-faute et 95% de chance
de faire 1 faute ou davantage (somme des trois premières probabilités) quand on prélève au
hasard.

Dès lors, pour la situation 𝑁 = 6 et 𝐾 = 𝑛 = 3, je déclare qu’aucune erreur ne peut-être tolérée


puisque nous sommes tout juste à 5% de chance de faire un sans-faute par hasard.

En général, une expérience est considérée « scientifique » si les chances de réussite par hasard
sont de 5% ou moins. Une expérience n’est pas considérée scientifique dans les chances de
réussite par hasard excèdent 5% !
Avec 𝑁 = 6 et 𝐾 = 𝑛 = 3, si on tolère 1 ou 0 faute, l’expérience n’est pas scientifique car on fera
1 ou 0 faute dans 50% des cas malgré une absence de don ou de talent.

Vous aimerez peut-être aussi