Vous êtes sur la page 1sur 154

MÉTHODES QUANTITATIVES I

COURS ET EXERCICES

F RANÇOIS B AVAUD

FACULT É DES L ETTRES


FACULT É DES G ÉOSCIENCES ET DE L ’E NVIRONNEMENT

U NIVERSIT É DE L AUSANNE
Table des matières

Table des matières i

1 Introduction et rappels mathématiques 1


1 Introduction : les méthodes quantitatives (*) . . . . . . . . . . . . . . . . . . 1
2 Le formalisme et les mathématiques (*) . . . . . . . . . . . . . . . . . . . . . 2
2.1 Langage naturel et langage formel . . . . . . . . . . . . . . . . . . . . 2
2.2 Complémentarité entre langage naturel et langage formel . . . . . . 3
2.3 Quid du statut des mathématiques ? . . . . . . . . . . . . . . . . . . . 4
3 Définitions et théorèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4 Arithmétique, points, fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1 Arithmétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2 Points et coordonnées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.3 Fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.4 Indices, signe somme, et signe produit . . . . . . . . . . . . . . . . . . 11
4.5 Factorielles et coefficients binomiaux . . . . . . . . . . . . . . . . . . . 13
5 Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5.1 Ensembles fermés, ouverts, dénombrables, non dénombrables . . . . 13
5.2 Inclusion, intersection, union, différence symétrique, complémentaire 14
5.3 Partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.4 Diagrammes de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.5 Evénements, propriétés, ensembles . . . . . . . . . . . . . . . . . . . . 15
6 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.1 Axiomes de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.2 Fréquences empiriques et probabilités théoriques . . . . . . . . . . . 17
6.3 Indépendance entre deux événements . . . . . . . . . . . . . . . . . . 18
6.4 Probabilité conditionnelle ; formule de Bayes . . . . . . . . . . . . . . 18

2 Données 21
1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Types de variables, et échelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 Variables quantitatives ou numériques . . . . . . . . . . . . . . . . . . 22
2.2 Variables catégorielles ou nominales . . . . . . . . . . . . . . . . . . . 24
2.3 Variables ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Les “variables ouvertes” . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Une seule variable : visualisation et indicateurs . . . . . . . . . . . . . . . . . 27
3.1 Visualisation d’une variable numérique : l’histogramme, la fonction
de répartition et le boxplot. Les quantiles. . . . . . . . . . . . . . . . . 27
3.2 Indicateurs de tendance centrale et de dispersion d’une variable
numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Variables centrées, réduites, standardisées . . . . . . . . . . . . . . . 36
3.4 Visualisation d’une variable catégorielle : le diagramme en bâtonnets
(et circulaire) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4 Deux variables : visualisation et table de contingence . . . . . . . . . . . . . 38

i
Table des matières

4.1 Visualisation de deux variables quantitatives : le diagramme de dis-


persion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2 Deux variables catégorielles : la table de contingence . . . . . . . . . 39
4.3 Visualisation de deux variables catégorielles . . . . . . . . . . . . . . 40
4.4 Visualisation simultanée d’une variable numérique et d’une variable
catégorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3 Liens entre deux variables 43


1 Introduction : le concept de dépendance (théorique) et de liaison (empirique) 43
1.1 Intérêt de la notion de dépendance . . . . . . . . . . . . . . . . . . . . 44
2 Liaison entre deux variables catégorielles : le coefficient du chi2 . . . . . . . 44
2.1 Quotients d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2 Valeur maximale du chi2, et V de Cramer (*) . . . . . . . . . . . . . 47
2.3 Calcul du chi2 : exemple réduit (format calculette) . . . . . . . . . . 48
3 Liaison entre deux variables numériques : covariance et corrélation . . . . . 48
3.1 Le coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 La droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Liaison entre une variable numérique et une variable catégorielle : le F-ratio 53
4.1 Cas limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Le cas des variables bimodales (*) . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1 Le coefficient d’association Q (*) . . . . . . . . . . . . . . . . . . . . . 58
6 Variables liées et prédiction : l’apprentissage automatique (machine lear-
ning)(*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4 Modèles 60
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2 Variables aléatoires et distributions . . . . . . . . . . . . . . . . . . . . . . . . 61
2.1 Distribution de probabilité discrète . . . . . . . . . . . . . . . . . . . . 61
2.2 Distribution de probabilité continue . . . . . . . . . . . . . . . . . . . 62
2.3 Fonction de répartition et quantiles (variables aléatoires numériques) 63
2.4 Moyenne et variance théoriques ; standardisation ; coefficient de va-
riation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.5 Distributions bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1 Les distributions uniforme et concentrée . . . . . . . . . . . . . . . . 67
3.2 Loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3 Loi de Poisson P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4 Loi multinomiale M(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1 Loi uniforme U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2 Loi normale N (µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3 Distribution de Dirac δµ (cas concentré continu) . . . . . . . . . . . . 73
5 Loi des grands nombres et théorème central limite . . . . . . . . . . . . . . . 73
5.1 Somme et moyenne de variables i.i.d. . . . . . . . . . . . . . . . . . . 73
5.2 La précision d’une moyenne est supérieure à celle de ses compo-
santes individuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3 Macro-description déterministe et micro-description aléatoire sont
compatibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4 Loi des grands nombres : la moyenne empirique tend vers la moyenne
théorique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5 Simulations et tirages . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6 Le théorème central limite : omniprésence de la loi normale . . . . . 76
5.7 Lois dérivées de la loi normale : lois du t, du χ2 , du F (*) . . . . . . 78
5.8 Variance infinie : le hasard ”sauvage” (*) . . . . . . . . . . . . . . . . 79
6 Estimations ponctuelles et intervalles de confiance . . . . . . . . . . . . . . . 81

ii
Table des matières

6.1 Estimation ponctuelle d’une moyenne, d’une proportion, d’une va-


riance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.2 Principe de l’intervalle de confiance . . . . . . . . . . . . . . . . . . . 82
6.3 Intervalle de confiance pour la moyenne (variance connue) . . . . . 83
6.4 Intervalle de confiance pour la moyenne (variance inconnue) . . . . 83
6.5 Intervalle de confiance pour la proportion . . . . . . . . . . . . . . . . 84

5 Introduction à l’inférence et aux tests statistiques 85


1 Modèles et données : modèles probabilistes et déterministes . . . . . . . . . 85
2 Induction et déduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.1 Réfutabilité déterministe . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.2 Réfutabilité probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.3 La règle de Bayes et l’induction . . . . . . . . . . . . . . . . . . . . . . 88
3 Le sondage : population, échantillon et représentativité (*) . . . . . . . . . . 90
4 Inférence pour les modèles paramétriques . . . . . . . . . . . . . . . . . . . . 92
4.1 Estimation par maximum de vraisemblance . . . . . . . . . . . . . . . 93
4.2 Estimation par maximum a posteriori (*) . . . . . . . . . . . . . . . . 93
5 Détection, reconnaissance, confusion et inférence . . . . . . . . . . . . . . . 94
5.1 Matrice de confusion. Coefficient kappa. . . . . . . . . . . . . . . . . 94
5.2 Le cas des réponses binaires (présence/absence ; signal/bruit) . . . . 95
6 Introduction aux test statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1 Schéma général (m hypothèses simples) . . . . . . . . . . . . . . . . . 98
6.2 Décision optimale, risques et coûts . . . . . . . . . . . . . . . . . . . . 99
6.3 Test de comparaison de deux moyennes. Courbe ROC . . . . . . . . . 100
6.4 La théorie de la détection du signal (*) . . . . . . . . . . . . . . . . . 102
6.5 Approches de Neyman-Pearson et de Fisher . . . . . . . . . . . . . . . 105
6.6 Test d’une seule hypothèse simple : quel seuil choisir ? . . . . . . . . 109

6 Exercices corrigés 110


Série 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Corrigé de la série 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Série 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Corrigé de la série 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
Série 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Corrigé de la série 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Série 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Corrigé de la série 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Série 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Corrigé de la série 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

iii
1 Introduction et rappels mathématiques

1 Introduction : les méthodes quantitatives (*) 1


Toute discipline empirique, c’est-à-dire fondée sur des données, doit invariablement confron-
ter certaines questions de base.
Typiquement : comment retranscrire les données collectées ? Comment mettre en rela-
tion les quantités ou catégories associées ? Comment associer les profils des diverses ob-
servations ? Dans quelle mesure ces observations soutiennent-t-elles ou non une théorie
donnée ? Comment déchiffrer, élucider les régularités ou la variabilité observés ? Com-
ment transformer toute cette information de façon à pouvoir la visualiser, l’interpréter ?
Comment prédire les valeurs probables qui pourraient être observées ?
Dans leur généralité, ces questions sont communes à toutes les disciplines, et leur traite-
ment constitue les objectifs et propositions des méthodes quantitatives, également appelées
(selon des distinctions réelles mais qui peuvent être négligées en première approximation)
statistiques ou analyse de données.
Selon la discipline considérée, et le type de données et théories associées, certaines métho-
des se révèleront plus adaptées ou centrales que d’autres, et l’on pourra alors se spécialiser
par exemple, en méthodes quantitatives pour la géographie, méthodes quantitatives pour la
linguistique, pour l’économie, la sociologie, la biologie, etc... Cela étant, le socle commun à
toutes ces méthodes quantitatives – qui est l’objet de ce cours d’introduction – est si vaste
et si cohérent que l’on peut, dans la majorité des types de problématiques abordées, parler
de méthodes quantitatives au sens général, sans spécifier une discipline en particulier.
Il se trouve que les questions évoquées ci-dessus, impliquant des notions de géométrie, de
probabilité, d’adéquation d’une théorie à des données etc. sont particulièrement illuminées
et stimulées par le recours à la logique (pour les distinctions de base), aux mathématiques
(pour les définitions plus élaborées et les calculs de base), et à l’informatique (pour les
plus longs calculs et l’automatisation), à savoir les disciplines computationnelles.
Ces disciplines se caractérisent par un recours systématique à un (ou plusieurs) forma-
lisme, formalisme qui peut certes rebuter la lectrice ingénue 2 , mais qui consiste (en tout
cas ici) en des conventions simples, peu nombreuses, et passablement répétitives – de quoi
les maı̂triser aisément au bout d’un moment, si l’on s’en donne au minimum les moyens.
Dans l’études des méthodes quantitatives, l’objectif premier consiste sans doute à maı̂tri-
ser un (ou plusieurs) langage simple, i.e. de pouvoir le lire, l’écrire, et de l’utiliser dans une
communication fluide, de façon générale, avec un minimum de fautes de syntaxe. Cette
syntaxe est réputée acquise lors des études secondaires (I et II), dont les notions suffisent
1. les personnes pressées de réviser peuvent laisser tomber les sections étoilées (*) en première lecture
2. Il est fort pénible que le français oblige à genrer les noms de personnes, alors que le plus souvent il n’est
aucunement question de genre dans l’énoncé. Les formes telles que “les étudiant.e.s”, “le(la) chercheur(euse)”
sont également pénibles, et n’amènent pas d’information supplémentaire, si ce n’est le message “je veux désigner
autant les femmes que les hommes”, “je ne fais pas de distinction” (mais pourquoi devoir alors insister sur la
non-distinction à chaque fois...). En attendant l’usage partagé d’un vrai genre neutre, le premier chapitre a été
mis au féminin, et les suivants au “masculin-neutre” – une solution pas vraiment satisfaisante non plus, car il
n’en existe pas en l’état.

1
2. Le formalisme et les mathématiques (*)

plus que largement pour l’essentiel. Si tel n’était pas tout-à-fait le cas, il n’est jamais trop
tard...
Comment des lettrées maı̂trisant les formes écrites et orales du chinois, de l’hindi, de
l’arabe etc. (ou de toute langue difficile pour, disons, les européens) peuvent-selles sécher
devant une formule mathématique simple ? Il y a là un immense mystère – et sans doute
un immense gâchis : les disciplines computationnelles de base sont tellement plus simples !
Quant aux développements avancés des disciplines computationnelles, ils peuvent être
certes vraiment escarpés et difficiles, mais rien de tel n’est exigé de l’étudiante “standard”
en méthodes quantitatives : au “pire”, ses enseignantes et ses lectures lui transmettront des
résultats directement applicables, i.e. des théorèmes utiles bien établis, mais sans exiger la
maı̂trise de toute la théorie et des preuves, lesquelles ont été établies une fois pour toute
par d’autres personnes : pas besoin de revisiter et de redémarrer ici toute la machine pour
des étudiantes qui ne sont ni logiciennes, mathématiciennes ou informaticiennes, nous
sommes bien d’accord là-dessus.

2 Le formalisme et les mathématiques (*)


2.1 Langage naturel et langage formel
Les thèmes suivants, et bien d’autres, sont récurrents dans ce qui suit :
● la distinction entre observations (données) et théories (modèles)
● les relations statistiques dans les données
● la probabilité d’une observation pour un modèle donné
● la vraisemblance d’une hypothèse suite à des observations.

Pour aborder efficacement ces questions, il est essentiel de pouvoir recourir, en plus du lan-
gage naturel, au langage formel. En (très) gros, le langage naturel est le français (l’anglais,
le hindi, etc.) parlé ou écrit “ordinaire”, tandis qu’un langage formel utilise un formalisme
impliquant des symboles particuliers reliés entre eux par une syntaxe logique strictement
définie. Une formule mathématique, une expression de logique formelle, du code infor-
matique sont des exemples de langage formel.
Exemple 1. Par exemple, “le carré de la longueur de l’hypoténuse est égal à la somme des
carrés des longueurs des deux autres côtés” est un énoncé mathématique en langage naturel,
tandis que “z 2 = x2 + y 2 ” est le même énoncé (une fois définis z, x et y) en langage formel.
Autre exemple : “la probabilité conditionnelle d’obtenir face sachant que l’on a obtenu face
le coup d’avant est égale à la probabilité non conditionnelle d’obtenir face” peut s’écrire
formellement comme “P (Xt+1 = F ∣Xt = F ) = P (Xt+1 = F )”.

Par rapport au langage naturel, le langage formel


(I) est beaucoup plus précis, sobre (et pauvre, pourra-t-on ajouter) : en passant de “Les
illustres convives s’étaient réparties entre le grand salon et la salle des fêtes” à “Deux
pièces contiennent respectivement n1 > 0 et n2 > 0 personnes”, on insiste sur le fait
que deux pièces sont occupées par un certain nombre de personnes, et on élimine
tous les autres éléments de contexte.
Cette précision est inestimable lorsqu’il s’agit de définir un nouvel objet, (tel que,
parmi des myriades d’exemples possibles, un territoire, un flux, une matrice de
corrélation ou un statut étudiante “réussites/échecs/matières non évaluées” dans un
plan d’études) typiquement comme l’objet muni de certaines propriétés (= toutes
ces propriétés et seulement ces dernières).
(II) est beaucoup plus concis ou compressé : dans l’exemple 1, les expressions des va-
riantes formelles sont beaucoup plus courtes que leurs équivalents en langage na-
turel. On peut encore compresser davantage toute expression formelle à volonté,

2
2. Le formalisme et les mathématiques (*)

simplement en la représentant par un seul nouveau symbole 3 .


La redondance du langage naturel fait qu’une erreur de syntaxe (par exemple une
faute d’orthographe) peut être corrigée facilement en général. Elle est bien moins
pénalisante qu’une erreur de syntaxe en langage formel : un seul signe incorrect
rend une formule mathématique incompréhensible (ou irrémédiablement autre),
un code informatique inopérant, etc.
(III) est beaucoup plus strict et contraint dans sa syntaxe : une expression formelle
est correcte, “bien formée” ou non, auquel cas elle n’a aucune valeur, aucune utilité,
aucune fonction.
Cette cohésion syntaxique est si forte qu’un énoncé formel tel que “x = 2y + 3” peut
être transformé automatiquement en “y = 21 x − 23 ” sans qu’à aucun moment il ne
soit nécessaire de réfléchir à ce que x et y peuvent représenter ou signifier (il peut
s’agir de coordonnées sur un plan cartésien, d’une relation entre le revenu et l’âge,
d’un système de transcription de notes lors d’un échange universitaire européen,
ou de toute autre chose). Autre exemple, un énoncé tel que x2 − 3x + 2 = 0 peut,
indépendamment de son contexte, être transformé mécaniquement en x0 = {1, 2}
(les solutions de l’équation précédente) : c’est le prodige du calcul, rendu possible
par l’application de règles mathématiques à des expressions formelles.
Par contraste, l’élaboration d’un nouveau concept ou le développement d’une argu-
mentation “verbo-conceptuelle” en langage naturel demande qu’à chaque instant
son auteure (ou sa lectrice) ait à l’esprit l’entièreté des éléments et du contexte
invoqués – un exercice beaucoup plus exigeant, incontestablement.

2.2 Complémentarité entre langage naturel et langage formel


De quoi parle-t-on, quel est le contexte, quelle est la signification du discours ? Le recours
au langage naturel, au début de tout discours et dialogue entre humains, est incontour-
nable : le langage formel n’est jamais utilisé tout seul, sans passages en langage naturel :
un traité de mathématiques ou de logique contient de nombreuses phrases en langage
naturel ; les fonctionnalités et objectifs d’un code informatique sont toujours décrits en
langage naturel, et ce dernier est généralement commenté.
Cela étant, une fois communiqué et introduit le sujet de discussion, il est possible que la
problématique associée se prête à une formalisation, auquel cas il serait vraiment dommage
d’y renoncer : une fois traduit en langage formel, l’énoncé initial peut en effet être traité de
façon purement syntaxique. Quantité d’opérations formelles (i.e. logiques, mathématiques
ou informatiques) peuvent alors y être appliquées automatiquement, sans référence au-
cune à la signification et au contexte de l’énoncé.
3. la seule limite ou difficulté est ici la disponibilité des symboles (lettres latines ou grecques minuscules ou
majuscules, symboles spéciaux etc.). Il s’agit d’une réelle difficulté dans la rédaction d’un article ou un traité
impliquant de nombreux objets formels, comme c’est souvent le cas en méthodes quantitatives : on y manque
hélas très souvent de lettres distinctes et reconnaissables (ce n’est pas une plaisanterie).

3
2. Le formalisme et les mathématiques (*)

Ce foisonnement de cheminements formels possibles


permet des raccourcis directs et spectaculaires dans Langage naturel Langage formel
l’obtention de solutions. Il permet le plus souvent SEMANTIQUE

de générer de nouvelles questions pertinentes. Il énoncé initial énoncé initial


en langage naturel en langage formel
clarifie également en retour le rôle (nécessaire ou
non, souhaitable ou non) des éléments de départ
présents dans l’énoncé du problème, et aide à iden- S
Y
tifier d’éventuelles modifications du contexte, propres N
T
à aborder la problématique d’une façon plus féconde. A
L’effort supplémentaire requis est d’une part celui de X
E
la traduction d’un langage à l’autre, dans les deux sens
énoncé(s) final énoncé(s) final
(opération sémantique), et d’autre part celui du tra- en langage naturel en langage formel
vail formel proprement dit, à l’intérieur du système SEMANTIQUE
formel (opération syntaxique).

De nombreuses disciplines ont su tirer profit de cette formalisation : la physique est


entièrement formalisée, une grande partie des sciences économiques l’est, comme le sont
de nombreux chapitres en biologie, sciences de la terre, géographie, linguistique, psycho-
logie, etc.

2.3 Quid du statut des mathématiques ?


Voilà une question disputée. Pour simplifier (beaucoup), l’arithmétique ancienne (disons
celle de l’antiquité) étudiait les propriétés des nombres (entiers), comme dans “trois pommes
plus cinq pommes font huit pommes”, un énoncé valide pour n’importe quelle quantité
conservée (des poires, des personnes, des volumes etc. ), certes formalisé (en notation
moderne) comme “3 + 5 = 8”, mais sans plus.
De même, la géométrie ancienne étudiait les propriétés générales des configurations spa-
tiales, comme dans “le carré de la longueur de l’hypoténuse est égal à la somme des carrés
des longueurs des deux autres côtés”, un énoncé valide pour tout triangle rectangle, quelle
que soit sa position ou son orientation, sa matérialisation (en sable ou en granit), etc.
On peut considérer ces énoncés comme des propriétés vraies 4 pour quantité d’objets réels
(au sens de “observés”) indépendamment de leurs caractéristiques intrinsèques, auquel
cas l’arithmétique et la géométrie constituent une science, plus précisément une partie de
la physique.
On peut, au contraire, comme dans la conception contemporaine largement dominante,
considérer les mathématiques comme un ensemble de propositions logiquement validées
ou prouvées à partir d’un ensemble de définitions et de propositions admises comme
vraies (ou axiomes ; voir section 3), propositions décrivant ou modélisant plus ou moins
adéquatement et utilement la réalité ou monde. Ici, les mathématiques constituent une
partie (de loin la plus féconde) de la logique, et ne constituent pas une science.

Dans les deux cas, les mathématiques se prêtent magnifiquement à la formalisation, à


tel point que “expression formelle” et “expression mathématique” sont aujourd’hui sy-
nonymes. Mais, ainsi que sa forme ancienne l’atteste, les mathématiques ne sont pas
nécessairement formalisées : comme l’illustre la figure 1.1, la lecture d’un traité “ancien”
d’arithmétique ou de géométrie donne la mesure de la difficulté (à produire du contenu,
le communiquer, et à le lire) induite par le recours quasi exclusif au langage naturel.
Nul doute que Al-Khwarizmi, Peletier, et toutes les mathématiciennes anciennes auraient
adopté avec enthousiasme le langage mathématique formel si elles en avaient disposé de
leur temps. Et nul doute aussi que la formalisation “moderne” a permis aux mathématiques
4. ou pas : le théorème de Pythagore n’est plus valide dans un univers courbé par un camp gravitationnel.

4
3. Définitions et théorèmes

F IGURE 1.1 – Gauche : extrait du traité d’algèbre Kitab al-jabr wa al-muqabala (ca. 825) de Al-
Khwarizmi (ca. 780-850). Droite : extrait de l’ouvrage L’algèbre de Jaques Peletier du Mans, départie
en deux livres (1554), de J.Peletier (1517-1582).

d’acquérir cette efficacité, cette puissance, cette nécessité contemporaine incontournable 5 ,


qui en font l’une des plus extraordinaires constructions de l’humanité.
Le fait qu’une grande partie de cette même humanité, passée, présente et certainement
future, réfractaire aux mathématiques, puisse, pendant sa formation, réellement souffrir
de sa confrontation avec les mathématiques est fort malheureux ; mais cela n’y change
rien.

3 Définitions et théorèmes
Un discours mathématique commence toujours par présenter des définitions, ou s’ap-
puyer sur des notions bien définies pour l’audience – et d’autres disciplines feraient bien
de s’en inspirer systématiquement. Une fois introduits ces définitions ou axiomes, leurs
conséquences logiques sont ensuite énoncées : ce sont les théorèmes, et cet enchaı̂nement
illustre parfaitement la démarche déductive, formée de segments de la forme

“ si la propriété A est vraie, alors la propriété B est vraie ”

également énoncés comme

“ si A, alors B ” ou encore A⇒B .

De même, l’énoncé

“ la propriété A est vraie si et seulement si la propriété B est vraie ”


5. comme en informatique, issue des mathématiques et de l’électronique (une partie de la physique).

5
4. Arithmétique, points, fonctions

s’énonce aussi

“ A si et seulement si B ” ou “ A ssi B ” 6 ou encore A⇔B .

Le signe égalité “=”, comme dans “ f (x) = 1 − 2x + x2 ” possède deux significations bien
distinctes : il peut s’agir
● soit d’une définition d’un objet ou d’une propriété, à lire comme “ soit f (x) la
fonction 1 − 2x + x2 ”. On peut préciser cet usage en notant

def △
f (x) ∶= 1 − 2x + x2 ou encore f (x) = 1 − 2x + x2 ou encore f (x) = 1 − 2x + x2

et certaines syntaxes informatiques (telle celle de R) utilisent “ f (x) ← 1 − 2x + x2 ”


exactement dans le même sens.
● soit d’un théorème, comme dans la seconde égalité ci-dessous (la première étant
une définition) :

“ Soit f (x) ∶= (1 − x)2 . Alors f (x) = 1 − 2x + x2 . ”

4 Arithmétique, points, fonctions


4.1 Arithmétique
4.1.1 Opérations et transformations de base
La pratique manuelle des méthodes quantitatives et de la statistique, i.e. avec tables et
calculettes, ou lignes de code exécutées une à une, requiert une connaissance minimale
√ opérations + − × /, il s’agit essen-
de l’arithmétique et de l’algèbre ; en dehors des quatre
tiellement de pouvoir calculer des racines carrées x et des élévations à la puissance xn .
Les factorielles n! et coefficients binomiaux (nk) intervenant dans le cas de la loi binomiale
seront définis plus loin. Il faudra également acquérir (ou retrouver) une familiarité mini-
male avec les logarithmes (ex : entropie, transformation des scores, modèles log-linéaires),
et la fonction exponentielle exp(x) (ex : Loi de Poisson). Les fonctions trigonométriques
sin(x) et cos(x) interviendront dans des applications spécifiques (ex : séries temporelles,
données directionnelles, interprétation géométrique de la corrélation).
Dans la pratique statistique routinière, toutes ces fonctions deviennent pratiquement invi-
sibles en tant que telles à l’utilisateur : elles sont intégrées dans un logiciel ad hoc muni
d’une interface graphique donnant accès aux analyses et graphiques les plus utilisés. Cela
étant, pratiquer tous les calculs requis au moins une fois “à la main” (i.e. à l’aide d’une
calculette, ou en programmant soi-même) constitue une excellente (voire nécessaire)
façon de s’approprier la matière, de maintenir le contact avec la signification réelle d’une
opération statistique, et de conserver une distance critique suffisante face aux sorties de
logiciels, dont les choix peuvent et doivent être discutés, le cas échéant.

4.1.2 Nombres réels


Les nombres à disposition du quantitativiste sont, en toute généralité, des nombres réels,
i.e. pouvant être mis en correspondance exacte avec les points d’une droite munie d’une
origine (le zéro) et d’une unité (+1)). L’ensemble R des nombres réels va de −∞ (“moins
l’infini”) à ∞ (“l’infini”). L’infini doit être pensé comme une limite plutôt que comme un
nombre réel (ce qu’il n’est pas). L’expérience montre que la division ou la multiplication
par 0 ou par ∞ peut prêter à confusion : a ≠ 0 désignant un nombre fini, on a toujours :
a a
a⋅0=0 a⋅∞=∞ =0 = ±∞ a0 = 1 (1.1)
∞ 0
6. “ssi” = “si et seulement si”. En anglais : “iff” = “if and only if”.

6
4. Arithmétique, points, fonctions

Par contre, les opérations suivantes sont soit indéterminées, soit impraticables dans l’en-
semble des réels :
0 ∞ √
=? =? 0 ⋅ ∞ =? 00 =? nombre strictement négatif =? (1.2)
0 ∞
Les nombres réels sont ordonnés par les relations “>” (plus grand que), “≥” (plus grand ou
égal que), “<” (plus petit que), “≤” (plus petit ou égal que).
Etonnamment, la terminologie nombre positif est ambigüe : elle peut désigner, selon les
usages, un nombre strictement positif x > 0 (c’est la convention qui sera utilisée ici) ou
bien un nombre non-négatif x ≥ 0. Mêmes remarques pour nombre négatif.
La multiplication (ou la division) de deux nombres de même signe (i.e. tous deux positifs
ou négatifs) donne un nombre positif ; la multiplication (ou la division) de deux nombres
de signe opposé donne un nombre négatif.
La valeur absolue d’un nombre x, notée ∣x∣, est égale à x si x ≥ 0, et à −x sinon. Par
exemple, ∣3∣ = 3 et ∣ − 3∣ = 3.
Le maximum de deux nombres max(x, y) est égal à x si x ≥ y, et à y sinon. De même,
le minimum de deux nombres min(x, y) est égal à x si x ≤ y, et à y sinon. Par exemple,
max(3, −4) = 3 et min(3, −4) = −4. En particulier, ∣x∣ = max(x, −x). Il n’est pas difficile de
prouver les identités suivantes
1 1
max(x, y) = (x + y + ∣x − y∣) min(x, y) = (x + y − ∣x − y∣)
2 2

Soit Z = {. . . , −2, −1, 0, 1, 2, . . .} l’ensemble des entiers relatifs. La partie entière par défaut
ou simplement partie entière (anglais : floor) ⌊x⌋ d’un réel x est le plus grand nombre
entier relatif non supérieur à x. Par exemple, ⌊1.2⌋ = 1, ⌊−2.7⌋ = −3 et ⌊−4⌋ = −4. La partie
entière par excès (anglais : ceiling) ⌈x⌉ d’un réel x est le plus petit nombre entier relatif
non inférieur à x. Par exemple, ⌈1.2⌉ = 2, ⌈−2.7⌉ = −2 et ⌈−4⌉ = −4.
Par construction, ⌈x⌉ = −⌊−x⌋. Aussi, ⌊−x⌋ + ⌊x⌋ = −1, sauf si x est un entier relatif, auquel
cas l’expression vaut zéro.

4.1.3 Continuum et ensemble discret


L’ensemble R des réels est le prototype du continuum, composé d’éléments pour lesquels
on peut passer de l’un à l’autre de façon continue. Il s’oppose à l’ensemble discret, tel
l’ensemble N = {0, 1, 2, . . .} des entiers naturels, pour lequel il faut “sauter” pour passer
d’un élément à l’autre.
R et N possèdent tous deux un nombre infini d’éléments, mais le premier est beaucoup
plus grand que le second. La représentation décimale d’un nombre réel est physiquement
impossible en général : elle exige presque toujours un nombre infini de décimales (on peut
donner un sens mathématique rigoureux à cette affirmation). Par contraste, on peut faire
une liste de tout les nombres entiers (comme 0, 1, 2, . . .) telle que tout nombre entier finira
par y apparaı̂tre dans l’énumération au bout d’un temps fini : pour cette raison, l’ensemble
N est dit dénombrable, au contraire de R qui ne l’est pas.

4.1.4 Précision
Les données numériques résultent :
● de “simples” opérations de comptage, s’exprimant en entiers (le nombre de nais-
sances en une année dans une région donnée ; le nombre de jours de pluie, le nombre
de votants)
● de mesures physiques (la température d’un liquide, la teneur en alcool d’une bière, la
distance entre deux lieux)

7
4. Arithmétique, points, fonctions

● d’estimations dépendant de modèles souvent sérieux mais provisoires (l’âge du système


solaire, la part des carottes dans l’alimentation de la Rome antique)
● ou d’indicateurs statistiques préalablement établis (l’espérance de vie à la naissance
dans un pays donné ; le prix médian d’une nuit d’hôtel ; la proportion d’adjectifs dans
un roman donné).
Dans presque tous les cas, il existe une incertitude ou précision finie sur la valeur exacte
de la donnée (difficultés ou ambiguı̈tés de comptage, finesse limitée des instruments ou
des indicateurs, incertitude sur le choix du modèle), limitant le nombre pertinent de
décimales ou, plus généralement, de chiffres dits significatifs. De ce point de vue, une
valeur numérique tend à exprimer deux choses fort distinctes, à savoir la magnitude de sa
valeur, mais aussi sa précision :
● une température de 37.2 ○ C n’est pas la même chose qu’une température de 37.200 ○ C,
qui évoque une précision 100 fois plus grande
● deux villes distantes de 10 miles ne sont pas exactement distantes de 16.093 ki-
lomètres
● avoir lu dans une édition datant de 1970 que le système solaire a 5 milliards d’années
n’autorise pas de dire en l’an 2000 que le système solaire a 5’000’000’030 années
● suite à quelques naissances ou décès, une ville de 30’000 habitants reste une ville de
30’000 habitants.
● si 8 personnes sur 13 sont favorables à un changement, déclarer un taux d’accep-
tation de 0.6154 = 61.54 % est soit maladroit soit franchement délictueux, puis-
qu’une telle précision, portant sur le quatrième chiffre significatif, évoque l’exis-
tence de 1/0.0001 = 10000 résultats possibles, alors qu’il n’y en a ici que 14 (à savoir
0, 1, 2 . . . , 13 personnes favorables à un changement).
Les “nombres arrondis aux décimales significatives” sont à cet égard plus adaptés d’un
point sémantique que les nombres réels, lesquels sont trop précis pour exprimer une va-
leur, et pas conçus pour exprimer l’imprécision, précisément. On peut expliciter ces deux
informations comme dans la notation 37.2 ± 0.2 ○ C, par exemple, qui exprime que la
température réelle se situe quelque part entre 37.0 ○ C et 37.4 ○ C, et qui préfigure la no-
tion d’intervalle de confiance en statistique.
Conserver toute la précision dans les calculs, mais se garder d’exprimer le résultat final avec
une précision supérieure à celle des données de départ, permet de contourner efficacement
bien des écueils dans ces matières – passablement complexes si on veut les formaliser
entièrement.

4.2 Points et coordonnées


La possibilité de représenter graphiquement les résultats numériques, selon des conven-
tions explicites et partagées, est précieuse : le système nerveux humain est très performant
pour reconnaı̂tre des formes visuelles, et très inefficace pour appréhender globalement un
tableau de chiffres.

8
4. Arithmétique, points, fonctions

3
Une des représentations graphiques les plus ⎛− 1⎞
C= ⎜ ⎟
⎝2⎠
simples et utiles consiste à représenter des points

2
définis par deux coordonnées (nombres réels)
⎛1⎞
(x, y) sur un “repère 0xy” dit aussi “repère A= ⎜ ⎟

1
⎝1⎠
cartésien”, à savoir sur un plan défini par deux
x
axes orientés (l’axe des x, horizontal, définissant

0
-2 -1 0 1 2 3
l’abscisse du point, et l’axe des y, vertical,
définissant l’ordonnée du point). L’origine (le ⎛0⎞
B= ⎜ ⎟

-1
⎝− 1⎠
point (0, 0)) est généralement placée à l’intersec-
tion des axes, sur lesquels figureront également

-2
les échelles, qui peuvent différer quant à la gra-
duation choisie.
Trois points dans un repère cartésien

4.3 Fonctions
Les mêmes conventions s’appliquent également

10
pour la représentation des fonctions : une fonc- y
tion y = f (x) est une règle de correspondance qui f(x)=x3
à un certain nombre x associe un nombre y.

5

Par exemple, f (x) = x3 et g(x) = x + 1 font g(x)= x + 1
respectivement correspondre à un nombre x son x

0
-2 -1 0 1 2
cube et la racine carrée de sa valeur additionnée
d’une unité 7 . Le calcul d’un nombre suffisant
de valeurs telles que f (0) = 0, f (0.5) = 0.125,
-5

f (1) = 1, f (1.5) = 3.375, etc., permet d’esquis-


ser le graphe de la fonction f (x), passant par les
-10

points (0, 0), (0.5, 0.125), (1, 1), (1.5, 3.375), etc.
Quant à la fonction g(x), elle n’est définie que √
pour x ≥ −1. Graphes de f (x) = x3 et g(x) = x+1

Une fonction est dite continue si son graphe peut être tracé sans discontinuités, i.e. sans
lever le crayon. Une fonction est croissante si son graphe “monte” (i.e. si à des valeurs
plus élevées de x correspondent des valeurs plus élevées de y, ou encore si sa pente est
positive) – c’est le cas des fonctions représentées ci-dessus. La décroissance d’une fonction
se définit de façon analogue.
Une fonction f continue et strictement monotone (i.e. strictement croissante ou décrois-
sante) possède un inverse f −1 , défini par f −1 (y) = x ssi y = f (x), ou encore f −1 (f (x)) = x
(pour tout x) ou bien f (f −1 (y)) = y (pour tout y) : à chaque valeur de x correspond une
seule valeur de y (et réciproquement), on dit que la fonction f est une bijection.
Un maximum (local) d’une fonction continue est un point a de l’axe des x tel que la
fonction soit croissante pour x ≤ a et décroissante pour x ≥ a, du moins dans un voisinage
de a, i.e. dans une région suffisamment petite contenant a. La notion de minimum se
définit de façon analogue.
Une fonction est dite convexe (respectivement concave) si sa courbure est orientée vers le
haut (respectivement vers le bas). Un fonction régulière est convexe dans le voisinage d’un
minimum, et concave dans le voisinage d’un maximum. Les points de transition convexe
↔ concave sont appelés points d’inflexion.
7. cette dernière locution, comme souvent avec le langage naturel, est ambigüe : l’ordre des transformations
n’est pas précisé, et deux interprétations sont possibles

9
4. Arithmétique, points, fonctions

y=x4 − x3 3 − 2x2 + x
Le graphe de la fonction f (x) = x4 − x3 /3 −

2
2x2 + x ci-contre illustre sa décroissance pour x ∈
(−∞, −1) et x ∈ (1/4, 1), et sa croissance pour

1
x ∈ (−1, 1/4) et x ∈ (1, ∞) (la section 5.1 rappelle
ces notations).
La fonction est localement minimale pour x = −1 x

0
et x = 1, avec valeurs f (−1) = −5/3 et f (1) = −1/3
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

et. Elle est localement maximale pour x = 1/4,


avec f (1/4) = 95/768 = 0.124.

-1
La fonction est convexe pour x ∈ (−∞, −1/2) et
x ∈ (2/3, ∞). Elle est concave pour x ∈ (−∞, −1/2)
et x ∈ (2/3, ∞). Aux points x = −1/2 et x = 2/3,

-2
la fonction passe de convexe à concave, ou l’in-
verse : ce sont les points d’inflexion. Graphe de f (x) = x4 − x3 /3 − 2x2 + x

Les concepts précédents peuvent aussi être définis à l’aide de la notion de dérivée d’une
fonction : une fonction f (x) (suffisamment régulière) est croissante ssi sa dérivée première
(ou pente) satisfait f ′ (x) > 0, et décroissante ssi f ′ (x) < 0. Elle est convexe ssi sa dérivée
seconde satisfait f ′′ (x) > 0, et concave ssi f ′′ (x) < 0. Les extrema (=minima ou maxima)
satisfont à f ′ (x) = 0, et les points d’inflexion à f ′′ (x) = 0.
Bonne nouvelle pour les personnes qui ont souffert au baccalauréat de mathématiques : le
calcul des dérivées, et celui des intégrales (le célèbre calcul différentiel et intégral, appelé
calculus en anglais) n’est pas requis pour les utilisateurs des statistiques : en particulier, les
valeurs des intégrales les plus utilisées sont soit tabulées (ce sont les tables statistiques de
la loi normale, du t, du χ2 , du F ,...), soit calculées par un logiciel.
Cela étant, la compréhension de ces concepts est centrale dans l’appareil logico-formel des
méthodes quantitatives : typiquement, on verra que la probabilité d’un événement décrit
par une valeur continue s’exprimera comme une intégrale. Aussi, il faut distinguer entre
minimum local (les points x = −1 et x = 1 de la figure ci-avant) et minimum global (le point
x = −1, qui constitue le “minimum des minima”). Plutôt que d’écrire

min f (x) = f (−1) on écrit aussi arg min f (x) = −1


x∈R x∈R

où “arg min” désigne l’argument minimisant la fonction qui suit. Les mêmes considérations
et notations s’appliquent aux maxima, naturellement.

4.3.1 Fonctions linéaires ; droites


Les fonctions les plus simples et les plus utilisées en méthodes quantiatives sont les fonc-
tions linéaires, de la forme f (x) = ax + b, où a et b sont deux nombres réels quelconques
bien définis, les paramètres de la fonction 8 . Toute fonction linéaire correspond géométriquement
à une droite et inversement.
8. un usage plus strict réserve l’appellation “linéaire” aux seules fonctions du type f (x) = ax

10
4. Arithmétique, points, fonctions

Pour représenter une fonction linéaire, par


y

3
exemple f (x) = 2x − 1, il suffit de déterminer
deux points arbitraires et de tracer la droite. Dans

2
l’exemple, f (0) = −1 et f (1) = 1 : la droite
passe donc par les points (0, −1) et (1, 1), comme ⎛1⎞
⎜ ⎟

1
l’illustre le graphique ci-contre. ⎝1⎠

Le paramètre a s’appelle pente (slope) de la droite x


y = ax + b : la droite est croissante ssi a > 0, et

0
-2 -1 0 1 2 3

décroissante ssi a < 0. Lorsque a = 0, on a la fonc-


⎛0⎞
tion constante f (x) = b, qui associe à tout nombre ⎜ ⎟

-1
⎝− 1⎠
réel x la valeur b. Le paramètre b donne l’ordonnée
à l’origine (intercept), qui est la distance verticale

-2
de la droite à l’origine : la droite passe au-dessus
de l’origine ssi b > 0. Lorsque b = 0, la droite passe Une droite est déterminée
par l’origine. Dans ce cas, les valeurs de y sont par deux points distincts
proportionnelles à celles de x.

4.3.2 Logarithmes et exponentielles



A part les fonctions puissance xa (telles que x2 ou x), les fonction non-linéaires les plus
utilisées en méthodes quantitatives sont le logarithme loga (x) et son inverse, l’exponentielle
ax . L’expression loga (x) désigne le logarithme en base a > 1 du nombre x > 0, qui est
l’exposant y auquel il faut élever a pour obtenir x. Autrement dit :

y = loga (x) ⇔ ay = x (1.3)

Par exemple, le logarithme de 32 en base 2 est log2 32 = 5, car 25 = 32. Les bases les
plus utilisées sont les bases a = 2, a = 10 et a = e ∶= 2.71828.... Changer de base revient
à multiplier le logarithme par une constante (comme pour un changement d’unités en
physique) : logb (x) = logb (a) loga (x). Si le choix de la base est sous-entendu, ou si la
propriété dont il est question ne dépend pas de la base, on peut noter log x au lieu de
loga (x). L’écriture ln x réfère à loge (x) (logarithme népérien ou naturel).
y=loga(x)
3

La fonction logarithme loga (x) est croissante,


concave, et définie pour x > 0 seulement. On a
2

loga (1) = 0 et loga (a) = 1. Aussi, limx→0 loga (x) =


1

−∞, limx→0 x loga (x) = 0 et limx→∞ loga (x) = ∞.


x
La propriété essentielle du logarithme (quelle que
0

0 2 a 4 6 8 10
1
soit sa base) est de transformer le produit en
-1

somme, le quotient en différence, et la puissance


en produit :
-2

log(xy) = log(x) + log(y)


-3

x
log( ) = log(x) − log(y)
-4

y
log(xy ) = y log(x) . Graphe du logarithme en base a

4.4 Indices, signe somme, et signe produit


Afin de représenter une série de nombres ou de valeurs, par exemple les âges x respectifs
de n individus, la notation indicée est fort commode : xi (lu “x indice i” ou simplement
“x i”) désignera l’âge du i-ème individu. La somme des âges des n individus s’écrira alors :

x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + . . . + xn (1.4)

11
4. Arithmétique, points, fonctions

Pour simplifier et compresser cette écriture, on introduit le “signe somme” ∑ (inspiré du


caractère “sigma majuscule”), et l’on écrit (1.4) sous la forme :
n
∑ xi (1.5)
i=1

De façon générale, ∑ni=k ai désigne la somme de tous les ai , en commençant par l’individu
numéro i = k et en terminant par le numéro i = n (on suppose que k ≤ n). Il est à noter
que l’expression ne dépend pas de la lettre utilisée comme indice, qui est pour cette raison
qualifiée d’indice muet : on a toujours ∑ni=k ai = ∑nj=k aj , quelles que soient les valeurs de
k, de n et de la série ak ,...,an .
Si ri désigne le revenu du i-ème individu, rj désigne évidemment le revenu du j-ème indi-
vidu (et poser la question “que désigne rj ?” montre que l’on a pas compris la convention).
Par contre, qi désigne bien une certaine valeur associée au i-ème individu, mais tant que
l’on a pas défini q (la taille ? l’âge ? le revenu ?) on ne peut rien dire de plus.
De même, la notation
n m
∑ ∑ aij ou encore plus simplement ∑ aij
i=1 j=1 ij

désigne la double somme sur toutes les n valeurs de i et les m valeurs de j. On peut
effectuer la somme dans n’importe quel ordre, pourvu que chaque aij soit comptabilisé
une et une seule fois.
La notation ∑i≠j aij peut être ambigüe (le contexte devrait permettre de lever l’ambiguı̈té) :
il peut s’agir d’une double somme sur i et j excluant les paires i = j, ou d’une somme simple
sur toutes les valeurs de i sauf celle pour laquelle i = j, le cas échéant, qui pourrait alors
s’écrire sans ambiguı̈té comme ∑i ∣ i≠j aij (voir section 5.2), le résultat dépendant alors de
la valeur de j, qui n’est pas muet dans ce cas.
De façon analogue, la notation ∏ni=k ai désigne le produit de tous les ai , en commençant
par le numéro i = k et en terminant par le numéro i = n, à savoir ak ak+1 ak+2 ...an−1 an .

4.4.1 Des indices pas si muets en définitive (*)


L’équation (1.5) peut aussi s’écrire comme
n n n ⊘
∑ ix ou encore ∑ xℵ ou encore ∑ £ℵ ou encore ∑ £ℵ (1.6)
x=1 ℵ=1 ℵ=1 ℵ=1

dès que l’on a convenu de représenter l’âge du x-ème individu par ix (ou l’âge du ℵ-
ième individu par xℵ ou £ℵ ), parmi ⊘ = n individus. D’un point de vue strictement
formel (syntaxique), (1.6) n’est ni meilleur ni moins bon que (1.5). D’un point de vue
sémantique (traduction du langage naturel en langage mathématique et vice-versa), force
est de reconnaı̂tre que les identités de (1.6) sont bien plus difficiles à lire et appréhender
du premier coup que ne l’est (1.5) : les symboles ℵ, £ et ⊘ sont rarement utilisés en
mathématiques, et pratiquement jamais sous cette forme, alors que xi est le standard pour
désigner “la valeur du i-ème individu”.
L’usage rend ainsi certains symboles, en soi arbitraires et muets, plus faciles à lire que
d’autres, et la bonne lisibilité d’un texte mathématique dépend fortement de ces conven-
tions – lesquelles peuvent varier d’une discipline à l’autre, ce qui rend l’écriture mathé-
matique interdisciplinaire particulièrement délicate : certaines conventions doivent néces-
sairement être sacrifiées au profit d’autres (collusions de notations). De plus, l’expérience
montre que l’alphabet des 26 lettres latines (et des 23 lettres grecques), avec leurs va-
riantes majuscules et autres, se révèle vite limité pour exprimer élégamment et lisiblement
un propos un tant soit peu général, particulièrement en méthodes quantitatives.

12
5. Ensembles

4.5 Factorielles et coefficients binomiaux


Pour tout n entier supérieur ou égal à 1, la fonction n! (lue “n factorielle”) est définie par

n! ∶= n ⋅ (n − 1) ⋅ (n − 2) ⋅ ... ⋅ 3 ⋅ 2 ⋅ 1 (1.7)

On définit également 0! ∶= 1.
Par exemple, 4! = 4 ⋅ 3 ⋅ 2 = 24, 5! = 5 ⋅ 4 ⋅ 3 ⋅ 2 = 120, 1! = 1.
On définit d’autre part 0! ∶= 1. Par construction, (n + 1)! = (n + 1) ⋅ n! quel que soit l’entier
n ∈ N. La quantité n! constitue le nombre de permutations d’un ensemble de n individus :
il y a par exemple 6! = 720 façons d’attribuer 6 maisons distinctes à 6 individus, ou 5! = 120
ordres d’arrivée possibles sans ex-aequo lors d’une course de 5 concurrents.
n et k désignant deux entiers non négatifs avec n ≥ 0 et n ≥ k ≥ 0, on définit le coefficient
binomial (nk) comme (nk) ∶= (n−k)!k!
n!
.

Par exemple, (43) = 4!


1!3!
= 4, (42) = 4!
2!2!
= 6, (44) = 1.
L’interprétation du coefficient binomial (nk) (appelé aussi nombre de combinaisons de k
objets parmi n objets) la plus simple est probablement la suivante : considérons n lancers
d’une pièce de monnaie, et appelons k le nombre total de “pile” produits (n − k est donc le
nombre de “face”). Alors (nk) représente le nombre de séquences distinctes contenant k fois
“pile” en n lancers.
Par exemple, il y a (43) = 4 séquences distinctes contenant 3 fois pile en 4 lancers (à
savoir : “PPPF”, “PPFP”, “PFPP”, “FPPP”), et (44) = 1 seule séquence contenant 4 fois pile
en 4 lancers (à savoir : “PPPP”). De même, il y a (53) = 10 types de familles comportant 5
enfants dont 3 filles (et 2 garçons), se distinguant par l’ordre des naissances fille - garçon.
La symétrie pile ↔ face (ou fille ↔ garçon) du comptage des séquences est reflétée dans
la propriété (nk)= (n−k
n
).
Aussi, sans spécifier k = nombre de “pile”, il y a en tout 2n séquences possibles de n
lancers (puisqu’à chaque coup on a les deux possibilités “pile” ou “face”). Ces lancers sont
constitués de (n0 ) lancers distincts avec k = 0 “pile”, de (n1 ) lancers distincts avec k = 1
“pile”, ... , et finalement de (nn) lancers distincts avec k = n “pile”. On a ainsi, en utilisant
le signe “somme” :
n
n
∑( )=2
n
(1.8)
k=0 k

L’équation (1.8) est un cas particulier de l’identité binomiale (dans le cas x = y = 1 ci-
après) : quels que soient n (entier), x et y (réels), on a :
n
n k n−k
∑( )x y = (x + y)n (1.9)
k=0 k

Cette identité est à l’origine de la terminologie “coefficients binomiaux” : par exemple,


dans le développement de la puissance quatre du binôme (x + y)4 = x4 + 4x3 y + 6x2 y 2 +
4xy 3 + y 4 , on retrouve les coefficients (44) = 1, (43) = 4, (42) = 6, etc...

5 Ensembles
5.1 Ensembles fermés, ouverts, dénombrables, non dénombrables
On a déjà utilisé le concept d’ensemble, comme R pour celui des réels, et N pour celui des
entiers.
Formellement, un ensemble est une collection d’individus. Ces individus sont des objets
de même nature (quelconque), tels que des personnes, communes, livres, propositions,

13
5. Ensembles

constellations, nombres, etc... La notation de ces derniers est codifiée : {2, 3, 4} désigne
l’ensemble formé des trois nombres 2, 3 et 4, tandis que [2, 4] désigne l’intervalle de tous
les nombres réels compris entre 2 et 4 inclus (intervalle fermé), et (2, 4) (ou ]2, 4[) désigne
l’intervalle de tous les nombres réels compris entre 2 et 4 non inclus (intervalle ouvert).
Un ensemble A peut être fini (s’il contient un nombre fini d’éléments). La notation ♯ A ou
∣A∣ (cardinal de A) désigne le nombre de ses éléments. Lorsqu’un ensemble est infini, on a
vu qu’il peut être infini dénombrable lorsqu’il est possible de donner une énumération de
ses éléments telle que n’importe quel élément choisi d’avance apparaisse en en temps fini,
comme dans l’ensemble des entiers naturels N. Ou au contraire infini non dénombrable si
une telle énumération n’est pas possible, comme dans l’ensemble R des nombres réels.

5.2 Inclusion, intersection, union, différence symétrique, complémentaire


Un ensemble A est inclus dans un ensemble B (noté A ⊂ B) ssi tous les éléments de A
appartiennent à B. On dit alors que A est un sous-ensemble de B. L’intersection de deux
ensembles A et B (notée A ∩ B) est l’ensemble formé de tous les éléments appartenant
à A et à B. L’union de deux ensembles A et B (notée A ∪ B) est l’ensemble formé de
tous les éléments appartenant à A ou à B (ou les deux : il s’agit ici du “ou” non exclusif).
Formellement, on a donc :

A ∩ B ∶= {x∣x ∈ A et x ∈ B} A ∪ B ∶= {x∣x ∈ A ou x ∈ B} (1.10)

Ici x désigne un élément quelconque, le signe “∈” (“appartient à”) désigne l’appartenance
à un ensemble (et ∉ la non-appartenance), et le signe “∣” se lit “tel que” ou “étant donné
que”.
A ∖ B désigne l’ensemble formé des éléments appartenant à A mais pas à B. La différence
symétrique de deux ensembles A et B (notée A∆B) est l’ensemble formé de tous les
éléments appartenant à A ou bien à B (mais pas les deux : il s’agit ici du “ou” exclusif) :

A ∖ B ∶= {x∣x ∈ A et x ∉ B} A∆B ∶= {x∣x ∈ A ou bien x ∈ B} (1.11)

Dans une situation donnée, on appelle référentiel (souvent noté Ω) l’ensemble contenant
tous les éléments pertinents dans le contexte (par exemple : “tous les nombres réels”, “tous
les habitants de telle ville”, etc...). Une fois le référentiel fixé, il est possible de définir le
complémentaire d’un ensemble A, noté Ac ou encore Ā, constitué de tous les éléments
de Ω n’appartenant pas à A. Par construction, le complémentaire de Ω ne contient aucun
élément : on appelle cet ensemble (noté ∅) l’ensemble vide. Par construction, quel que soit
A ⊂ Ω, on a A ∪ Ā = Ω et A ∩ Ā = ∅. Deux ensembles A et B sont dits disjoints ou exclusifs
s’ils n’ont pas d’éléments en commun, i.e. si A ∩ B = ∅.

5.3 Partition
Une collection d’ensembles A ∶= {A1 , . . . , Am } constitue une partition de Ω ssi :
1) les {Aj } sont mutuellement exclusifs : Aj ∩ Ak = ∅ pour tous j ≠ k.
2) les {Aj } sont exhaustifs : A1 ∪ A2 ∪ ... ∪ Am = ∪m j=1 Aj = Ω.
Si A est une partition de Ω, chaque élément de Ω appartient à un et un seul ensemble Aj
de la partition. Par exemple,
● le territoire du canton de Vaud est, au premier janvier 2017, partitionné en m = 309
territoires communaux
● le texte d’un livre de 198 pages peut être partitionné en ... 198 pages
● les catégories (telles “très satisfait”, “assez satisfait”, “assez insatisfait”, “très insatis-
fait”) d’une question fermée forment (ou devrait toujours former) une partition de
l’ensemble des réponses possibles (quitte à rajouter une catégorie “autre : préciser”).
Une partition B est plus fine (anglais : “finer”) qu’une partition A ou, de façon équivalente,
la partition A est plus grossière (coarser) que B, ou encore B est emboı̂tée (nested) dans

14
5. Ensembles

A, ce que l’on note par


B⪰A
si chaque élément Bj de B appartient à un seul élément Ai de A. Par exemple, la partition
des 309 communes du canton de Vaud est plus fine que la partition des 10 districts. En
général, et par construction

A⪰A si B ⪰ A et C ⪰ B alors C ⪰ A .

5.4 Diagrammes de Venn


Le diagramme de Venn permet de représenter graphiquement les ensembles par une surface
connexe (i.e. d’un seul tenant) contenant les éléments de l’ensemble. Le référentiel Ω,
incluant tous les éléments, sera généralement figuré par un rectangle. Le diagramme de
la figure 1.2 indique immédiatement que D ⊂ A, E ⊂ C, A ∩ E = B ∩ E = ∅, etc... De
plus, les ensembles A, B et C entretiennent entre eux une relation tout à fait générale,
i.e. ils peuvent comporter une intersection commune, trois intersections deux à deux et
trois parties propres (n’appartenant qu’à eux-mêmes). On a également hachuré l’ensemble
A ∩ B ∩ C et quadrillé l’ensemble A ∩ B ∩ D = B ∩ D.

A
D

E
C

B

F IGURE 1.2 – diagramme de Venn

5.5 Evénements, propriétés, ensembles


D’un point de vue linguistique ou logique, un événement est défini par une proposition qui
peut être vraie ou fausse. Par exemple, l’événement A : = “il pleut mardi”, sera vrai s’il
pleut effectivement mardi, et faux sinon. Chaque événement définit une propriété (au
sens de la section 3), à savoir la propriété qu’il pleuve mardi. Chaque événement définit
également un ensemble (au sens de la section 5), à savoir l’ensemble des mardis pour les-
quels il pleut. Ces équivalences permettent de traiter une collection d’événements comme
une collection d’ensembles, et d’y appliquer les mêmes opérations (algèbre ensembliste).
Si A : = “il pleut mardi” et si B : = “il pleut jeudi”, on a :
● A ∩ B = “il pleut mardi et jeudi”
● A ∪ B = “il pleut mardi ou jeudi”,
● Ā = “il ne pleut pas mardi”
● A ⇒ B = “le fait qu’il pleuve mardi entraı̂ne qu’il pleuve jeudi”, que l’on énonce
aussi par “si A, alors B”, ou encore simplement “A ⊂ B”
● A ⇔ B = “le fait qu’il pleuve mardi entraı̂ne qu’il pleuve jeudi et réciproquement”,
que l’on énonce aussi par “A si et seulement si B” ou plus succintement encore par
“A ssi B” ou “A = B”.
Un événement tel que A = “il pleut mardi” peut être réalisé (i.e. vrai) ou non. Sa fonction
indicatrice ou caractéristique I(A) prend la valeur 1 si A est vrai, et 0 si A est faux.

15
6. Probabilités

En logique, la négation de la proposition A est notée “¬A”, plutôt que, de façon équivalente,
“A” ou “Ac ” en notation ensembliste. La règle dite du modus tollens “(A ⇒ B) ssi (¬B ⇒
¬A)” devient alors “(A ⊂ B) ssi (B̄ ⊂ Ā)” en langage ensembliste.

5.5.1 Quantificateurs universels et existentiels (*)


La logique dite de premier ordre considère des propriétés A(x) dépendant de variables x,
propriétés qui peuvent être vraies ou fausses selon la valeur de x. Par exemple, C(x) = “x
réussit son examen”, ou D(y) = “y aime les méthodes quantitatives”.
Si C(x) est vrai pour toute valeur de x, on peut écrire “∀x C(x)”, qui se lit “pour tout
x, C(x) est vrai”, ou simplement “tout le monde réussit son examen”. Si C(x) est vrai
pour au moins une valeur de x, on peut écrire “∃x C(x)”, qui se lit “il existe x tel que
C(x) est vrai”, ou simplement “(au moins) une personne réussit son examen”. Le symbole
∀ =“pour tout” est appelé quantificateur universel, et le symbole ∃ =“il existe” est appelé
quantificateur existentiel.
En présence de quantificateurs, les règles de négation sont

¬(∀x C(x)) ⇔ ∃x ¬C(x)

(il est faux que tout le monde a réussi son examen ss’il existe une personne qui a raté son
examen). De même, ¬(∃y D(y)) ssi ∀y ¬D(y) (il est faux qu’il existe une personne aimant
les méthodes quantitatives ssi personne n’aime les méthodes quantitatives) 9 .

6 Probabilités
La notion de vraisemblance d’un événement A, ou celle de sa propension à se produire,
sont modélisées par le concept de probabilité de l’événement A.

6.1 Axiomes de probabilité


La probabilité de A, notée P (A), est un nombre réel dans [0, 1], telle qu’une probabilité de
1 qualifie un événement certain, une probabilité de 0 qualifie un événement impossible, et
que ce nombre est d’autant plus grand que l’événement a de chances de se produire. Toute
fonction de probabilité P (.) doit a priori satisfaire aux règles minimales de cohérence ou
axiomes suivants :
1. P (Ω) = 1, P (∅) = 0
2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) quels que soient A ⊂ Ω et B ⊂ Ω
3. P (Ā) = 1 − P (A) quel que soit A ⊂ Ω
La première règle énonce que le référentiel peut être identifié à un événement certain,
et l’ensemble vide à un événement impossible. La seconde (dite principe d’“inclusion-
exclusion”) permet de passer de la probabilité d’une union à celle d’une intersection et
vice-versa. La troisième formalise le fait que de dire qu’un événement a par exemple 2%
de chances de se produire revient à dire qu’il a 98% de chances de ne pas se produire. Les
règles ci-dessus permettent par exemple de généraliser le principe d’inclusion-exclusion
dans le cas de trois ensembles :

P (A∪B ∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B ∩C)+P (A∩B ∩C) (1.12)

quels que soient A B et C.


9. A noter que la traduction littérale “mot-à-mot” en français de ∀y ¬D(y), à savoir “tout le monde n’aime
pas les méthodes quantitatives”, ne fonctionne pas, ce dernier énoncé étant synonyme de ∃y ¬D(y) .

16
6. Probabilités

6.2 Fréquences empiriques et probabilités théoriques


6.2.1 Fréquences empiriques
La fréquence empirique f (A) d’un événement A est la proportion du nombre de cas ob-
servés où A se produit, i.e.
nombre de fois où A s’est produit n(A) n(A)
f (A) = =∶ = (1.13)
nombre de fois où A s’est produit ou non n(A) + n(Ā) n(Ω)

où n(A) est le nombre de fois où A s’est produit 10 .


Par exemple, il y a eu en Suisse 62’181 décès en 1990, sur une population totale de
6’750’700 habitants. La proportion de décès (toutes catégories d’individus confondues)
est donc de f (décès annuel) = 62181/6750700 = 0.00921 = 0.921%.
La fréquence empirique vérifie les axiomes de la section 6.1 : elle se comporte donc
comme une probabilité, qu’on pourrait appeler probabilité empirique, même si le terme
fréquence (relative) est consacré.

6.2.2 Probabilités théoriques


La modélisation est une activité consubstantielle de la recherche en sciences naturelles, hu-
maines et sociales. On s’y efforce de dompter l’apparente infinité diversité des phénomènes
possibles en y recherchant des régularités, des contraintes, des liens, dans le but de sim-
plifier la description dudit phénomène, i.e. de mieux le comprendre : c’est précisément le
rôle des théories (de l’évolution, en physique, en linguistique, en sociologie, etc.).
Dans ce qui suit, le développement et la formalisation des théories, modèles ou hypothèses 11
seront suffisantes pour permettre de définir la probabilité P (A) d’un événement A perti-
nent pour la théorie. Cette probabilité est la moyenne, selon la théorie, justement, des fois
où cet événement A se produit, et elle s’exprime par

P (A) = E(I(A)) (1.14)

où I(A) est la fonction indicatrice de l’événement A (section 5.5), prenant la valeur 1 si
A est réalisé, et 0 sinon, et où E(.) désigne la moyenne théorique ou espérance déterminée
par la théorie ; on y reviendra abondamment, en remarquant au passage que la définition
(1.14) fait de P (A) une quantité obéissant aux axiomes de probabilité ci-dessus.
Dans les cas les plus simples, le référentiel Ω et les événements A qu’il contient peuvent
tous deux être décomposés, partitionnés en une collection de sous-ensembles ou cas de
même nature, dont il est raisonnable de postuler qu’ils sont équiprobables. Le modèle est
alors dit uniforme, et les probabilités théoriques s’obtiennent simplement comme
nombre de cas favorables (où A se produit) n(A)
P (A) = = (1.15)
nombre de cas possibles n(Ω)

Par exemple, la probabilité de tirer un roi d’un jeu de 52 cartes est de P (roi) = 4/52 =
0.077 = 7.7%. L’équiprobabilité des cas est ici justifiée par des raisons de symétrie, du type
“il n’y a pas plus de chances de tirer un roi qu’une autre carte d’un jeu bien mélangé de 52
cartes”. Aussi naturelle soit cette affirmation, elle n’en constitue pas moins un modèle de
la réalité, modèle qui peut se révéler adéquat ou non.
Dans le cas du lancer d’une pièce de monnaie, il s’agit de bien faire la distinction entre
une probabilité théorique uniforme de P (pile) = 0.5, suggérée par des considérations de
symétrie évidente, et une fréquence empirique de par exemple f (pile) = 0.52, obtenue
dans le cas d’une expérience portant sur 1000 lancers dont 520 auraient donné “pile”.
10. et donc n(A) + n(Ā) = n(Ω) est le nombre total d’observations
11. dans ce contexte, ces termes sont largement synonymes

17
6. Probabilités

De même, il faut distinguer entre l’effectif empirique n(A) de (1.13) qui est un nombre
observé et l’effectif théorique n(A) de (1.15) qui est un nombre postulé ou attendu. Cette
distinction entre données et modèle, sur laquelle on reviendra constamment, constitue la
distinction de base en méthodes quantitatives, statistique et modélisation.
En l’absence de répétition observée, nécessaire au calcul (1.13) d’une fréquence empi-
rique, ou de modèle à disposition (correct ou non), permettant le calcul (1.14) (ou (1.15)
dans le cas uniforme) d’un probabilité théorique, il simplement impossible d’évaluer une
fréquence ou une probabilité.
Quelle est la probabilité de l’apparition de l’humanité à travers l’évolution ? Quelle est la
probabilité d’une fin du monde thermonucléaire ? On ne dispose ici d’aucune répétition
(une seule Histoire, une seule Terre à disposition), et les questions sont trop complexes
pour être résolues, du moins à l’heure actuelle, par des modèles suffisamment élaborés et
validés. En clair, on n’en sait rien.

6.3 Indépendance entre deux événements

Définition 1. Deux événements A et B sont dits indépendants ssi P (A ∩ B) = P (A)P (B).

Attention ! P (A∩B) = P (A)P (B) est une propriété très particulière, qui n’est généralement
pas réalisée : deux événements ne sont pas indépendants en général. Si P (A ∩ B) ≠
P (A)P (B), alors
● ou bien P (A∩B) > P (A)P (B), qui exprime que A et B se produisent simultanément
plus facilement qu’ils ne se produisent chacun séparément : les événements A et B
sont positivement associés, ou en attraction
● ou bien P (A ∩ B) < P (A)P (B) : les événements A et B sont négativement associés,
ou en répulsion.
Sous indépendance P (A ∩ B) = P (A)P (B), les événements A et B ne sont pas associés :
neutralité.
Exemple 2. Parler d’un dé équilibré implique deux choses, à savoir que i) le référentiel est
Ω = {1, 2, 3, 4, 5, 6}, et que ii) les six faces sont équiprobables, i.e. que P ({1}) = P ({2}) =
P ({3}) = P ({4}) = P ({5}) = P ({6}) = 1/6.
Considérons les événements A = {2, 4, 6}, B = {1, 2, 3}, et C = {1, 2}. Leur probabilité est
de P (A) = 63 = 12 , P (B) = 36 = 21 et P (C) = 26 = 31 . On a :
● P (A ∩ B) = P ({2}) = 16 < P (A)P (B) = 1
2
⋅ 1
2
= 1
4
: les événements A et B sont
dépendants, en répulsion.
● P (A ∩ C) = P ({2}) = 1
6
= P (A)P (C) = 1
2
⋅ 1
3
= 1
6
: les événements A et C sont
indépendants.
● P (B ∩ C) = P ({1, 2}) = 13 > P (B)P (C) = 1
2
⋅ 1
3
= 1
6
: les événements B et C sont
dépendants, en attraction.

6.4 Probabilité conditionnelle ; formule de Bayes


Une notion essentielle dans le calcul des probabilités est celle de probabilité conditionnelle :
Définition 2. La probabilité conditionnelle de B étant donné A, notée P (B∣A), est la
quantité
P (B ∩ A)
P (B∣A) ∶= . (1.16)
P (A)

18
6. Probabilités

P (B∣A) mesure la probabilité que l’événement B soit réalisé, sachant que l’événement A
est réalisé. La probabilité que A et B soient simultanément réalisés est égale à la probabi-
lité que A soit réalisé, multipliée par la probabilité que B soit réalisé sachant que A l’est,
soit P (B ∩ A) = P (A)P (B∣A) qui donne l’équation (1.16).
Les conséquences directes de la définition (1.16) sont nombreuses et considérables :
a) P (B∣Ω) = P (B) : toute probabilité “non conditionnelle” telle que P (B) peut s’ex-
primer comme la probabilité conditionnelle de B étant donné l’événement certain
Ω.
b) P (B∣A) = P (B) ssi A et B sont indépendants, i.e. ssi P (A ∩ B) = P (A)P (B) :
deux événements sont indépendants ssi la probabilité que l’un se produise n’est pas
affectée par la connaissance que l’autre se produise ou non. De même, P (B∣A) >
P (B) ssi A et B sont en attraction, et P (B∣A) < P (B) ssi A et B sont en répulsion.
c) P (B∣B) = 1 : la probabilité que B se réalise sachant qu’il se réalise est de 1.
L’évidence intuitive de ce résultat peut être moquée comme rhétorique stérile ; elle
peut aussi être saluée comme lieu d’harmonie entre un formalisme et notre intuition
– un accord plus rare qu’il n’y paraı̂t (cf. paradoxes, biais, et autres fallacies).
d) de même, P (B∣B̄) = 0 : la probabilité que B se réalise sachant qu’il ne se réalise pas
est de 0 .
e) P (B∣∅) = 00 = indéterminé : la probabilité que B se réalise sachant que l’“impossible
s’est produit” ne peut pas être déterminée. Là aussi, toute autre réponse que “indé-
terminé” aurait heurté notre intuition : si l’impossible s’est produit, il faut se taire
à jamais – ou réévaluer cet impossible comme finalement possible, et modifier en
conséquence les probabilités de toutes nos évaluations.
f) L’identité
P (B) = P (B∣A)P (A) + P (B∣Ā)P (Ā) (1.17)
peut être illustrée par le schéma en arbre de la figure (1.3).
g) Plus généralement, étant donnée une partition A = {Aj }m j=1 (section 5.3), l’identité
suivante, dite formule des probabilités totales, est toujours valide :
m
P (B) = ∑ P (Aj )P (B∣Aj ) . (1.18)
j=1

h) La formule dite de Bayes

P (A)
P (A∣B) = P (B∣A) (1.19)
P (B)

permet de relier les probabilités conditionnelles P (A∣B) et P (B∣A), et de constater


qu’elles diffèrent en général, sauf dans le cas très particulier où P (A) = P (B) .
Les équations (1.17) et (1.19) permettent de résoudre un type de problème courant,
comme :
Exemple 3 (problème de prévision météo). “Les prévisions météorologiques d’une certaine
région sont fiables à 80% en cas de beau temps, et à 90% en cas de mauvais temps. Sachant
que le mauvais temps règne à 90%, quelle est la chance qu’une prévision de beau temps soit
correcte ? ”
Solution : relevons d’abord une possible ambiguı̈té, comme souvent en langage naturel,
dans les expressions “en cas de beau temps” et “en cas de mauvais temps” : s’agit-t-il de
beau ou mauvais temps réel ou bien annoncé ? L’expression “prévisions météorologiques”
fait pencher pour la seconde solution 12 .
12. en adoptant la première solution, le problème serait immédiatement résolu avec solution 0.8

19
6. Probabilités

F IGURE 1.3 – L’événement B peut être réalisé dans deux cas : lorsque l’événement A est
réalisé, ou lorsqu’il ne l’est pas. Ainsi, P (B) = P (A)P (B∣A) + P (Ā)P (B∣Ā) .

Posons A = “il fait beau temps” et B = “du beau temps est annoncé”. Les données
sont respectivement P (B∣A) = 0.8, P (B̄∣Ā) = 0.9 et P (Ā) = 0.9. On cherche P (A∣B),
(A)
égal à PP (B) P (B∣A) par (1.19). Dans cette dernière expression, seule la valeur P (B)
est momentanément inconnue ; l’équation (1.17) permet de la calculer comme P (B) =
P (B∣A)P (A) + P (B∣Ā)P (Ā) = 0.8 ⋅ (1 − 0.9) + (1 − 0.9) ⋅ 0.9 = 0.17 13 . Finalement, on trouve
P (A∣B) = P (B∣A)PP (B)
(A)
= 0.8⋅0.1
0.17
= 0.47 : même si les prévisions météo sont plutôt fiables, la
météo exécrable de la région fait qu’une annonce de beau temps n’a que 47% de chances
d’être réalisée.

13. on a utilisé P (A) = 1 − P (Ā) et P (B∣Ā) = 1 − P (B̄∣Ā). Attention ! en général, P (B∣Ā) ≠ 1 − P (B∣A)

20
2 Données

1 Généralités
Les données caractérisent un ensemble de n éléments, aussi appelés individus ou objets.
Ces individus sont de même nature, et forment l’échantillon à disposition. Un échantillon
peut consister en un ensemble de communes, d’un groupe de personnes, de plantes ou
d’animaux, de véhicules dans un parking, de livres contenus dans une bibliothèque, etc.
Aux individus sont associés une ou plusieurs caractéristiques (features) ou variables : par
exemple le prix des livres, la couleur de leur couverture, le genre littéraire ou documen-
taire, la langue utilisée, l’année d’édition, le nombre de pages, le poids, etc.
Ces données de base sont, en méthodes quantitatives et statistiques, systématiquement
mises sous forme tabulaire (tableau à deux entrées) : aux n lignes du tableau (éléments
horizontaux) correspondent les n individus, aux p colonnes du tableau (éléments verti-
caux) correspondent les p variables. Le tableau lui-même contient, à l’intersection de la
ligne i et de la colonne k, le score xik de l’individu i sur la k-ème variable (table 2.1).

x1 x2 x3 x y z
i=1 x11 x12 x13 i=1 x1 y1 z1
i=2 x21 x22 x23 i=2 x2 y2 z2
i=3 x31 x32 x33 i=3 x3 y3 z3
i=4 x41 x42 x43 i=4 x4 y4 z4
i=5 x51 x52 x53 i=5 x5 y5 z5
TABLE 2.1 – échantillon de n = 10 individus caractérisés par p = 3 variables, notées comme
x1 , x2 , x3 (à gauche) ou x, y, z (à droite) : les deux conventions d’écriture sont courantes et co-
existent. Attention : il s’agit de bien distinguer x2 , qui dénote l’ensemble des scores de la deuxième
variable, de x2 , le score du deuxième individu sur la variable x.

Exemple 4 (Participants à un cours de master). Considérons le jeu de données fictif de la


table 2.2, donnant quelques caractéristiques de participants à un cours de master. Le score
identifiant sexe ^
age nationalité commune domicile "J’apprécie les maths" "Mes motivations..."
1 F 24 suisse Lausanne énormément ............
2 F 31 iranienne Ecublens beaucoup ............
3 M 23 suisse Sion beaucoup ............
4 M 45 suisse Lutry plutôt oui ............
5 F 25 russe Lausanne plutôt oui ............
6 M 24 française Echandens beaucoup ............
7 M 23 suisse Petit-Lancy pas du tout ............
8 F 26 suisse St-Sulpice plutôt non ............
9 M 23 suisse Bulle plutôt oui ............
10 M 22 belge Echallens énormément ............
TABLE 2.2 – jeu de données (fictif) : un échantillon constitué de n = 10 étudiants de master

21
2. Types de variables, et échelles

de "nationalité" pour l’individu 10 est "belge", le score de "J’apprécie les maths"


pour l’individu 2 est "beaucoup", etc.

2 Types de variables, et échelles


Les variables décrivant un échantillon ne sont pas toutes de même nature. Les deux types
principaux sont constitués
● par les variables numériques ou quantitatives, pour lesquelles les scores possèdent
un caractère numérique qui peut être manipulé arithmétiquement ; en particulier, il
est possible de calculer la moyenne de deux scores numériques. Par exemple, l’âge
moyen des deux premiers individus de la table 2.2 est (24 + 31)/2 = 27.5 ans.
● par les variables nominales ou catégorielles, pour lesquelles les scores dénotent l’ap-
partenance à une catégorie ou un groupe, sans posséder de caractère numérique ; en
particulier, la moyenne de deux scores catégoriels (tels que sexe, domicile ou natio-
nalité) ne fait pas sens.

2.1 Variables quantitatives ou numériques


On l’a vu, les scores de ces variables sont de nature numérique, ce qui permet de les
additionner, les multiplier, etc. En particulier, on peut calculer la moyenne (définie plus
loin) d’une variable quantitative, et d’une variable quantitative seulement.
Par exemple, "^ age", "taille", "poids", "revenu", "température", "temps" (time), "dis-
tance" etc. sont des variables quantitatives, mais les variables "sexe", "profession" ou
"cursus d’étude" ne le sont pas. On verra que l’ensemble des variables quantitatives
peut être décomposé à son tour de façon plus fine selon 3 ou 4 classes d’échelles princi-
pales.
Pour ce faire, il est éclairant de se demander dans quelle mesure deux observateurs dis-
tincts, devant chacun attribuer des scores aux variables, parviendront ou non aux mêmes
conclusions. On pourra considérer leurs conclusions comme identiques à une transforma-
tion près, transformation caractérisant justement l’échelle (et le type) des variables en jeu.

2.1.1 Echelle de quotient


Par exemple, dire que deux individus ont 12, respectivement 10 ans revient à dire que ces
deux individus ont 144, respectivement 120 mois. Si x est une mesure de l’âge, cx (où c est
une constante positive) est une autre mesure de l’âge, obtenue par changement d’unité :
par exemple, c = 12 dans la transformation "années"→"mois". Par contre, le rapport des
âges des individus ne dépend pas de l’unité choisie : 12/10 = 144/120 = 1.2. Pour cette
raison, l’échelle en question est appelée échelle de quotient. L’âge, le poids, la taille, la
distance entre deux points, etc... sont généralement exprimés par une échelle de quotient.
Dans une échelle de quotient, le zéro ou origine possède une signification intrinsèque :
toute personne d’âge 0 est un nouveau-né, indépendamment de l’unité de temps choisie.

2.1.2 Echelle d’intervalle


D’autres quantités, telles que la température (il s’agit de la température ordinaire, mesurée
en degrés Celsius ou en degrés Fahrenheit, et non de la température absolue des physiciens
mesurée en degrés Kelvin qui correspond à une échelle de quotient), le temps (comme
dans “le 4 frimaire de l’an II”), la position (d’un point sur une droite) ou l’utilité cardinale
des économistes 1 sont quant à elles définies à une transformation affine ou linéaire 2 près
1. L’utilité est la quantité que le “consommateur rationnel” est sensé maximiser lors d’un achat : à prix
identiques, le bien x sera préféré au bien y si l’utilité de x est supérieure à celle de y.
2. La transformation y = ax + b constitue la transformation affine ou linéaire au sens large, tandis que la
transformation y = cx constitue la transformation linéaire au sens strict, caractérisant les échelles de quotient.

22
2. Types de variables, et échelles

de la forme ax + b : la constante a a pour effet de dilater les valeurs d’un facteur a > 0
relativement à l’origine, et la constante b a pour effet de translater toutes les valeurs d’une
quantité constante b. En d’autres termes, le paramètre a fixe l’unité ou la graduation, et le
paramètre b fixe le zéro ou l’origine.

Par exemple, la température en degrés Celsius (x) et la


température en degrés Fahrenheit (y) se correspondent comme
9 5 160
y = x + 32 x= y− . (2.1)
5 9 9
De telles échelles sont dites échelles d’intervalle. Dans une
échelle d’intervalle, le zéro ou origine ne possède pas de signifi-
cation intrinsèque : le zéro Fahrenheit (correspondant à –17,78
degrés Celsius) a été initialement défini comme la température
la plus basse que Daniel Gabriel Fahrenheit (1686-1736) ait
mesuré durant l’hiver 1708-1709 dans sa ville natale de Dant-
zig (Gdańsk), température proche de celle de solidification
d’une certaine solution de saumure.
Par contre, une différence d’échelles d’intervalle (de même unité) constitue une échelle
de quotient : par exemple, une différence de température de zéro entre deux corps signi-
fie que ces deux corps ont la même température, quelle que soit l’unité de température
choisie.
De même, l’année y du calendrier musulman (de durée d’environ 11 jours de moins que
l’année solaire) s’obtient approximativement 3 de l’année x du calendrier grégorien (en
vigueur dans la plupart des pays) par y = ax + b, à savoir

y = (x − 621.5709) × 1.0306888 = 1.0306888 x − 640.6462

2.1.3 Echelles absolues et relatives


Ces échelles s’obtiennent à partir d’échelles de quotient et d’intervalle en supprimant la
possibilité de transformation par dilatation.
Les échelles absolues sont celles qui n’autorisent aucune transformation. Cette échelle se
rencontre dans le cas d’un effectif, comptant le nombre d’individus : s’il y a sept personnes
dans une pièce, on utilisera exclusivement le score “7”, et non pas un autre score tel que
“10”, “-2” ou “3.1416” qui exprimerait la même chose dans une autre unité ou repère.
Les échelles relatives autorisent la translation mais non la dilatation. Un exemple est donné
par l’année solaire qui dépend de l’origine de la chronologie, mais dont la graduation
n’est pas arbitraire puisqu’elle correspond à une révolution terrestre : par exemple, la
transformation de l’année grégorienne x en année révolutionnaire y est donnée par y =
x − 1792, comportant un changement de zéro mais pas d’unité.
En résumé, on peut déterminer les échelles des variables quantitatives en répondant aux
deux questions (table 2.3) : “le zéro est-il arbitraire ?” (invariance de translation) et “la
graduation est-elle arbitraire ?” (invariance de dilatation).

2.1.4 Echelles non-linéaires


Ce qui précède concernait les transformations linéaires f (x) = ax + b d’une variable nu-
mérique x. Or nombreux sont les exemples d’utilisation (particulièrement en physique) de
3. Des transformations dites quasi-affines permettent une meilleure approximation : voir Troesch, A. (1998).
Droites discrètes et calendriers. Mathématiques et Sciences Humaines, 141, pp. 11–41.

23
2. Types de variables, et échelles

type de variable / échelle transformation admissible f (x) exemples


quantitatif / absolu f (x) = x (identité) effectif
quantitatif / quotient ax, c > 0 (linéaire strict) poids, âge, longueur
quantitatif / relatif x + b (translation) année solaire
quantitatif / intervalle ax + b, a > 0 (linéaire large) température, position
qualitatif=nominal=catégoriel bijection (recodage) nationalité, sexe, domicile
ordinal f (x) croissante classe sociale, dureté
“ouvert” dépend des choix du chercheur question ouverte
TABLE 2.3 – types de variables et échelles

transformations non linéaires, telle la transformation logarithmique f (x) = A loga (x) de


base a, ou la transformation en puissance f (x) = Axa d’exposant a.
Par exemple, les variantes des échelles de Richter (1935) en sismologie résultent de trans-
formations logarithmiques de l’énergie libérée par un séisme. Le décibel (1923) est une
mesure logarithmique (en base 10) du rapport de deux puissances acoustiques ou électro-
magnétiques.
L’échelle de Beaufort (1805) quantifie la vitesse du vent sur l’eau en 13 degrés, allant de
y = 0 "calme", y = 1 "très légère brise"... jusqu’à y = 12 "ouragan". Elle évoque une
variable ordinale (section 2.3), à ceci près que l’échelle de Beaufort y s’obtient approxi-
mativement (dans l’empan considéré) comme “l’entier le plus proche√ de la racine cubique
du quotient par 9 du carré de la vitesse du vent v en km/h”, soit y ≈ 3 (v 2 /9), qui est une
transformation de puissance de la vitesse d’exposant a = 2/3.
Ces variables obtenues par transformations non-linéaires d’une variable quantitative sont-
elles quantitatives à leur tour ? Oui, incontestablement, et on peut en particulier en cal-
culer des moyennes, à condition d’être bien conscient que la moyenne d’une transformation
non-linéaire des scores n’est pas égale à la transformation de la moyenne des scores. En parti-
culier la première est systématiquement plus grande ou égale (respectivement plus petite
ou égale) que la seconde si la transformation est convexe (resp. concave) 4 .

2.2 Variables catégorielles ou nominales


Les modalités d’une variable catégorielle définissent une partition de l’ensemble des indivi-
dus : chaque individu possède une seule modalité (exclusivité) et une seule (exhaustivité ;
voir le chapitre précédent). Une variable catégorielle x est plus fine qu’une autre variable
catégorielle y si la partition associée à x est plus fine que la partition associée à y.
Par exemple, la variable catégorielle x ="commune de domicile" est plus fine que y =
"canton de domicile". Autre exemple : la variable x ="nationalité" 5 de modalités
{suisse,étranger} est moins fine que la variable y ="origine" de modalités {"zuri-
chois", "bernois",..., "jurassien",..., "français", "allemand", ...}.
Lorsqu’elle se pose, la question du choix d’une bonne catégorisation est naturellement cru-
ciale, et complexe. Une catégorisation trop grossière implique évidemment une trop forte
perte d’information, et une catégorisation trop fine aboutit à des modalités rencontrées
une seule fois dans l’échantillon - ce qui n’est pas interdit, mais génère des difficultés
d’exploitation et de traitement des données 6 .
Des modalités telles que "français", "masculin", "Yverdon", "divorcé", etc. pourraient
être recodées en "F", "M", "Yv.", "Div.", ou encore en "f", "1", "13", "d", ou encore en
4. ce résultat constitue l’inégalité de Jensen (1906)
5. potentiellement problématique : la double nationalité viole l’exclusivité de la partition, et l’état d’apatride
viole son exhaustivité
6. en particulier, la variabilité des caractéristiques dans un sous-groupe formé d’un seul individu ne peut pas
être estimée – on y reviendra

24
2. Types de variables, et échelles

tout autre codage plus ou moins pratique, qui aurait été convenu d’avance (pour autant
évidemment que l’on se soit bien mis d’accord sur les modalités de codages, telles que
"masculin" ↔ 1). Ces scores ou codes, encore appelés modalités, sont de simples noms ou
catégories, d’où la qualification d’échelle nominale ou catégorielle que l’on utilise dans ces
cas 7 . Les scores nominaux sont donc définis à un recodage près, donné par transformation
biunivoque ou bijection x → f (x) (table 2.3), comme par exemple f ("féminin") = 1 et
f ("masculin") = 2.

2.2.1 Variables bimodales et variables indicatrices


Un type particulier est constitué par les variables catégorielles à deux valeurs possibles,
dites bimodales ou encore dichotomiques. Des variables telles que "sexe", "possède un
four à micro-ondes", "sait nager", etc... sont bimodales. Toute variable bimodale par-
titionne l’univers Ω en deux ensembles complémentaires A et Ac , comme dans A = {nageurs}
et Ac = {non nageurs}.
Inversement, tout ensemble ou événement A de Ω définit une variable catégorielle bimo-
dale x, ainsi qu’une autre variable indicatrice 8 z qui lui est équivalente, dont les scores sont
définis par


⎪1 si i ∈ A
zi = I(i ∈ A) = ⎨
⎪0 sinon


où I(.) représente la fonction indicatrice. Il se trouve que, contrairement à x qui est au-
thentiquement catégoriel, la variable variable indicatrice z est quantitative, et on peut en
particulier la moyenne, qui n’est autre que la proportion d’individus de l’échantillon ap-
partenant à l’ensemble A.
Si, par exemple, A = {femmes}, alors zi = 1 ssi i est une femme, et zi = 0 sinon. Bien
que la notion de “sexe moyen” soit absurde, celle de la moyenne de la variable indicatrice
0/1 associé à une variable bimodale fait sens : c’est ici la proportion de femmes dans
l’échantillon.
Ce procédé, qui facilite grandement la manipulation et le traitement des variables bi-
modales, peut être étendu aux variables catégorielles x à m modalités que l’on peut di-
chotomiser, c’est-à-dire recoder sans perte d’information en m − 1 variables indicatrices
{z1 , . . . , zm−1 } à valeurs 0/1.

2.3 Variables ordinales


L’échelle de Mohs (1812) vise à étalonner la dureté des minéraux au moyen scores allant
de 1 (“friable sous l’ongle”, tel le talc) à 10 (“maximalement dur”, tel le diamant). Un
minéral a est au moins aussi dur qu’un minéral b, noté aRb, ssi a peut rayer b. L’idée est de
quantifier cette relation (entre paires de minéraux) en attribuant à chaque minéral a un
score numérique xa tel que

xa ≥ xb ⇔ a est au moins aussi dur que b .

Ceci fait de R une relation transitive (si aRb et bRc alors aRc) et réflexive (∀a, aRa), et
totale (∀ab, aRb ou bRa) : on parle d’une relation de préordre total 9 .
Si aRbRc, on pourrait alors quantifier arbitrairement les duretés minérales par xa = 5,
xb = 3 et xc = 1, ou bien par xa = 50, xb = 20 et xc = 10, ou encore par xa = 5.1, xb = 5
et xc = 4.9, etc... , pourvu que xa ≥ xb ≥ xc soit respectée. Autrement dit, si x → f (x)
7. on parle aussi de facteur pour une variable catégorielle, une notion qui n’a rien à voir avec la notion de
facteur en analyse factorielle (qui est une technique d’analyse multivariée plus avancée)
8. aussi appelée dummy variable
9. “préordre total” et non pas “ordre total” car la propriété d’antisymétrie (si aRb et bRa, alors a = b) n’est
pas vérifiée : si deux minéraux ont la même dureté, ils ne sont pas forcément identiques.

25
2. Types de variables, et échelles

est une transformation admissible des scores ordinaux x en d’autres scores ordinaux f (x)
équivalents, il faut que f (x) ≥ f (y) lorsque x ≥ y : les scores ordinaux ne sont donc définis
qu’à une transformation croissante f (x) près (table 2.3).
Les mêmes considérations s’appliquent à la quantification, a priori arbitraire, des scores
de fréquence temporelle associés à toujours, presque toujours, très souvent, souvent, etc...,
qui doit satisfaire

xtoujours > xpresque toujours > . . . > xsouvent > . . . > xrarement > . . . > xjamais

De même, certaines stratifications sociales, typiques de la sociologie anglo-saxonne du


XXème siècle, reflètent (avec de multiples variations) l’ordonnancement en classes sociales

xupper class > xupper middle class > xlower middle class > xworking class

Dans un registre plus organique, l’échelle


des selles de Bristol 10 quantifie visuel-
lement les selles humaines en sept types
ordinaux, allant de 1= "petites crottes
dures et détachées, ressemblant à des
noisettes" à 7= "pas de morceau solide,
entièrement liquide".
Plus près de nous (en quelque sorte), la note obtenue lors d’une épreuve quantifie la
qualité de la prestation de la personne évaluée : une note de 5 (sur une échelle de 1 à 6,
avec un seuil de suffisance à 4) dénote une prestation bien meilleure qu’une note de 2.5,
mais peut-on dire que la première est deux fois plus grande 11 ? Cela est justifié dans le cas,
par exemple, d’une épreuve constituée de questions à choix multiples vrai/faux de même
valeur, mais l’est moins dans le cas d’une épreuve orale ou d’un travail de mémoire, où les
critères d’évaluation, même bien explicités, contiennent toujours une part d’interprétation
subjective (d’où des écarts entre évaluateurs).
Pourtant, on continue à calculer des moyennes (réservées aux variables numériques) de
notes pour décider de la réussite ou non à un module, etc. En d’autres termes, on élève sou-
vent, car c’est fort pratique, les variables ordinales à la dignité de variables quantitatives,
i.e. on traite souvent un score ordinal comme s’il était numérique. Comme autre exemple,
les catégories "pas du tout d’accord", "plut^ ot pas d’accord", "plut^ ot d’accord",
"tout à fait d’accord", sont couramment converties en scores respectifs 1,2,3 et 4, les-
quels seront alors traités de façon numérique, en calculant en particulier des moyennes.
Ce dernier exemple illustre la transformation en rang d’un score ordinal, qui sera abordée
plus loin, et qui a l’avantage d’être d’application très générale, sans souci particulier de
légitimation.
Dans l’autre direction, les scores ordinaux (par exemple ceux associés aux classes so-
ciales) peuvent être dégradés vers le bas en les considérant comme des scores purement
catégoriels, moins structurés encore puisque la relation d’ordre a alors disparu.

2.4 Les “variables ouvertes”


Les “variables ouvertes” désignent des caractéristiques individuelles qui n’ont pas encore
été catégorisées ni quantifiées. L’exemple-type d’une variable ouverte est constitué des
questions ouvertes, telles que "Mes motivations pour suivre ce master" (figure 2.2)
ou "en quelques mots, votre perception des relations Suisse-UE" apparaissant
dans un questionnaire.
10. Lewis, S. J., et K. W. Heaton (1997) Stool form scale as a useful guide to intestinal transit time. Scandinavian
Journal of Gastroenterology, vol 32 no 9 pp. 920–924
11. ou plutôt 4/1.5 = 2.67 fois plus grande que la seconde, en partant du minimum de 1

26
3. Une seule variable : visualisation et indicateurs

L’analyse statistique n’est pas immédiate et ne va pas de soi, car n = 50 individus donne-
ront en général 50 réponses différentes, qu’il s’agira alors de quantifier ou de catégoriser
au moyen d’une (ou de plusieurs) variable quantitative ou catégorielle, à définir : les
questions ouvertes sont plus complexes à traiter que les questions fermées – et sont donc
clairement à éviter sauf si l’on a de bonnes raisons (et compétences) de faire autrement.
Si les réponses à "Mes motivations pour suivre ce master" sont concises, on peut ty-
piquement tenter de les recoder (a priori, i.e. selon une grille d’analyse prédéfinie selon la
problématique de la recherche, ou a posteriori, i.e. en essayant de regrouper les réponses
selon les thèmes qui se trouvent avoir émergé) selon quelques catégories (associées à une
ou plusieurs variables) telles que "Intér^ et général pour la discipline", "Intér^ et
pour un aspect spécifique", "Débouchés attendus pour un futur travail", etc.
Même si l’exercice peut sembler simple, sa réalisation diffère le plus souvent d’un cher-
cheur à l’autre, dont les choix coı̈ncident rarement..
Si les réponses sont plus élaborées et longues, on a affaire à de véritable textes, qu’il s’agit
là aussi de catégoriser et/ou quantifier : une entreprise occupant depuis des décennies
de nombreux chercheurs en statistique textuelle, traitement automatique du langage natu-
rel (TALN ; en anglais : NLP : natural language processing) et intelligence artificielle, af-
faire toujours en cours à laquelle de nombreuses recherches et enseignements avancés et
contemporains (en analyse de données, en “data mining”, en “machine learning”, etc.)
sont dédiés...
Selon la formule consacrée, ces questions débordent largement le cadre de ce cours, dans
lequel le statut des variables numériques, catégorielles ou ordinales sera considéré comme
fixé, et leurs scores donnés. Ce qui ne devrait toutefois jamais interdire de questionner
l’origine, la pertinence, la validité et l’exactitudes de ces scores, qui ne tombent pas du
ciel : une personne (ou un groupe de personnes) a forcément dû décider de produire
telles données à partir des informations disponibles, et cette personne doit pouvoir nous
expliquer le comment et le pourquoi de ses choix et traitements : ce “certificat d’origine
contrôlée”, cette “traçabilité” est un ingrédient essentiel de l’objectivité et de la reproduc-
tibilité scientifiques.

3 Une seule variable : visualisation et indicateurs


Le chercheur dispose à ce stade d’un tableau de données constitué de n lignes (les indivi-
dus) et p colonnes (les variables, de type numérique, catégoriel ou ordinal). Ce format, le
seul retenu ici, est, de loin, le plus courant – des modèles de données plus élaborés ayant été
conçus dans le domaine des bases de données. On supposera également que tous les scores
sont connus, i.e. qu’il n’y a pas de données manquantes, dont le traitement constitue, on
peut s’en douter, tout un chapitre en soi.
Pour n grand, il est impossible à un sujet humain d’appréhender d’un seul coup d’oeil
les caractéristiques principales de la distribution des scores : quelle est l’allure générale
de la distribution des valeurs ? Y a-t-il des relations entre variables ? Peut-on résumer
ses caractéristiques principales au moyen de, disons, deux ou trois quantités judicieu-
sement choisies ? Ces questions de visualisation et d’extraction d’indicateurs associés à
un échantillon sont au coeur des méthodes descriptives en statistique et en analyse de
données : comment compresser l’ensemble des données d’un échantillon, pour en produire
une représentation plus simple, mieux adaptée à la perception humaine, tout en s’efforçant
de limiter la perte d’information résultante ?

3.1 Visualisation d’une variable numérique : l’histogramme, la fonction de répartition et


le boxplot. Les quantiles.
On dispose d’un échantillon de n scores numériques bruts x = {x1 , . . . , xn }. On parti-
tionne l’ensemble des valeurs de l’échantillon en m intervalles consécutifs ou classes de la

27
3. Une seule variable : visualisation et indicateurs

100 100 100

80 80 80

60 60 60
effectif

effectif

effectif
40 40 40

20 20 20

0 0 0

20 30 40 50 60 70 80 20 30 40 50 60 70 80 20 30 40 50 60 70 80
x = âge des répondant.e.s x = âge des répondant.e.s x = âge des répondant.e.s

F IGURE 2.1 – Histogrammes des âges des répondant.e.s de l’exemple 5, avec des classes de la forme
]20, 21] etc. (à gauche), [20, 21[ etc. (au milieu), et ]20.5, 21.5] etc. (à droite). D’une spécification à
l’autre, la forme des trois histogrammes reste inchangée, avec décalage des classes d’une année ou
d’une demi-année.

forme ]aj , aj+1 ], ouvertes à gauche et fermées à droite 12 , où aj et aj+1 (avec aj < aj+1 sont
les limites de la j-ème classe, et e ∶= aj+1 − aj est son épaisseur ou largeur, généralement
constante.
Le nombre d’observations dans la j-ème classe ]aj , aj+1 ] est son effectif (count) nj . Par
définition,
n m
nj = ∑ I(aj < xi ≤ aj+1 ) et ∑ nj = n
i=1 j=1

i.e. la somme des effectifs de chaque classe est la taille de l’échantillon. L’histogramme
est le graphique obtenu par des rectangles dont les bases, en abscisse, sont les classes
elle-mêmes, et les hauteurs, en ordonnée, sont définies
● soit par les effectifs nj
● soit par les effectifs relatifs, fréquences ou proportions fj = nj /n. Par construction,
∑j=1 fj = 1 = 100%. Ce choix revient à contracter les ordonnées d’un facteur 1/n,
m

sans changer la forme de l’histogramme.


Exemple 5 (Questionnaire “Chamberonne” : âges). Un questionnaire électronique portant
sur la rivière “Chamberonne”, traversant le site de Dorigny de l’Université de Lausanne, a
été envoyé en décembre 2016 à une quinzaine de milliers de membres de la communauté
universitaire. Parmi les répondants, n = 1365 ont indiqué leur année de naissance yi , d’où
l’âge en nombres d’années a été déterminé comme xi = 2016 − yi . La figure 2.1 donne les
histogrammes correspondants, avec des largeurs de classe d’une année, et trois mises en
classes différentes.

Exemple 6 (Epreuves). En 2012-2013, un total de n = 215 étudiant.e.s a passé quatre


épreuves, chacune notée de 1 à 6 au centième de point, associées à l’enseignement “Mé-
thodes Quantitatives I et II” de la faculté des Lettres et de la faculté des Géosciences et
de l’Environnement de l’Université de Lausanne. La figure 2.2 donne les histogrammes
correspondants, avec des largeurs de classe d’un demi-point.

La plus petite valeur de l’échantillon est xmin = mini xi , et la plus grande xmax = maxi xi .
L’intervalle [xmin , xmax ] constitue l’empan de la distribution, et sa taille xmax − xmin en
12. ce que nous supposerons par la suite, sauf mention contraire ; le choix [aj , aj+1 [ est aussi possible, pourvu
qu’il soit spécifié. Dans le cas de scores entiers avec des classes délimitées par des entiers, comme dans le cas de
l’âge donné en années, passer d’une convention ]18, 19], ]19, 20], etc... à l’autre [18, 19[, [19, 20[, etc... revient
à translater tout l’histogramme d’une classe ; il est alors préférable d’utiliser des limites demi-entières telles que
]17.5, 18.5], ]18.5, 19.5], etc... ou [17.5, 18.5[, [18.5, 19.5[, etc... Cf. figure 2.1 .

28
3. Une seule variable : visualisation et indicateurs

50
60

40
effectif

effectif
40 30

20

20

10

0 0

0 1 2 3 4 5 6 1 2 3 4 5 6
x = note première épreuve x = note seconde épreuve

50 60

50
40

40
effectif

effectif

30

30

20
20

10
10

0 0

1 2 3 4 5 6 1 2 3 4 5 6

x = note troisième épreuve x = note quatrième épreuve

F IGURE 2.2 – Histogrammes des notes obtenues par les n = 215 aux étudiant.e.s aux quatre
épreuves (exemple 6), avec une largeur de classe (= précision) d’un demi-point

est l’étendue (range). La mise en classe doit couvrir tout l’empan de la distribution, d’où
m⋅e ≥ (xmax −xmin ), où e est la largeur de classe et m le nombre de classes. Plus e est grand
(et m petit), plus grande est la compression (= la perte d’information) des données brutes.
Inversement, le choix d’une largeur e trop petite aboutit à une série de “pics” et“déserts”
en apparence fortuits 13 (voir figure 2.3).
Le polygone de fréquences est la ligne obtenue en reliant les points du milieu des som-
mets de chaque rectangle d’un histogramme. Ce dernier est plus lisible que l’histogramme
lorsque deux groupes ou plus sont à représenter simultanément (figure 2.4 droite).

3.1.1 Fonction de répartition et quantiles


Définition 3. La fonction de distribution cumulée ou fonction de répartition empirique
F (x) est la proportion de valeurs de l’échantillon {x1 , . . . , xn } inférieures ou égales à x :

nombre observations ≤ x ♯{xi ∣xi ≤ x} ♯{xi ∣xi ≤ x}


F (x) ∶= = = (2.2)
nombre observations ♯{xi } n

où ”♯ A” dénote le nombre d’éléments contenus dans l’ensemble A.


13. i.e. intuitivement jugés comme peu pertinents et sans réelle signification : si l’on avait pu, dans un univers
parallèle, répliquer les épreuves en jeu avec des questions, étudiants et experts très légèrement modifiés, les “pics”
et “déserts” (pour e petit) seraient alors, en toute vraisemblance, complètement différents, sans que l’allure
générale de la distribution (histogramme pour e grand) ne soit sensiblement modifiée.

29
3. Une seule variable : visualisation et indicateurs

35

50
30

40 25

20
effectif

effectif
30

15

20
10

10
5

0 0

1 2 3 4 5 6 1 2 3 4 5 6
x = note troisième épreuve x = note troisième épreuve
14

8
12

10
6

8
effectif

effectif

6 4

4
2

0 0

1 2 3 4 5 6 1 2 3 4 5 6

x = note troisième épreuve x = note troisième épreuve

F IGURE 2.3 – Histogrammes des notes obtenues par les n = 215 participants aux 3ème contrôle
continu de méthodes quantitatives I et II, année 2012-2013, au demi, quart, dixième et vingtième
de point

100 100

80 80
étudiant.e.s et doctorant.e.s
professeurs, post-docs, MA, MER
personnel administratif et technique; autres

60 60
effectif

effectif

40 40

20 20

0 0

20 30 40 50 60 70 80 20 30 40 50 60 70 80
x = âge des répondant.e.s x = âge des répondant.e.s

F IGURE 2.4 – Gauche : polygone de fréquences, obtenu en reliant les milieux des sommets des
rectangles d’un histogramme. Droite : polygone de fréquences multiples, permettant de superposer
les distributions d’une variable selon plusieurs groupes (exemple 5).

30
3. Une seule variable : visualisation et indicateurs

1.0

1.0
0.8

0.8
fonction de répartition F(x)

fonction de répartition F(x)


0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0
1 2 3 4 5 6 2 3 4 5 6
x = note première épreuve x = note seconde épreuve
1.0

1.0
0.8

0.8
fonction de répartition F(x)

fonction de répartition F(x)


0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

2 3 4 5 6 2 3 4 5 6

x = note troisième épreuve x = note quatrième épreuve

F IGURE 2.5 – Fonctions de répartition empirique des notes obtenues par les n = 215 parti-
cipants aux 4 contrôles continus de méthodes quantitatives I et II, année 2012-2013.

Pour construire manuellement la fonction de répartition, on réordonne (i.e. ré-indice)


d’abord les scores par ordre croissant : x(1) ≤ x(2) ≤ . . . ≤ x(n) . La fonction de distribution
F (x) se construit alors comme un escalier croissant dont les marches augmentent d’une
hauteur n1 chaque fois que l’on rencontre une nouvelle valeur x(i) . S’il y a r scores ex-
aequo, la hauteur de la marche correspondante sera de nr . Par construction, F (x) = 0 pour
x < xmin , et F (x) = 1 pour x ≥ xmax (figure 2.5).
Imaginons qu’un nombre de plus en plus grand de notes, chacune mesurée avec une
précision infinie et toutes différentes, soient collectées, et que toutes les notes possibles
dans l’étendue [xmin , xmax ] = [1, 6] finissent par être réalisées, quoiqu’en proportion va-
riable en général : par exemple, il y aurait plus de notes dans l’intervalle ]4, 5] que dans
l’intervalle ]2, 3]. Dans cette limite, la hauteur des marches de l’escalier de la fonction de
répartition correspondante F (x), ainsi que la longueur des paliers horizontaux, tendraient
tous deux vers zéro : F (x) serait alors une fonction continue et strictement croissante, au-
trement dit une bijection de l’étendue des valeurs possibles vers l’intervalle [0, 1].
La médiane d’une distribution, notée x0.5 , est la valeur séparant l’échantillon en deux
moitiés de même effectif, à savoir la moitié constituée des valeurs inférieures à la médiane,
et l’autre moitié constituée des valeurs supérieures à la médiane. Plus généralement, Le
α-ème quantile d’une distribution, noté xα , est la valeur telle qu’une proportion α des
individus de l’échantillon ont un score inférieur à xα , ou, de façon équivalente, telle qu’une
proportion 1 − α des individus ont un score supérieur à xα .

31
3. Une seule variable : visualisation et indicateurs

Par exemple, la valeur x0.75 est le 75ème centile, ou encore le 3ème quartile, telle que
75% des individus de l’échantillon ont un score inférieur à x0.75 (et 25% des individus
ont un score supérieur à x0.75 ). De même, en considérant la variable x = “revenu”, le
20ème centile ou 2ème décile x0.20 sera le revenu non atteint par 20% des individus de
l’échantillon, et dépassé par 80% des individus.
L’idée fondant le concept de quantile est de découper l’échantillon en parties d’effectifs
égaux de 1/100 (centiles), 1/10 (déciles) ou encore 1/4 (quartiles) 14 ; ce découpage en-
traı̂ne en général la création de classes de largeur inégale : s’il y a bien 20% des individus
dans la classe ]x0.2 , x0.4 ] ou dans la classe ]x0.4 , x0.6 ], les largeurs x0.4 − x0.2 et x0.6 − x0.4
sont en général différentes. Si d’aventure ces classes étaient toutes de même largeur, cela
signifierait que la distribution des valeurs de x serait uniforme (ce concept sera formelle-
ment défini plus loin).
Les considérations ci-dessus présupposent qu’il existe une et une seule valeur xα parta-
geant la distribution en deux parties, de proportions α et 1 − α. C’est vrai si la fonction
de répartition F (x) est strictement croissante et continue dans l’étendue (i.e. bijective,
comme dans le cas limite d’un échantillon infini de valeurs continues évoqué ci-dessus),
mais problématique dans le cas d’un échantillon fini de valeurs brutes : si l’on dispose
par exemple de n = 8 valeurs distinctes, n’importe quelle valeur située dans l’intervalle
]x(2) , x(3) [ est un candidat au premier quartile x0.25 (car 2 valeurs observés sont plus pe-
tite, et 6 valeurs plus grandes), mais aucune valeur x0.01 ne peut prétendre, au sens strict,
séparer l’échantillon en deux parties de proportions respectives de 1% et 99% : dit simple-
ment, on ne peut pas découper un ensemble de 8 valeurs en 100 parties. La définition des
quantiles doit alors être adaptée.
Définition 4 (quantiles pour F (x) continue et strictement croissante). Pour α ∈]0, 1[, le
αème quantile est la valeur unique, notée xα , telle que F (xα ) = α.
Définition 5 (quantiles pour F (x) en escalier). Pour α ∈]0, 1[, la droite horizontale y = α
coupe F (x)
● soit le long d’un “mur” vertical correspondant à une observation x(i) , auquel cas le αème
quantile est défini comme xα = x(i)
● soit sur un “plateau” horizontal couvrant l’intervalle [x(i) , x(i+1) ], auquel cas le αème
x +x
quantile est défini comme le milieu du plateau xα = (i) 2 (i+1) .

Avec cette définition 15 , la valeur de la médiane vaut x0.5 = x( n+1


2
) si n est impair, et

x0.5 = 12 (x( n2 ) + x( n2 +1) ) si n est pair 16 .


Exemple 7 (Nombre d’enfants par ménage). Le nombre d’enfants vivant dans n = 12
ménages est de x = {0, 0, 0, 0, 0, 1, 1, 1, 2, 3, 3, 5}. La figure 2.6 donne l’histogramme et la
fonction de répartition, permettant de calculer les quantiles.

3.1.2 Le cas de données regroupées en classes


Il est fréquent que l’information initiale soit disponible sous forme de scores déjà regroupés
en classe, comme dans un histogramme, plutôt que sous la forme de scores bruts : on sait
que nj scores appartiennent au j-ème intervalle ]aj , aj+1 ], mais on ignore où les scores
bruts se situent plus précisément dans l’intervalle.
14. x0.25 est le premier quartile, ou encore le 25ème centile. x0.6 est le 6ème décile ou 60ème centile.
15. d’autres définitions existent (par exemple, le logiciel R propose neuf options possibles), avec des résultats
d’autant plus proches que n est grand
16. plus généralement, et à l’intention des matheux : xα = 12 x(⌈nα⌉) + 12 x(⌊nα⌋+1) , où ⌈y⌉ désigne la partie
entière par excès (ceiling) de y, i.e. l’unique nombre entier N tel que N − 1 < y ≤ N , et ⌊y⌋ désigne la partie
entière par défaut (floor) de y, i.e. l’unique nombre entier N tel que N ≤ y < N + 1 ; cf. chapitre 1, section 4.1.2.

32
3. Une seule variable : visualisation et indicateurs

5 1.00
0.95
0.90
0.85
4 0.80

fonction de répartition F(x)


0.75
0.70
0.65
3 0.60
effectif

0.55
0.50
0.45
2 0.40
0.35
0.30
0.25
1 0.20
0.15
0.10
0.05
0 0.00

0 1 2 3 4 5 -1 0 1 2 3 4 5 6
x = nombre d'enfants x = nombre d'enfants

F IGURE 2.6 – Exemple 7 (avec n = 12 et x = {0, 0, 0, 0, 0, 1, 1, 1, 2, 3, 3, 5}) : histogramme et fonction


de répartition empirique, et détermination graphique (définition 5) de la médiane x0.5 = 1, du
troisième quartile x0.75 = 2.5 et du nonante-cinquième centile x0.95 = 5 .

100 1.0 1.00


0.95
0.90
0.85
80 0.8 0.80
fonction de répartition F(x)

fonction de répartition F(x)


0.75
0.70
0.65
60 0.6 0.60
effectif

0.55
0.50
0.45
40 0.4 0.40
0.35
0.30
0.25
20 0.2 0.20
0.15
0.10
0.05
0 0.0 0.00

1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

x = note troisième épreuve x = note troisième épreuve x = note troisième épreuve

F IGURE 2.7 – Notes du 3ème contrôle continu, données en classes entières : construction de la
fonction de répartition empirique, et détermination graphique (définition 4) de la médiane x0.5 =
4.39, du troisième quartile x0.75 = 4.92 et du nonante-cinquième centile x0.95 = 5.48 .

Dans ce cas, en supposant les scores bruts répartis uniformément dans les intervalles, la
fonction de répartition F (x) peut être construite à partir de l’histogramme correspondant
en empilant dans la classe j tous les rectangles précédents, le j-ème y compris, puis en
remplaçant chaque dernier rectangle empilé par sa diagonale croissante, de façon à obte-
nir une ligne continue. Cette dernière est le graphe de F (x), qui est une fonction continue,
et strictement croissante pour autant qu’aucune classe ne soit vide. La définition 4 s’ap-
plique alors, et les quantiles xα peuvent être déterminés graphiquement 17 , comme sur la
figure 2.7.

3.1.3 Boxplots
Les boxplots ou “boı̂tes à moustache” constituent une autre représentation graphique de
la distribution d’une variable numérique x, particulièrement intéressante en présence de
17. la procédure revient à interpoler linéairement la valeur du quantile à l’intérieur de la classe dans laquelle
tombe le quantile : xβ étant le quantile de la limite inférieure de la classe et xγ celui de la limite supérieure
(figurés par des points dans la figure 2.7, milieu), l’interpolation fournit une valeur de xα égale à :
γ−α α−β
xα = xβ + xγ
γ−β γ−β

33
3. Une seule variable : visualisation et indicateurs

80
70
5

60
4
note

50
age
3

40
2

30
1

20
1ère épreuve 2ème épreuve 3ème épreuve 4ème épreuve Etu ProfMer PostDoc Ass PAT Autre
statut

F IGURE 2.8 – B OXPLOTS. Gauche : notes aux 4 épreuves de méthodes quantitatives (exemple 6).
Droite : âge des répondants selon leur statut (exemple 5).

plusieurs séries de valeurs (figure 2.8). Le trait à l’intérieur des boı̂tes indique la médiane
x0.5 , et leurs limites indiquent le premier quartile x0.25 et le troisième quartile x0.75 . La
région couverte par les “tiges” ou “moustaches” est censée délimiter l’étendue des autres
valeurs “modérément distantes” de la zone centrale, et les scores au-delà sont parfois
qualifiés d’extrêmes. La définition de la longueur des “tiges” ou “moustaches” varie d’un
logiciel à l’autre 18 .

3.2 Indicateurs de tendance centrale et de dispersion d’une variable numérique


3.2.1 Indicateurs de tendance centrale : médiane, moyenne, mode
Si l’on devait remplacer tout un échantillon de scores numériques {x1 , x2 , ..., xn } par une
seule valeur (ce qui se traduirait bien sûr par une perte d’information), quelle devrait être
cette valeur ? Tel qu’énoncé, le problème n’est pas suffisamment précis pour posséder une
solution unique. Tout candidat “raisonnable” à la représentation de cette valeur “typique”,
“représentative”, sera appelé indicateur de tendance centrale. Les indicateurs de tendance
centrale les plus utilisés sont
● la moyenne empirique (empirical mean), notée x̄, définie par

1 n
x̄ = ∑ xi (2.3)
n i=1

● la médiane (median) x0.5 : par construction, une moitié des scores sont supérieurs
à la médiane, et l’autre moitié inférieurs
● le mode (mode), dans le cas données groupées en classe (histogrammes), défini
comme le milieu de la classe la plus peuplée, dite classe modale. Naturellement,
tout changement dans la mise en classe (origine et largeur des classes) entraı̂ne
généralement un changement du mode.
La médiane est plus robuste que la moyenne, c’est-à-dire moins sensible aux valeurs ex-
trêmes 19 d’un échantillon, lesquelles apparaissent en particulier dans le cas de distribu-
tions très asymétriques, comme dans le cas des revenus (beaucoup de petits revenus, de
rares très gros revenus, et de très rares très très gros revenus) : le revenu médian représente
18. sur la figure 2.8, cette longueur vaut une fois et demi l’intervalle interquartile x0.75 − x0.25 (section 3.2.2)
pour autant que les tiges ne dépassent pas xmax (en haut) ou xmin (en bas) ; dans d’autres conventions, c’est les
intervalles [x0.01 , x0.99 ] ou [x0.05 , x0.95 ] qui sont utilisés pour calibrer l’extrémité des tiges.
19. i.e. très distantes du reste des valeurs

34
3. Une seule variable : visualisation et indicateurs

bien mieux la valeur typique du revenu pour l’ensemble d’une population que ne l’est le
revenu moyen, lequel est en général étonnamment élevé, à cause des quelques très gros
revenus “tirant” la moyenne vers le haut.
Les valeurs extrêmes peuvent également résulter d’erreurs de mesure ou de saisie. On
préférera ainsi l’usage de la médiane à la moyenne lorsque la qualité des données est en
question 20 . Dans les autres cas (distributions à peu près symétriques ne comportant pas de
valeurs extrêmes), les indicateurs de tendance centrale que sont la médiane et la moyenne
ont des valeurs proches.

3.2.2 Indicateurs de dispersion : variance et intervalle interquartile


La seconde classe d’indicateurs la plus importante est celle des indicateurs de dispersion :
il s’agit ici d’indiquer si les valeurs sont peu dispersées ou très dispersées autour de la va-
leur centrale. Par exemple, chacun des échantillons {2, 3, 3, 4} et {0, 1, 5, 6} possède une
moyenne (ici égale à la médiane) de x̄ = 3 ; cependant, les valeurs du second échantillon
sont beaucoup plus dispersées. L’indicateur de dispersion le plus utilisé pour les variables
quantitatives est la variance empirique, définie comme :

1 n 1 n 2
var(x) = ∑(xi − x̄) = ( ∑ xi ) − x̄
2 2
(2.4)
n i=1 n i=1

La première formule est plus parlante mathématiquement, tandis que la deuxième, qui lui
est équivalente, se prête souvent mieux (mais pas toujours) au calcul manuel. On note
aussi, symboliquement
var(x) = (x − x̄)2 = x2 − x̄2 (2.5)
ce qu’on peut lire par “variance = moyenne des carrés − carré de la moyenne”.

√ utilise souvent la notation sx , ou encore simplement s , pour var(x). La quantité sx =


2 2
On
var(x) est appelée écart-type. L’écart-type est une mesure de dispersion plus intuitive
que la variance ; en particulier, et contrairement à la variance, l’écart-type s’exprime dans
les mêmes unités que la variable x : si x mesure la taille en [cm], sx s’exprimera en
[cm] mais s2x en [cm2 ]. Naturellement, l’écart-type détermine complètement la variance,
et vice-versa.
Attention : la plupart des logiciels fournissent une autre valeur pour la variance, dite
variance sans biais (unbiased variance), et définie par

1 n n n
̂
var(x) = ŝ2 ∶= ∑(xi − x̄) =
2
var(x) = s2 (2.6)
n − 1 i=1 n−1 n−1

qui ne diffère notablement de la variance ordinaire var(x) = s2 que pour de petits échan-
tillons 21 .
Une autre mesure de dispersion est constituée par l’intervalle interquartile x0.75 − x0.25 ou
sa moitié, l’intervalle semi-interquartile x0.75 −x
2
0.25
. Mentionnons aussi l’étendue xmax −xmin ,
déjà rencontrée.

3.2.3 Moyennes, variances et quantiles pondérés


Considérons un groupe de 60 personnes constitué de 40 femmes et 20 hommes. La taille
moyenne des femmes est de x̄f = 168 cm, et celle des hommes est de x̄h = 175 cm. Quelle
est la taille moyenne x̄ d’un individu quelconque du groupe, sans tenir compte du sexe ?
20. on définit également la moyenne tronquée (trimmed mean), qui est la moyenne des observations dont
ont été exclues une même proportion des valeurs les plus hautes et des valeurs les plus basses : par exemple, le
calcul de moyenne tronquée à 5% s’effectuera en retirant au préalable les 5% valeurs les plus basses et les 5%
valeurs les plus hautes. La moyenne tronquée à 50% est la médiane.
̂
21. on rencontre également les notations s2n pour var(x), et s2n−1 pour var(x)

35
3. Une seule variable : visualisation et indicateurs

Comme les femmes sont deux fois plus nombreuses que les hommes, la taille moyenne de
ces dernières x̄f doit contribuer deux fois plus à x̄ que ne le fait x̄h . On doit donc poser
x̄ = 40×168+20×175
60
= 23 × 168 + 13 × 175 = 170.33 cm.
En général, si l’on a affaire à m groupes j = 1, ..., m, les nj individus du j-ème groupe
ayant tous obtenu le même score xj , la moyenne pondérée sera calculée comme
1 m m
x̄ = ∑ n j xj = ∑ fj xj (2.7)
n j=1 j=1

où n = n1 + n2 + ... + nm est l’effectif total, et fj = nj /n est la proportion ou fréquence du


groupe j. Par définition, ∑mj=1 fj = 1. On définit de même la variance pondérée par

1 m m
var(x) = ∑ nj (xj − x̄) = ∑ fj (xj − x̄) = x2 − x̄
2 2 2
(2.8)
n j=1 j=1

Les mêmes formules s’appliquent lorsque les données sont regroupées en m classes de
fréquences relatives f1 , ..., fm : on calcule alors la moyenne et la variance de la variable x
comme si tous les résultats de la classe j étaient situés au milieu xj de celle-ci 22 .
En présence de n observations de valeurs x = {x1 , . . . , xn } de poids relatifs f = {f1 , . . . , fn },
le calcul de la fonction de répartition F (x) s’effectue de la même façon que dans la section
3.1.1 : on ordonne les valeurs de façon croissante x(1) ≤ x(2) ≤ . . . ≤ x(n) et on construit
la fonction en escalier avec les marches de hauteurs f(1) , f(2) , . . . , f(n) . En cas d’ex-aequo
x(i) = x(i+1) , la marche correspondante sera de hauteur f(i) + f(i+1) . Finalement, les quan-
tiles se calculent à partir de F (x) selon la définition 5.

3.3 Variables centrées, réduites, standardisées


Soit x = {x1 , x2 , ..., xn } un échantillon de scores numériques correspondant à une variable
quantitative x, de moyenne x̄ et de variance var(x) = s2 . Les valeurs des xi dont qualifiées
de scores bruts, par contraste avec les scores transformés par les opérations suivantes :
● centrer un score, c’est lui soustraire le score moyen.
On note xci = xi − x̄ le i-ème score centré.
● réduire un score, c’est le diviser par l’écart-type.
On note xri = xsi le i-ème score réduit.
● standardiser un score, c’est le centrer puis le réduire (et non l’inverse).
On note xsi = xis−x̄ le i-ème score standardisé.
Dire qu’un score standardisé vaut par exemple xsi = 1.5 signifie simplement que le score
brut xi se trouve à 1.5 écarts-type au-dessus de la moyenne, à savoir xi = x̄ + 1.5 s.
A bien des égards, la moyenne x̄ joue le rôle d’origine pour une variable quantitative x, et
l’écart-type sx celui d’unité. Centrer une variable revient alors à prendre la moyenne comme
origine : les scores centrés seront positifs ou négatifs suivant que les scores bruts xi (non
transformés) sont supérieurs ou non à la moyenne. De même, réduire une variable revient
à l’exprimer dans un système où l’unité vaut un écart-type (figure 2.9).
Par construction, et comme l’illustre la figure 2.9, centrer une variable a pour effet de
ramener sa moyenne à zéro (xc = 0) sans que la dispersion relative des points ne soit
modifiée (var(xc ) = var(x)). De même, standardiser une variable a pour effet de ramener
sa moyenne à zéro (xs = 0) et sa variance à l’unité (var(xs ) = 1).
Plus généralement, il est facile de montrer que la transformation linéaire y ∶= ax + b, où x
et y sont deux variables quantitatives, transforme les moyennes, variances et écarts-types
comme
ȳ = ax + b = ax̄ + b var(y) = var(ax + b) = a2 var(x) sy = ∣a∣sx (2.9)
22. cette procédure ne tient pas compte de la dispersion possible des scores à l’intérieur de chacune des classes
(appelée variance intra-groupe) ce qui a pour effet de sous-estimer la variance totale, dont les deux contributions
sont la variance intra-groupe (ici négligée) et la variance (3.12), dite inter-groupe (voir chapitres suivants).

36
3. Une seule variable : visualisation et indicateurs

standardisés
centrés
réduits
bruts

-2 0 2 4 6
valeurs des scores

F IGURE 2.9 – Troisième épreuve (exemple 6) : distribution des valeurs des scores bruts xi , des
scores réduits xri , des scores centrés xci , et des scores standardisés xsi . Ici x̄ = 4.33 et s = 0.78 .

0.5
700
700

600

0.4
600

500
500

proportion
0.3
effectif
400
effectif
400

300

0.2
300

200
200

0.1
100
100

0.0
0
0

Etu ProfMer PostDoc Ass PAT Etu ProfMer PostDoc Ass PAT Autre Etu ProfMer PostDoc Ass PAT Autre

F IGURE 2.10 – Diagramme en bâtonnets ou barplot : trois variantes de l’exemple 8

3.4 Visualisation d’une variable catégorielle : le diagramme en bâtonnets (et circulaire)


x étant une variable catégorielle à m modalités, le diagramme en bâtonnets (barplot)
consiste à placer sur l’axe horizontal les m catégories, et sur l’axe vertical des bâtonnets
soit de hauteur nj , l’effectif de la modalité j = 1, . . . , m, soit de hauteur fj = nj /n, l’effectif
relatif ou proportion de la modalité j.
Naturellement, l’ordre des catégories, ainsi que la distance entre elles n’a aucune signifi-
cation, et sont arbitraires : ce sont des considérations de pure lisibilité qui déterminera le
choix la disposition des bâtonnets. Pour les mêmes raisons de pure lisibilité, les bâtonnets
peuvent être épaissis, même si l’épaisseur ne possède aucune signification non plus. Sous
cette forme, le diagramme en bâtonnets ressemble à un histogramme (figure 2.10), même
s’il en diffère profondément.

Exemple 8 (Questionnaire “Chamberonne” (exemple 5) : "statut"). Les n = 1365 ré-


pondants du questionnaire ont été catégorisés en m = 6 modalités selon leur statut :
"étudiants", "professeurs et ma^ ıtres d’enseignement et de recherche", "ma^ ı-
tres-assistants", "chercheurs post-doctoraux et premiers assistants", "assis-
tants et doctorants", "personnel administratif et technique" et "autres". La
figure 2.10 donne trois variantes du diagramme en bâtonnets correspondant.

Le diagramme circulaire ou camembert (pie chart ; figure 2.11) est une alternative possible
au diagramme en bâtonnets. Autant le camembert est populaire dans certains medias et

37
4. Deux variables : visualisation et table de contingence

Etu

Etu

Autre
Autre
ProfMer
ProfMer PostDoc
PAT
Ass

PostDoc
PAT

Ass

F IGURE 2.11 – Diagrammes circulaires pour l’exemple 8, et variante tridimensionnelle du dia-


gramme de bâtonnets (bas, droite), avec une profondeur sans signification. La représentation “tridi-
mensionnelle” et “éclatée” (haut, droite) contient une épaisseur, un éclatement, un angle de vue et
des couleurs additionnelles sans signification. Trois représentations rajoutent des “ombres” sur les
“bords”.

chez les amateurs de “joliesse”, autant il est dédaigné voire exécré par les puristes : il ne
permet pas de comparer directement l’importance relative de deux secteurs aux surfaces
proches, ni de relier précisément l’importance des secteurs aux effectifs ou aux propor-
tions. De surcroı̂t, il contient le plus souvent des éléments fantaisistes (couleurs, épaisseur,
inclinaison et perspective, “éclatement”, ombres) sans signification, et qui, loin d’améliorer
la lisibilité de la figure, produisent des biais perceptifs additionnels attestés.
Ici, le “joli” est certainement l’ennemi du “vrai” : sans améliorer la lisibilité des données,
ces fioritures sont incontestablement kitsch. Cela étant dit, trouver “joli” un diagramme
circulaire est en soi parfaitement légitime, et ne fait pas de vous une mauvaise personne.
Et mépriser les personnes qui trouvent “joli” les diagrammes circulaires ne fera pas de
vous une meilleure personne.

4 Deux variables : visualisation et table de contingence


4.1 Visualisation de deux variables quantitatives : le diagramme de dispersion
Pour visualiser simultanément deux variables quantitatives x et y, on représente chaque
individu i = 1, . . . , n par un point de coordonnées (xi , yi ) dans un repère cartésien 0xy. La
figure obtenue s’appelle diagramme de dispersion (scattergram ou scatterplot ; figure 2.12).
Le diagramme de dispersion permet de détecter visuellement si les scores x et y tendent à
être liés : ce sera le cas si, par exemple (et comme ici), des valeurs grandes de x tendent
à correspondre à des valeurs grandes de y, i.e. si la forme du nuage de points tend à être
“croissante”. L’introduction du coefficient de corrélation entre x et y, abordé plus loin,
permettra de quantifier le concept de liaison (linéaire) entre deux variables quantitatives.

38
4. Deux variables : visualisation et table de contingence

6
5

5
note quatrième épreuve
note seconde épreuve
4

4
3

3
2

2
1

1
1 2 3 4 5 6 1 2 3 4 5 6

note première épreuve note troisième épreuve

F IGURE 2.12 – Diagrammes de dispersion des résultats des n = 215 participants aux épreuves de
méthodes quantitatives (exemple 6)

4.2 Deux variables catégorielles : la table de contingence


La représentation simultanénée de deux variables catégorielles x et y, contenant respecti-
vement m1 et m2 modalités, est basée sur les effectifs croisés njk définis comme

njk = nombre d’individus appartenant à la fois à la modalité j de x et à la modalité k de y (2.10)

L’indice j prend les valeurs possibles j = 1, . . . , m1 , et l’indice k prend les valeurs possibles
k = 1, . . . , m2 . L’ensemble des effectifs croisés constitue ainsi une table à m1 lignes et m2
colonnes (ou table m1 × m2 ), appelée table de contingence (contingency table ; table 2.4).
y → k=1 k=2 ⋯ k ⋯ k = m2 marge en ligne
x ↓
j=1 n11 n12 ⋯ n1k ⋯ n1m2 n1●
j=2 n21 n22 ⋯ n2k ⋯ n2m2 n2●
j=3 n31 n32 ⋯ n3k ⋯ n3m2 n3●
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
j nj1 nj2 ⋯ njk ⋯ njm2 nj●
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
j = m1 nm 1 1 nm1 2 ⋯ nm1 k ⋯ nm1 m2 nm 1 ●
marge en colonne n●1 n●2 ⋯ n●k ⋯ n●m2 n●● = n

TABLE 2.4 – Table de contingence m1 × m2 , contenant les effectifs croisés njk des modalités des
variables catégorielles x et y, ainsi que les marges en ligne nj● , les marges en colonne n●k , et le total
n●● = n
Le nombre d’individus dans la catégorie j de x, sans tenir compte de la catégorie k de y,
constitue le total marginal de la j-ème ligne ou marge en ligne de la table de contingence.
Elle est notée nj● , et s’obtient en sommant les modalités de k correspondantes :
m2
nj● ∶= nj1 + nj2 + ... + njm2 = ∑ njk
k=1

De même,
m1
n●k ∶= n1k + n2k + ... + nm1 k = ∑ njk
j=1

est le total marginal de la k-ème colonne, i.e. la somme de tous les individus dans la moda-
lité k de y (sans tenir compte des valeurs possibles de la variable x).

39
4. Deux variables : visualisation et table de contingence

FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 15 81 140 207 72 102 111 0 0 0 728
ProfMer 4 16 47 25 8 14 21 0 0 0 135
PostDoc 1 2 12 15 2 14 7 0 0 1 54
Ass 4 27 31 36 7 23 29 0 0 0 157
PAT 4 16 22 29 20 43 16 126 30 10 316
Autre 1 4 4 7 1 2 3 0 19 4 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 2.5 – table de contingence "statut" × "faculté", avec les totaux marginaux

Un indice remplacé par le symbole “●” indique ainsi une sommation sur toutes les valeurs
possibles de l’indice remplacé. Selon cette convention,
m1 m2 m1 m2
n●● = ∑ nj● = ∑ n●k = ∑ ∑ njk = n = effectif total = taille de l’échantillon.
j=1 k=1 j=1 k=1

Exemple 9 (Questionnaire “Chamberonne” (exemples 5 et 8) : "statut" × "faculté").


Dans l’exemple 8, les n = 1365 répondants du questionnaire ont été catégorisés en m1 = 6
modalités selon x = "statut".
Il se trouve que ces répondants sont également issus de m2 = 10 “facultés”, selon la va-
riable catégorielle y = "faculté" aux modalités "théologie et sciences des religions",
"droit, sciences criminelles et administration publique", "lettres", "sciences sociales
et politiques", "HEC", "biologie et médecine", "géosciences et environnement", "services
centraux", "institut suisse de droit comparé + BCU + garderie + archives cantonales"
et "autre".

La table 2.5 donne la table de contigence associée, ainsi que ses marges.

4.3 Visualisation de deux variables catégorielles


200

200

Etu FTSR
ProfMer Droit
PostDoc Lettres
Ass SSP
PAT HEC
150

150

Autre FBM
GSE
SerC
IBGA
effectif

effectif

Autre
100

100
50

50
0

FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre Etu ProfMer PostDoc Ass PAT Autre

F IGURE 2.13 – Visualisation simultanée des variables catégorielles "statut" et


"faculté" (exemple 9) : diagrammes en bâtonnets groupés

Pour visualiser simultanément les variables catégorielles x et y, on peut “itérer” la construc-


tion en diagramme en bâtonnets, en faisant varier, pour chaque modalité j de x, toutes les
modalités k de y (ou inversement) : on parle de diagramme en bâtonnets groupé (grouped
barplot ; figure 2.13)). On peut aussi empiler les bâtonnets d’un des diagrammes groupés,

40
4. Deux variables : visualisation et table de contingence

FTSR
Droit

Lettres

SSP

HEC

FBM

GSE

SerC
IBGA
Autre
300 Etu
ProfMer
PostDoc
Ass
250

PAT
Autre
200

Etu
effectif

statut
150

ProfMer
100

PostDoc
Ass
50

PAT
Autre
0

FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre faculté

F IGURE 2.14 – Visualisation simultanée des variables catégorielles "statut" et


"faculté" (exemple 9) : diagramme en bâtonnets empilé (gauche), et diagramme en mosaı̈que
(droite). Dans ce dernier, la largeur des colonnes est proportionnelle à l’effectif de chaque faculté, ce
qui rend la hauteur de chaque colonne identique (et permet de comparer directement la fréquence
relative des statuts au sein de chaque faculté) ; la convention est inverse pour le diagramme en
bâtonnets empilé.

produisant un diagramme en bâtonnets empilé (stacked barplot ; figure 2.14 gauche). On


peut enfin utiliser le diagramme en mosaı̈que (mosaic plot) où chaque effectif croisé njk est
représenté par une surface qui lui est proportionnelle (figure 2.14 droite).

4.4 Visualisation simultanée d’une variable numérique et d’une variable catégorielle


On a déjà rencontré ce cas deux fois : sur la figure 2.4 droite, par superposition des po-
lygones de fréquence (de "age" pour différentes modalités de "statut"), ainsi que sur
la figure 2.8, par juxtaposition des boxplots (de "note" pour différentes modalités de
"épreuve" ; de "age" pour différentes modalités de "statut").
(*) Une troisième possibilité, le spine plot, une forme de diagramme en mosaı̈que, consiste à
partitionner l’axe horizontal numérique en segments de longueur proportionnelle à l’effec-
tif contenu dans le segment. Les colonnes au-dessus de chaque segment, toutes de hauteur
100%, sont ensuite partitionnées de façon à refléter la fréquence relative des modalités à
l’intérieur du segment. La figure 2.15 illustre le procédé, qui constitue une alternative aux
boxplots juxtaposés de la figure 2.8.

41
4. Deux variables : visualisation et table de contingence

1.0

1.0
quatrième épr.

Autre
0.8

0.8
PAT
troisième épr.

0.6

0.6
Ass
epreuve

statut

PostDoc
deuxième épr.

0.4

0.4
ProfMer
0.2

0.2
première épr.

Etu
0.0

0.0
1.5 3.5 4 4.5 5 5.5 6 15 20 25 30 35 40 45 50 60

note age

F IGURE 2.15 – Visualisation simultanée d’une variable numérique et d’une variable catégorielle :
"note" et "epreuve" (exemple 6) à gauche, "age" et "statut" (exemple 8) à droite. On y lit, par
exemple, que les notes entre 5.5 et 6 sont bien plus fréquentes lors de la première épreuve que lors
de la quatrième épreuve, alors que c’est le contraire pour les notes entre 3.5 et 4.

42
3 Liens entre deux variables

1 Introduction : le concept de dépendance (théorique) et de liaison (empirique)


La profession d’un individu est-il liée à sa nationalité ? Par exemple, il y aurait peut-être
une proportion plus grande de banquiers chez les Suisses (et moins de marins), de restau-
rateurs chez les Français, de prêtres chez les Polonais...
Cette question est celle de la dépendance entre deux variables x et y, ici "profession"
et "nationalité" supposées univoques et bien définies (ce qui est toute une autre his-
toire en pratique). On dira que deux variables x et y sont indépendantes si la distribution
des valeurs (numériques ou catégorielles) de l’une est sans relation avec la distribution
des valeurs de l’autre : par exemple, les variables x="poids" et y="taille" ne sont en
général pas indépendantes dans une population humaine, car la distribution de "poids"
dans une sous-population d’individus de y=150 cm diffère de la distribution de "poids"
dans une autre sous-population d’individus de y=200 cm, typiquement plus lourds que
dans la première.
Par contre, on s’attend à ce que les variables z="couleur de cheveux" et w="note à
l’examen de linguistique diachronique" soient indépendantes : la distribution des
notes chez les noirauds devrait par exemple être la même que chez les roux : la couleur
de cheveux ne devrait être en rien liée à la note à l’examen de linguistique diachronique.
De même qu’il faut distinguer entre le concept théorique de probabilité, qui réfère à un
modèle du monde, et le concept empirique de fréquence, qui réfère à des observations sur
un échantillon, il faut distinguer entre :
1) le concept de dépendance théorique (ou dépendance tout court) entre deux variables
X et Y , notées dans ce contexte par des majuscules
2) le concept de “dépendance empirique” (plutôt appelée “liaison”) entre deux séries de
n valeurs notées x et y, ou simplement x et y.
Dans le contexte théorique, la notion d’indépendance est formalisée ainsi :

Définition 6 (indépendance entre variables X et Y ). Soit A un ensemble de valeurs pos-


sibles de X, et B un ensemble possible de valeurs de Y . Alors X et Y sont dits indépendants
ssi
P (X ∈ A et Y ∈ B) = P (X ∈ A) P (Y ∈ B) (3.1)
quels que soient les ensembles A et B.

Cette définition évoque celle, similaire mais distincte, de l’indépendance entre deux événements :
pour rappel, deux événements A et B sont dits indépendants si P (A et B) = P (A)P (B).
La notion de “non-liaison” dans les observations est la traduction empirique de (3.1), où
les probabilités P () sont remplacées par les fréquences observées ; la section 2 illustre le
propos pour x et y catégoriels.

43
2. Liaison entre deux variables catégorielles : le coefficient du chi2

1.1 Intérêt de la notion de dépendance


Le cas de l’indépendance entre variables est le plus simple mathématiquement, mais aussi
le moins intéressant : s’il s’avérait que, dans une population, la profession des enfants
était indépendante de celle des parents, il n’y aurait pas grand-chose à ajouter à ce constat
d’indépendance.
S’il y avait au contraire dépendance (ce qui est évidemment le cas ici) une foule de ques-
tions surgiraient aussitôt : comment qualifier cette dépendance ? est-elle forte, faible ?
Reflète-t-elle un lien spécifique entre certaines professions particulières seulement, ou
constitue-elle un fait généralisable à l’ensemble des professions ? à l’ensemble des pays ?
Quels modèles de choix d’une profession permettent-ils de rendre compte de la dépendance
observée ?...
Une grande, voire la majeure partie de la recherche empirique dans certaines disciplines,
consiste à mettre en évidence, qualifier et interpréter la dépendance mutuelle entre va-
riables caractérisant une population ou un échantillon. On verra que toute forme attestée
de dépendance entre variables
● permet de prédire la valeur de certaines variables à partir de la connaissance des
valeurs d’autres variables (exemple : régression simple ou multiple, méthodes de
classification, etc. )
● permet de compresser (avec ou sans perte) l’ensemble des données, qui ne sont
pas aussi versatiles, changeantes ou volatiles qu’elles auraient pu l’être, i.e. qui
témoignent d’une structure plus déterministe (mais pas complètement déterministe
non plus) que celle générée par le hasard pur. La Théorie de l’Information et les
méthodes dites factorielles illustrent et exploitent précisément cette compressibilité.

Ce qui suit est consacré à la question de comment définir et calculer des indices de liaisons
entre variables, selon leur type numérique ou catégoriel. La question de la généralisation
possible du constat de dépendance empirique à toute la population dont l’échantillon est
extrait sera abordé plus loin, dans les tests d’hypothèses.

2 Liaison entre deux variables catégorielles : le coefficient du chi2


On dispose de deux variables catégorielles, x et y (par exemple "profession" et "natio-
nalité"), dont les catégories j = 1, . . . , m1 , respectivement k = 1, . . . , m2 , indicent la table
de contingence associée, constituée des effectifs njk =“nombre d’individus de profession
j et de nationalité k”, relativement à un certain échantillon (par exemple les résidents
jurassiens en 2010) de taille n = n●● .
La définition (3.1) de l’indépendance théorique, que l’on peut aussi écrire comme
P (X = j et Y = k) = P (X = j) P (Y = k), s’adapte au contexte empirique en faisant les
substitutions suivantes
njk
P (X = j et Y = k) → pjk ∶=
n
nj●
P (X = j) → fj ∶= (3.2)
n
n●k
P (Y = k) → ρk ∶=
n
Les quantités fj (avec fj ≥ 0 avec ∑j=1 fj = 1) sont les fréquences relatives de la variable
m1

x, et les quantités ρk (avec ρk ≥ 0 ∑m k=1 ρk = 1) sont les fréquences relatives de la variable


2

y. Quant à pjk , ce sont les fréquences jointes (avec pjk ≥ 0 et ∑j,k pjk = 1). D’après (3.1), et
après simplification par n, il y a donc absence de liaison (empirique) entre x et y ssi
nj● n●k
njk = (3.3)
n
ce qui peut être (très exceptionnellement) le cas (généralement non), pour un échantillon
donné. La quantité de droite représente l’effectif attendu (anglais : “expected”) ou théorique

44
2. Liaison entre deux variables catégorielles : le coefficient du chi2

FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 15 81 140 207 72 102 111 0 0 0 728
ProfMer 4 16 47 25 8 14 21 0 0 0 135
PostDoc 1 2 12 15 2 14 7 0 0 1 54
Ass 4 27 31 36 7 23 29 0 0 0 157
PAT 4 16 22 29 20 43 16 126 30 10 316
Autre 1 4 4 7 1 2 3 0 19 4 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.1 – effectifs observés njk "statut" × "faculté", avec les totaux marginaux

FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 14.71 74.07 129.87 161.83 55.80 100.45 94.87 63.92 24.86 7.61 728
ProfMer 2.73 13.74 24.08 30.01 10.35 18.63 17.59 11.85 4.61 1.41 135
PostDoc 1.09 5.49 9.63 12.00 4.14 7.45 7.04 4.74 1.84 0.56 54
Ass 3.17 15.97 28.01 34.90 12.03 21.66 20.46 13.79 5.36 1.64 157
PAT 6.39 32.15 56.37 70.25 24.22 43.60 41.18 27.75 10.79 3.30 316
Autre 0.91 4.58 8.03 10.00 3.45 6.21 5.86 3.95 1.54 0.47 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.2 – effectifs théoriques nth
jk "statut" × "faculté", avec les totaux marginaux

sous l’hypothèse d’indépendance, noté nth


jk :

nj● n●k
jk ∶=
nth (3.4)
n

Une forte différence entre les effectifs attendus nth


jk et observés njk témoigne d’une forte
dépendance entre les variables x et y. La mesure classique de cette dépendance est donnée
par le coefficient du chi-carré, défini (pour de bonnes raisons mathématiques) par :
m1 m2 (njk − nth
jk )
2 m1 m2 (njk −
nj● n●k 2
) m1 m2 n2jk
chi2 ∶= ∑ ∑ =∑∑ n
nj● n●k = n(( ∑ ∑ ) − 1) (3.5)
j=1 k=1 nth
jk j=1 k=1 n j=1 k=1 nj● n●k

Un chi2 élevé dénote ainsi une forte liaison entre les variables catégorielles x et y.
Exemple 10 ( “Chamberonne” (suite)).
Considérons à nouveau la table de contingence formée par les m1 = 6 modalités de la
variable catégorielle x = "statut" et les m2 = 10 modalités de la variable catégorielle y
= "faculté" des n = 1365 répondants du questionnaire “Chamberonne” (table 3.1).
Les effectifs théoriques correspondants sont donnés dans la table 3.2. On voit par exemple
qu’il y a davantage de répondants étudiants en SSP (207) que l’on aurait pu s’y attendre
(161.83) si "statut" et "faculté" n’étaient pas liés, i.e. si la proportion de répondants
étudiants était la même pour chaque faculté (soit fétudiants = 728/1365 = 50.7%) ; ou encore,
de façon équivalente, si la part des réponses émanant de la faculté des SSP était la même
quel que soit le statut (soit ρSSP = 319/1365 = 22.2%).
La valeur du chi-carré (3.5) est ici de chi2 = 917.73 : est-ce grand, est-ce petit ? On y
reviendra à la section (2.2). On peut toutefois noter que, si tous les effectifs de la table 3.1
avaient été multipliés par disons 10, la valeur du chi-carré aurait été également multipliée
par 10. Pour des fréquences relatives (3.2) f , ρ et p données, la valeur du chi-carré est
proportionnelle à l’effectif total n. Cela justifie l’introduction d’un indice relatif de liaison
entre les variables, le phi-carré simplement défini par
chi2
phi2 ∶= (3.6)
n

45
2. Liaison entre deux variables catégorielles : le coefficient du chi2

FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 1.02 1.09 1.08 1.28 1.29 1.02 1.17 0 0 0 1
ProfMer 1.47 1.16 1.95 0.83 0.77 0.75 1.19 0 0 0 1
PostDoc 0.92 0.36 1.25 1.25 0.48 1.88 0.99 0 0 1.77 1
Ass 1.26 1.69 1.11 1.03 0.58 1.06 1.42 0 0 0 1
PAT 0.63 0.50 0.39 0.41 0.83 0.99 0.39 4.54 2.78 3.03 1
Autre 1.10 0.87 0.50 0.70 0.29 0.32 0.51 0 12.37 8.50 1
1 1 1 1 1 1 1 1 1 1
TABLE 3.3 – quotients d’indépendance "statut" × "faculté", avec leurs moyennes pondérées en
marge

qui ne dépend que des fréquences relatives, mais pas de l’effectif n.

2.1 Quotients d’indépendance


La comparison entre effectifs observés et effectifs théoriques est la clef de compréhension
de la notion de dépendance, et de sa quantification par le coefficient du chi2. Cela étant,
son interprétation immédiate n’est pas si évidente : dans l’exemple il y a dans l’exemple 10
à la fois beaucoup d’étudiants et beaucoup de personnes issues de SSP dans les répondants,
et l’on anticipe ainsi un effectif joint (ou croisé) élevé, tant observé (nétudiants, SSP = 207)
que théorique (nthétudiants, SSP = 161.83). La différence de 207 − 161.83 = 45.17 doit-elle être
considérée comme plus (ou moins) notable que, disons, la différence correspondante en
faculté des HEC nétudiants, HEC − nth
étudiants, HEC = 72 − 55.80 = 16.2, faculté dont les répondants ont
été moins nombreux ?
Les quotients d’indépendance, définis par
njk pjk
qjk ∶= th
= (3.7)
njk fj ρk

permettent de répondre à la question, au sens où, par construction :


1. qjk > 1 ssi njk > nth jk , i.e ssi les catégories j (de x) et k (de y) sont conjointement
sur-représentées ou en attraction
2. qjk < 1 ssi njk < nth
jk , i.e ssi les catégories j et k sont conjointement sous-représentées
ou en répulsion
3. qjk = 1 ssi njk = nth
jk , i.e ssi les catégories j et k sont en relation de neutralité.

La table 3.3 associée est fort éclairante 1 : elle montre immédiatement que, par exemple,
les étudiants de SSP sont 1.28 fois plus nombreux qu’attendu sous l’hypothèse d’indé-
pendance entre "statut" et "faculté", et que ceux de HEC, 1.29 plus nombreux, sont
aussi, et même très légèrement plus, sur-représentés. A l’inverse, il y a deux fois moins de
personnes “PAT” en faculté de Droit qu’attendu sous indépendance (qPAT, Droit = 0.5).
Les quotients d’indépendance qjk sont non-négatifs, et leurs valeurs moyennes valent, tant
en ligne qu’en colonne, toujours 1. Plus précisément, on a toujours, par construction, que

∑ fj qjk = 1 ∀k ∑ ρk qjk = 1 ∀j (3.8)


j k

Dans (3.8), les moyennes en question sont des moyennes pondérées (par le poids relatif fj
des lignes, respectivement le poids relatif ρk des colonnes) ; on y reviendra. Le coefficient
du chi-carré (3.5) s’écrit aussi sous la forme
chi2
chi2 = n phi2 phi2 = = ∑ fj ρk (qjk − 1)2 = (∑ fj ρk qjk
2
)−1 (3.9)
n jk jk

1. mais, malheureusement, très peu produite dans la pratique

46
2. Liaison entre deux variables catégorielles : le coefficient du chi2

FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu - - 256 - 110 198 187 - - - 751
ProfMer - - - - - - - 126 - - 126
PostDoc - - - - - - - - 49 - 49
Ass - 146 - - - - - - - - 146
PAT - - - 319 - - - - - - 319
Autre 29 - - - - - - - - 15 44
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.4 – dépendence fonctionnelle de "statut" relativement à "faculté" : "faculté" est
plus fine que ou emboı̂tée dans "statut", ce qui revient à dire que la connaissance de "faculté"
entraı̂ne celle de "statut". Dans cette table, les marges en colonnes coı̈ncident exactement avec les
marges originales de la table 3.1, mais ce n’est pas le cas des marges en ligne – qu’on ne peut pas
faire coı̈ncider également avec les marges originales tout en conservant la propriété de dépendance
fonctionnelle.

(où le phi2 été défini en 3.6), qui montre que chi2 = 0 ssi qjk = 1 pour toutes les cases jk,
i.e. ssi njk = nth
jk , comme il se doit.

2.2 Valeur maximale du chi2, et V de Cramer (*)


Pour toute table de contigence m1 × m2 d’effectif n, la valeur maximale que peut atteindre
le chi-carré est
n × min(m1 − 1, m2 − 1) (3.10)
Cette valeur maximale est atteinte dans le cas de la dépendance fonctionnelle y = f (x) (ou
x = f (y) 2 ), où chaque catégorie de la variable x est associée avec une unique catégorie
de y, i.e. lorsque y est plus fin que x, noté y ⪰ x .
Dans l’exemple, y = "faculté" possède m2 = 10 catégories, soit davantage que x =
"statut" qui n’en possède que m1 = 6. Il y a alors dépendance fonctionnelle ssi les tous
les membres de chaque faculté ont le même statut, comme en table 3.4, où Lettres,
HEC, FBM et GSE serait uniquement composées d’étudiants, SerC uniquement composée de
ProfMer, IGBA uniquement composée de PostDoc, etc. Pour une telle table de contingence
(qui est loin d’être la seule possible), le chi-carré atteint sa valeur maximale de chi2 =
1365 × min(6 − 1, 10 − 1) = 1365 × 5 = 7175.
On dit aussi 3 que la variable catégorielle y est plus plus fine (finer) que x, que y est
emboı̂tée (nested) dans x, ou que x est plus grossière (coarser) que y.
Contrairement à l’indice de liaison classique entre deux variables numériques, le coeffi-
cient de corrélation, dont la valeur absolue varie entre 0 et 1 (section 3), la valeur maxi-
male (3.10) du chi2 dépend du nombre d’individus et du nombre de catégories en jeu.
Dans l’espoir de faciliter l’interprétation de la valeur du chi2, on a alors proposé différents
indices dérivés du chi2, dont l’un des plus connus (à défaut d’être très utilisé) est le V de
Cramer, défini par

chi2
V ∶= ∈ [0, 1] V de Cramer (3.11)
n min(m1 − 1, m2 − 1)
2. La preuve, pas si facile, est éclairante, mais souvent absente des manuels, raison pour laquelle on la donne
ici : supposons que m1 ≤ m2 . Il découle alors de (3.5) et (3.6) que
m1 m2 n2jk (a) m1 m2 njk m1 nj● m1
phi2 + 1 = ∑ ∑ ≤ ∑ ∑ =∑ = ∑ 1 = m1
j=1 k=1 nj● n●k j=1 k=1 nj● j=1 nj● j=1
où (a) découle de njk ≤ n●k . L’égalité en (a) est atteinte ssi njk njk = njk n●k , i.e. ssi chaque modalité colonne
k de y est concentrée dans unique modalité ligne j[k] de x, pour laquelle njk = 0 sauf si j = j[k], qui est
la condition de dépendance fonctionnelle x = f (y). Ainsi, phi2 + 1 ≤ m1 et donc chi2 ≤ n(m1 − 1) lorsque
m1 ≤ m2 . Le cas m1 ≥ m2 se traite de façon symétrique, d’où finalement chi2 ≤ n min(m1 − 1, m2 − 1). 2
3. pour rappel, toute partition des individus induit une variable catégorielle et réciproquement

47
3. Liaison entre deux variables numériques : covariance et corrélation

2.3 Calcul du chi2 : exemple réduit (format calculette)

Exemple 11 (choix d’enseignement selon le genre). 140 étudiant.e.s de genre X = {F, M}


ont choisi l’un des quatre enseignements à option Y = {A, B, C, D}. Les effectifs croisés, les
proportions correspondantes et leurs marges sont :

X/Y A B C D
F 31 6 7 4 48
M 37 15 16 24 92
68 21 23 28 140
X/Y A B C D
F 0.22 0.04 0.05 0.03 0.34
M 0.26 0.11 0.11 0.17 0.66
0.49 0.15 0.16 0.20 1
TABLE 3.5 – Gauche : effectifs croisés njk . Droite : proportions correspondantes fjk = njk /n●● .

Les effectifs attendus, ainsi que les quotients d’indépendance, sont donnés par :

X/Y A B C D X/Y A B C D
F 23.31 7.2 7.89 9.6 48 F 0.75 1.20 1.13 2.40 1
M 44.69 13.8 15.11 18.4 92 M 1.21 0.92 0.94 0.77 1
68 21 23 28 140 1 1 1 1 1
TABLE 3.6 – Gauche : effectifs théoriques ou attendus nth
jk . Droite : quotients d’indépendance qjk =
njk /nth
jk , avec leurs moyennes pondérées en marge.

La sur-représentation la plus importante est celle des étudiantes dans le cours D (qF,D =
2.40). La sous-représentation la plus importante est celle des étudiantes dans le cours A
(qF,A = 0.75).
La valeur du chi2 s’obtient comme :
(31 − 23.31)2 (6 − 7.2)2 (7 − 7.89)2 (4 − 9.6)2 (37 − 44.69)2
chi2 = + + + + +
23.31 7.2 7.89 9.6 44.69
(15 − 13.8)2 (16 − 15.11)2 (24 − 18.4)2
+ + + = 9.28 .
13.8 15.11 18.4

3 Liaison entre deux variables numériques : covariance et corrélation


3.1 Le coefficient de corrélation
Il s’agit ici de donner une mesure de la dépendance entre deux variables quantitatives.

Exemple 12 (Notes de maths et de physique). Considérons l’échantillon suivant, donnant


x = "note de mathématiques" et y = "note de physique" pour n = 10 individus :

individu 1 2 3 4 5 6 7 8 9 10
x = note de mathématiques 5.5 5.0 4.5 1.5 6.0 4.5 3.0 3.5 5.0 4.0
y = note de physique 5.5 3.5 4.0 3.0 6.0 5.0 2.0 2.5 5.0 5.5

Il apparaı̂t clairement sur le diagramme de dispersion (figure 3.1), qu’il existe une liaison
entre x et y : le score yi d’un individu i est, en moyenne, d’autant plus élevé que son score
xi est plus élevé, et vice-versa.

48
3. Liaison entre deux variables numériques : covariance et corrélation

6
5

5
y
note de physique ⎛x⎞

note de physique
⎜ ⎟
4 ⎝y⎠

4
3

3
2

2
1

1
1 2 3 4 5 6 1 2 3 4 5 6

note de maths note de maths x

F IGURE 3.1 – Gauche : notes de mathématiques et de physique de n = 10 individus. Droite : mêmes


données, sur lesquelles la droite de régression (section 3.2) a été rajoutée en traitillé. En particulier,
cette dernière passe par les moyennes x̄ = 4.25 et ȳ = 4.2 .

Une mesure de la force de cette liaison est donnée par la covariance empirique entre x et
x, définie comme la moyenne du produit des écarts à la moyenne (selon x et y respective-
ment) 4 :
1 n
cov(x, y) ∶= ∑(xi − x̄)(yi − ȳ) (3.12)
n i=1

L’usage de la covariance comme mesure du lien entre deux variables quantitatives souffre
cependant d’un défaut : comme cov(ax, by) = ab cov(x, y), la covariance dépend du sytème
d’unités choisies : par exemple, la covariance entre "^ age" et "revenu" (quelle qu’elle soit)
deviendrait 12 fois plus grande si l’âge était mesuré en mois plutôt qu’en années, et chan-
gerait de façon analogue en changeant de monnaie. Pour palier à ce défaut, on divise le
résultat obtenu par le produit des écarts-types sx sy , ce qui revient à définir un nouveau
coefficient, le coefficient de corrélation, noté corr(x, y) ou rxy :

cov(x, y) cov(x, y)
corr(x, y) = rxy = =√
sx sy var(x)var(y)
(3.13)
∑i=1 (xi − x̄)(yi − ȳ)
1 n
∑i=1 (xi − x̄)(yi − ȳ)
n
=√ n
=√
∑i=1 (xi − x̄)2 ∑i=1 (yi − ȳ)2
n n
∑i=1 (xi − x̄)2 n1 ∑i=1 (yi − ȳ)2
1 n n
n

Par construction, corr(ax, by) = corr(x, y) : la corrélation entre deux variables ne dépend
pas des unités choisises. Plus généralement, corr(ax + c, by + d) = corr(x, y) : la corrélation
est invariante par translation et dilatation ; on peut s’en convaincre en réalisant que la
corrélation entre deux variables est la covariance entre les deux variables standardisées :

corr(x, y) = cov(xs , y s )

De plus, il est possible de démontrer que la valeur maximale du coefficient de corrélation


est de +1, et ceci ssi les tous les scores sont liés une relation linéaire de la forme yi = axi + b,
où a > 0 et b sont deux paramètres réels.
De façon analogue, la valeur minimale que peut atteindre le coefficient de corrélation est
de −1, et ceci ssi yi = axi + b, avec a < 0 (qui rend la relation décroissante) et b quelconque.
4. Pour mieux apréhender (3.12), supposons que x et y soient positivement liés. Un individu i dont le score
xi serait supérieur à la moyenne x̄ tendrait alors à posséder également un score y supérieur à la moyenne ȳ,
de sorte que (xi − x̄)(yi − ȳ) ≥ 0. Inversement, on s’attend à ce que yi − ȳ ≤ 0 si xi − x̄ ≤ 0, de sorte que
(xj − x̄)(yj − ȳ) ≥ 0 aussi. La covariance cov(x, y) tendra donc a être positive s’il existe une liaison positive
(relation croissante entre x et y), et négative dans le cas d’une liaison négative.

49
3. Liaison entre deux variables numériques : covariance et corrélation

12

12
10

10
8

8
6

6
y

y
4

4
2

2
0

0
-2

-2
-2 -1 0 1 2 0 1 2 3 4 5 6

x x2

F IGURE 3.2 – Gauche : relation non-linéaire entre x et y, avec droite de régression en traitillé : la
relation est très marquée, mais le coefficient de corrélation, très petit (corr(x, y) = −0.032), est inca-
pable de la saisir. Droite : la relation entre y et x2 (au lieu de x) est par contre approximativement
linéaire, avec une très forte corrélation (corr(x2 , y) = 0.95)

Si x et y sont empiriquement indépendants au sens de (3.1), alors corr(x, y) = 0, mais


l’implication réciproque est en général fausse : x et y peuvent entretenir une forte rela-
tion non-linéaire (figure 3.2, gauche), auquel cas l’usage du coefficient de corrélation, qui
mesure la force de la relation linéaire entre x et y, est inadapté.
En résumé :

x et y non liés Ô⇒ corr(x, y) = 0 et corr(x, y) = ±1 Ô⇒ y = ax + b

alors que, pour des variables catégorielles x et y, on a :

x et y non liés ⇐⇒ chi2 = 0

Notations : cov(x, y) est souvent noté comme sxy . Ainsi, sxx = cov(x, x) = var(x) = s2x .
corr(x, y) est souvent noté comme rxy ou simplement r.

3.2 La droite de régression


L’allure générale d’un diagramme de dispersion associé à deux variables x et y suggère
souvent une relation numérique approximative entre x et y, qui pourrait être formalisée
par
yi = f (xi ) + ei . (3.14)
² ®
partie aléatoire
partie déterministe
ou tendance ou bruit
ou résidu

Dans (3.14), f (x) est une fonction donnant l’allure générale (si elle existe) du nuage
de points, et le second terme ou résidu, purement aléatoire, rend compte de la présence
de déviations “inexpliquées” (en l’état) par rapport à cette tendance générale. L’idée est
que, si l’on collectait les valeurs d’un échantillon (x̃, ỹ) distinct de (x, y), mais également
représentatif d’une même Population 5 , alors on aurait
ỹi = f (x̃i ) + ẽi (3.15)
5. par exemple : (x, y) est la taille et le poids des élèves d’une classe de gymnase, et (x̃, ỹ) est la taille et le
poids des élèves d’une classe parallèle

50
3. Liaison entre deux variables numériques : covariance et corrélation

où la tendance f () serait la même que celle dans (3.14), mais les résidus ẽi seraient com-
plètement différents des résidus ei de (3.14) et sans liaison aucune avec ces derniers.
La forme la plus simple d’une relation entre x et y est donnée par la relation linéaire
f (x) = ax + b, i.e.
yi = axi + b + ei = yi∗ + ei (3.16)
´¹¹ ¹ ¹ ¸¹ ¹ ¹ ¹¶ ®
tendance résidu
ou valeur prédite yi∗

Dans (3.16), yi représente les valeurs observées, tandis que yi∗ = axi + b représente les va-
leurs prédites. Dans l’idéal, on aimerait que les valeurs prédites correspondent aux valeurs
observées, i.e. que l’on puisse déterminer une droite y = ax + b dont la pente a (slope) et
l’ordonnée à l’origine b (intercept) passe par tous les points du diagramme de dispersion.
En général, ce n’est évidemment pas possible : le nuage de points n’est pas strictement
aligné, et l’on demande alors à ce que la magnitude des résidus ei = yi − yi∗ soit, en
moyenne, aussi petite que possible. On déterminera ainsi les paramètres ajustables a et b
de façon à ce que la quantité
n n
h(a, b) ∶= ∑ e2i = ∑(yi − axi − b)2 (3.17)
i=1 i=1

soit soit minimum : c’est le critère dit des moindres carrés (least squares) 6 .
La minimisation de (3.17) fournit une solution unique (a, b), dont on peut montrer qu’elle
est donnée par
sxy sy
a= 2 =r b = ȳ − a x̄ (3.18)
sx sx
On peut également montrer (sans démonstration) que :
(i) La droite de régression y ∗ = ax + b passe par les moyennes (x̄, ȳ) (figure 3.1 droite)
(ii) La moyenne empirique des résidus est nulle : ē = 0
(iii) En écrivant yi − ȳ = (yi − yi∗ ) + (yi∗ − ȳ) = ei + (yi∗ − ȳ), la variance empirique var(y)
(dite aussi variance totale dans ce contexte) peut être exactement décomposée en
deux composantes, la variance expliquée et la variance résiduelle :

1 n 1 n 1 n
var(y) = ∑(yi − ȳ)2 = ∑(yi∗ − ȳ)2 + ∑(yi − yi∗ )2 =
´¹¹ ¹ ¹ ¸ ¹ ¹ ¹ ¶ n i=1 n i=1 n i=1
variance totale
(3.19)
= var(y ∗ ) + var(e) .
´¹¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹¶ ´¹¹ ¹ ¹ ¸¹ ¹ ¹ ¶
variance expliquée variance résiduelle

La variance expliquée var(y ∗ ) tire son nom du fait que la variabilité de x entraı̂ne
celle de y ∗ , au vu de la relation y ∗ = ax + b. La variance résiduelle var(e) s’in-
terprète comme la partie de la variance empirique des y qui n’est pas expliquée par
la régression de y sur x : si la variance résiduelle var(e) était nulle, tous les résidus
ei seraient égaux à leur moyenne ē, qui est toujours nulle comme on l’a vu plus
haut. Autrement dit (cf. section 3.1) :

var(e) = 0 ⇐⇒ yi = a xi + b ⇐⇒ r = ±1 ⇐⇒ ajustement parfait (3.20)

(iv) La relation var(e) = (1 − r2 ) var(y), toujours vraie, montre également que les
résidus sont nuls lorsque r = 1 ou r = −1 (ajustement parfait), et que

var(y) − var(e) var(y ∗ ) variance expliquée


r2 = = =
var(y) var(y) variance totale
6. le critère alternatif dit de déviation absolue minimale (least absolute deviation), consistant à déterminer a
et b de façon à minimiser ∑n i=1 ∣ei ∣, est également naturel, et possède de meilleures propriétés de robustesse des
estimations. Son traitement mathématique est cependant bien plus difficile que celui des moindres carrés.

51
3. Liaison entre deux variables numériques : covariance et corrélation

Ainsi, le carré de la corrélation, r2 , également appelé coefficient de détermination,


mesure la proportion de variance (de l’une des deux variables) expliquée par la
régression (sur l’autre variable).
(v) Si l’on standardise les deux variables, et considère la régression de yis = (yi − ȳ)/sy
sur xsi = (xi − x̄)/sx , on aboutit à la forme très simple

yis = r xsi (3.21)

Comme ∣r∣ ≤ 1, (3.21) montre que les scores standardisés prédits yis ∗ sont, en valeur
absolue, plus petits que les scores standardisés du prédicteur xsi : cela implique que
les scores bruts prédits yi∗ sont (relativement à l’écart-type sy ) plus proches de la
moyenne (ȳ) que ne le sont les scores bruts du prédicteur xi (relativement à l’écart-
type sx , et par rapport à la moyenne x̄) : c’est cette propriété, toujours vraie, qui a
conduit Francis Galton en 1886 à caractériser par le nom de régression la méthode
de prédiction par une relation linéaire étudiée ici.

L’exemple de Galton portait sur la relation entre x = "taille moyenne des deux
parents" et y = "taille des enfants" sur un échantillon de n = 928 individus
pour laquelle une corrélation d’environ r = 0.5 (plus précisément r = 0.46) avait
été observée 7 . Si la taille (moyenne) des parents était de deux écarts-types au
dessus de la moyenne (i.e. xs = 2), alors on s’attendrait que leurs enfants soient
aussi plus grands que la moyenne, mais seulement avec y s ∗ = 0.5 × 2 = 1 écart-type
au dessus de la moyenne. Inversement, si la taille d’un enfant était de un écart-
type au-dessus de la moyenne (i.e. y s = 1), alors on on s’attendrait, en inversant
le rôle de x et de y, à ce que la taille moyenne de ses parents soit seulement de
x∗ = r y s = 0.5 × 1 = 0.5 écart-type au dessus de la moyenne : comme r > 0, la taille
des enfants issus de parents plus grands que la moyenne tend à être également
plus grande (et vice-versa), mais (comme r < 1) dans une moindre mesure : d’où le
phénomène de régression vers la moyenne.
(vi) Les quantités cov(x, y) et corr(x, y) restent inchangées lorsque l’on échange x et
y. Cela étant la droite de régression x∗ = Ay + B n’est pas la même que la droite de
régression y ∗ = ax + b : c’est x qui est prédit en fonction de y dans le premier cas,
alors que c’est l’inverse dans le second cas. En inversant les rôles de x et y dans
(3.18), on obtient
sxy sx
A= 2
=r B = x̄ − A ȳ
sy sy

Les deux droites de régression se croisent en (x̄, ȳ) avec un angle θ d’autant plus
grand que r est petit 8 (figure 3.3 droite). En particulier, θ = 0 ssi r2 = 1 (ajustement
parfait) et θ = 90○ ssi r = 0 (aucune liaison entre x et y).
Exemple 13 (Notes de maths et de physique (suite)). En retournant à l’exemple avec
x=note de mathématiques et y="note de physique" de la figure 3.1, on trouve que
x̄ = 4.25, ȳ = 4.2, cov(x, y) = xy − x̄ȳ = 19.05 − 17.85 = 1.2, √var(x) = s2x = 1.5625,
var(y) = s2y = 1.76, et donc r = corr(x, y) = cov(x, y)/(sx sy ) = 1.2/ 1.5625 × 1.76 = 0.724 :
la positivité de ce dernier reflète la tendance croissante du nuage de points de la figure
3.1.
On tire également de (3.18) que a = 0.768 et b = 0.936. Si un onzième et nouvel élève ayant
x11 = 6 de mathématiques arrivait en classe, la prédiction linéaire de sa note de physique

(supposée inconnue) serait de y11 = 0.768 × 6 + 0.936 = 5.544.
7. Galton, F. (1886) Regression Towards Mediocrity in Hereditary Stature, The Journal of the Anthropological
Institute of Great Britain and Ireland, vol. 15, pp. 246–263
sx sy 1−r 2
8. la comparaison des deux pentes permet d’établir que tan θ = s2 2
x +sy ∣r∣

52
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio

6
6

5
quatrième épreuve
deuxième épreuve
5

4
4

3
3

2
3.0 3.5 4.0 4.5 5.0 5.5 6.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

première épreuve troisième épreuve

F IGURE 3.3 – Diagrammes de dispersion et, en traitillé (dashed), droites de régression linéaire de
la seconde épreuve en fonction de la première (gauche ; r = 0.49), et de la quatrième épreuve en
fonction de la troisième (droite ; r = 0.52 ; on y a rajouté en pointillé (dotted) la droite de régression
x∗ = Ay + B prédisant cette fois la troisième épreuve en fonction de la quatrième. L’intersection des
deux droites a lieu sur le point des valeurs moyennes (x̄, ȳ) avec un angle θ).

Enfin, r2 = 0.52 : la note de mathématiques explique 52% de la variabilité de la note de


physique (et vice-versa), ce qui revient à dire que 48% de la variabilité de la note de phy-
sique n’est pas liée à celle de mathématiques. Une partie de ces 48% peut éventuellement
être expliquée (ou non) par d’autres variables (âge, motivation, aptitude, milieu socio-
économique, etc. ) mais, faute de données additionnelles disponibles, on ne peut rien en
dire de plus ici.
Exemple 14 (Epreuves). Les notes des quatre épreuves de méthodes quantitatives obte-
nues par les n = 215 étudiant.e.s de l’année 2012-2013 peuvent être corrélés, et donner
lieu à diverses régressions linéaires, dont celles de la figure 3.3.
2
Il se trouve que r12 = 0.492 = 24% de la variabilité de la seconde épreuve est “exprimée”
ou “expliquée” par la première, et vice-versa – et donc que 76% de la variance d’une des
2
deux variables n’est pas expliquée par l’autre variable. De même, r34 = 0.522 = 27% de la
variance de la quatrième épreuve est “expliquée” par la variance de la troisième épreuve,
et vice-versa.

Les deux droites de la figure 3.3 de droite sont la droite de régression de la quatrième
épreuve en fonction de la troisième épreuve (en traitillé), respectivement celle de la
troisième épreuve en fonction de la quatrième épreuve (en pointillé). Leur intersection
a lieu au point moyen (x̄, ȳ) = (4.33, 4.54) sous un angle θ, qui se trouve être de 34.9○ , et
dont la non-nullité reflète l’imperfection de l’ajustement linéaire (r2 < 1).

4 Liaison entre une variable numérique et une variable catégorielle : le F-ratio


Il reste à étudier le cas de la dépendance entre une variable quantitative x et une va-
riable catégorielle y à m modalités. Chacune de ces j = 1, ..., m modalités définit un
groupe, constitué de tous les individus possédant la modalité j. D’autre part, ces individus
possèdent des scores xi quantitatifs, qui diffèrent généralement d’un individu à l’autre.
Deux cas peuvent alors se présenter :
1. les scores individuels xi tendent à être plus proches des scores des individus du
même groupe que des scores des individus d’un autre groupe (cas de groupes ho-
mogènes relativement à x). Les modalités de la variable y influencent alors la dis-
tribution des valeurs de x, ce qui revient à dire que x et y sont liées (figure 3.4,
haut).

53
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio

2. la distribution des scores individuels xi , et en particulier leur proximité relative, n’est


pas influencée par le groupe j auquel appartient l’individu : x et y ne sont alors pas
liées (figure 3.4, bas).

F IGURE 3.4 – groupes bien et mal séparés relativement aux scores de x

Dans le cas de la corrélation, on a vu en (3.19) comment la variance pouvait se décomposer


en variance expliquée et résiduelle. Ici, la maı̂trise du problème passe également par une
décomposition de la variance 9 consistant à comparer les fluctuations de x à l’intérieur des
groupes et entre les groupes.
Considérons pour cela un échantillon de taille n, composé de m groupes j = 1, ..., m (cor-
respondant chacun à une modalité de y). Soit nj ≥ 1 l’effectif du groupe j. Naturellement,
∑j=1 nj = n. La moyenne et la variance totales, à savoir dans tout l’échantillon, sans tenir
m

compte de sa partition en groupes, sont données par les formules habituelles :


1 n 1 n
x̄ = ∑ xi s2 ≡ var(x) = ∑(xi − x̄)
2
(3.22)
n i=1 n i=1

Le même calcul peut être effectué à l’intérieur de chacun des groupes : la moyenne et la
variance dans le groupe j sont :

1 nj 1 nj
x̄j ∶= ∑ xi s2j ≡ varj (x) ∶= ∑(xi − x̄j )
2
(3.23)
nj i=1 nj i=1

où les sommations ne portent plus que sur les nj individus du groupe j (quitte à re-
numéroter les individus de i = 1 à i = nj pour chaque groupe). La décomposition annoncée
est réalisée par l’identité suivante, toujours vraie :

var(x) = varB (x) + varW (x) (3.24)

où varB (x), appelée variance intergroupe (between) mesure la variance des moyennes
des groupes x̄j autour de la moyenne totale x̄, et varW (x), appelée variance intragroupe
(within) mesure la moyenne des variances s2j = varj (x) à l’intérieur de chaque groupe.
Les moyennes dont il est état ici sont des moyennes pondérées par l’effectif relatif nj /n de
chaque groupe :
1 m 1 m
varB (x) ∶= ∑ nj (x̄j − x̄)
2
varW (x) ∶= ∑ nj varj (x) (3.25)
n j=1 n j=1

Considérons le cas de groupes absolument homogènes, tels que tous les scores xi soient
identiques à l’intérieur du même groupe. Dans ce cas, s2j = 0 et donc varW (x) = 0 : la
variance totale s’exprime entièrement par varB (x).
Inversement, supposons que les groupes aient tous même distribution, et qu’en particulier
leurs moyennes x̄j coı̈ncident (et coı̈ncident donc avec la moyenne totale x̄). Dans ce cas,
varB (x) = 0, et la variance totale s’exprime entièrement par varW (x). Dans le premier cas,
les groupes sont tout-à-fait séparés (et le lien entre x et y est maximal), tandis que dans
le second, les groupes sont confondus (et le lien entre x et y est nul).
9. C’est précisément ce type de propriété qui rend la variance si commode à manipuler, et par là unique
parmi tous les indicateurs possibles de dispersion que l’on pourrait facilement imaginer et construire.

54
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio

La figure 3.4 exhibe deux situations intermédiaires, mais bien marquées cependant : les
groupes sont bien séparés dans la répartition du haut, avec un rapport varB (x)/varW (x)
grand.
Dans la répartition du bas, les groupes sont mal séparés, avec un rapport varB (x)/varW (x)
petit ; notons que, pour une fois, perception visuelle et indicateurs numériques s’accordent
assez bien : lorsque le rapport varB (x)/varW (x) est grand (petit), les groupes sont bien
(mal) séparés visuellement.
Le rapport varB (x)/varW (x) constitue donc une mesure adéquate du lien entre la variable
quantitative x et la variable catégorielle y, possédant également la propriété nécessaire de
ne pas dépendre du système d’unités choisi pour x. On lui préfère cependant (à des fins
de tests d’hypothèses qui seront abordés plus loin) le rapport F ou F -ratio défini par 10 :
varB (x)
F ∶= var
m−1
(3.26)
W (x)
n−m

L’indice F est non négatif. Sa valeur minimale de 0 est atteinte ssi varB (x) = 0, i.e. ssi les
moyennes des groupes x̄1 , ..., x̄m coı̈ncident (et donc coı̈ncident avec la moyenne totale
x̄) : dans ce cas, les groupes sont indistinguables les uns des autres.
Inversement, la valeur maximale de F vaut +∞, ce qui est le cas ssi varW (x) = 0, i.e.
ssi tous les scores de chaque groupe coı̈ncident (et coı̈ncident donc avec la moyenne du
groupe) : dans ce cas, les groupes sont complètement homogènes, et donc maximalement
distinguables les uns des autres. En termes de liaison entre variables, on a donc, à l’instar
du chi2 :

x et y non liés ⇐⇒ F = 0

Exemple 15 (Course à la publication).


En 2018, dix chercheuses de trois instituts universitaires a, b et c, toutes spécialistes du
partitionnement probabiliste de réseaux pondérés (soft clustering of weighted networks),
se lancent un défi (discutable), à savoir celui de publier pendant une année donnée le
maximum d’articles scientifiques dans des revues à comité de lecture anonyme. La table
3.7 donne le nombre (fictif) d’articles acceptés, par chercheuse et par institut.

institut a a a b b b c c c c
production individuelle 4 5 6 5 5 5 2 2 4 4
TABLE 3.7 – nombre de publications x de n = 10 chercheuses, selon leur institut y
Les nombres moyens d’articles publiés, au total et par institut, sont
1 1
x̄ = (4 + 5 + . . . + 4) = 4.2 x̄a = (4 + 5 + 6) = 5 x̄b = 5 x̄c = 3
10 2
La variance totale vaut
1 2
s2 = var(x) = (4 + 52 + 62 + 52 + 52 + 52 + 22 + 22 + 42 + 42 ) − 4.22 = 1.56
10
SSB )/( SSW ) = MSB , où
10. on trouve aussi, dans les sorties logicielles traditionnelles, la disposition F = ( m−1 n−m MSW
les sommes des carrés (SS = Sum of Squares) inter (SSB) et intra (SSW) représentent simplement les variances
correspondantes, mais non divisées par n, à savoir SSB = n varB (x) et SSW = n varW (x). Les quantités MSB ∶=
SSB/(m − 1), respectivement MSW ∶= SSW/(n − m), sont les carrés moyens inter, respectivement intra (MS =
Mean Squares).

55
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio

et les variances de chaque groupe sont


1 2
s2a = vara (x) = ((4 − 5)2 + (5 − 5)2 + (6 − 5)2 ) =
3 3
1
sb = varb (x) = ((5 − 5) + (5 − 5) + (5 − 5) ) = 0
2 2 2 2
3
1
sc = varc (x) = ((2 − 3)2 + (2 − 3)2 + (4 − 3)2 + (4 − 3)2 ) = 1
2
4
La variance intragroupe (3.25) vaut ainsi
3 2 3 4
varW (x) = + 0 + 1 = 0.6
10 3 10 10
tandis que la variance intergroupe (3.25) vaut
3 3 4
varB (x) = (5 − 4.2)2 + (5 − 4.2)2 + (3 − 4.2)2 = 0.96 .
10 10 10
On vérifie que
varB (x) + varW (x) = 0.96 + 0.6 = 1.56 = var(x)
comme il se doit (équation 3.24). Le F -ratio (3.26) s’obtient finalement comme
0.96
F= 3−1
0.6
= 5.6
10−3

Est-ce grand ? petit ? Malheureusement, le F -ratio, à l’instar du chi2, ne possède pas d’in-
terprétation directe ; il faudra attendre la théorie des tests d’hypothèses, exposée plus loin,
pour apprécier pleinement l’utilité de l’indice F . Par contre, la quantité 11

varB (x) varB (x)


η 2 ∶= = (3.27)
var(x) varB (x) + varW (x)

représente la proportion de variance (de x, quantitatif) “expliquée” (par y, catégoriel, i.e.


par l’appartenance aux groupes) ; il vaut ici 0.96/1.56 = 62%.
Cette quantité, également désignée sous le nom de (carré du) rapport de corrélation ou de
2
coefficient eta-carré, est complètement analogue au coefficient de détermination rxy , lequel
mesure, comme on l’a vu, la proportion de variance de y “expliquée” ou “exprimée” par la
régression linéaire de y (quantitatif) sur x (quantitatif, également), ou inversement 12 .

Exemple 16 (Températures moyennes dans différentes villes de Suisse).


Les températures annuelles moyennes (en degrés Celsius) dans différentes villes de Suisse
en 1990 ont été de
● Suisse Romande : Genève : 11.0 ; Lausanne : 11.2 ; Sion : 10.2 ; Neuchâtel : 11.0
● Suisse Alémanique : Berne : 9.4 ; Bâle : 10.9 ; Zurich : 9.9 ; Saint-Gall : 8.8 ; Lu-
cerne : 10.0 ; Coire : 9.9
● Suisse Italienne (Tessin) : Lugano : 12.6 ; Locarno : 11.6.
Les m = 3 groupes sont ici les modalités de la variable catégorielle y =“région linguis-
tique”, et la variable quantitative est x = “température annuelle moyenne”. Les effectifs
régionaux sont de n1 = 4, n2 = 6 et n3 = 2, et l’effectif total est n = 12.
Les moyennes régionales sont x̄1 = 14 (11.0 + 11.2 + 10.2 + 11.0) = 10.85, x̄2 = 9.8 et x̄3 = 12.1.
Les variances régionales sont de s21 = 14 (11.02 +11.22 +10.22 +11.02 )−10.852 = 0.15, s22 = 0.41
var (x)
11. reliée au F par la relation η 2 = varB(x) = F + Fn−m
m−1
12. (*) dans le cas de deux variables catégorielles x et y, on peut montrer que la quantité analogue à η 2 ou r2
est donnée par la quantité √ chi2 , bornée supérieurement par la quantité V2 = n min(mchi2
n (m1 −1)(m2 −1) 1−1,m −1)
2
qui est le carré du V de Cramer (3.11)

56
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio

et s32 = 0.25. La moyenne totale est de x̄ = 12


1
(4 × 10.85 + 6 × 9.8 + 2 × 12.1) = 10.54, ce que
l’on aurait pu aussi déterminer en faisant la moyenne simple des 12 observations.
La variance intergroupe vaut varB (x) = 121
(4×(10.85−10.54)2 +6×0.41+2×(12.1−10.54)2 ) =
0.70, et la variance intragroupe varW (x) = 12
1
(4 × 0.15 + 6 × (9.8 − 10.54)2 + 2 × 0.25) = 0.29.
La variance totale est alors de var(x) = 0.70 + 0.29 = 0.99, ce que l’on aurait aussi pu
déterminer par un calcul direct sur les 12 observations.

Enfin, le F -ratio vaut F = 0.70/(3−1)


0.29/(12−3)
= 10.73 et le rapport de corrélation η 2 = 0.70
0.99
= 70.7%.

age × statut).
Exemple 17 (Questionnaire “Chamberonne” (suite) : ^
La table ci-dessous donne les âges moyens, ainsi que
leur dispersion, des n = 1365 répondants du question-

80
naire “Chamberonne”, selon les m = 6 statuts

70
statut effectif nj moyenne x̄j variance s2j écart-type sj

60
Etu 728 23.0 22.9 4.8
ProfMer 135 51.5 99.2 10.0

50
age
PostDoc 54 37.5 39.6 6.3
Ass 157 29.7 18.5 4.3
PAT 316 42.4 101.6 10.1

40
Autre 45 43.0 215.9 14.7
total 1365 31.8 159.9 12.6

30
Aussi,
20

106.4
varB (x) = 106.4, varW (x) = 53.6 et F = 6−1
53.6 = 539.6. Etu ProfMer PostDoc Ass PAT Autre
1365−6
statut

4.1 Cas limite


S’il n’y a qu’un seul groupe (m = 1), la notion de liaison entre y = “groupe” et x ne fait pas
sens. Dans ce cas, la variance intergroupe varB (x) est nulle, et le F-ratio (3.26) devient
0
F = var 0 (x) = indéterminé (3.28)
W
n−m

comme il se doit.
A l’inverse, si chaque groupe ne contient qu’une seule observation (n = m), il n’est pas
possible non plus d’évaluer la force de la liaison entre y et x : dans ce cas, la variance
intragroupe varW (x) est nulle, et le F-ratio (3.26) devient
varB (x)
F= m−1
0
= indéterminé (3.29)
0

comme il se doit également.


(3.28) et (3.29) expriment qu’à une “question absurde” correspond une “non-réponse” –
la seule réponse raisonnable, en l’occurence.
En méthodes quantitatives et de façon générale, quantité d’indices ont été proposés (et
continuent à l’être) pour mesurer toutes sortes de choses (la variété, l’inégalité, l’accord,
l’homogénéité, la similarité, etc.). Ces indices sont le plus souvent très inégaux dans la qua-
lité de leur conception et leur utilité pour l’interprétation. Il n’est pas facile de construire
un indice jouissant de nombreuses “bonnes propriétés souhaitables”, et, souvent, un indice
satisfaisant à toutes les propriétés souhaitées n’existe pas.
Confronter des indices proposés à des cas limite (comme on vient de le faire avec le F-
ratio) et observer s’ils se comportent alors correctement ou non est un moyen très efficace
de faire un premier tri (le plus souvent drastique) entre ces candidats.

57
5. Le cas des variables bimodales (*)

5 Le cas des variables bimodales (*)


On a vu aux chapitre “Données” que toute variable catégorielle bimodale pouvait être
codée en “1/0”, où 1 est à interpréter comme la présence d’un certain événement ou pro-
priété A, et 0 comme son absence ; la variable numérique x codée en présence-absence
comme


⎪1 si i ∈ A
xi = I(i ∈ A) = ⎨

⎪0 sinon

est appelée variable indicatrice (ou “dummy variable”). Par construction, f ∶= x̄ donne la
proportion d’individus possédant la propriété A dans l’échantillon, laquelle détermine ici
la variance comme var(x) = f (1 − f ).
Soit B un autre événement dont la variable indicatrice associée est y (i.e. yi = I(i ∈ B)).
Le nombre d’individus nxy associé aux quatre valeurs possibles (1, 1), (1, 0), (0, 1) et (0, 0)
de (x, y) définit la table de contingence 3.8.

y
y = 1 (B) y = 0 (B c )
x x = 1 (A) n11 n10
x = 0 (Ac ) n01 n00
TABLE 3.8 – Table de contingence associée à deux variable bimodales x et y
Comme les variables indicatrices sont numériques, on peut calculer leur covariance cov(x, y) =
xy − x̄ȳ = n11 /n − (n11 + n10 )(n11 + n01 )/n2 , où n = n11 + n10 + n01 + n00 est la taille de
l’échantillon. Procédant de même, on obtient après simplification
n11 n00 − n10 n01
r = corr(z, w) = √ (3.30)
(n11 + n10 )(n01 + n00 )(n11 + n01 )(n10 + n00 )

Cette expression , ne dépend pas (au signe près) du codage utilisé pour x et y, en vertu
de la propriété d’invariance d’échelle de la corrélation corr(ax + b, cy + d) = ± corr(x, y).
Revenant à la nature catégorielle des variables x et y, le calcul du chi2 (d’indépendance)
sur la table de contingence 3.8 aboutit à l’expression très simple

chi2 = n r2 (3.31)

qui démontre la parenté entre le chi2 et le r2 . Enfin, en considérant x comme numérique


et y comme catégoriel à deux modalités (ou l’inverse), le F résultant serait de

r2
F = (n − 1) . (3.32)
1 − r2

5.1 Le coefficient d’association Q (*)


Dans le cas de deux variables bimodales, on peut également rencontrer le coefficient d’as-
sociation Q (“Q de Yule”) défini à partir des effectifs de la table 3.8 comme
n11 n00 − n10 n01
Q ∶= (3.33)
n11 n00 + n10 n01
qui obéit à −1 ≤ Q ≤ 1, avec
● Q = +1 ssi n10 = 0 ou n01 = 0 (i.e. ssi B ⊂ A ou A ⊂ B)
● Q = −1 ssi n11 = 0 ou n00 = 0 (i.e. ssi A ∩ B = ∅ ou c ∩ B c = ∅ )
● Q = 0 ssi chi2 = 0 (i.e. ssi r = 0 dans (3.31) ou encore ssi F = 0 dans (3.32)).
Exemple 18 (Association entre deux textes).
On a comparé 13 les occurrences d’une liste de 2246 substantifs (extraits de l’oeuvre
13. G.U.Yule (1944) The Statistical Study of Literary Vocabulary, Cambridge University Press

58
6. Variables liées et prédiction : l’apprentissage automatique (machine learning)(*)

partie II
présent absent total
présent 544 461 1005
partie I absent 476 765 1241
total 1024 1226 2246
TABLE 3.9 – Co-occurrences de substantifs dans les deux parties de ”Pilgrim’s Progress” de John
Bunyan

complète de John Bunyan) dans deux parties d’une oeuvre de John Bunyan,“Pilgrim’s
Progress”, parties I (1678) et II (1684). Parmi ces substantifs, 544 sont apparus dans les
deux parties, 461 dans la partie 1 uniquement, etc... (table 3.9).
Le coefficient d’association vaut Q = (544 ⋅ 765 − 476 ⋅ 461)/(544 ⋅ 765 + 476 ⋅ 461) = 0.31 > 0,
indiquant un vocabulaire plus similaire entre les parties I et II de “Pilgrim’s Progress” qu’il
ne l’est entre deux parties choisies au hasard dans l’oeuvre complète de Bunyan (d’où
avait été extraite la liste des 2246 substantifs). Si la liste des substantifs retenus avait été
plus étendue (par exemple établie à partir de tout le vocabulaire littéraire de l’époque), la
valeur de l’indice d’association Q aurait été sensiblement plus grande, en toute probabilité.

6 Variables liées et prédiction : l’apprentissage automatique (machine learning)(*)


La régression linéaire de y sur x (section 3.2) permet de prédire des valeurs y ∗ = ax +
b à partir des valeurs de x, grâce au fait que y et x sont liés. Il s’agit là d’un principe
fondamental, dont la portée dépasse largement le cadre simple de régression linéaire :
si deux variables x et y sont liées, alors la connaissance de l’une améliore la prédiction de
l’autre.
L’application de ce principe, au coeur des méthodes de prédiction, requiert :
(1) d’observer n fois le phénomène bivarié (constitution de l’échantillon (x, y))
(2) d’en inférer une règle de prédiction, typiquement de la forme y ∗ = f (x)
(3) à partir de la valeur (numérique ou catégorielle) d’une nouvelle observation xi
(nouvelle = absente de l’échantillon observé, dit d’apprentissage), de prédire ou
d’estimer la valeur yi∗ = f (xi ) de yi (lequel est inobservé)
(4) au-delà de l’estimation (3) (dite ponctuelle) de la seule valeur yi∗ , estimer la fluc-
tuation des valeurs qui seront réellement observées (erreur attendue sur la prédic-
tion, intervalles de confiance, etc.), ou plus généralement proposer une estimation
probabiliste, donnant la probabilité conditionnelle P (yi ∣xi ) que yi prenne telle ou
telle valeur connaissant xi .
Il y a donc apprentissage automatique (machine learning) du motif (ou “pattern”) des
relations entre les variables, ouvrant la possibilité d’améliorer la prédiction (ponctuelle ou
probabiliste) de y dès que la valeur de x est connue.
Les principes justifiant l’inférence ponctuelle (3) peuvent être de nature purement heuris-
tiques, typiquement basées sur l’ajustement optimal (fit) tel qu’exprimé par le principe des
moindres carrés de la régression linéaire. Ils peuvent au contraire être dérivés de fonde-
ments théoriques, ainsi que le sont systématiquement les prédictions probabilistes (4), plus
sophistiquées, qui font recours à la modélisation, i.e. à des descriptions probabilistes du
monde – c’est l’objet du chapitre suivant.

59
4 Modèles

1 Introduction
Un modèle est une idée de la réalité, ou plutôt une formalisation de cette idée. Cette for-
malisation doit pouvoir être suffisamment souple pour accommoder des idées élaborées,
et en même temps suffisamment ferme et précise pour être confrontée avec la réalité,
justement.
Les modèles probabilistes répondent précisément à cette double exigence, et leur usage
s’est imposé de façon universelle, en sciences naturelles comme en sciences humaines et
sociales. Le formalisme associé, et son empreinte massive sur toute la recherche scien-
tifique, n’a pas, jusqu’à preuve du contraire, de concurrents sérieux. Cette suprématie,
de nature conceptuelle, résulte de son efficacité à servir les besoins de la science ; elle
ne découle pas d’un choix idéologique ou culturel imposé par un cénacle de personnes
influentes 1 .
Un modèle probabiliste dit que telle chose, tel état du monde, telle configuration, se pro-
duit avec telle probabilité. Lorsqu’une seule configuration est possible, le modèle est dit
déterministe. Sinon, le modèle exprime une tendance (trame, motif, pattern) coexistant
avec une composante purement aléatoire.

Des phénomènes très différents, tels la distribution des erreurs de lo-


calisation en astronomie, la taille des spécimens d’une espèce, la posi-
tion d’une particule dans un mouvement diffusif, sont bien modélisés
par une famille de modèles simples de même allure, en l’occurence
les modèles gaussiens. De même, les modèles binomiaux, de Poisson,
etc. peuvent décrire le nombre de personnes connues rencontrées
lors d’un événement, le nombre de glissements de terrains dans une
période et région donnée, le nombre de courriels quotidiens échangés
entre deux pays, etc.
Ces familles de modèles simples constituent des outils de base en
modélisation. Elles peuvent être combinées de diverses manières, de
façon à pouvoir exprimer des idées élaborées qui seraient parfois bien
difficiles à exprimer en langage naturel. Naturellement, les idées ou
intuitions de départ demandent à être formalisées ou opérationnalisées
pour pouvoir être traduites en modèles probabilistes – une condition
nécessaire pour pouvoir tester ces idées, et faire des prédictions. Urania, muse de l’astronomie

Quant au contenu des idées elles-mêmes, il peut être révolutionnaire, séduisant, généreux,
ou bien conventionnel, possiblement dérangeant voire déprimant pour la sensibilité du
chercheur – peu importe ici : ces considérations sont parfaitement étrangères aux pré-
occupations de la modélisation quantitative, pour laquelle seul compte ici l’adéquation (ou
non) des modèles aux données, dans une perspective résolument et purement scientifique.
1. On parle ici de l’efficacité épistémologique des modèles probabilistes, et non pas des conditions de leur
application concrète dans la vie des chercheurs (instituts universitaires, laboratoires, départements R&D, admi-
nistration publique, think-tanks...)

60
2. Variables aléatoires et distributions

2 Variables aléatoires et distributions


Un lancer de dé peut prendre 6 valeurs possibles, à savoir , ,    
, , ou .
La taille d’un être humain adulte peut, si l’on en croit les livres de records, varier de 54
à 272 centimètres. La face d’un dé, la taille d’un humain sont des exemples de variable
aléatoire, notée en majuscule comme X, par contraste avec la notation minuscule des
scores x = {x1 , . . . , xn } (notés aussi simplement x) rencontrés dans un échantillon.
Une variable (aléatoire) X est continue lorsque ses valeurs possibles constituent un conti-
nuum, i.e. lorsqu’entre deux valeurs distinctes de X il existe toujours une valeur in-
termédiaire distincte des précédentes. Par exemple, la variable X ="taille en centi-
mètres" est continue 2 , de valeurs possibles [54, 272] ⊂ R.
Une variable (aléatoire) X est discrète lorsque ses valeurs possibles constituent un en-
semble dénombrable, lequel peut être fini ou infini. Par exemple, la variable X ="face du
dé" est discrète avec un ensemble fini de valeurs possibles, et la variable Y = "nombre
d’atomes d’hydrogène dans un multivers" est discrète avec un ensemble infini de va-
leurs possibles N = {0, 1, 2, . . .}.
On peut imaginer des variables qui seraient discrètes en endroits et continues en d’autres 3 ,
des continua qui ne seraient pas directement numériques 4 , ou des valeurs possibles de
variables correspondant à des objets composites et structurés 5 , mais il est (largement)
suffisant, pour les besoins pratiques en méthodes quantitatives, de se ramener aux cas
suivants :

⎪soit continue, auquel cas elle est numérique avec des valeurs possibles dans R


⎪ ⎧

la variable X est ⎨ ⎪elle est alors soit numérique (i.e. on peut en faire la moyenne)


⎪soit discrète, ⎨

⎩ ⎪
⎪soit catégorielle.

X= "nombre d’invités à son anniversaire" est un exemple de variable discrète nu-
mérique, prenant les valeurs possibles {0, 1, 2, 3, . . .} = N. Un exemple de variable discrète
catégorielle est X= "nationalité" (dans un groupe donné de personnes) prenant par
exemple les valeurs "suisse", "belge", "bulgare",..., "russe", que l’on peut toujours
numéroter par les entiers j = 1, 2, . . . , m de N.

2.1 Distribution de probabilité discrète


Dans le cas discret, la probabilité pj ∶= P (X = xj ) que la variable X prenne les valeurs
possibles xj , pour j = 1, 2, . . . , m, définit une distribution de probabilité discrète, telle que
m
pj ≥ 0 ∑ pj = 1 . (4.1)
j=1

Une distribution D discrète de probabilité est spécifiée en fixant les valeurs des probabilités
p1 , p2 ,...,pm (avec m fini ou infini) que la variable X prenne respectivement les valeurs
x1 , x2 ,...,xm . On dit que “X est distribuée selon D”, que l’on note simplement “X ∼ D”, où
D est déterminée par les valeurs (p, x) = (p1 , . . . , pm , x1 , . . . , xm ).
Les probabilités en jeu sont des nombres devant toujours satisfaire :
m
pj ≥ 0 ∑ pj = 1 (4.2)
j=1

2. ce qui suppose une précision infinie de la taille – une fiction commode, systématiquement utilisée pour les
variables continues
3. tels les niveaux d’énergie d’un électron selon qu’il est lié ou non à un noyau atomique
4. telles des sensations visuelles, auditive, olfactives
5. tel qu’un texte, un paysage, un réseau, un groupe mathématique...

61
2. Variables aléatoires et distributions

0.20
densité de probabilité f(x)
0.15
0.10
0.05

a b c
0.00

-10 -5 0 5

F IGURE 4.1 – l’expression ∫ab f (x) dx représente un nombre, en l’occurrence la surface de la zone
c
en gris foncé. De même, ∫b f (x) dx est égal à la surface de la zone en gris clair. Ces nombres sont
les probabilités que X ∈ [a, b], respectivement X ∈ [b, c]. Par construction, ∫R f (x) dx = 1.

Par exemple (dé), p1 = 0.5, p2 = 0, p3 = 0.1 etc. définit un dé théorique où la face  apparaı̂t
la moitié du temps, la face 
jamais, la face une fois sur dix, etc. 
Si la variable discrète X, distribuée selon D, est numérique, alors sa moyenne théorique ou
espérance vaut
m
E(X) ∶= ∑ pj xj . (4.3)
j=1

2.2 Distribution de probabilité continue


Le cas des distributions des variables continues est mathématiquement plus délicat : si
X est une variable aléatoire prenant des valeurs possibles sur le continuum R, ou une
partie de R, la distribution de probabilité continue D de X devra spécifier la valeur de
P (X ∈ [a, b]) pour tout intervalle [a, b]. De nouveau, on dira que X est distribué selon D,
noté X ∼ D.
Pour autant que cette distribution D soit suffisamment régulière 6 , cette dernière peut être
entièrement définie à l’aide d’une fonction non négative f (x), appelée densité de probabi-
lité, ayant la propriété
b
P (X ∈ [a, b]) = ∫ f (x) dx (4.4)
a

Le signe intégrale “∫ ” ne devrait pas inquiéter le lecteur plus que cela : toutes les intégrales
associées aux distributions courantes en statistique sont disponibles sous forme de tables,
ou plus directement dans un logiciel scientifique de base (librairies R, Matlab, Python,
etc...). La seule définition dont on aura besoin est la suivante :
b
Définition : la quantité ∫a f (x) dx (“intégrale de f (x) de a à b”) est la surface délimitée
par l’axe des x, le graphe de f (x) ≥ 0, et les droites x = a et x = b (figure 4.1).
6. ou encore dite absolument continue, ce que nous supposerons par la suite ; il n’y a alors pas lieu de dis-
tinguer entre les valeurs de P (X ∈ [a, b]) (intervalle fermé) et de P (X ∈ (a, b)) (intervalle ouvert), car la
probabilité que X prenne exactement la valeur X = a ou X = b est nulle ; plus généralement, la probabilité
P (X = a) de n’importe quelle valeur a est nulle si la distribution de X est régulière : par exemple, la probabilité
qu’une pomme d’une espèce donnée pèse entre 100 et 150 grammes est a priori non nulle, mais la probabilité
pour que cette dernière pèse exactement disons 152.000 . . . grammes (avec une précision infinie) est nulle. Toutes
les distributions continues abordées ici seront régulières, à l’exception de la distribution de Dirac (section 4.3),
concentrée en un point, justement.

62
2. Variables aléatoires et distributions

La loi d’addition des aires sur la figure 4.1 correspond simplement à la loi d’addition des
probabilités d’événements disjoints :
b c c
P (X ∈ [a, b]) + P (X ∈ [b, c]) = ∫ f (x) dx + ∫ f (x) dx = ∫ f (x) dx = P (X ∈ [a, c])
a b a
(4.5)
Intuitivement, plus f (x) est élevé, plus grande est la probabilité que la variable X prenne
des valeurs proches de x. On peut obtenir f (x) comme la limite d’un histogramme de
résolution parfaite (i.e. infinie) d’un tirage aléatoire (section 5.5) de n valeurs distribuées
selon f (x) (figure 4.11).
Comme la valeur de X doit se trouver quelque part dans l’intervalle (−∞, ∞), on doit
avoir P (X ∈ (−∞, ∞)) = P (X ∈ R) = 1, et donc, en utilisant (4.4) :
+∞
f (x) ≥ 0 ∫ f (x) dx = 1 (4.6)
−∞

qui est à comparer avec (4.2) : on constate que le signe intégrale“∫ ” joue pour les distri-
butions continues le même rôle que le signe somme “∑” pour les distributions discrètes.
La moyenne théorique ou espérance d’une variable continue X ∼ D vaut

E(X) ∶= ∫ f (x) x dx (4.7)


R

2.3 Fonction de répartition et quantiles (variables aléatoires numériques)

Définition 7. On appelle fonction de répartition de la variable aléatoire X (numérique)


la fonction F définie par
F (x) = P (X ≤ x) (4.8)

Par construction, F (x) est une fonction non décroissante , avec limx→−∞ F (x) = 0,
et limx→∞ F (x) = 1 : ses valeurs sont donc toutes comprises dans l’intervalle [0, 1]. La
fonction de répartition d’une variable aléatoire est l’analogue théorique de la fréquence
empirique cumulée.

2.3.1 Cas continu


0.20

1.0
densité de probabilité f(x)

distribution cumulée F(x)


0.8
0.15

0.6
0.10

0.4
0.05

0.2

a b c a b c
0.00

0.0

-10 -5 0 5 -10 -5 0 5

x x

F IGURE 4.2 – Densité de probabilité f (x) (gauche) et distribution cumulée F (x) correspondante
(droite). Par construction, la dérivée de F (x) vaut F ′ (x) = f (x) : plus f (x) est grande, plus pentue
est F (x). On lit que a = −4 = x0.13 , b = −1 = x0.35 et c = 4 = x0.95 ; aussi, la médiane théorique vaut
ici x0.5 = 0.

63
2. Variables aléatoires et distributions

1.0
fonction de répartition théorique F(x)
fonction de distribution théorique pj
0.20

0.8
0.15

0.6
0.10

0.4
0.05

0.2
0.0
0.00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 5 10
xj = j x

F IGURE 4.3 – Gauche : distribution pj d’une variable numérique X discrète (ici, une distribution
de Poisson P(λ) de paramètre λ = 3.5 voir section 3.3). Droite : fonction de répartition théorique
F (x) correspondante.

Dans le cas continu, la fonction de répartition F (x) s’obtient comme 7


x
F (x) = ∫ f (t) dt . (4.9)
−∞

Il s’agit d’une fonction continue. Elle est de plus strictement croissante (et inversible) si
f (x) > 0. Dans ce cas, le α-ième quantile théorique, qui est la valeur xα définie par

P (X ≤ xα ) = F (xα ) = α s’obtient comme xα = F −1 (α) (4.10)

où F −1 (.) dénote la fonction inverse de la fonction F (.). En complète analogie avec les
quantiles empiriques, on note la médiane théorique par x0.5 (ou par X0.5 ), le premier
quartile théorique par x0.25 , etc... (figure 4.2).

2.3.2 Cas discret


La fonction de répartition associée à une distribution numérique discrète D déterminée
par les valeurs (p, x) est discontinue : il s’agit d’une fonction en escaliers, les positions
horizontales des marches étant données par les valeurs xj , et la hauteur de chaque marche
par pj (figure 4.3).

2.4 Moyenne et variance théoriques ; standardisation ; coefficient de variation


La variance théorique d’une variable aléatoire numérique X ∼ D est

Var(X) = E((X − E(X))2 ) = E(X 2 ) − E 2 (X) (4.11)

i.e.
m
Var(X) = ∑ pj (xj −E(X))2 (cas discret) Var(X) = ∫ f (x)(x−E(X))2 dx (cas continu)
j=1 R
(4.12)
On utilise aussi la notation
● µX ou µ pour la moyenne théorique E(X)
7. pourquoi avoir passé de f (x) dx à f (t) dt ? Simplement parce que le symbole x est “déjà pris” dans le
membre de gauche F (x) de (4.9), et qu’il faut donc un autre symbole (muet), ici t, pour exprimer l’intégration
de −∞ à x dans le membre de droite.

64
2. Variables aléatoires et distributions

● σX
2
ou σ 2 pour la variance théorique

● σX ou σ pour l’écart-type théorique Var(X) .
Toute variable quantitative X de moyenne µ et de variance σ 2 peut être centrée par sous-
traction de la moyenne, réduite par division par l’écart type, et standardisée par centration
puis réduction. On peut noter par X c , X r et X s les nouvelles variables ainsi obtenues :
X X −µ
Xc = X − µ Xr = Xs = (4.13)
σ σ
De nouveau, la moyenne (ici théorique) d’une variable aléatoire joue le rôle d’une ori-
gine naturelle, et son écart-type théorique celui d’une unité naturelle (au sens d’une
unité physique). Standardiser une variable revient alors à exprimer son score ou sa va-
leur numérique dans un repère d’origine 0 et d’unité 1. Une fois standardisée, la variable
X s ne dépend plus de l’unité ou de l’origine initiales.
Les identités suivantes, faciles à démontrer, sont complètement analogues aux identités
empiriques correspondantes : X étant une variable quantitative, et a et b des constantes
de signe quelconque, on a

E(aX + b) = aE(X) + b Var(aX + b) = a2 Var(X) (4.14)

Lorsque les valeurs d’une variable quantitative (discrète ou continue) X sont non-négatives
(c’est typiquement le cas des échelles absolues et de quotient), on utilise parfois le coeffi-
cient de variation théorique (respectivement empirique) défini par CV(X) = 100 σX /E(X)
(respectivement cv(X) = 100 sx /x̄), dont l’avantage principal est de fournir une mesure
de dispersion réduite, c’est-à-dire indépendante de l’unité choisie. Par exemple, dire que
le coefficient de variation de X =“ taille” vaut CV(X) = 8.8 signifie que l’écart-type de la
taille σ vaut 0.088 fois la taille moyenne µ, quelle que soit l’unité de taille choisie.

2.5 Distributions bivariées


La distribution jointe ou bivariée D de deux variables aléatoires X et Y est spécifiée :
1. dans le cas continu : par la densité jointe f (x, y) = fXY (x, y) ≥ 0 des valeurs possibles
de X et Y , telle que (figure 4.4)

P (X ∈ A et Y ∈ B) = ∫ ∫ fXY (x, y)dxdy avec ∫ ∫ fXY (x, y)dxdy = 1 .


A B R R

Les distributions univariées fX (x) de X et fY (y) de y s’obtiennent alors par margi-


nalisation, i.e.

fX (x) = ∫ fXY (x, y) dy et fY (y) = ∫ fXY (x, y) dx .


R R

2. dans le cas discret : par la probabilité pjk ≥ 0 que (X, Y ) prenne les m1 × m2 valeurs
possibles (xj , yk ), avec
m1 m2
P (X = xj et Y = yk ) = pjk avec ∑ ∑ pjk = 1 .
j=1 k=1

De nouveau,

P (X = xj ) = ∑ P (X = xj et Y = yk ) = ∑ pjk = pj● et P (Y = yk ) = ∑ pjk = p●k .


k k j

3. dans le cas mixte, où X est continue et Y discrète : par la quantité πj fj (x) telle que
m
P (X ∈ A et Y = yj ) = πj ∫ fj (x) dx avec ∫ fj (x) dx = 1 et ∑ πj = 1 .
A R j=1

65
2. Variables aléatoires et distributions

0.015

0.010

0.010
f(x,y)

f(x,y)
0.005

0.005

5 5
0.000 0.000
0 0
-5 -5
0
5
-5
y 0
5
-5
y
x 10
-10
x 10
15
-10

F IGURE 4.4 – Deux densités de probabilité bivariées f (x, y) donnant la distribution jointe des
variables continues (X, Y )

On a alors
m
P (Y = yj ) = πj ∫ fj (x) dx = πj et f (x) = ∑ πj fj (x) (4.15)
R j=1

ce qui montre que πj est simplement la distribution univariée de Y . La seconde iden-


tité de (4.15), exprimant la densité univariée f (x) de X comme moyenne pondérée
de m densités fj (x), définit ce que l’on appelle un modèle de mélange (mixture mo-
del) 8 . Aussi, fj (x) n’est autre que la densité conditionnelle de X pour Y = yj donné,
en vertu de
πj fj (x)
f (x∣Y = yj ) = = fj (x) .
πj

2.5.1 Indépendance de deux variables

Définition 8 (Indépendance). Deux variables X et Y sont indépendantes si leur distribution


jointe est égale au produit de leurs distributions univariées, i.e. si
● fXY (x, y) = fX (x) fY (y) (cas continu)
● pjk = pj● p●k (cas discret)
● fj (x) = f (x) pour tout j = 1, . . . , m (cas mixte).

2.5.2 Covariance et corrélation théoriques

Définition 9. Etant données deux variables X et Y de moyennes théoriques E(X) et E(Y ),


et de variances théoriques Var(X) = E(X 2 ) − E 2 (X) = σX
2
et Var(Y ) = E(Y 2 ) − E 2 (Y ) = σY2
on définit leur covariance théorique par :

Cov(X, Y ) ∶= E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ) (4.16)


Par construction, Cov(X, X) = Var(X) : comme on l’a déjà remarqué dans la version
empirique, le concept de covariance (ici théorique) généralise le concept de variance.
Aussi, le seul terme proprement bivarié dans (4.16) est E(XY ), qui vaut respectivement
m1 m2
∫ ∫ f (x, y) x y dx dy et ∑ ∑ pjk xj yk
R R j=1 k=1

8. à titre d’exemple, c’est ainsi qu’a été construite la densité f (x) de la figure 4.2 ; quant à la figure 4.4
droite, elle a été construite par le mélange de deux distributions elles-mêmes bivariées.

66
3. Lois discrètes

1.0

1.0

1.0
0.8

0.8

0.8
probabilité pj

probabilité pj

probabilité pj
0.6

0.6

0.6
0.4

0.4

0.4
0.2

0.2

0.2
0.0

0.0

0.0
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
face du dé xj (j=1,...,6) face du dé xj (j=1,...,6) face du dé xj (j=1,...,6)

F IGURE 4.5 – Trois distributions de probabilité pour le lancer d’un dé à m = 6 faces : distribution
“quelconque” (gauche), uniforme (milieu) et concentrée en j ⋆ = 5 (droite)

dans le cas continu, respectivement discret. Si X et Y sont indépendantes, alors E(XY ) =


E(X)E(Y ), et donc Cov(X, Y ) = 0, mais la réciproque n’est pas vraie.
Définition 10. Le coefficient de corrélation théorique entre X et Y est défini par

E((X − E(X))(Y − E(Y ))) Cov(X, Y )


Corr(X, Y ) = ρXY = √ = (4.17)
(E(X − E(X))2 )(E(Y − E(Y ))2 ) σX σY

Comme dans le cas empirique, le coefficient de corrélation théorique n’est pas affecté par
un changement d’échelle ou d’origine : Corr(aX +b, cY +d) = ±Corr(X, Y ) quels que soient
a, b, c et d, où le signe ± est “+1” ssi a et c sont de même signe, et “−1” sinon.
Par contre, la covariance (et la variance) est affectée par les changements d’échelle (mais
pas d’origine) : Cov((aX + b)(cY + d)) = a c Cov(X, Y ).
Enfin, quels que soient X et Y , −1 ≤ Corr(X, Y ) ≤ +1. Les valeurs extrêmes +1 et -1
impliquent une dépendance fonctionnelle linéaire entre X et Y :
● Corr(X, Y ) = +1 ssi Y = aX + b avec a > 0
● Corr(X, Y ) = −1 ssi Y = aX + b avec a < 0.

3 Lois discrètes
3.1 Les distributions uniforme et concentrée
Parmi toutes les distributions discrètes à m modalités (où m ≥ 2 est fini), deux cas parti-
culiers émergent :
● la distribution uniforme, pour laquelle chaque valeur possible de X a la même chance
d’être réalisée (figure 4.5 milieu) :
1
p1 = p2 = ... = pm = (4.18)
m
● la distribution concentrée en une modalité particulière, disons j ⋆ , pour laquelle (fi-
gure 4.5 droite)

⎪1 si j = j ⋆

pj = ⎨

⎪ 0 sinon .

Parmi toutes les distributions à m modalités, la distribution uniforme est la plus aléatoire,
et la distribution concentrée la moins aléatoire : l’incertitude sur la catégorie est maximale
dans le premier cas, et minimale (et nulle) dans le second 9 , pour lequel tout caractère
9. La Théorie de l’Information permet de quantifier précisément ce concept d’incertitude

67
3. Lois discrètes

0.30

0.15
0.30
B(6,0.5)
0.25

B(40,0.2)
fonction de distribution pj

fonction de distribution pj

fonction de distribution pj
B(15,0.9)

0.25
0.20

0.10
0.20
0.15

0.15
0.10

0.05
0.10
0.05

0.05
0.00

0.00

0.00
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 2 4 6 8 11 14 17 20 23 26 29 32 35 38
xj = j xj = j xj = j

F IGURE 4.6 – Trois distributions binomiales B(n, p)

aléatoire a disparu. La distribution concentrée est déterministe : c’est toujours la face j ⋆


qui sortira en lançant un tel dé.

3.2 Loi binomiale B(n, p)


Les séquences de pile ou face permettent de modéliser plus ou moins adéquatement de
nombreux processus tels que les suites fille/garçon de n naissances, les séquences de
réussite ou d’erreur, ou de choix ou non-choix, etc...
A chaque “lancer”, il existe une probabilité fixe p d’obtenir “pile”, et une probabilité q = 1−p
d’obtenir “face” (on parle d’un processus de Bernoulli). Ceci implique en particulier que le
résultat d’un lancer ne dépend pas des précédents (tirages indépendants), et que, puisque
p+q = 1, aucun autre résultat (pièce tombant sur la tranche ou dans une grille, ou attrapée
par un oiseau, ou changée en prince...) n’est possible.
La distribution ou loi binomiale B(n, p) décrit les valeurs possibles (k = 0, 1, 2, ..., n) de la
variable aléatoire

X = "nombre de pile obtenus en n lancers"

comme
n
pk = P (X = k) = ( ) pk (1 − p)n−k . (4.19)
k
La formule précédente découle du fait que, pour obtenir k “pile” en n lancers, il faut que
l’événement “pile” se produise k fois, et ne se produise donc pas n−k fois, ce qui correspond
à une probabilité de pk q n−k = pk (1 − p)n−k ; d’autre part, il existe (nk) = (n−k)!k!
n!
séquences
distinctes (par l’ordre d’apparition des “pile”) de longueur n pour lesquelles l’événement
“pile” se produit exactement k fois.
Les valeurs de n et p définissent entièrement une distribution binomiale particulière : ce
sont les paramètres de la distribution, notée B(n, p).
A l’aide du développement binomial (voir chapitre “Rappels mathématiques”), on peut
montrer que ∑nk=0 pk = 1, comme il se doit, et ce quelles que soient les valeurs des pa-
ramètres n et p. La figure 4.6 donne l’allure de B(n, p) pour différentes valeurs de n et p.
La moyenne et la variance de X sont

E(X) = np Var(X) = np(1 − p) . (4.20)

Cette dernière est nulle pour p = 0 ou p = 1 : dans ce dernier cas, seul l’événement “face”
ou “pile” est possible, i.e. la distribution pk est concentrée en k = 0 ou k = n : c’est le cas
déterministe.
D’autre part, la variance Var(X) est maximale pour p = 1/2 : les événements “pile” et “face”
sont alors équiprobables, et la dispersion de X autour de sa moyenne n/2 est maximale, ce

68
3. Lois discrètes

qui revient à dire que le lancer d’une pièce est maximalement imprédictible lorsque cette
dernière est équilibrée.

3.3 Loi de Poisson P(λ)


Considérons une loi binomiale pour p petit et n grand : on a affaire à un événement rare
mais possédant beaucoup d’occasions de se produire. Dans la limite où p → 0 et n → ∞ de
telle sorte que le produit n p tende vers une constante λ finie, la loi binomiale B(n, p) tend
alors vers une nouvelle loi, la loi de Poisson P(λ) de paramètre λ.

Définition 11. Une variable de Poisson est une variable discrète X prenant toutes les valeurs
entières non-négatives k = 0, 1, 2, 3, . . . avec les probabilités

λk
pk = P (X = k) = exp(−λ) k = 0, 1, 2, .... (4.21)
k!
où λ > 0 est un paramètre positif.

Par exemple, si λ = 2, on a

20 1
P (X = 0) = exp(−2) = = 0.135 = 13.5%
0! e2
1
2 2
P (X = 1) = exp(−2) = 2 = 0.271 = 27.1%
1! e
22 2
P (X = 2) = exp(−2) = 2 = 0.271 = 27.1%
2! e
23 8 1
P (X = 3) = exp(−2) = = 0.180 = 18%
3! 6 e2
P (X ≥ 4) = 1−P (X=0)−P (X=1)−P (X=2)−P (X=3) = 0.143 = 14.3%

La moyenne et la variance de X sont

E(X) = λ Var(X) = λ . (4.22)

Il s’agit d’une relation tout-à-fait particulière, caractéristique de la loi de Poisson, qui est
rendue possible par le fait que la loi de Poisson ne s’applique qu’à des variables X qui
sont des nombres purs (i.e. des effectifs), donc sans dimension 10 . La loi de Poisson peut
modéliser la distribution de X = "nombre d’événements" dans des cas comme :
● X = "nombre de personnes connues rencontrées dans une foule" : le nombre
n d’individus dans une foule est grand, et la probabilité p qu’une personne prise au
hasard dans la foule soit connue est faible
● X = "nombre d’accidents routiers quotidiens en Suisse" : un grand nombre
n de véhicules est en circulation, et la probabilité p pour qu’un véhicule particulier
soit impliqué dans un accident est faible
● X = "nombre d’appels téléphoniques reçus un jour de semaine" (grand nom-
bre n de personnes susceptibles d’appeler ; faible chance p pour qu’une personne
donnée appelle).
La distribution de Poisson ne dépend que d’un seul paramètre, à savoir λ. Lorsque ce
dernier est inconnu, on peut l’estimer par la valeur λ̂ donnée par la moyenne empirique
x̄ de la variable X en question 11 : par exemple, si Madame K. rencontre en moyenne
10. si la variable X possédait une dimension, le paramètre λ en hériterait (puisque E(X) = λ) ; d’autre part,
Var(X) = λ implique que les unités de λ devraient aussi s’exprimer par le carré de cette dimension, ce qui serait
contradictoire.
11. ce procédé est justifié par la propriété E(X) = λ, et plus généralement par le principe du maximum de
vraisemblance abordé plus loin

69
4. Lois continues

3.5 personnes connues chaque fois qu’elle se rend dans son établissement public favori
(figure 4.3), la probabilité qu’elle n’en rencontre aucune est, toutes choses étant égales
par ailleurs, de l’ordre de P (X = 0) = exp(−3.5)3.50 /0! = exp(−3.5) ≅ 3%.
De façon générale, la distribution de Poisson pk est maximale autour de k = λ. Contraire-
ment à la loi binomiale, pour laquelle la valeur maximale n de X est finie, une variable
distribuée selon la loi de Poisson peut en principe prendre une valeur k arbitrairement
élevée.
Cela étant, la probabilité associée à une valeur élevée tend très rapidement (exponentiel-
lement) vers zéro : il n’est pas possible que 3 ampoules claquent le même jour dans un
appartement par simple “usure naturelle” ; et si cela advenait quand même, le recours à
la notion d’usure aléatoire et indépendante d’une ampoule à l’autre, justifiant l’apparition
de la loi de Poisson, deviendrait alors indéfendable.

3.4 Loi multinomiale M(p)


Considérons le tirage indépendant (i.e. avec remise) de n objets, chacun appartenant à
l’une parmi j = 1, . . . , m catégories possibles, la catégorie j étant sélectionnée avec une
probabilité pj ≥ 0 ; naturellement, ∑m j=1 pj = 1.
Au bout de n tirages, on aura constitué un échantillon composé de n1 objets de la première
catégorie, n2 objets de la seconde catégorie, ..., nm objets de la dernière catégorie, avec
∑j=1 nj = n. La probabilité d’obtenir (dans un ordre quelconque) un tel échantillon est
m

alors de
n!
P (n1 , n2 , . . . , nm ) = pn1 pn2 . . . pnmm (4.23)
n1 ! n2 ! . . . n m ! 1 2

qui est la loi multinomiale M(p) de paramètres p = (p1 , p2 , . . . , pm ). La loi multinomiale


généralise la loi binomiale pour plus de deux catégories 12 .
Exemple : 70% des habitants d’une commune sont suisses, 20% portugais et 10% turcs.
La probabilité pour qu’un immeuble de quatre appartements soit loué par deux locataires
suisses, un locataire portugais et un locataire turc est de 13
4!
P (2, 1, 1) = 0.72 0.21 0.11 = 0.1176 = 11.8% . (4.24)
2!1!1!

4 Lois continues
4.1 Loi uniforme U(a, b)
Une variable suivant une distribution uniforme sur [a, b], notée U(a, b), possède une den-
sité de probabilité f (x) constante à l’intérieur de l’intervalle [a, b], et nulle à l’extérieur.
Pour que la surface totale soit de 1, il faut fixer la constante à 1/(b−a) (figure 4.7 gauche).
La moyenne et la variance de X sont
a+b (b − a)2
E(X) = Var(X) = . (4.25)
2 12

Par exemple, la croyance que “Claude arrivera entre 20h00 et 20h30” pourrait être modé-
lisée comme X ∼ U (20, 20.5), où X = "heure d’arrivée de Claude" (figure 4.7 droite).
12. si m = 2, en posant n1 =∶ k, n2 = n − k, p1 =∶ p et p2 = 1 − p =∶ q, l’expression précédente devient
pk = P (k, n − k) = k! (n−k)!
n!
pk q n−k , qui n’est autre que la loi binomiale (4.19).
13. on fait ici l’hypothèse hasardeuse que les lieux de résidence sont également accessibles, sans égard à
la nationalité, et que la tendance à occuper préférentiellement des lieux occupés par des personnes de même
nationalité est négligeable, etc... Cela étant, (4.24) a le grande mérite de proposer une estimation quantifiée,
et d’ancrer la discussion vers une amélioration argumentée de cette estimation – plutôt que d’en rester à la
constatation désolée et impuissante de l’existence de biais dans (4.24) : certes, ces biais sont bien là, mais peut-
on les quantifier ? Peut-on améliorer, de façon raisonnée et critique, ce 11.8% ? Devrait-il être deux fois, dix fois
plus petit ? Pourquoi ?

70
4. Lois continues

1 (b − a )

2.0
0.30

densité de probabilité uniforme f(x)


densité de probabilité uniforme f(x)
0.25

1.5
0.20

1.0
0.15
0.10

0.5
0.05

a b

0.0
0.00

0 2 4 6 8 19.9 20.0 20.1 20.2 20.3 20.4 20.5

x X = heure d'arrivée de Claude

F IGURE 4.7 – Distributions uniformes générique U(a, b) (gauche) et particulière (droite)

4.2 Loi normale N (µ, σ 2 )


La loi normale ou loi de Laplace-Gauss est à bien des égards la distribution de référence,
en vertu du théorème central limite, présenté plus loin. Elle jouit de plus de quantités de
propriétés formelles remarquables, qui seront mentionnées ci et là au fur et à mesure.
Définition 12. Une variable (continue) X suit une loi normale de moyenne µ et de variance
σ 2 , noté X ∼ N (µ, σ 2 ), lorsque sa densité de probabilité f (x) est la courbe en cloche ou
gaussienne (figure 4.8 gauche) :

1 (x − µ)2
f (x) = √ exp(− ) (4.26)
2π σ 2 σ2

où π = 3.1416 et exp(x) = ex avec e = 2.71828.

L’équation (4.26) (que la majorité des quantitativistes n’utilise jamais sous cette forme
directe) dit que la distribution normale N (µ, σ 2 ) dépend de deux paramètres µ et σ 2 , qui
se trouvent être la moyenne et la variance 14 de X :

E(X) = µ Var(X) = σ 2 . (4.27)

La forme (4.26) entraı̂ne aussi que la densité f (x) ne s’annule jamais, mais tend très
rapidement (exponentiellement) vers zéro lorsque x diffère de la moyenne µ par plus
de quelques écarts-types σ. La (célèbre) courbe de cette densité a l’allure d’une cloche
symétrique centrée (et maximale) en µ, et possède la particularité que l’écart-type σ est
égal à la distance horizontale entre la moyenne µ et l’un des deux points d’inflexion 15 de
f (x) (figure 4.8 gauche).
La distribution des valeurs de X est centrée autour de la moyenne de la manière suivante
(figure 4.8 droite) : environ
● 50% des valeurs sont dans l’intervalle (µ − 32 σ, µ + 32 σ)
● 68% des valeurs sont dans l’intervalle (µ − σ, µ + σ)
● 95% des valeurs sont dans l’intervalle (µ − 2σ, µ + 2σ)
● 99,7% des valeurs sont dans l’intervalle (µ − 3σ, µ + 3σ).
La loi normale dépendant de deux paramètres (à savoir µ et σ 2 ), on pourrait imaginer que
les tables donnant sa fonction de répartition F (x) = P (X ≤ x) seraient à triple entrée (à
savoir x, µ, σ). En fait, il suffit de disposer de la table de la variable standardisée X s =
(X − µ)/σ, appelée ici variable normale centrée réduite. Par construction, cette dernière
est de moyenne nulle et d’écart-type unité. Par changement de variable dans (4.26), on
14. attention : une paramétrisation tout aussi répandue, aussi notée X ∼ N (µ, σ), indique la valeur de l’écart-
type σ plutôt que de la variance σ 2 .
15. i.e. le point x où f (x) passe de concave à convexe, i.e. tel que sa courbure s’annule (f ′′ (x) = 0).

71
4. Lois continues

densité de probabilité normale standard f(u)


0.4
0.495

0.4
µ=2 σ=1
0.683
σ=2
0.954
σ=3

densité de probabilité normale f(x)


0.997

0.3
0.3
σ=1

0.2
0.2

0.1
0.1

µ=0

0.0
0.0

-10 -5 0 5 10 -5 -4 -3 -2 -1 0 1 2 3 4 5

x u

F IGURE 4.8 – Gauche : trois densités normales N (µ, σ 2 ) de même moyenne et de variances dis-
tinctes ; la surface sous chaque courbe vaut 1. Droite : probabilités que X ∈ [µ − zσ, µ + zσ], pour
z = 2/3, z = 1, z = 2 et z = 3.
densité de probabilité normale standard f(u)
0.4

1.0
distribution cumulée normale standard Φ(u)
1−α

0.8
0.3

0.6
0.2

0.4
0.1

0.2

1−α α
0.0

0.0

u1−α u1−α
-5 -4 -3 -2 -1 0 1 2 3 4 5 -4 -2 0 2 4

u u

F IGURE 4.9 – (1−α)-ème quantile u1−α de la loi normale standard (gauche) et fonction de répartition
correspondante (4.28) (droite)

trouve que X s suit une loi N (0, 1), appelée loi normal standard. Pour cette dernière, on
utilise souvent la notation
Φ(u) ∶= P (X s ≤ u) (4.28)
(plutôt que F (x)) pour la fonction de répartition correspondante (figure 4.9 droite). La
possibilité de recourir exclusivement à la fonction Φ(u) découle de la propriété

X −µ x−µ x−µ x−µ


si X ∼ N (µ, σ 2 ), alors P (X ≤ x) = P ( ≤ ) = P (X s ≤ ) = Φ( ) (4.29)
σ σ σ σ
elle-même résultant de “ X ≤ x ⇔ X s ≤ x−µ
σ
”.
De même, uα désignera le α-ième quantile de la loi normal standard ; par exemple, u0.5 =
0, u0 = −∞, u0.63 = 0.33, etc... Par construction, Φ(uα ) = α. De même, Φ(u1−α ) = 1 − α.
De la symétrie de la distribution normale standard découlent les propriétés suivantes,
permettant de calculer n’importe quel quantile ou probabilité à partir des tables de la loi
normale, donnant les valeurs de Φ(u) pour u ≥ 0 seulement :
● P (X s ≤ −u) = Φ(−u) = 1 − Φ(u)
● P (u1 ≤ X s ≤ u2 ) = Φ(u2 ) − Φ(u1 )
● P (−u ≤ X s ≤ u) = 2Φ(u) − 1.
Exemple 19 (Calculs de base pour la loi normale).
Soit X une variable normale de moyenne µ = 5 et d’écart-type σ = 2.

72
5. Loi des grands nombres et théorème central limite

(a) On cherche la probabilité pour que X soit inférieur à 9.


La valeur de la variable centrée réduite correspondant à x = 9 est xs = 9−5
2
= 2, et
donc P (X < 9) = P (X s < 2) = Φ(2) = 0.9772.
(b) On cherche la probabilité pour que X soit supérieur ou égal à 8.36.
On a xs = 8.36−5
2
= 1.68, et donc P (X ≥ 8.36) = P (X s ≥ 1.68) = 1 − P (X s ≤ 1.68) =
1 − Φ(1.68) = 1 − 0.9532 = 0.0465.
(c) On cherche la probabilité pour que X soit compris entre 6 et 8.
Les valeurs standardisées sont xs1 = 6−5
2
= 0.5 et xs2 = 8−5
2
= 1.5, et donc P (6 ≤ X ≤
8) = P (0.5 ≤ X ≤ 1.5) = Φ(1.5) − Φ(0.5) = 0.09332 − 0.6915 = 0.2417.
s

(d) On cherche la probabilité pour que X dépasse 10, sachant qu’il vaut au moins 8.
Les valeurs standardisées sont xs1 = 10−5
2
= 2.5 et xs2 = 8−5
2
= 1.5, et donc, par Bayes

P (X > 10 et X ≥ 8) P (X > 10) 1 − Φ(2.5) 0.0062


P (X > 10∣X ≥ 8) = = = = = 0.093 .
P (X ≥ 8) P (X ≥ 8) 1 − Φ(1.5) 0.0668

Remarque : comme pour toutes les distributions continues régulières, il n’y a aucune
différence entre, disons, P (X ≥ 8) et P (X > 8) : la “différence” P (X = 8) vaut zéro.

4.3 Distribution de Dirac δµ (cas concentré continu)


Si, dans la distribution uniforme continue U(a, b) de la section 4.1, on fait tendre b → a,
alors il devient certain que X = a. La “densité de probabilité” correspondante, notée δa (x),
et appelée fonction delta de Dirac, se comporte de façon singulière comme


⎪∞ si x = a
δa (x) = ⎨ et ∫ δa (x) g(x) dx = g(a)

⎪0 sinon

R

où g(x) représente n’importe quelle fonction suffisamment régulière (“smooth enough”),
positive ou négative. En particulier, ∫R δa (x) dx = 1.
Naturellement, on a que µ = E(X) = a et σ 2 = Var(X) = 0 : la distribution concentrée de
Dirac est entièrement déterministe, sans aucun caractère aléatoire. La valeur de X ∼ δa
vaut forcément a. Ici, P (X = a) = 1 et P (X ≠ a) = 0.
La même limite s’obtient depuis d’autres distributions continues, telle la loi normale dans
la limite σ → 0 (figure 4.8 gauche), au sens où, en tant que distributions,

lim N (µ, σ 2 ) = δµ .
σ→0

5 Loi des grands nombres et théorème central limite


5.1 Somme et moyenne de variables i.i.d.
Considérons n variables aléatoires X1 , . . . , Xj , . . . , Xn de même distribution (quelconque)
et indépendantes. Ces variables sont dites “i.i.d.”, pour “indépendantes et identiquement
distribuées”.
En particulier, lorsque ces variables sont numériques, elles possèdent la même moyenne
E(Xj ) = µ et la même variance Var(Xj ) = σ 2 . On suppose ici que ces deux quantités
existent ; ce qui, aussi étonnant que cela paraisse, peut ne pas être le cas (section 5.8).
Considérons maintenant deux nouvelles variables construites à partir de X1 , . . . , Xn , à
savoir les variables “somme” Sn et “moyenne” X̄n définies comme
n
1 n
Sn ∶= ∑ Xj X̄n ∶= ∑ Xj . (4.30)
j=1 n j=1

73
5. Loi des grands nombres et théorème central limite

Que valent leur moyenne et leur variance ? On peut facilement généraliser à n variables le
résultat suivant, facile à démontrer pour deux variables X et Y quelconques :

E(X ± Y ) = E(X) ± E(Y ) Var(X ± Y ) = Var(X) + Var(Y ) ± 2 Cov(X, Y ) . (4.31)

La première égalité est assez évidente ; quant à la seconde, elle indique que la covariance
intervient comme facteur de correction dans le calcul de la variance d’une somme (ou
d’une différence).
Lorsque les variables X et Y sont indépendantes, on a Cov(X, Y ) = 0, et, sous cette condi-
tion seulement, l’identité “variance d’une somme = somme des variances” est valide.
En généralisant (4.31) au cas i.i.d., on démontre facilement que

σ2
E(Sn ) = n µ E(X̄n ) = µ Var(Sn ) = n σ 2 Var(X̄n ) = . (4.32)
n

5.2 La précision d’une moyenne est supérieure à celle de ses composantes individuelles
La dernière identité de (4.32) dit que la variance de la moyenne est n fois plus petite
que la variance σ 2 de chaque observation. Ou, de √façon équivalente, que l’écart-type de
la moyenne (standard error of mean ou SEM) est n fois plus petite que l’écart-type de
chaque observation. Par exemple :
● si, pour un thermomètre donné, la précision d’une seule mesure de la température
d’une pièce (dont la température est supposée constante) est disons de 1○ C, le fait
de mesurer n = 100 fois cette même température √ et de prendre la moyenne des
mesures permet d’améliorer la précision à 1○ C/ 100 = 0.1○ C.
● si, dans un sondage d’opinion portant sur n = 100 personnes, la précision de l’es-
timation d’une proportion (telle que la proportion de personnes favorables à un
certain changement législatif au niveau national) est de 10%, alors l’extension du
√ à n = 1000 personnes
sondage √ devrait permettre de réduire cette marge d’erreur à
10%/ 1000/100 = 10%/ 10 = 3.2%.
En d’autres termes, (4.32) montre que l’incertitude (mesurée√par l’écart-type) d’une moy-
enne diminue avec la taille n de l’échantillon, mais comme 1/ n seulement : il faut quatre
fois plus d’observations pour être deux fois plus précis : l’augmentation de la précision est
possible, mais se paye au prix fort, littéralement, comme le savent bien les instituts de
sondage.

5.3 Macro-description déterministe et micro-description aléatoire sont compatibles


Une autre façon de le dire : même si chaque valeur individuelle Xj peut être très difficile à
prédire (“micro-description aléatoire”), la moyenne de ces n valeurs est à peu près connue
d’avance, si n est grand (“macro-description déterministe”) :
● la personne achetant un billet de loterie type “Euromillions” peut difficilement
prédire à l’avance ses gains (c’est tout le charme de l’achat) ; par contre, la société
émettant les billets peut assez précisément prédire la distribution du nombre de
billets contenant tant de numéros gagnants.
● en 2018, une personne meurt sur les routes suisses toutes les 38 heures en moyenne.
Le taux de mortalité annuelle correspondant est relativement stable (légèrement à
la baisse) et peut être prédit assez précisément d’une année à l’autre – au contraire
de l’identité des futures victimes, rares mais constituées potentiellement de n’im-
porte quel usager de la route.
● de même, impossible (pour le moment) de savoir qui sera pris dans un bouchon
de telle durée à tel moment lors d’un prochain départ en vacances, même si les
caractéristiques du bouchon (longueur, retard, durée) peuvent être prédites par
avance.

74
5. Loi des grands nombres et théorème central limite

1.0

3.5

2
0.8

3.0

0
0.6

2.5

-2
Xn

Xn

Xn
0.4

2.0

-4
0.2

1.5

-6
0.0

0 100 200 300 400 500 0 100 200 300 400 500 0 100 200 300 400 500

n n n

F IGURE 4.10 – Convergence (on non) de la moyenne empirique X̄n vers la moyenne théorique
µ = E(X). Chaque figure décrit trois simulations. Gauche : loi de Bernoulli X ∼ B(1, p) avec p = 0.4.
Milieu : loi de normale X ∼ N (µ, σ 2 ) avec µ = 0.4 et σ = 1. Droite : loi de Cauchy X ∼ t[1], pour
laquelle σ 2 = ∞, ce qui ruine la loi des grands nombres, valide pour les deux cas précédents : le
graphique montre que la plupart des valeurs générées par t[1] sont “modérées”, conduisant à un
rapprochement de X̄n vers 0, mais que quelques rares valeurs “extrêmes” jaillissent de temps en
temps, faisant “exploser” la valeur de X̄n , laquelle ne converge jamais.

Dans ces exemples, autant les caractéristiques individuelles sont pratiquement impossibles
à prédire, autant leur incidence globale moyenne est pour ainsi dire déterminée à l’avance.

5.4 Loi des grands nombres : la moyenne empirique tend vers la moyenne théorique.
Dans la limite n → ∞, on a Var(X̄n ) → 0, ce qui implique que la distribution de X̄n devient
concentrée sur une seule valeur, laquelle ne peut être que µ au vu de E(X̄n ) = µ.
Ainsi, pour n → ∞, la moyenne empirique X̄n converge nécessairement vers la moyenne
théorique µ = E(X).
Cet énoncé constitue la loi des grands nombres. Il justifie, par exemple, le fait d’estimer
la valeur de la probabilité théorique p qu’une pièce de monnaie produise “pile” par la
proportion empirique fn de “pile” en n lancers, lorsque n devient grand.
Plus généralement, on peut concevoir toute distribution théorique (ou Modèle, ou Popu-
lation de valeurs), inobservable, comme la limite de la distribution empirique lorsque la
taille n de l’échantillon tend vers l’infini (figure 4.11).

5.5 Simulations et tirages


La loi des grands nombres, conséquence mathématique de la dernière identité de (4.32),
peut être illustrée au moyen de simulations numériques, impliquant la génération de va-
leurs pseudo-aléatoires 16 distribuées selon une loi D donnée. Dans la figure 4.10, les n
observations x entrant dans le calcul de la moyenne x̄n ont été générées avec le logiciel
R au moyen des commandes
● x=rbinom(n=n, size=1, prob=0.4) Figure de gauche : n valeurs distribuées
chacune selon B(1, p) avec p = 0.4
● x=rnorm(n=n,mean=2,sd=1) Figure du milieu : n valeurs distribuées chacune
selon N (µ, σ 2 ) avec µ = 0.4 et σ = 1
● x=rt(n=n,df=1) Figure de droite : n valeurs distribuées chacune selon une loi
du t à 1 degré de liberté, dite aussi distribution de Cauchy (sections 5.7 et 5.8).
16. “pseudo-aléatoires” plutôt qu’aléatoires, dans la mesure où l’algorithme générant ces valeurs, est, quelle
que soit sa sophistication, forcément déterministe – à moins qu’un signal physique réellement aléatoire (type
désintégration radioactive) ne soit utilisé

75
5. Loi des grands nombres et théorème central limite

15000
35000
30000

6000
25000

10000
20000
effectif

effectif

effectif
4000
15000

5000
10000

2000
5000
0

0
-10 -5 0 5 -10 -5 0 5 -10 -5 0 5

x x x

F IGURE 4.11 – Histogrammes résultant du tirage de n = 400′ 000 valeurs distribuées selon la dis-
tribution de probabilité continue f (x) de la figure 4.1, pour des largeurs de classe e décroissantes.
Dans la limite n → ∞ suivie de e → 0, les effectifs relatifs de l’histogramme tendent vers f (x).

De même, les n = 400′ 000 valeurs de la figure 4.11 ont été tirées selon la densité de
mélange (4.15) f (x) = π1 f1 (x) + π2 f2 (x) + π3 f3 (x), avec π1 = 0.5, π2 = π3 = 0.25, et où
les trois densités fj (x) sont respectivement celles de t[3], N (3, 1) et N (−4, 1) (c’est ainsi
que f (x) a été construite en figure 4.2).
Pour la simulation de n valeurs d’un processus discret gouverné par une distribution D
déterminée par les valeurs (p1 , . . . , pm , x1 , . . . , xm ), disons p = (0.4, 0.3, 0.2, 0.1) et x=(a,
b, c, d), on peut utiliser
p=c(0.4,0.3,0.2,0.1)
x=c("a","b","c","d")
sample(x=x, size=30, replace = TRUE, prob = p)
qui génère par exemple la séquence de longueur n = 30
b a a c a a a d c a b b b a a c b b a b c a a a b c c b a d
On parle ici de tirage avec remise : le processus est équivalent au tirage de n = 30 billes
d’urne contenant des billes étiquettées a, b, c et d, en proportions p. Chaque bille tirée est
replacée dans l’urne, ou, de façon équivalente, l’urne contient un nombre infini de billes :
les tirages sont indépendants. Par contraste, dans le tirage sans remise, les billes tirées ne
sont pas remplacées, ce qui fait qu’au plus m valeurs peuvent être tirées, et que les tirages
ne sont plus indépendants. Par exemple, la simulation de 5 tirages sans remise de 3 billes
chaque fois peut être effectuée en répétant 5 fois
sample(x=x, size=3, replace = FALSE, prob = p)
qui génère par exemple les 5 séquences
a b c; b a c; d b a; a b c; b c a .

5.6 Le théorème central limite : omniprésence de la loi normale


Considérons à nouveau la variable “moyenne” X̄n ∶= n1 ∑nj=1 Xj de l’équation (4.30), où les
Xj sont i.i.d, c’est-à-dire indépendants entre eux et suivant une même distribution quel-
conque. On a vu que sa moyenne et sa variance, qu’on suppose finies, sont alors donnés
par (4.32).
Comme la moyenne et la variance ne suffisent généralement pas à déterminer l’entièreté
d’une distribution (il existe une infinité de distributions distinctes possédant la même
moyenne et la même variance), on pourrait s’attendre à ce que la distribution de X̄n
dépende fortement de celle de chacun des Xj , desquels il est composé. C’est vrai, pour n
petit, mais faux, pour n grand : dans ce dernier cas, la distribution de X̄n devient toujours
2
normale ! Comme E(X̄n ) = µ et Var(X̄n ) = σ 2 /n, la loi normale en question est N (µ, σn ).

76
5. Loi des grands nombres et théorème central limite

0.30
n=1 n=2 n=3

0.30
0.30

0.25
0.25
0.25
effectifs normalisés

effectifs normalisés

effectifs normalisés
0.20
0.20
0.20

0.15
0.15
0.15

0.10
0.10
0.10

0.05
0.05
0.05
0.00

0.00

0.00
-2 0 2 4 6 -2 0 2 4 6 -2 0 2 4 6

xn xn xn

0.6
n=6 n=10 n=20
0.4

0.5
0.3
effectifs normalisés

effectifs normalisés

effectifs normalisés
0.3

0.4
0.2

0.3
0.2

0.2
0.1

0.1

0.1
0.0

0.0

0.0
-4 -2 0 2 4 -4 -2 0 2 4 -3 -2 -1 0 1 2 3

xn xn xn

F IGURE 4.12 – théorème central limite : distributions de N = 3 ⋅ 106 valeurs moyennes xn =


1 n
n ∑i=1 xi , où chaque xi est tiré indépendamment selon la distribution D (4.34), de moyenne µ = 0
et σ = 26/3. Pour n grand, la distribution est très bien approximée par la loi normale N (µ, σ 2 /n).
2

L’échelle verticale des effectifs normalisés donne, pour chaque classe j de l’histogramme, l’effectif nj
divisé par N e, où e est la largeur constante de classe, de sorte que la surface totale grisée soit égale
à 1, comme pour une densité de probabilité.

Plus précisément,

σ2
pour n → ∞, X̄n ∼ N (µ, ) , où µ = E(X) et σ 2 = Var(X) . (4.33)
n
Dans la pratique, un échantillon de taille n ≥ 20 ou même n ≥ 10 (figure 4.12) peut être
déjà suffisamment grand pour que (4.33) soit approximativement valide avec une bonne
précision. Le résultat (4.33), appelé théorème central limite, est étonnant : toute moyenne
d’un nombre suffisant de variables i.i.d. de variance finie suit une loi normale ou de Laplace-
Gauss, d’où son omniprésence en modélisation.
Exemple 20 (Mélange de deux lois uniformes).
On considère une distribution continue X ∼ D générée par le mélange, en proportions π1 =
2/3, respectivement π2 = 1/3, de deux lois uniformes U[−3, −1], respectivement U[2, 6].
Ainsi, une valeur x tirée de D est, avec probabilité 2/3, générée selon U[−3, −1], et, avec
probabilité 1/3, générée selon U[2, 6] : c’est une distribution de mélange (cf. section 2.5),
ce que l’on peut noter symboliquement par
2 1
D= U[−3, −1] + U[2, 6] . (4.34)
3 3
La moyenne théorique de D vaut µ = 23 ⋅ (−2) + 31 ⋅ 4 = 0. Quant à sa variance théorique 17 ,
elle est de σ 2 = 26/3 = 8.667. Cette distribution est bien sûr loin d’être normale : le premier
histogramme de la figure 4.12 est constitué de N = 3 ⋅ 106 valeurs tirées de D.
17. on la détermine facilement par σ 2 = σB
2 + σ 2 , où la variance intergroupe (i.e. entre les moyennes des
W
deux composantes de D) est σB 2 = 2 ⋅ (−2 − 0)2 + 1 ⋅ (4 − 0)2 = 24 , et la variance intragroupe est σ 2 =
3 3 3 W
2 2
2 (−1−(−3))
3 12
+ 1 (6−2)
3 12
= 2
3

77
5. Loi des grands nombres et théorème central limite

Si l’on considère toutefois le tirage de N valeurs moyennes xn = n1 ∑ni=1 xi , où chaque xi est
tiré indépendamment selon D, on constate sur la figure 4.12 que, pour n croissant, ces va-
leurs moyennes xn sont distribuées d’une manière qui est de mieux en mieux approximée
par la loi normale N (µ, σ 2 /n) : c’est précisément ce que dit le théorème central limite.
Visuellement, l’approximation est déjà excellente pour n = 20, voire même en dessous.

Exemple 21 (Approximation de la loi binomiale ; correction de continuité).


Quelle est la probabilité P d’obtenir 65 fois pile ou plus en 100 lancers d’une pièce
équilibrée ? Par (4.19), cette valeur est (pour p = 0.5) :
100
1 100
P= ∑ ( ) (4.35)
2100 k=65 k

dont l’évaluation par calculette est pour le moins pénible... Une alternative bienvenue à
cette approche directe est d’utiliser le théorème central limite, en définissant d’abord la
variable indicatrice


⎪1 si pile au j-ème lancer
Xj = ⎨

⎪0 sinon.

Par construction, X̄100 est la proportion de pile en 100 lancers. Il s’agit alors d’évaluer
P (X̄100 ≥ 0.65). Comme X̄100 suit une loi normale par (4.33), il s’agit de la standardiser.
La moyenne µ de Xj (et de X̄100 ) est de 0.5 (pièce équilibrée). La variance
√ σ 2 de Xj est de
0.25, donc Var(X̄100 ) = 0.25/100 = 1/400, et l’écart type de X̄100 vaut 1/400 = 1/20 = 0.05.
Ainsi
X̄100 − 0.5 0.65 − 0.5
P = P (X̄100 ≥ 0.65) = P ( ≥ ) = P (X̄100
s
≥ 3) = 1 − Φ(3) = 0.00135
0.05 0.05
(4.36)
que l’on peut comparer avec la valeur exacte 18 (4.35) qui est P = 0.00176.
L’approximation fournit le bon ordre de magnitude, à défaut d’être excellente. En fait, on
a ici approximé la distribution d’une variable discrète (le nombre de pile en n lancers)
par une variable continue (une moyenne suivant une loi normale). Or, dans le problème
original discret, P (X̄100 ≥ 0.65) = P (X̄100 > 0.64), ce qui fait que le seuil 0.64 apparaı̂t
tout aussi légitime que le seuil 0.65 utilisé dans (4.36).
Un (bon) compromis entre ces deux candidats est de prendre leur valeur moyenne, à savoir
le seuil 0.645 : cette façon de faire est connue sous le nom de correction de continuité. Elle
aboutit ici à l’approximation normale

X̄100 − 0.5 0.645 − 0.5


P = P (X̄100 ≥ 0.645) = P ( ≥ ) = P (X̄100
s
≥ 2.9) = 1 − Φ(2.9) = 0.00187
0.05 0.05
qui est plus proche de la valeur exacte 0.00176.

5.7 Lois dérivées de la loi normale : lois du t, du χ2 , du F (*)


La plupart des distributions rencontrées dans les tests statistiques de base sont directement
issues de la loi normale, du moins lorsque la taille n de l’échantillon est suffisamment
grande, théorème central limite oblige. Les tables statistiques, ou les valeurs fournies par
les logiciels, permettent à l’utilisateur d’utiliser ces distributions sans qu’il soit nécessaire
d’en maı̂triser leur origine ou leur propriétés.
Voilà pour la théorie. Dans la pratique, ce même utilisateur rencontrera tôt ou tard des
situations problématiques, et sera assailli par des doutes ; une certaine compréhension de
la nature des distributions statistiques classiques se révélera alors précieuse pour clarifier
ses idées et renforcer son jugement autonome.
18. obtenue avec R comme 1-pbinom(q=64,size=100,prob=0.5), ou bien de façon équivalente comme
pbinom(q=64,size=100,prob=0.5,lower.tail=FALSE)

78
5. Loi des grands nombres et théorème central limite

0.5

2.0
df1=1 df2=1
f(x) = densité de probabilité du χ2[df] df=1 df=1

f(x) = densité de probabilité du F[df1,df2]


0.4
f(x) = densité de probabilité du t[df]
df1=3 df2=2
df=2 df=2 df1=10 df2=2
df=3 df=3 df1=2 df2=10
0.4

df1=100 df2=3
df=6 df=100

1.5
0.3
df=10
0.3

1.0
0.2
0.2

0.5
0.1
0.1
0.0

0.0

0.0
0 5 10 15 20 25 -4 -2 0 2 4 0 1 2 3 4 5

x x x

F IGURE 4.13 – Gauche : distribution du chi2 χ2 [df] pour différents degrés de liberté df.

(1) Soient X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ),... Xq ∼ N (µq , σq2 ) un ensemble de q
variables gaussiennes indépendantes, de moyennes et de variances quelconques.
Alors la variable somme X ∶= X1 + X2 + ... + Xq suit également une loi normale
N (µ, σ 2 ), de moyenne µ = µ1 + µ2 + ... + µq et de variance σ 2 = σ12 + σ22 + ... + σq2 .

(2) Soient X1 ∼ N (0, 1), X2 ∼ N (0, 1),... Xq ∼ N (0, 1) un ensemble de p variables


gaussiennes standardisées indépendantes. Alors la distribution de la somme des
carrés Y ∶= X12 + X22 + ... + Xq2 suit une loi appelée loi du chi-carré (ou chi-deux) à q
degrés de liberté, et notée χ2 [q].
Si Y ∼ χ2 [q], alors E(Y ) = q et Var(Y ) = 2q (figure 4.13 gauche).

(3) Soient √X ∼ N (0, 1) et Y ∼ χ2 [q] deux variables indépendantes. Alors la variable


T ∶= X/ Y /q suit une loi appelée loi du t (ou loi de Student) à q degrés de liberté,
et notée t[q] (figure 4.13 milieu).
Si T ∼ t[q], alors E(T ) = 0 et Var(T ) = q/(q − 2), pour q ≥ 3. Pour q = 1 ou q = 2,
la variance est infinie. La loi de Student pour q = 1 est appelée loi de Cauchy. Pour
q grand, la distribution de Student t[q] converge vers la distribution normale stan-
dard N (0, 1).

(4) Soient Y1 ∼ χ2 [q1 ] et Y2 ∼ χ2 [q2 ] deux variables indépendantes. Alors la variable


Z ∶= (Y1 /q1 )/(Y2 /q2 ) suit une loi appelée loi du F (ou loi de Fisher) à q1 et q2 .
degrés de liberté, et notée F [q1 , q2 ] (figure 4.13 droite).
Si Z ∼ F [q1 , q2 ], alors E(Z) = q1 /(q2 −2)√ (l’expression pour Var(Z) est compliquée).
Aussi, le carré de la variable T = X/ Y /q ∼ t[q] définie en (3) est T 2 = X 2 /(Y /q),
où X 2 ∼ χ2 [1]. Ainsi, T 2 ∼ F [1, q], i.e. t2 [q] = F [1, q].
En résumé, les distributions du χ2 [q] et du t[q] constituent une famille de distributions
continues indicées par un entier q = 1, 2, 3, . . ., appelé degré de liberté et souvent noté
df=q (pour “degree of freedom”). La distribution continue du F [q1 , q2 ] est une famille
doublement indicée par les entiers q1 , q2 ≥ 1, souvent notés df1 et df2 .
A l’instar de la distribution normale standard, la distribution du t[df] décrit des valeurs
aussi bien négatives que positives. Elle est symétrique autour de zéro, et tend vers la dis-
tribution normale standard lorsque df1 → ∞. Par contraste, les distributions continues
χ2 [df] et F [df1 , df2 ] ne décrivent que des valeurs non-négatives (figure 4.13).

5.8 Variance infinie : le hasard ”sauvage” (*)


La loi des grands nombres et le théorème central limite, qui sont au coeur de l’applica-
tion des statistiques classiques à toutes les disciplines de sciences naturelles, humaines
et sociales, repose sur une condition simple mais cruciale, qui est l’existence d’une va-
riance σ 2 = Var(Xj ) finie pour chaque variable individuelle Xj entrant dans la moyenne

79
5. Loi des grands nombres et théorème central limite

X̄n = 1
n
n
∑j=1 Xj .
Toute densité de probabilité f (x) doit tendre vers zéro lorsque ∣x∣ → ∞ (sans quoi l’intégrale
sous la densité serait infinie), mais il est tout-à-fait possible, mathématiquement parlant,
que cette décroissance ne soit pas suffisamment rapide pour assurer la finitude de Var(X)
dans (4.12). Tel est par exemple le cas de

1 exp(− 1 )
f (x) = (Loi de Cauchy) et f (x) = √ x3 (pour x ≥ 0 ; Loi de Lévy)
π(1 + x2 ) π x2
(4.37)
dont les variances sont infinies (figure 4.13 milieu pour df=1 ; et figure 4.14 gauche).
Pour de telles distributions, la loi des grands nombres et le théorème central limite sont
invalides, ainsi que le démontre la figure 4.10 droite, où les valeurs Xj sont tirées selon
une loi de Cauchy (qui est la distribution du t à 1 degré de liberté) : le caractère infini de
la variance fait que, lors de tirages successifs de valeurs issues de telles distributions, des
valeurs extrêmement élevés peuvent soudainement apparaı̂tre dans une série de valeurs
qui s’étaient auparavant comportées de façon tout à fait “modérée”.
L’observateur ne peut être que frappé par le caractère imprédictible et violent de l’ap-
parition de ces valeurs rares mais extrêmes : Mandelbrot 19 parle à cet égard de hasard
sauvage, par contraste avec le “hasard bénin” ou “sage” qui se laisse domestiquer (loi des
grands nombres, théorème central limite) dans le cas des variances finies. Taleb 20 , repre-
nant Mandelbrot, qualifie de cygnes noirs l’apparition soudaine de ces valeurs extrêmes,
pour en souligner le caractère imprévisible et souvent lourd de conséquences (catastrophes
naturelles, risques financiers), et notre difficulté à les intégrer dans notre conception du
monde.
On a recours aux distributions de variance infinie dans la modélisation
● d’événements naturels extrêmes tels crues subites, tremblements de terre
● de fluctuations boursières extrêmes, de crash financiers
● d’extrême inégalité dans la répartition des revenus, comme attestée dans la “loi de
Pareto” gouvernant les revenus très élevés
et de bien d’autres phénomènes encore, en particulier les phénomènes dits self-similaires,
pour lesquels le “tout” est identique (ou en relation simple) à chacune des parties qui le
constituent ; les objects fractals, étudiés et popularisés par Mandelbrot (op.cit.) en sont
l’incarnation emblématique (figure 4.14).
Un objet self-similaire n’a pour ainsi dire pas d’échelle caractéristique, et on ne sera pas
surpris que l’écart-type, qui constitue la mesure naturelle de l’extension ou unité naturelle
d’une variable aléatoire X, soit ici infini. Les distributions associées se comportent typi-
quement, pour les grandes valeurs x de X, comme des distributions du puissance (power
laws) décroissant comme x−a (avec a > 0), pouvant modéliser la distribution des grands
revenus (loi de Pareto), du nombre de “followers” dans les réseaux sociaux, du nombre
de délits reprochés à un accusé, de la sévérité et violence des conflits armés, du prix des
oeuvres d’art, de la taille des tourbillons de sable dans l’air sec et instable, etc.
Pour illustrer la propriété de self-similarité et d’invariance d’échelle, on peut considérer n
variables i.i.d. centrées Xj , qui sont des répliques indépendantes√ de X ∼ N (0, σ 2 ). Leur
moyenne X̄n = n ∑j Xj suit alors une loi N (0, σ /n), et donc nX̄n ∼ N (0, σ ), qui est la
1 2 2

même distribution que celle de X, ce que l’on note par n 2 X̄n ∼ X ou X̄n ∼ n− 2 X.
1 1

Si l’on était parti de la loi de Cauchy X ∼ t[1], on pourrait alors montrer que la distribution
de la moyenne X̄n est la même que celle de chacune des variables qui la constituent, i.e.
que X̄n ∼ X : le “tout” est alors aussi imprédictible que chacune de ses parties !
Pour générer des valeurs suivant une distribution de Cauchy, on peut générer une distribu-
19. Benoı̂t Mandelbrot (1975) Les objets fractals : forme, hasard et dimension, Flammarion
20. Nassim Nicholas Taleb (2007) The Black Swan : the impact of the highly improbable, Penguin

80
6. Estimations ponctuelles et intervalles de confiance

f(x) = densité de probabilité de Lévy


0.20
0.15
0.10
0.05
0.00

0 5 10 15 20 25

F IGURE 4.14 – Gauche : distribution standard de Lévy (4.37). Milieu et droite : objects fractals :
tapis de Sierpiński et chou romanesco.

tion uniforme continue dans [−π/2, π/2], puis lui appliquer la transformation “tangente”
(en radians) 21 :

si Y ∼ U(− π2 , − π2 ) alors X ∶= tan(Y ) ∼ t[1] .

Alternativement, on peut générer deux variables indépendantes normales standard, dont


le rapport suit également une loi de Cauchy :

si Y ∼ N (0, 1) et Z ∼ N (0, 1) alors X ∶= Y


Z
∼ t[1]

ce qui montre incidemment que l’inverse d’une variable de Cauchy est aussi une variable
de Cauchy :
si Y ∼ t[1] alors X ∶= Y1 ∼ t[1] .

Enfin, en considérant une loi de Lévy, on aurait que X̄n ∼ nX : le tout est davantage
imprédictible que chacune des parties qui le constituent ! C’est dur à imaginer, l’intuition
nous fait ici défaut...
Ces trois distributions sont des membres de la famille dite α-stable, pour laquelle

X̄n ∼ n α −1 X
1
α ∈ (0, 2]

avec α = 21 pour la distribution de Lévy, α = 1 pour la distribution de Cauchy, et α = 2 pour


la distribution normale (la seule pour laquelle la variance est finie), famille à laquelle
l’amateur curieux et intéressé pourra utilement se référer ,.

6 Estimations ponctuelles et intervalles de confiance


On a jusqu’ici joué au mathématicien probabiliste, qui étudiait la distribution des valeurs
possibles x d’une observation, ou d’une moyenne d’observations x̄n , selon la nature du
modèle (i.e. de la distribution de probabilité), supposé connu.
Mais, dans la vraie vie des scientifiques, seules les observations sont connues, et le modèle
est inconnu, naturellement. Tout l’enjeu consiste à inférer le modèle, i.e. de caractériser
entièrement ou partiellement ce dernier, à partir des observations. C’est le sujet de l’infé-
rence statistique : (très) vaste programme, qui va nous occuper un moment (chapitres ??
et suivants), et qu’on peut initier par la question “que peut-on dire des valeurs possibles
de la moyenne théorique µ à partir de la moyenne empirique x̄n ?
21. Carles M. Cuadras (2002) Geometrical understanding of the Cauchy distribution. Qüestiió : quaderns d’es-
tadı́stica i investigació operativa 26, pp. 283–287

81
6. Estimations ponctuelles et intervalles de confiance

6.1 Estimation ponctuelle d’une moyenne, d’une proportion, d’une variance


On peut estimer un paramètre théorique θ intervenant dans une loi de probabilité par une
seule valeur dépendant de l’échantillon x = {x1 , . . . , xn }, notée θ̂(x). On dit que θ̂(x) est
un estimateur ponctuel de θ.
Un principe (ce n’est pas le seul possible) guidant la détermination de θ̂(x) est d’exiger
que l’estimation soit sans biais (unbiased), i.e. que, en moyenne, elle fournisse la valeur
correcte du paramètre théorique, i.e. que

E(θ̂(x)) = θ estimateur sans biais

Tel est le cas de la moyenne empirique µ̂(x) ∶= x̄n pour l’estimateur de la moyenne
théorique µ. En effet,
1 n 1 n
E(µ̂(x)) = ∑ E(Xi ) = ∑ µ = µ
n i=1 n i=1
comme il se doit. Pour les même raisons, la proportion empirique p̂j (x) ∶= fj d’une
catégorie j est un estimateur sans biais de la proportion théorique correspondante pj .
Par contre, la variance empirique s2 = var(x) n’est pas un estimateur sans biais de la
variance théorique σ 2 : on peut prouver que
n−1 2
E(s2 ) = E(var(x)) = σ
n
ce qui démontre que var(x) sous-estime systématiquement la valeur de la “vraie variance”
σ 2 , et ce d’autant plus que n est petit : la sous-estimation est de 10% pour n = 10, de
1% pour n = 100, etc. Pour cette raison, on introduit une version modifiée de la variance
̂
empirique dite sans biais (unbiased sample variance), notée ŝ2 ou var(x) et définie comme

1 n n 2 n
̂
ŝ2 = var(x) ∶= ∑(xi − x̄) =
2
s = var(x) telle que E(ŝ2 ) = σ 2 (4.38)
n − 1 i=1 n−1 n−1

comme il se doit 22 .
Comme exemple emblématique, on a toujours, pour n = 1, que s2 = 0, qui ne saurait bien
sûr constituer une estimation raisonnable de la variance théorique σ 2 , puisque l’on ne
dispose que d’une seule observation. Par contraste, (4.38) donne ŝ2 = 0/0 = indéterminé,
qui est la seule estimation de la variance théorique qui fasse sens pour n = 1.

6.2 Principe de l’intervalle de confiance


On sait, par la loi des grands nombres, que la moyenne théorique µ est proche de la
moyenne empirique x̄n si n est assez grand. On aimerait, typiquement, déterminer un
intervalle de confiance (confidence interval) de la forme [x̄n − ε(α), x̄n + ε(α)] tel que µ s’y
trouve avec une grande probabilité 1 − α, où la valeur α est petite (typiquement α = 5%
ou α = 1%), i.e. tel que

P (µ ∈ [x̄n − ε(α), x̄n + ε(α)]) = 1 − α (4.39)

Plus petit est α, plus grande devra être la demi-largeur ε(α) de l’intervalle. On s’attend à
ce que
● limα→0 ε(α) = ∞, i.e. on est certain de trouver la valeur de µ quelque part dans R :
un sage constat, qui n’apporte toutefois guère d’information sur µ.
● limα→1 ε(α) = 0, i.e. la probabilité que µ = x̄n exactement est nulle. Dans cette limite,
l’intervalle de confiance se réduit à l’estimation ponctuelle µ̂ = x̄n de la section 6.1.
̂
22. c’est cette variance sans biais var(x) que nombre de logiciels tels R ou SPSS indiquent comme “variance”
par défaut

82
6. Estimations ponctuelles et intervalles de confiance

densité de probabilité normale standard f(u)


0.4
0.3
0.2
0.1
α 1−α α
2 2

0.0
uα2 = − u1−α2 u1−α2
-5 -4 -3 -2 -1 0 1 2 3 4 5

F IGURE 4.15 – Pour une distribution normale standard, l’intervalle [−u1− α2 , u1− α2 ] délimite une
zone de probabilité 1 − α

6.3 Intervalle de confiance pour la moyenne (variance connue)


On suppose que la moyenne théorique µ est inconnue, mais que l’on connaı̂t la variance
théorique σ 2 , qui est finie, et la moyenne empirique x̄n . Alors, si la taille de l’échantillon n
est suffisamment grande, on peut appliquer le théorème central limite (4.33) qui dit que
la moyenne standardisée suit une loi normale standard :

x̄n − µ √
x̄sn ∶= n ∼ N (0, 1)
σ
et ainsi (figure 4.15)

P (−u1− α2 ≤ x̄sn ≤ u1− α2 ) = Φ(u1− α2 ) − Φ(−u1− α2 ) = (1− α2 )− α2 = 1 − α

que l’on peut réécrire comme


σ
P (µ − ε(α) ≤ x̄n ≤ µ + ε(α)) = 1 − α avec ε(α) = √ u1− α2 . (4.40)
n

Mais l’énoncé (4.40), qui fournit un intervalle de confiance pour la moyenne empirique
centré sur la moyenne théorique, est exactement équivalent à

P (x̄n − ε(α) ≤ µ ≤ x̄n + ε(α)) = 1 − α avec ε(α) = √σ u1− α2 (4.41)


n

qui donne l’intervalle de confiance pour la moyenne théorique, centré sur la moyenne
empirique, lequel est précisément de la forme (4.39) recherchée.

6.4 Intervalle de confiance pour la moyenne (variance inconnue)


Dans la section précédente, la supposition que la variance théorique σ 2 était connue est
très artificielle : on n’a en général accès qu’à la variance empirique s2 = var(x). Dans ce
cas, l’intervalle de confiance devient

P (x̄n − ε(α) ≤ µ ≤ x̄n + ε(α)) = 1 − α avec ε(α) = √s t α [n−1] = √ŝ t1− α [n−1] (4.42)
n−1 1− 2 n 2

où t1− α2 [n−1] est le (1− α2 )-ème quantile de la loi du t à n − 1 degrés de liberté. L’identité
(4.42) est exacte, même pour n petit, si la distribution des observations individuelles est
elle-même normale (ce qui est l’exception plutôt que la règle) ; elle devient toutefois exacte
dans le cas général pour n grand, en vertu du théorème central limite.
La plus grande dispersion de la distribution du t[n−1] par rapport à la distribution normale
standard, d’autant plus marquée que n est petit, fait que les intervalles de confiance (4.42)

83
6. Estimations ponctuelles et intervalles de confiance

sont plus grands que ceux basés sur (4.41) (lorsque σ 2 et ŝ2 sont identiques) : par exemple,
pour n = 10 et n = 100, et pour α = 5% (intervalles de confiance à 95%), on a

t0.975 [9] = 2.26 t0.975 [99] = 1.98 u0.975 = 1.96 .

De même, pour α = 1% (intervalles de confiance à 99%), on a

t0.995 [9] = 3.25 t0.995 [99] = 2.63 u0.995 = 2.58 .

Exemple 22 (intervalle de confiance pour une taille).


La taille moyenne de 10 hommes adultes, représentatifs d’un certaine population, est de
175 cm, avec un écart-type de 10 cm. Pour déterminer l’intervalle de confiance à 95%, on
calcule, selon (4.42)
10 10
ε = √ t0.975 [9] = √ 2.26 = 7.54 cm et donc µ ∈ [167.46 cm, 182.54 cm]
9 9
On trouverait de même que l’intervalle de confiance à 99% serait de [164.17 cm, 185.83 cm].
Si l’on nous avait communiqué un √ écart-type théorique de σ = 15 cm, on aurait eu, selon
(4.41), et pour α = 5%, que ε = (15/ 10)⋅1.96 = 6.20cm, et donc un intervalle de confiance
[168.80 cm, 181.20 cm] pour la moyenne théorique µ.

6.5 Intervalle de confiance pour la proportion


Une proportion théorique p est la moyenne p = E(X) d’une variable indicatrice X prenant
des valeurs 1 ou 0. Toutefois, sa variance Var(X) = p(1 − p) est ici entièrement déterminée
par cette valeur moyenne, ce qui justifie un traitement séparé de l’intervalle de confiance
pour la proportion :

f (1−f )
P (f − ε(α) ≤ p ≤ f + ε(α)) = 1 − α avec ε(α) = n
u1− α2 (4.43)

où f est la proportion empirique correspondante. De nouveau, l’intervalle (4.43) devient


exact pour n → ∞.

Exemple 23 (intervalle de confiance pour une proportion).


Une sondage représentatif indique que, parmi 100 futurs votants interrogés, 58 personnes
se déclarent en faveur d’une certaine initiative fédérale. Pour déterminer l’intervalle de
confiance (4.43) à 95% pour la proportion réelle√p de “oui” exprimés dans toute la po-
pulation, on calcule la marge d’erreur ε(.05) = 0.58(1−0.58)
100
u0.975 = 0.097 = 9.7%, soit
p ∈ [58% − 9.7%, 58% + 9.7%] = [48.3%, 67.7%], ce que l’on exprime parfois comme p =
58% ± 9.7%.
A noter que le seuil de majorité de p = 50% se trouve dans l’intervalle, i.e. les chances que
l’initiative soit acceptée est, sur la base du sondage, inférieure à 95%. Si le sondage avait
porté sur 1000 futurs votants, dont 580 se seraient√ déclarés en faveur de l’inititative, la
marge d’erreur aurait été réduite d’un facteur 1/ 10 = 0.316, soit ε(.05) = 3.1%, une valeur
certes moindre qu’avec n = 100, mais qui reste relativement élevée : il est coûteux d’obtenir
une bonne précision pour une proportion ; un calcul simple montre que, pour f = .58, il
faudrait disposer d’un échantillon de taille d’au moins n = 9358 pour réduire la marge
d’erreur ε(.05) à moins de 1%.

84
5 Introduction à l’inférence et aux tests
statistiques

Lorsqu’un chercheur s’intéresse à des données D de sciences naturelles (par exemple :


distribution des espèces végétales dans un étang) ou de sciences sociales (par exemple :
dynamiques sociales au sein d’une classe de collège), c’est rarement cet échantillon parti-
culier D (cet étang, cette classe) qui l’intéresse en soi, mais plutôt les régularités (relations,
patterns, etc.) qu’il pourra inférer à partir de D, régularités qui devraient également être
observées sur d’autres échantillons D′ de même nature que D (un autre étang, une autre
classe), mais de composition forcément différente.
Ces régularités sensées être “universelles” (s’appliquant à tous les étangs, toutes les classes)
peuvent, à ce niveau de généralité, être appelées lois, modèles ou hypothèses ; on les note
ici par H.
Faire de l’inférence ou de l’induction, c’est dire quelque chose (d’argumentable, de défen-
dable) sur H (sa forme possible, sa vraisemblance, etc.) à partir de D. Cette définition très
large recoupe pour l’essentiel celle de l’activité scientifique.
On considère ici des modèles probabilistes, exprimant les régularités empiriques sous la
forme de distributions de probabilité, et on parle alors d’inférence statistique. Ses concepts
et principes de base, ainsi que leur opérationnalisation, sont introduits dans ce chapitre.

1 Modèles et données : modèles probabilistes et déterministes


Les modèles probabilistes du chapitre 4 peuvent s’écrire sous la forme générale
P (H∣D) (5.1)
où D, les données, désigne les observations, tandis que H, l’hypothèse, la théorie ou le
modèle lui même, spécifie la probabilité P (D∣H) des observations D en admettant que
l’hypothèse H soit correcte.
Par exemple, trois lancers d’un dé donnent D = {3, 5, 5}, avec comme modèle possible
(parmi de nombreux autres) H = “lancers indépendants et distribution uniforme sur les
faces”. Ou bien, les tailles en centimètres de quatre adultes sont de D = {90, 170, 165, 167}
avec comme modèle possible H = “tailles indépendantes distribuées comme N (170, 102 )”.
La notation P (H∣D), qui permet d’expliciter tant H que D et donc de discuter de leur
relation (c’est l’objet du chapitre) est pratique, générale, et demande à être précisée : selon
le contexte, D peut par exemple décrire une seule observation, ou tout l’échantillon ; ou
consister d’observations univariées (par ex : la face du dé) ou au contraire multivariées
(la face du dé, mais aussi sa position sur la table, son orientation, sa température, etc.).
L’expression mathématique de la fonction de distribution P (D∣H) dépend bien sûr de la
nature des données (discrètes ou continues, univariées ou multivariées, etc.), mais rien ne
limite a priori la variété de ses formes possibles, à l’exception des deux conditions cruciales
P (D∣H) ≥ 0 ∑ P (D∣H) = 1 (5.2)
D

85
1. Modèles et données : modèles probabilistes et déterministes

où la somme porte sur toutes les observations D possibles. En particulier, le support de
la distribution, défini comme l’ensemble des observations D possibles selon le modèle, i.e.
telles que P (D∣H) > 0, peut être très étendu, auquel cas les prédictions du modèle H
auront un caractère très incertain ou très aléatoire 1 ; à l’inverse, le support peut être
concentré sur une seule observation D0 , qui est alors certaine (et les autres impossibles), et
l’on a ici affaire à un modèle déterministe.
On attend d’un bon modèle H
(a) qu’il soit valide, i.e. qu’il décrive correctement, dans le cas d’un modèle probabi-
liste, la distribution empirique des observations D, ou dans le cas d’un modèle
déterministe, l’exacte et unique prédiction empirique D0
(b) qu’il soit concis, i.e. que son expression mathématique soit raisonnablement simple,
et qu’il contienne peu de paramètres ajustables (voir section 4)
(c) qu’il soit aussi universel que possible, i.e. qu’il décrive un ensemble de données
aussi grand que possible (quitte à augmenter le nombre de paramètres, mais pas
trop) 2 .
Ainsi, un bon modèle permet de restreindre, de compresser l’apparente infinité des obser-
vations possibles par une règle ou Loi (déterministe ou probabiliste) beaucoup plus stricte,
régentant leur apparition.
Exemple 24 (Gravitation universelle 3 ).

La chute des corps (sur Terre, en négligeant le frottement),


ou le mouvement des planètes peuvent être décrites par un
formalisme extraordinairement concis, celui de la Gravita-
tion universelle : une fois connues les masses des corps en
jeu, ainsi que leurs positions et vitesses initiales, les trajec-
toires futures des corps sont déterminées de façon unique –
un exemple prototypique de modèle déterministe, permet-
tant de prédire exactement la date de la prochaine éclipse
de Lune, ou du prochain passage de la comète de Halley. Isaac Newton, 1642–1727

Exemple 25 (Dé à m faces). En lançant n fois un certain dé à m faces, peut-être irrégulier,
après l’avoir secoué dans un gobelet (pour neutraliser le mouvement du lanceur et casser
toute dépendance entre lancers successifs), on obtient nj fois la face j = 1, . . . , m.
1. au lieu que par la taille du support, l’incertitude des prédictions est, dans le cas quantitatif univarié,
généralement mesurée par la variance des observations, ou plus généralement par l’entropie de la distribution,
définie dans le cadre de la Théorie de l’Information.
2. toutes choses étant égales par ailleurs, un modèle valide de répartition des revenus en Europe dans les
années 2020 est plus général qu’un modèle valide de répartition des revenus dans le seul district d’Echallens
dans les années 2020 , mais moins général qu’un modèle valide de répartition des revenus dans tous les lieux et
à toutes les époques – même si ce dernier contiendra, vraisemblablement, davantage de paramètres (section 4)
associés aux lieux, aux époques ou à la structure socio-économique dominantes.
3. Newton, I. (1687) Principia mathematica philosophiae naturalis, Halley, E. (ed.), Londres

86
2. Induction et déduction

La distribution de ces effectifs est, en l’absence de


toute autre influence ou vieillissement du dé, par-
faitement décrite par le modèle multinomial de
paramètres B(p1 , . . . , pm , n), qui constitue (pour
n fixé) un modèle probabilité à m−1 paramètres :
si l’on fixe disons la valeur des paramètres p1 ,
p2 , . . . , pm−1 , alors pm est déterminé par la condi-
tion ∑m j=1 pj = 1.
Comme tout modèle probabiliste, ce modèle mul-
tinomial engendre des fluctuations des valeurs
observées. Par exemple, la variance du nombre
d’apparitions de la j-ème face vaut Var(nj ) =
npj (1 − pj ).
Lors d’un jeu de hasard, il serait évidemment sou-
haitable de mieux pouvoir prédire quelle face ap-
paraı̂tra au prochain coup, et donc de modéliser
le processus à l’aide d’un modèle alternatif dont
la variance serait inférieure, voire nulle en choi-
sissant un modèle alternatif déterministe ayant la
prétention de prédire exactement la prochaine oc-
curence.
Cela étant, dans la mesure où B(p1 , . . . , pm , n) est bien le modèle gouvernant le lancer du
dé, tous ces efforts d’‘amélioration” seront vains et contre-productifs – un état de fait que
le formalisme de l’inférence statistique, introduite ici, permet de démontrer effectivement.

2 Induction et déduction
2.1 Réfutabilité déterministe
Le mouvement partant de données D particulières pour aller vers des modèles H généraux
s’appelle induction, et le mouvement inverse déduction.
S’il est possible de déduire rigoureusement d’une théorie tenue pour vraie un certain
nombre de faits, à la manière du mathématicien prouvant des théorèmes à partir d’un
système d’axiomes, l’opération d’induction quant à elle ne possède pas le même caractère
de rigueur : on peut induire à partir de l’expérience quotidienne que “le soleil se lèvera
demain” 4 ; rien cependant n’empêcherait logiquement le soleil de ne pas se lever demain,
contredisant ainsi la théorie.
La dissymétrie entre induction et déduction reflète celle de l’implication logique “⇒” :
supposons que H soit une théorie déterministe que l’on tienne pour vraie ; on peut alors
constituer une liste de prédictions empiriques D entraı̂nées par H, c’est-à-dire pratiquer
la déduction en prouvant que H ⇒ D : ceci constitue une occupation qui peut s’avérer
passionnante, même si H est fausse, comme en témoigne le physicien mathématicien cal-
culant à quoi ressemblerait la matière dans un monde à 2 ou à 26 dimensions.
Dans ce contexte, faire de l’induction consisterait à remonter à H à partir de D. Or, si
les événements “H ⇒ D” et “D” sont tous deux vrais, il n’est pas possible de conclure
que H le soit également. Par contre, si “H ⇒ D” est vraie, mais que “D” soit fausse (i.e.
que les prédictions empiriques D ne soient pas observées), alors on peut conclure que
H est fausse : une théorie ne peut jamais être prouvée, mais seulement éventuellement
contredite par des faits, comme l’ont argumenté Karl Popper et l’école de pensée dite
du Réalisme Critique 5 . Plus précisément, s’il est possible d’imaginer des faits D contre-
4. Hume, D. (1738) A Treatise of Human Nature, Noon, J. (ed.), Londres
5. voir par exemple Chalmers, A.F. (1990) Qu’est-ce que la science ? Récents développements en philosophie des
sciences : Popper, Kuhn, Lakatos, Feyerabend, Ed. La Découverte, Paris

87
2. Induction et déduction

disant une théorie H, cette théorie sera dite réfutable. Toute théorie scientifique devrait
être réfutable. La Mécanique Classique (Galilée, Newton) et la Mécanique Relativiste (Ein-
stein), sont réfutables (la première a d’ailleurs été réfutée, la seconde pas (encore)). L’As-
trologie, la Psychanalyse, la doctrine du Matérialisme Dialectique ou celle du Libéralisme
Economique ne sont pas réfutables, car trop imprécises, trop “molles” dans leurs prédictions
pour pouvoir être contredites (on a par exemple beaucoup de peine à imaginer une
expérience dont l’issue pourrait faire conclure à la fausseté des mécanismes symboliques
du rêve tels que décrits par Freud) : ces théories ne sont pas scientifiques à l’aune de la
réfutabilité, sans que cela ne préjuge en soi de leur valeur esthétique ou heuristique.
Il existe un moyen direct, presque automatique, de sauver la plus grande partie d’un
modèle qui se trouverait falsifié par de nouvelles données : il s’agit simplement d’en res-
treindre le domaine de validité. Par exemple, lorsque les données concernant la trajectoire
d’Uranus se trouvèrent en désaccord avec celles prédites par le modèle Newtonien de la
gravitation (H0 ), on aurait pu “sauver” l’essentiel de ce dernier en le remplaçant par H1 :
“la théorie de la gravitation universelle s’applique à tous les corps sauf Uranus”. Il s’agit
là d’un exemple type d’un aménagement dit ad hoc du modèle, ne débouchant sur aucune
nouvelle prédiction, et laissant en particulier complètement dans l’ombre la raison de l’ex-
ception uranienne : bien qu’irréprochable d’un point de vue logique, ce type de pratique
serait difficilement qualifiable de scientifique.
Dans cet exemple, il était naturel d’explorer les conséquences du remplacement de H0
par une théorie non ad hoc, à savoir H2 : “la théorie de la gravitation universelle est
correcte, mais on n’a pas tenu compte de l’influence éventuelle sur Uranus d’un corps
céleste inconnu”. Comme on le sait, le modèle H2 a conduit, moyennant observations et
calculs, à la découverte de Neptune (U. Le Verrier, et J.C. Adams, 1846).

2.2 Réfutabilité probabiliste


La différence majeure entre modèles déterministes et modèles probabilistes est que, s’il est
possible de réfuter les premiers par une seule observation, les seconds ne sont réfutables
au sens strict qu’au bout d’un nombre infini d’observations : par exemple, la théorie déter-
ministe H1 : “cette pièce ne produit que des “pile” est strictement réfutée par l’observa-
tion d’un seul lancer “face”. Par contre, la théorie probabiliste H2 : “cette pièce produit
”pile” avec probabilité 0.5” est, d’un point de vue strict, compatible avec n’importe quelle
séquence de longueur n, telle que F P F P P F P F F F P ou F F F F F F F F F F , bien qu’il soit
assez facile d’objecter à la régularité de la seconde séquence (complétée à volonté par des
F uniquement), et de démontrer son incompatibilité avec H2 pour n → ∞ (voir l’exemple
27).
Comme la plupart des modèles H auxquels nous sommes confrontés (dans la pratique
scientifique ou la vie de tous les jours) sont probabilistes, il en découle que, face à un
nombre fini de données D, la conclusion que l’on est en droit d’espérer, dans le meilleur des
cas, est que la théorie H est peu vraisemblable. Les concepts de niveau de signification α et
de valeur p, abordés plus loin, constituent une formalisation quantitative de cette notion :
on verra que p mesure la vraisemblance du modèle H face aux données D, et que le rejet d’un
modèle H sera d’autant plus fondé que p est petit. La mécanique des relations entre p (ou
α), H et D constitue la théorie des tests statistiques. Avant de l’aborder directement sous
sa forme opérationnelle, il est éclairant de donner un aperçu de son “squelette” principal,
constitué par l’utilisation de la règle de Bayes.

2.3 La règle de Bayes et l’induction


L’impossibilité de prouver la véracité d’une théorie, autrement dit le fait que l’induc-
tion ne soit pas (ou mal) fondée logiquement n’empêche pas qu’elle soit existentiellement
nécessaire : il faut avoir un modèle de ce qu’est le monde pour pouvoir y vivre, ne serait-ce
qu’un modèle minimal tenant pour vrai que le soleil se lèvera demain. Malgré l’absence

88
2. Induction et déduction

de solution purement logique générale au problème de l’induction, des progrès ont pu ce-
pendant être obtenus dans des cas particuliers, en faisant intervenir à un moment ou à un
autre la règle de Bayes
P (D∣H) P (H)
P (H∣D) = . (5.3)
P (D)
Exemple 26 (un coup de mou). Une personne se sent fatiguée et sans énergie depuis
quelques jours (D), sans cause apparente. Est-ce là le signe d’une maladie cachée (H) ?
On a :
P (fatigue∣maladie) P (maladie)
P (maladie∣fatigue) = (5.4)
P (fatigue)
En d’autres termes, cette personne, suite au constat de son état de fatigue, a d’autant plus
de raisons de soupçonner l’existence d’une maladie qu’elle estime que
● une maladie pourrait entraı̂ner de la fatigue (P (fatigue∣maladie)).
● une maladie est possible (P (maladie)).
● la fatigue est un événement rare (1/P (fatigue)) : si la personne est fréquemment
fatiguée, elle n’a en effet pas de raison particulière de soupçonner l’existence d’une
maladie, à moins bien sûr que ses états de fatigue précédents n’aient été associés
avec des états de maladie ; mais cette circonstance est déjà décrite par le terme
P (fatigue∣maladie).
Exemple 27 (concurrence entre deux hypothèses). Admettons que l’on ait des raisons
de croire (par exemple suite à une longue expérience en fouilles archéologiques) que, à
propos d’une urne scellée contenant de (très nombreuses) billes, l’une seulement des deux
hypothèses suivantes soit vraie, à savoir
1. H1 : “toutes les billes sont noires”
2. H2 : “la moitié des billes sont blanches, et l’autre noire”.
Le modèle H1 est déterministe. Par contraste, H2 est équivalent à “la probabilité qu’une
bille soit noire est de 0.5” : c’est un modèle probabiliste.
Supposons que l’on extraie n billes de l’urne, et que l’observe D : “n billes noires consécu-
tives”. Comme :
● P (H1 ) + P (H2 ) = 1 (car seules les hypothèses H1 et H2 sont considérées comme
possibles)
● P (D) = P (D∣H1 ) P (H1 ) + P (D∣H2 ) P (H2 ) (schéma “en arbre” toujours vrai)
● P (D∣H1 ) = 1 (hypothèse déterministe)
● P (D∣H2 ) = ( 21 )n (loi binomiale)
on déduit de (5.3) que
P (D∣H1 )P (H1 ) P (H1 )
P (H1 ∣D) = = (5.5)
P (D∣H1 ) P (H1 ) + P (D∣H2 ) P (H2 ) P (H1 ) + ( 12 )n (1 − P (H1 ))
( 12 )n P (H2 ) P (H2 )
P (H2 ∣D) = 1 − P (H1 ∣D) = = (5.6)
P (H1 ) + ( 12 )n P (H2 ) 2n (1 − P (H2 )) + P (H2 )

Les probabilités P (H1 ) et P (H2 ) = 1 − P (H1 ) s’appellent priors : elles représentent la


confiance a priori que l’on a dans les hypothèses H1 et H2 : en cas d’incertitude complète,
on peut par exemple poser P (H1 ) = P (H2 ) = 21 . Les quantités P (H1 ∣D) et P (H2 ∣D) sont
les probabilités correspondantes a posteriori, i.e. évaluées après avoir pris connaissance
des données. Les expressions (5.5) et (5.6) sont représentées en figure 1, dans les cinq
cas suivants : p(H1 ) = 0 ; p(H1 ) = 0.01 ; p(H1 ) = 0.5 ; p(H1 ) = 0.8 et p(H1 ) = 1 (avec
p(H2 ) = 1 − p(H1 ), naturellement).
L’aspect remarquable des formules (5.5) et (5.6) est que, si le nombre n de billes tirées
devient grand, et que D est observé, alors H1 devient certain et H2 impossible, au sens où
limn→∞ P (H1 ∣D) = 1 et limn→∞ P (H2 ∣D) = 0 (figure 5.1) : le modèle probabiliste H2 est
réfuté par un échantillon D de taille arbitrairement grande.

89
3. Le sondage : population, échantillon et représentativité (*)

1.0

1.0
1.0

1.0
P(H1|D) P(H1|D) P(H1|D)

0.8

0.8
0.8

0.8
0.6

0.6
0.6

0.6
P(H1)=0.5 P(H1)=0.8 P(H1)=0.1 P(H1)=0

0.4

0.4
0.4

0.4
0.2

0.2
0.2

0.2
P(H1|D)
n n n n

0.0

0.0
0.0

0.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

F IGURE 5.1 – Exemple 27 : évolution de la probabilité a posteriori ou posterior P (H1 ∣D) (trait
plein) et P (H2 ∣D) = 1 − P (H1 ∣D) (traitillé) en fonction du nombre n (ici étendu à un nombre réel
plutôt qu’entier) de billes noires observées, et en fonction de la probabilité a priori ou prior P (H1 ).
La limite limn→∞ P (H1 ∣D) = 1 dit que l’hypothèse que toutes les billes sont noires devient certaine
au bout d’un nombre infini d’observations, pour autant que P (H1 ) > 0.

Cela est vrai quels que soient les priors P (H1 ) et P (H2 ), à condition qu’ils soient différents
de 0 ou 1 : si l’on pose en effet par exemple P (H) = 0 pour une certaine hypothèse H,
alors on aura toujours P (H∣D) = 0, quelles que soient les données observées (D). Au-
trement dit, si quelqu’un n’accorde au départ aucun crédit à une théorie, alors aucun fait
ultérieur ne pourra le faire changer d’avis ; une anomalie similaire se produit dans le cas
P (H) = 1 : la règle de Bayes (5.3) permet ainsi de décrire aussi bien le phénomène de per-
suasion raisonnée (pour 0 < P (H) < 1) que le phénomène de dogmatisme ou “fanatisme
épistémologique” (pour P (H) = 0 ou P (H) = 1).
Si l’on avait observé D̃ : “il y a au moins une bille blanche parmi les n billes consécutives”,
alors on aurait déjà P (H1 ∣D̃) = 0 et P (H2 ∣D̃) = 1 en un nombre fini de coups, puisque
l’observation d’une seule bille blanche D̃ suffit à réfuter le modèle déterministe H1 , et
donc à ne laisser survivre que son unique concurrent H2 .
En résumé, un modèle déterministe peut être réfuté par une seule contre-observation, tan-
dis qu’un modèle complètement probabiliste (i.e. n’interdisant aucune observation) n’est
réfutable au sens strict que par une infinité d’observations. Un ensemble fini d’observa-
tions ne peut donc que réduire (parfois astronomiquement) la confiance a priori P (H)
que l’on peut mettre en un modèle probabiliste H, sans l’annuler complètement toutefois.

3 Le sondage : population, échantillon et représentativité (*)


Le sondage (par exemple d’opinion) constitue également une procédure inférentielle statis-
tique : à partir d’un échantillon D (le sondage) on cherche ici à inférer les caractéristiques
d’une population P dont font partie les individus de D. Ces caractéristiques d’intérêt sont
constituées d’une ou plusieurs variables x, telles que x = “opinions et comportements po-
litiques” pour P = “citoyens suisses”, ou x = “caractéristiques physiques et abondance
d’une espèce végétale” pour P = “végétation de l’arc alpin”.
Il s’agit de distinguer la procédure du sondage de l’inférence basée sur les modèles pro-
babilistes de la section 1, même si de nombreux points sont communs. Dans les deux cas,
il s’agit typiquement d’estimer une caractéristique moyenne dite théorique x̄P , (proportion
de telle modalité, intensité moyenne de tel indicateur, etc.) dans la population P ou dans
le modèle H, à partir des données D.

90
3. Le sondage : population, échantillon et représentativité (*)

Le sondage le plus simple consiste à extraire, sans remise,


les n individus de l’échantillon, tous sélectionnés avec la
même probabilité à partir des N individus de la population,
comme n billes sont extraites sans remise d’une urne contenant
N ≫ n billes. Chacune des N billes a la même chance d’être
sélectionnée, et l’échantillon ainsi constitué est dit aléatoire
simple, avec un taux de sondage défini comme n/N . Sa consti-
tution suppose que l’on dispose d’une liste préalable de tous
les N individus de la population, et que l’on puisse y accéder
Urne (Vème s. av. J.-C.)
librement – une exigence le plus souvent irréaliste.

Dans le sondage stratifié, on segmente (partitionne) d’abord la population en plusieurs


sous-groupes ou strates déterminés par une variable y (par exemple : selon l’âge, la
formation, la profession, la région linguistique etc.) censés influencer fortement les ca-
ractéristiques d’intérêt (ici x “opinions et comportements politiques”), et dont les propor-
tions p(y) sont connues dans la population.
Comme x et y sont liés, la variabilité de x dans chacune des strates tend à y être moins
grande que dans la population, i.e. les strates sont relativement homogènes relativement
à x. On procède ensuite à un échantillonnage aléatoire dans chacune des strates, et estime
la caractéristique moyenne recherchée x̄P par

̂P = ∑ p(y) x̄y
x̄ (5.7)
y

où x̄y est la valeur de la caractéristique moyenne dans la strate y. Cette identité s’applique
quel que soit le taux de sondage ng /Ng > 0 dans chacune des strates, qui peut varier pour
toutes sortes de raisons (petit échantillon, strates peu accessibles) malgré le souhait du
chercheur. Cela étant dit, il est souhaitable de sur-échantillonner les strates y les moins ho-
mogènes (varY (X) grand), afin d’améliorer la précision de l’estimateur x̄ ̂P , typiquement
en leur appliquant un taux de sondage proportionnel à vary (x).
Quantité d’innovations ont été proposées et pratiquées (sondages à plusieurs degrés, son-
dages par grappes, par boule-de-neige, etc.) par les instituts de sondage publics ou privés.
Le sujet, qui n’est pas développé ici, est très vaste : l’étude et la pratique des sondages
relève de la science (rigueur et rationalité des principes d’inférence), mais aussi de l’art
(les instituts de sondage gardant volontiers leurs petits secrets censés améliorer leurs esti-
mations).
La question centrale est celle de la représentativité de l’échantillon (ou plutôt la repré-
sentativité du processus d’échantillonnage), définie ici ainsi : selon la méthode utilisée,
chaque échantillon possible D ⊂ P possède une certaine probabilité PP (D) d’être consti-
tué. En notant par x̄P la moyenne ou la proportion que l’on cherche à connaı̂tre dans la po-
pulation (par exemple : proportion de personnes votant “oui” à un certain objet politique
soumis en votation), et en notant par x̄D la même quantité mesurée dans l’échantillon D,
on dira que l’échantillon (ou plutôt le processus d’échantillonnage) est représentatif si
x̄P = ∑ PP (D) x̄D (5.8)
D

Dans un sondage aléatoire simple, chaque individu de la population P a la même chance


d’être sélectionné dans l’échantillon D qui sera constitué, lequel sera donc représentatif. La
définition (5.8) n’impose toutefois pas cette condition stricte d’équi-sélection entre indivi-
dus, mais la condition moins forte d’équi-distribution des valeurs de la variable x d’intérêt.
Pour le dire autrement, si, par exemple, l’on savait avec certitude 6 que la distribution
des opinions et comportements politiques (x) des neuchâtelois était en tout point iden-
tique à celle des jurassiens, il n’y aurait pas besoin de sélectionner des neuchâtelois dans
l’échantillon : des jurassiens suffiraient (et vice-versa).
6. un voeu pieux, naturellement

91
4. Inférence pour les modèles paramétriques

Attention : dans un autre sens (courant, et portant donc à confusion), un échantillon D


est dit représentatif si les fréquences relatives des variable de stratification y, supposées
fortement liées à la variable d’intérêt x, sont les exactement les mêmes que dans la po-
pulation P : même proportion de 20-25 ans, de divorcés, de travailleurs du secondaire,
d’habitants péri-urbains, dans telle tranche de revenu, etc. Cette méthode dite des quotas
génère des échantillons qui sont en quelque sorte des modèles réduits de P (relativement
à y), mais qui ne sont pas représentatifs au sens de (5.8).
Les répondants d’un questionnaire adressé à ses connaissances ne constituent aucunement
un échantillon représentatif, sauf en admettant que la population-cible est ... l’ensemble
des individus qui “ressemblent” à ses connaissances : il est évidemment totalement illu-
soire de vouloir prédire la proportion de “oui” dans la prochaine votation nationale en
l’estimant par la proportion correspondante au sein de son groupe d’amis. Il en est de
même de l’échantillon fortement biaisé des répondants à un questionnaire d’opinion, en
accès libre sur internet : y seront sur-représentés les personnes fortement mobilisées par
les questions posées (avec des opinions tranchées particulièrement négatives ou positives),
les personnes ayant un accès facile à internet et le loisir et l’envie d’y passer du temps, etc.
Dans ce dernier exemple, il est en principe envisageable de pouvoir redresser, du moins en
partie, la distribution des réponses pour estimer x̄P , à condition de connaı̂tre les catégories
de stratification des répondants y (âge, sexe, formation, statut familial, etc.) supposées liés
à x. Cette approche nécessite que toutes les strates pertinentes y (i.e. liées à x) soient
suffisamment représentées dans l’échantillon, et que leurs proportions p(y) soient connues
dans la population. En bref, beaucoup de conditions exigeantes (du point de vue des
données et de la méthodologie), bien rarement satisfaites en pratique.
A l’inverse, il est envisageable d’étudier les relations supposées universelles (i.e. valides ici
pour toute la population humaine P) entre, disons, un “score d’intelligence verbale” x1
et un “score d’intelligence spatiale” x2 en se limitant à, disons, des échantillons exclusive-
ment constitués d’étudiants de psychologie, à condition de postuler (et, encore mieux, de
vérifier) que les relations entre x1 et x2 ne dépendent pas de la strate y = (âge, type de
formation, etc.) en jeu.

4 Inférence pour les modèles paramétriques


Les modèles probabilistes utilisés en statistique sont des modèles paramétriques de la forme
P (D∣H) = f (D∣θ), où f () désigne une famille particulière de distributions et θ désigne un
(ou plusieurs) paramètre(s) spécifiant une et une seule distribution au sein de la famille
considérée.
On se limite ici au cas d’observations univariées, i.e. chaque observation porte sur une
seule caractéristique dénotée par x (numérique ou catégorielle), et indépendantes, i.e.
la probabilité d’observer la caractéristique xj pour le j-ème individu ne dépend pas des
observations xi faites sur les autres individus i ≠ j dans l’échantillon D = {xi }ni=1 formé
des n observations. Dans ces conditions,
n
P (D∣H) = P (x1 x2 . . . xn ∣H) = f (x1 ∣θ)f (x2 ∣θ)⋯f (xn ∣θ) = ∏ f (xi ∣θ) (5.9)
i=1

Par exemple :

● f (x∣θ) = px (1 − p)1−x : loi de Bernoulli (cas particulier


de la loi binomiale B(1, p) pour un seul lancer) donnant
la probabilité d’occurence de “pile” (codé x = 1) ou “face”
(codé x = 0) : paramètre θ = p
Jacques Bernoulli, 1654–1705

92
4. Inférence pour les modèles paramétriques

● f (x∣θ) = √ 1 2 exp(− (x−µ)


2

2σ 2
) : loi normale N (µ, σ 2 ) donnant la densité de probabi-
2πσ
lité d’occurence de la valeur x : paramètres θ = (µ, σ 2 ) .

4.1 Estimation par maximum de vraisemblance


On souhaiterait estimer la valeur du (ou des) paramètre θ en présence de n observations D.
Une stratégie très utilisée est la méthode dite du maximum de vraisemblance, qui consiste
à estimer θ par la 7 valeur θ̂ (supposée unique) qui maximise f (D∣θ), c’est à dire

max f (D∣θ) = f (D∣θ̂) i.e. θ̂ = arg max f (D∣θ) . (5.10)


θ θ

Par exemple, pour la loi de Bernoulli, l’estimation du maximum de vraisemblance de p, la


probabilité théorique de “pile” à chaque lancer, est égale à p̂ = k/n (le nombre de “pile” sur
le nombre de tirages), i.e. à la proportion empirique de “pile”.
De même, pour une loi normale, il se trouve que l’estimation du maximum de vraisem-
blance de la moyenne théorique µ est donnée par la moyenne empirique µ̂ = n1 ∑ni=1 xi = x̄,
et que l’estimateur du maximum de vraisemblance de la variance théorique σ 2 est donnée
̂2 = 1 ∑n (xi − x̄)2 = var(x).
par la variance empirique σ n i=1

On a vu (section 6.1 du chapitre 4) que µ̂ = x̄ est un estimateur sans biais de µ, au contraire


̂2 = var(x) qui est biaisé. Pour rappel, un estimateur θ̂ (du maximum de vraisemblance
de σ
ou autre) est dit sans biais si sa moyenne théorique coı̈ncide avec sa vraie valeur θ, i.e. si
E(θ̂) = θ.

4.2 Estimation par maximum a posteriori (*)


La fonction à maximiser dans (5.10) peut aussi s’écrire comme P (D∣H(θ)) ≡ f (D∣θ), où
H(θ) dénote le modèle paramétrique (pour la famille paramétrique en jeu, telle que loi
normale, binomiale, etc.) pour la valeur θ du (ou des) paramètres, et P (.) est une notation
générale pour la probabilité (exprimée par la densité de probabilité f (D∣θ) dans (5.10)).
Or, la règle de Bayes (5.3) suggère que la “bonne quantité” à maximiser n’est pas P (D∣H(θ))
(comme dans le principe du maximum de vraisemblance), mais bien P (H(θ)) P (D∣H(θ))
(qui est le numérateur dans (5.3), le dénominateur P (D) ne dépendant pas de θ). On est
ainsi conduit à remplacer le principe d’estimation du maximum de vraisemblance (5.10)
par le principe dit du maximum a posteriori (MAP)

max P (H(θ)) P (D∣H(θ)) = max π(θ)f (D∣θ̂) = π(θ̂)f (D∣θ̂)


θ θ
(5.11)
i.e. θ̂ = arg max π(θ)f (D∣θ) .
θ

Dans (5.11), la forme du prior P (H(θ)) (qui dit que certaines valeurs de θ sont a priori,
i.e. avant d’observer D, plus probables que d’autres), est simplement exprimée par une
une densité de probabilité a priori π(θ).
Ainsi, le principe du maximum de vraisemblance (5.10) est un cas particulier du principe
du maximum a posteriori (5.11), obtenu lorsque π(θ) est constant (distribution uniforme),
i.e. lorsque toutes les valeurs de θ sont jugées a priori équiprobables.
Exemple 28 (prior non informatif et variance échantillonnale). On a vu (section 4.1)
qu’avec un prior uniforme π(σ) =constante pour l’écart type σ d’une loi normale N (µ, σ 2 ),
̂2 = var(x), i.e. la variance empirique, qui est baisée. En pre-
l’estimation du MAP était σ
nant au contraire le prior dit non informatif 8 π(σ) = 1/σ on trouve que l’estimateur MAP
7. il s’agit d’une estimation de θ dite ponctuelle, i.e. par une seule valeur, plutôt qu’une estimation par un
intervalle de confiance comme on l’a rencontré précédemment
8. Jeffreys, H. (1961) Theory of Probability 3rd Edition, Clarendon Press. L’expression π(σ) = 1/σ implique
entre autres que, a priori, il est aussi vraisemblable que σ soit compris entre disons 1 et 10 que entre 10 et 100.

93
5. Détection, reconnaissance, confusion et inférence

de la variance est
̂2 = n 1 n
σ var(x) = ̂
∑(xi − x̄) = var(x)
n−1 n − 1 i=1

soit précisément la variance empirique sans biais (section 6.1).

5 Détection, reconnaissance, confusion et inférence


5.1 Matrice de confusion. Coefficient kappa.
Exemple 29 (Reconnaissance des émotions). On a demandé à un certain nombre de per-
sonnes de déclamer quelques courtes phrases sur un ton qui devait évoquer l’une des 5
émotions suivantes : normal (neutre), happy, angry, sad et afraid 9 . Chaque enregis-
trement a été converti en un certain nombre de caractéristiques physiques numériques
associées au signal audio. Après avoir entraı̂né un réseau de neurones 10 sur quelques en-
registrements dont la tonalité émotionnelle était donnée (échantillon d’apprentissage), on
a demandé à ce réseau de neurones de déterminer (i.e. de deviner, d’estimer, d’inférer) la
tonalité émotionnelle de 700 nouveaux enregistrements (échantillon de test).

stimulus j / réponse k normal happy angry sad afraid


normal 93 4 10 25 8
happy 17 86 14 6 17
angry 15 7 101 8 9
sad 16 1 7 96 20
afraid 17 13 7 34 69
TABLE 5.1 – Matrice de confusion N = (njk ) : les lignes de la table de contingence sont les stimuli
(“vraies catégories”) et les colonnes sont les réponses (catégories attibuées). Les effectifs sur la
diagonale (93, 86 etc.) donnent le nombre de catégories correctement identifiées, et les effectifs
hors diagonale le nombre d’attributions incorrectes ou confusions.

La matrice de confusion N = (njk ) de la table 5.1 compte le nombre de fois que le stimulus
ou classe j (ici une des m = 5 émotions) a été identifié comme k (la réponse, i.e. l’émotion
estimée par la machine). Il s’agit d’un problème dit d’apprentissage supervisé ou de clas-
sification : la tâche pour le “classificateur” (sujet humain, animal, dispositif mécanique,
algorithme) consiste à inférer la modalité k à laquelle appartient un stimulus dont le “vrai
type” est j. Les éléments diagonaux njj comptent le nombre d’objets correctement classés
dans la classe j. La proportion d’accord P accord mesure le taux (global) de classification
correcte, à savoir
m m
∑j=1 njj ∑j=1 njj 445
P accord ∶= m = (= = 63.6%) (5.12)
∑j,k=1 njk n●● 700

On peut aussi calculer le taux de classification correcte pour chaque stimulus j comme
njj /nj● , avec le résultat

stimulus j normal happy angry sad afraid


taux classification correcte 66.4% 61.4% 72.1% 68.6% 49.3%
9. Petrushin, V. (1999) Emotion in speech : Recognition and application to call centers. In Proceedings of
artificial neural networks in engineering (Vol. 710, p. 22)
10. un dispositif emblématique en intelligence artificielle, comparable à un algorithme de régression non-
linéaire multivariée : l’entraı̂nement du réseau de neurones conduit à fixer ses “poids synaptiques”, à l’instar des
“coefficients de régression” déterminés par l’échantillon d’apprentissage lors d’une régression en statistique

94
5. Détection, reconnaissance, confusion et inférence

qui montre que l’émotion “afraid” était la plus difficile à reconnaı̂tre comme telle. La
mesure d’accord (5.12) donne une estimation un peu optimiste des performances du clas-
sificateur, dans la mesure où une attribution correcte peut être le simple fruit du hasard :
nj● n●k
jk = n●● (qui dénote une
en remplaçant njk par sa valeur attendue sous indépendance ntheo
réponse fournie indépendamment du stimulus), la proportion P hasard d’objets correctement
classés par hasard est 11
m
∑j=1 nj● n●j 98000
P hasard ∶= (= = 20.0%) (5.13)
n2●● 7002

Le coefficient κ dit du “kappa de Cohen” est finalement défini par

P accord − P hasard 0.636 − 0.2


κ ∶= (= = 0.545) (5.14)
1 − P hasard 1 − 0.2
Par construction, κ > 0 signifie que la performance du classificateur est meilleure que celle
du hasard (ce qui est un peu la moindre des choses). κ ≅ 0 dit que le classificateur ne fait
pas mieux que le hasard, et κ < 0 dit que le classificateur fait pire que le hasard !
La valeur maximale de κ vaut 1, obtenu ssi P accord = 1.

5.2 Le cas des réponses binaires (présence/absence ; signal/bruit)


Le cas binaire de m = 2 classes est très répandu : au cours de sa longue ou courte existence,
tout organisme sensible doit sans cesse évaluer son environnement : est-il en sécurité
dans la situation actuelle, ou existe-t-il un danger face auquel il faudrait réagir ? Peut-
il faire confiance à telle personne, croire en sa parole ? Tel candidat à un examen ou
une embauche doit-il être recalé, ou non ? Le voyant suspect qui apparaı̂t sur un tableau
de bord doit-il être pris au sérieux, ou peut-on l’ignorer tranquillement ? Le document
proposé par un moteur de recherche se révélera-t-il pertinent ou non pour la question que
se pose une internaute ? Faut-il déclarer coupable, ou non, un suspect dans une affaire de
meurtre ?
Ces questions de décision, détection, perception ou jugement, de la part d’un organisme
vivant ou d’une machine, partagent la même structure inférentielle de base : les situa-
tions, items, individus ou observations rencontrées peuvent être de deux sortes : les unes
possèdent, réellement, une certaine caractéristique spécifique (présence), et d’autres pas
(absence).
Naturellement, le classificateur (organisme humain, animal, machine) s’efforce, en tenant
compte de l’information à sa disposition, de détecter la présence ou l’absence de cette
caractéristique en commettant le moins d’erreurs possibles.
Deux types d’erreurs sont possibles : ne pas détecter la caractéristique alors qu’elle est
présente, ou la détecter alors qu’elle est absente. L’absence de la caractéristique étant
elle-même une caractéristique, il faut, pour dépasser l’équivalence logique entre les deux
possibilités, et nommer spécifiquement ces dernières, adopter la convention que la ca-
ractéristique en jeu représente une forme de signal 12 , codé comme 1, pouvant requérir
une réaction de l’organisme ou de la machine (présence d’un prédateur ou d’un danger
physique, tromperie ou culpabilité avérée, violation d’une théorie scientifique admise, ou
mise en évidence de liens entre plusieurs phénomènes, etc.), tandis que l’absence de la
caractéristique est assimilable à du bruit, codé comme 0 : simples fluctuations statistiques
de l’environnement ne signalant pas de danger réel, absence de phénomène remarquable
ou de pattern saillant dans les données, bref, rien à signaler.
11. le fait qu’ici P hasard = 0.2 = 1/5 exactement est dû au fait particulier que chacun des 5 stimuli a été
présenté ici le même nombre de fois, soit 140 fois, i.e. 140/700=20.0% pour chaque stimulus.
12. signal par ailleurs difficile à détecter (sans quoi il n’y aurait pas d’erreurs de perception), i.e. noyé dans
du bruit de fond, et souvent ainsi qualifié de “signal plus bruit”

95
5. Détection, reconnaissance, confusion et inférence

5.2.1 Erreurs de première et seconde espèce


Une fois la distinction signal/bruit établie 13 , on pourra nommer les deux types d’erreur
en jeu :
● l’erreur de première espèce, consistant à attribuer à la situation une caractéristique
qu’elle n’a pas, i.e. de détecter un signal alors qu’il n’y a que du bruit : fausse alarme
(false alarm)
● l’erreur de seconde espèce, consistant à ne pas détecter le signal alors qu’il est présent :
manqué (miss).
Plus forte sera la tendance pour un classificateur (organisme, machine) à percevoir un
signal dans les situations rencontrées, plus faible sera l’erreur de seconde espèce, mais
plus forte aussi sera l’erreur de première espèce. Et vice-versa si le classificateur tend à
interpréter systématiquement les situations comme relevant d’un simple bruit.
On peut formaliser ce qui précède en introduisant les deux variables bimodales
● x = “état du Monde”, prenant la valeur x = 1 (signal réellement présent ou “vrai
positif”) ou x = 0 (signal réellement absent ou “vrai négatif”)
● y = “décision”, prenant la valeur y = 1 (signal perçu) ou x = 0 (signal non perçu)
ainsi que la table de contingence 2×2 dont les éléments njk comptent les cas pour lesquels
x = j et y = k. Ainsi (table 5.2)
● n00 est le nombre de “non-reconnaissances correctes” : le signal est absent et il a été
correctement identifié comme tel
● n11 est le nombre de “reconnaissances correctes” : le signal est présent et il a été
correctement identifié comme tel
● n01 est le nombre de “fausses alarmes” : le classificateur a interprété du bruit comme
du signal
● n10 est le nombre de “manqués” : le classificateur a interprété du signal comme du
bruit.
y = “perception” ou “décision”
non : y = 0 (bruit) oui : y = 1 (signal)
non : x = 0 (bruit) n00 : vrais négatifs n01 : fausses alarmes = faux positifs n0●
x = “état du Monde”
oui : x = 1 (signal) n10 : manqués = faux négatifs n11 : vrais positifs n1●
n●0 n●1 n●●

TABLE 5.2 – Table de confusion pour la décision/détection/perception binaire, où n = n●● = n00 +
n01 +n10 +n11 est la taille de l’échantillon. Dans la littérature scientifique, la disposition et/ou l’ordre
des lignes et des colonnes est souvent inversée.

Exemple 30 (Reconnaissance de noms propres en Telugu). Parmi les tâches classiques en


traitement automatique du langage naturel (TALN) (natural language processing ; NLP),
l’une consiste à identifier les noms propres (personnes, lieux, organisations) dans un texte
(named entity recognition ; NER). La table de confusion ci-dessous donne les résultats
obtenus dans une étude 14 sur des textes en Telugu, parlé dans le sud-est indien.

y = “décision”
0 = nom commun 1= nom propre
x = “nature 0 = nom commun 6351 125
du nom” 1 = nom propre 102 454
13. quitte à nommer arbitrairement les deux possibilités, comme dans l’exemple de la réussite ou de l’échec à
un examen
14. Srikanth, P. et Murthy, K.N. (2008) Named entity recognition for Telugu. In Proceedings of the Workshop
on Named Entity Recognition for South and South East Asian Languages (IJCNLP’08) pp. 41–50

96
5. Détection, reconnaissance, confusion et inférence

L’erreur de première espèce consiste ici à prendre un nom commun pour un nom propre
(fausse alarme). Sa probabilité, notée α, peut être estimée par
n01 faux positifs 125
α= = = P (y = 1∣x = 0) (= = 19.3%) (5.15)
n00 + n01 vrais négatifs + faux positifs 6351 + 125

L’erreur de seconde espèce consiste ici à prendre un nom propre pour un nom commun
(détection manquée). Sa probabilité, notée β, peut être estimée par
n10 faux négatifs 102
β= = = P (x = 0∣y = 1) (= = 18.3%) (5.16)
n10 + n11 vrais positifs + faux négatifs 102 + 454
Exemple 31 (Recherche documentaire).

Une spécialiste cherche à identifier, dans une collection


scientifique de 2500 articles, tous les articles pertinents
pour une question (pointue) de recherche. Il se trouve que
50 articles sont effectivement pertinents mais le moteur de
recherche de la collection ne lui en fournit que 40, sur la
base des mots-clef utilisés. De plus, le moteur de recherche
retourne également 150 articles supplémentaires non per-
tinents.

La matrice de confusion associée est :

retourné par le moteur de recherche → non retourné retourné total


statut réel du document ↓
non pertinent n00 = 2300 n01 = 150 2450
pertinent n10 = 10 n11 = 40 50
total 2310 190 2500

La probabilité qu’un document non pertinent soit malgré tout retourné par le moteur de
recherche (erreur de première espèce) est de α = 150/2300 = 6.5%, et la probabilité qu’un
document pertinent ne le soit pas (erreur de seconde espèce) est de β = 10/50 = 20%.

5.2.2 Précision et rappel (*)


Pour juger de l’efficacité d’un dispositif de détection ou décision, tel que celui du moteur
de recherche de l’exemple 31, on utilise également les mesures dites de précision et de
rappel, définies comme
n11 nombre documents pertinents retournés 40
précision ∶= = = P (x = 1∣y = 1) (= = 21%)
n01 + n11 nombre documents retournés 190
(5.17)
n11 nombre documents pertinents retournés 40
rappel ∶= = = P (y = 1∣x = 1) = 1 − β (= = 80%)
n10 + n11 nombre documents pertinents 50
(5.18)
La précision d’un dispositif de détection mesure la pertinence (pour le critère en jeu)
des objets retournés ; elle est faible dans l’exemple 31 où seuls 21% des objets pro-
posés (retournés) par le moteur de recherche sont pertinents. Par contraste, le rappel
mesure la propension à détecter (retourner) les objects pertinents ; elle est élevée dans
l’exemple 31 où 80% des objets réellement pertinents ont été détectés. Par construction,
le rappel, également appelé puissance en théorie des tests statistiques (section 6) est le
complémentaire à l’unité de la probabilité d’erreur de seconde espèce β.
Les formules (5.15), (5.16), (5.17) et (5.18) montrent que α, β et le rappel sont des pro-
babilités conditionnelles étant donnée la ligne x (l’état du monde ou réalité), au contraire

97
6. Introduction aux test statistiques

de la précision qui est une probabilité conditionnelle étant donnée la colonne y (la décision
découlant de l’inférence).
De même que les “erreurs α et β” sont de nature (et de conséquences pratiques) très diffé-
rentes (section 6.4.1), la précision et le rappel mesurent deux aspects bien distincts des
compétences d’un classificateur. En général, plus grande est la précision, plus petit est le
rappel et inversement : dans l’exemple 31, on peut imaginer le cas limite d’un moteur de
recherche retournant l’entièreté des 2500 documents de la collection, avec une précision
de 50/2500 = 2% et un rappel de 50/50 = 100%. A l’opposé, en retournant un seul document
pertinent, la précision serait de 1/1 = 100% et le rappel de 1/50 = 2%.
On a pu malgré tout tenter de définir un indice unique de performance du système (une
idée assez discutable), combinant les deux aspects mesurés par la précision et le rappel,
tel le F -score F (ou sa version pondérée Fγ ) 15 défini comme

2 × précision × rappel 2n11 (1 + γ) × précision × rappel


F ∶= = Fγ ∶= (5.19)
précision + rappel n01 + n10 + 2n11 γ × précision + rappel

Par construction, F = Fγ=1 et 0 ≤ Fγ ≤ 1. Le paramètre γ > 0 a pour effet de sur-pondérer


la contribution de la précision (γ > 1) ou de la sous-pondérer (γ < 1).

6 Introduction aux test statistiques


On applique maintenant le schéma précédent au coeur du sujet, qui est celui de la théorie
des tests statistiques : comment réfuter ou non une hypothèse donnée, laquelle propose ty-
piquement une certaine valeur d’un paramètre θ (paramètre qui peut être par exemple une
moyenne µ ou une corrélation ρ théoriques) ? Pourquoi et comment décider de préférer une
hypothèse à une autre ?
Les tests statistiques sont des procédures standardisées, entièrement automatisées dans le
logiciels. Pour bien comprendre cette mécanique, qui joue un rôle crucial dans le cycle
de l’activité scientifique, il faut en démonter les diverses pièces et les examiner une à une
pour en saisir le rôle et la fonction, puis les réassembler en les appliquant aux données exa-
minées, selon la question posée (tests de la moyenne, de la corrélation, etc.). L’expérience
montre que plusieurs exercices intellectuels de “démontage-remontage” sont nécessaire
avant de bien maı̂triser la mécanique, qui peut alors être ensuite appliquée de façon rou-
tinière et automatique, sans risque de mauvaise compréhension ou interprétation.

6.1 Schéma général (m hypothèses simples)


En présence de m théories ou hypothèses concurrentes H1 , H2 , . . . , Hq (chaque hypothèse
correspondant à une unique 16 distribution de probabilité), on peut généraliser la démarche
de l’exemple 27, et calculer les probabilités a posteriori

P (Hj k)P (D∣Hj ) P (Hj )P (D∣Hj )


P (Hj ∣D) = = m (5.20)
P (D) ∑k=1 P (Hk )P (D∣Hk )

où P (Hj ) est la probabilité a priori ou prior de Hj , et la dernière identité découle de


la supposition cruciale (quoique bien difficile à justifier en général) que l’une, et l’une
seulement des m hypothèses en jeu constitue le “vrai modèle”.
La théorie des tests statistiques est une théorie de la décision, aboutissant à sélectionner
a posteriori l’une des m hypothèses en concurrence, sur la base d’un critère explicite ou
règle de décision. On peut par exemple décider de tenir pour vraie ou d’accepter l’hypothèse
Hj dont la probabilité a posteriori P (Hj ∣D) est la plus grande, et donc (en supposant qu’il
15. lesquels n’ont rien à voir avec le F -ratio associé à la décomposition de la variance
16. on parle alors d’hypothèse simple, par opposition à composite ; voir section 6.5

98
6. Introduction aux test statistiques

n’y a pas d’ex-aequos) de tenir pour fausses toutes les autres : c’est la règle du maximum a
posteriori (MAP). D’autres règles de décision sont possibles, mais elles aboutissent toujours
à la forme suivante :
on accepte Hj ssi D ⊂ Aj (5.21)
où Aj est la zone d’acceptation de Hj . Les zones d’acceptation des diverses hypothèses
concurrentes sont mutuellement exclusives et exhaustives, i.e. elles forment une parti-
tion de l’ensemble des données D possibles.
La probabilité d’accepter Hk alors que Hj est vraie est donnée par
pjk ∶= P (accepter Hk ∣ Hj vraie) = P (D ⊂ Ak ∣ Hj ) (5.22)
Les éléments pjk forment la matrice des probabilités de confusion. Comme en section 5.1,
les éléments diagonaux pjj donnent les probabilités d’une décision correcte (i.e. accepter
Hj qui est effectivement la vraie hypothèse), tandis que les éléments hors diagonale pjk
pour k ≠ j donnent les probabilités d’une décision incorrecte (i.e. accepter Hk alors que
c’est Hj qui est vraie).

6.2 Décision optimale, risques et coûts


Quelle est la règle de décision optimale, i.e. quelle est la meilleure forme de la partition
{Aj }m
j=1 des zones d’acceptation (5.21) ? Naturellement, on souhaiterait ne jamais faire
d’erreur, i.e. faire en sorte que, dans (5.22), pjk = 0 pour j ≠ k. Mais cela est simplement
impossible en général.
Il est très important de réaliser que les différentes erreurs de décision ont des conséquences
existentielles ou risques de nature bien différente dans la plupart des situations :
● sanctionner d’une note suffisante un travail insuffisant versus sanctionner d’une
note insuffisante un travail suffisant
● diagnostiquer comme non séropositif un individu séropositif versus diagnostiquer
comme séropositif un individu non séropositif
● se réveiller la nuit parce que l’on imagine à tort la présence d’un intrus versus ne
pas se réveiller en présence d’un intrus
● souscrire à une assurance-incendie qui se révèlera inutile versus de ne pas y avoir
souscrit en cas de sinistre
● condamner un innocent versus innocenter un coupable, etc.
Afin de définir une règle de décision optimale, il faut rendre commensurables ces différents
risques, en leur attribuant un coût numérique, mesurant la gravité de l’erreur, du dommage
ou de la perte associées 17 , etc. Soit cjk le coût associé à la situation “Hj vraie et Hk
acceptée”. Le coût moyen est alors
c̄ ∶= ∑ P (Hj ) pjk cjk = ∑ P (Hj ) P (D ⊂ Ak ∣ Hj ) cjk (5.23)
jk jk

Dans le cas où chaque erreur a le même coût (disons 1), et que le coût d’une décision
correcte est nulle, le coût moyen (5.23) devient la probabilité totale d’erreur
P erreur ∶= ∑ P (Hj ) pjk = ∑ P (Hj ) P (D ⊂ Ak ∣ Hj ) (5.24)
j≠k j≠k

Ainsi, la règle de décision optimale correspond à la partition {Aj }m j=1 minimisant (5.23)
ou (5.24). Ce problème peut être mathématiquement ardu mais il est désormais bien
défini, grâce à l’introduction de ces coûts existentiels cjk , dont la nature est toutefois extra-
statistique.
Il est à noter que, dans ce contexte, le terme “risque” peut signifier deux choses :
17. la pratique est courante pour des situations n’impliquant que des risques financiers (par exemple assu-
rances sur les biens), mais (encore) taboue dans la sphère des droits humains (libertés individuelles, droit à
l’éducation, à la sécurité...) ou dans le domaine bio-médical (traitements, expériences, début et fin de vie...)

99
6. Introduction aux test statistiques

● soit la probabilité de commettre une erreur, comme dans “risque de première espèce”
désignant simplement α (5.15), ou “risque de seconde espèce” désignant β (5.16)
(ou pjk pour j ≠ k en général)
● soit (risques financiers, risques naturels) le dommage attendu ou la perte attendue :
ici, le terme “risque” prend en compte l’ampleur des dégâts possibles ou probables,
et pas seulement la probabilité que des dégâts surviennent.
Ceci est parfois exprimé symboliquement comme “risque = alea × vulnérabilité”
qui correspond ici (dans la situation “Hj vraie et Hk acceptée”) à la quantification
“risque = P (Hj ) pjk × cjk ”.

6.3 Test de comparaison de deux moyennes. Courbe ROC

Exemple 32 (Concentration de zinc dans les harengs). Une étude s’intéresse à la pol-
lution par les métaux dans une pisciculture de Caroline du Sud. Il se trouve que deux
études antérieures ont proposé des valeurs différentes pour la concentration de zinc (en
microgrammes par gramme de matière sèche) dans les harengs, à savoir 85 et 105 ; dans
les deux cas, l’écart-type de la concentration était estimé à environ 24 microgrammes par
gramme 18 .
On va supposer que l’une ou l’autre des valeurs proposées (à l’exclusion de toute autre) est
la vraie valeur – un présupposé extrêmement fort qui va permettre de mettre en oeuvre
le test de comparaison de deux moyennes, dans sa version la plus simple (et quelque peu
artificielle) où les deux variances théoriques sont égales et connues. Ce test oppose deux
hypothèses, désignées par convention par H0 et H1 , et respectivement appelées hypothèse
nulle et hypothèse alternative 19
H ∶ µ = µ0
{ 0
H1 ∶ µ = µ1
avec µ0 = 85, µ1 = 105 et σ = 24. Pour trancher entre les deux théories, on va récolter
un nouvel échantillon D = {x1 , . . . , xn } composé des mesures de concentrations dans n
harengs, dont on calculera la moyenne x̄. Plus x̄ est élevé (respectivement bas), plus la
plausibilité de H1 (resp. H0 ) sera renforcée par les observations.
Concrètement, on adopte la stratégie ou règle de décision suivante : on fixe un seuil cri-
tique xc tel que
● si x̄ > xc , on rejette H0 (et accepte H1 )
● si x̄ ≤ xc , on accepte H0 (et rejette H1 ).
Comme la règle de décision ne dépend ici que de x̄, et non pas des autres détails de
l’échantillon D (tels sa variance, ou son empan, etc.), on dit que x̄ constitue la variable de
décision du test, notée d(D).
L’intervalle W ∶= (xc , ∞) est la zone de rejet (de H0 ), tandis que son complémentaire
W c = [0, xc ] est la zone d’acceptation (de H0 ) 20 .
Si la procédure conduit à accepter H0 alors que H0 est vrai, tout va bien. De même si la
procédure conduit à rejeter H0 (i.e. rejeter H1 ) alors que H0 est fausse (i.e. que H1 est
vraie). Les choses se gâtent (table 5.3)
● si l’on rejette H0 à tort : on parle d’erreur de première espèce
● ou si l’on accepte H0 à tort : on parle d’erreur de seconde espèce.
18. l’exemple est inspiré de Giesy J.P. et Wiener J.G. (1977) Frequency distributions of trace metal concentra-
tions in five freshwater fishes Transactions of the American Fisheries Society vol. 106, no 4, pp. 393–403
19. dans cet exemple, les deux hypothèses en jeu jouent un rôle entièrement symétrique, et la notation H0
pour l’une et H1 pour l’autre est arbitraire. Il n’en sera pas de même dans l’approche courante dite de Fisher
(section 6.5) où H0 représentera une hypothèse simple associée à du bruit, et H1 une hypothèse composite
associée à du signal.
20. dans les notations de la section 6.1, on a W = A1 et W c = A0

100
6. Introduction aux test statistiques

décision (inférence statistique)


H0 vrai H1 vrai
OK erreur de première espèce
H0 vrai
1−α α = Prob(d(D) ∈ W ∣H0 vrai) =
prob. de rejeter H0 à tort
état du monde erreur de seconde espèce OK
H1 vrai
β = Prob(d(D) ∈ W c ∣H1 vrai) = 1−β
prob. d’accepter H0 à tort
TABLE 5.3 – Les erreurs de première espèce et de seconde espèce et leur probabilités α et β

Plus le seuil critique xc est élevé, plus la probabilité d’erreur de première espèce, notée α,
est petite, et plus grande est la probabilité d’erreur de seconde espèce, notée β, est grande
(figure 5.2). Il se trouve que ces quantités peuvent être calculées exactement en fonction
du seuil critique :

X̄ − µ0 xc − µ0
α = P (d(D) ∈ W ∣H0 vrai) = P (X̄ > xc ∣µ = µ0 ) = P ( > )=
√σ √σ
n n
(a) xc − µ0 √ (b) xc − µ0 √
= P (X̄ s > n) = 1 − Φ( n) (5.25)
σ σ
où l’on a utilisé que (a) la moyenne de la variable X̄ vaut µ, et son écart-type √σn , et
que (b), pour n grand, la variable standardisée correspondante X̄ s suit une loi normale
standard N (0, 1). De même,

X̄ − µ1 xc − µ1
β = P (d(D) ∈ W c ∣H1 vrai) = P (X̄ ≤ xc ∣µ = µ1 ) = P ( ≤ )=
√σ √σ
n n
xc − µ1 √ xc − µ1 √
= P (X̄ s ≤ n) = Φ( n) (5.26)
σ σ
En faisant varier xc dans un intervalle suffisamment grand (disons [40, 150] pour cet
exemple), les fonctions α(xc ) et β(xc ) parcourent pratiquement l’entièreté des valeurs
dans l’intervalle unité [0, 1] : les courbes de la figure 5.3, donnant la valeur de 1 − β(xc )
(en ordonnée) en fonction de α(xc ) (en abscisse) selon le seuil critique xc (et selon n),
sont appelée caractéristiques opérationnelles du récepteur (receiver operating charac-
teristic, ou “courbe ROC”).
La quantité α est aussi appelée risque de première espèce ou niveau de signification. Plutôt
que de déterminer α (ou β) en fonction de xc , l’usage consiste à fixer le niveau de signifi-
cation (à, par exemple α = 5% ou α = 1%), et d’en déduire le seuil critique xc . L’équation
(5.25) donne
xc − µ0 √ xc − µ0 √ σ
1 − α = Φ( n) i.e. u1−α = n i.e. xc = µ0 + √ u1−α
σ σ n

et la règle de décision devient


σ
“ on rejette H0 au niveau α si x̄ > µ0 + √ u1−α ”
n
ou encore
x̄ − µ0 √
“ on rejette H0 au niveau α si n > u1−α .” (5.27)
σ
Il faut noter que la validité du test ne dépend pas d’une éventuelle condition de normalité
de la distribution des concentrations dans les échantillons de poissons : dans l’étude citée,

101
6. Introduction aux test statistiques

0.05

0.05
H0 H1 H0 H1
0.04

0.04
densité de probabilité

densité de probabilité
0.03

0.03
0.02

0.02
0.01

0.01
xc=100 xc=92

β=0.266 α=0.030 β=0.052 α=0.191


0.00

0.00
60 70 80 90 100 110 120 130 60 70 80 90 100 110 120 130

x x

F IGURE 5.2 – Test de comparaison de deux moyennes µ0 et µ1 données (exemple 32). La zone de
rejet W de H0 est donnée par x̄ > xc . La surface gris foncé vaut α, et la surface gris claire vaut β.
On a toujours α + β ≤ 1.
1.0
0.8
0.6
1−β
0.4

n=1
n=4
n=9
0.2

n=16
0.0

0.0 0.2 0.4 0.6 0.8 1.0

F IGURE 5.3 – Courbes ROC : comportement de 1 − β(xc ) (en ordonnée) en fonction de α(xc ) (en
abscisse), en faisant varier le seuil critique xc , pour différentes valeurs du nombre n d’observations.
Plus n est grand, plus la courbe se rapproche du point idéal α = β = 0 exempt d’erreurs de première
et de seconde espèce. Inversement, la bissectrice d’équation 1 − β = α, i.e. α + β = 1 correspond à la
situation la plus précaire où, en l’absence de toute donnée, on ne pourrait que choisir au hasard (ou
décider a priori) l’hypothèse H0 ou H1 retenue ; voir exemple 34.

des distributions non normales (telle que la distribution log-normale ou la distribution de


Weibull) se trouvaient de fait mieux modéliser les valeurs de la concentration que la dis-
tribution normale. Rappelons que le recours à la loi normale est ici justifié par le théorème
central limite, qui s’applique à toute série de valeurs indépendantes et identiquement dis-
tribuées, quelle que soit la distribution (de variance finie) en jeu.

6.4 La théorie de la détection du signal (*)


Dans le contexte binaire signal / bruit, les concepts et le formalisme précédents permettent
de caractériser un classificateur (être vivant ou machine) à l’aide de deux nouveaux pa-
ramètres (encore), sa sensitivité ou discriminabilité d′ et son biais ou critère c.
Ces idées, développées en ingénierie et en psychologie dans les années 50-60 forment la
théorie de la détection du signal. Elles ont en particulier fourni un cadre solide aux études
de perception animale ou artificielle, dont la discussion nécessite une brève introduction de
certaines notions de psychométrie.
Avant que n’entre en action la théorie de la détection du signal, l’approche psychométrique
classique visait traditionnellement à déterminer quelle devait être l’intensité minimale

102
6. Introduction aux test statistiques

d’un stimulus pour qu’il soit perçu par un sujet donné (expérience de détection), ou quelle
devait être la différence d’intensité minimale ou JND (just noticeable difference) entre
deux stimuli pour qu’ils puissent être distingués par un sujet donné (expérience de discri-
mination).
Par exemple, la fréquence sonore minimale audible était
typiquement déterminée comme la fréquence du son cor-
rectement identifié comme tel dans le 50% des cas pour un
sujet donné, au cours d’expériences répétées comportant
des stimuli de fréquence variable. Ou bien, la différence
perceptible minimale de salinité entre deux solutions était
déterminée comme la différence produisant une discrimi-
nation effective dans 50% des cas, etc.
C’est dans ce contexte que Weber (1834) a proposé sa fameuse loi, énonçant que, sur une
grande gamme d’intensité, le rapport entre la différence d’intensité minimale ∆I (ou JND)
et l’intensité I du stimulus de référence était constante pour un type de stimulus donné.
En d’autres termes, la loi (approximativement valide pour un grand nombre de types de
stimulus) s’écrit ∆I/I = k, où la constante k ne dépend que du type de stimulus (par
exemple sonore, olfactif, kinesthésique, etc...) : s’il faut une différence minimale de 10
grammes pour qu’un poids soit reconnu comme plus lourd qu’un poids de référence de
100 grammes, alors on peut s’attendre qu’une différence de 2 kilogrammes soit requise
pour discriminer un poids d’un poids de 20 kilogrammes.
Si l’intensité subjective du stimulus est naturellement déterminante dans une expérience
de détection ou de discrimination, d’autres facteurs influencent la réponse du sujet : ses
attentes (par exemple conditionnées par un expérimentateur déclarant que le signal sera
rarement ou fréquemment émis), la consigne (les consignes “ne déclarez avoir perçu un
signal que si vous en être vraiment sûr” ou “surtout, efforcez-vous de ne manquer aucun
signal” produisent des effets opposés) le type d’environnement (le seuil de détection d’un
bruit pendant le sommeil, élevé dans un environnement protégé, peut s’abaisser dans
une situation perçue comme dangereuse), ou la personnalité du sujet (les “enthousiastes”
tendant à reconnaı̂tre la présence du signal beaucoup plus souvent que les “sceptiques”).
Il se trouve que la faiblesse principale de l’approche psychométrique classique, que l’on
vient d’esquisser, réside en son incapacité à séparer ces deux sources de variation, à savoir
le facteur sensoriel (intensité du stimulus), et le facteur non-sensoriel (attitude du sujet) ;
c’est là qu’entrent en jeu les deux paramètres mentionnés ci-dessus.
La théorie de la détection du signal modélise toute situation de détection au moyen d’une
variable X représentant l’intensité de la sensation du sujet. Même dans des conditions
expérimentales contrôlées, les fluctuations de l’environnement et de l’état interne du sujet
rendent les valeurs de X fluctuantes : ces dernières seront alors décrites par une distribu-
tion de probabilité, plutôt qu’une seule valeur.
Dans le formalisme le plus répandu en détection du signal, on postule alors que
● en condition N de (vrai) bruit (noise), X est distribué selon une loi normale de
moyenne µN et de variance σ 2
● en condition SN de (vrai) signal+bruit (signal+noise), X est distribué selon une loi
normale de moyenne µSN et de même variance σ 2 , avec µSN > µN .
Finalement, le sujet “choisit” un seuil critique xc au-delà duquel sa décision sera SN, et N
en deçà, exactement comme en figure 5.2 où la distribution selon H0 (resp. H1 ) corres-
pondrait à celle de X selon la condition N (resp. SN), avec µN = µ0 et µSN = µ1 .
La différence standardisée d′ ∶= (µSN − µN )/σ est d’autant plus grande que le signal est
net : d′ , contrôlé par l’expérimentateur, mesure le facteur sensoriel pur (intensité ou dis-
criminabilité du signal), tandis que xc , ou de façon équivalente c ∶= [xc − 12 (µN + µS )]/σ,
contrôlé par le sujet, mesure le facteur non-sensoriel (attitude ou critère adopté par le
sujet) : c est nul lorsque xc est à mi-distance entre µN et µSN (attitude “neutre”) ; c est

103
6. Introduction aux test statistiques

positif lorsque xc est plus proche de µSN que de µN (attitude “conservatrice”, entraı̂nant
un faible nombre de détections correctes et de fausses alarmes) ; enfin, c est négatif dans
le cas opposé “réactif” (grand nombre de détections correctes et de fausses alarmes).
Pour estimer la discriminabilité d′ et le critère c, on commence par calculer
uSN ∶= (xc − µSN )/σ et uN ∶= (xc − µN )/σ à l’aide des équations suivantes :

X − µSN xc − µSN
P (détection correcte) = P (X ≥ xc ∣µ = µSN ) = P ( ≥ ) = 1 − Φ(uSN ) (5.28)
σ σ
X − µN xc − µN
P (fausse alarme) = P (X ≥ xc ∣µ = µN ) = P ( ≥ ) = 1 − Φ(uN ) (5.29)
σ σ
On obtient alors les valeurs recherchées par
1
d′ = uN − uSN c = (uN + uSN ) (5.30)
2
En termes d’erreurs de première et de seconde espèce, il est facile de montrer que, de
façon équivalente
1
d′ = Φ−1 (1 − α) − Φ−1 (β) c = (Φ−1 (1 − α) + Φ−1 (β)) (5.31)
2
où Φ−1 (γ) = uγ est la fonction inverse de Φ(u), associant à une probabilité γ le quantile
uγ correspondant.
Exemple 33 (Expérience de reconnaissance visuelle). Lors d’une expérience de reconnais-
sance visuelle, une série de 90 photographies distinctes est présentée séquentiellement à
un sujet, à intervalles réguliers. On présente ensuite, dans un ordre aléatoire, une seconde
série de 100 photographies distinctes, contenant 60 photographies de la première série et
40 photographies nouvelles. A chaque fois, le sujet doit déterminer si la photographie lui
a déjà été présentée ou non.
Supposons que le sujet ait produit 40 détections correctes et 20 fausses alarmes. On a
donc P (détection correcte) = 40/60 = 0.66. La table de la loi normale montre que la solution
à Φ(uSN ) = 1 − 0.66 = 0.33 est uSN = −0.41 (en notant que Φ(0.41) = 0.66). De même, on
trouve que Φ(uN ) = 1 − 20/40 = 0.5, et donc uN = 0. On en déduit alors d′ = 0 − (−0.41) =
0.41 et c = 21 (0 + (−0.41)) = −0.205.
Supposons qu’un autre sujet ait obtenu, dans les mêmes conditions, 35 détections correctes
et 15 fausses alarmes. On obtient alors, de la même façon, uSN = −0.21 et uN = 0.32. En
conséquence, on a d′ = 0.53 et c = 0.055 : le second sujet reconnaı̂t mieux les photographies
que le premier (sa discriminabilité d′ est supérieure), tout en étant plus “conservateur”, i.e.
prudent dans l’affirmation “j’ai déjà vu cette photographie” (son critère c est supérieur).

6.4.1 Test entre deux hypothèses simples : quel seuil choisir ? Coûts associés aux risques (*)
On aimerait naturellement minimiser chacun des risques α et β, mais toute modification
du seuil critique xc entraı̂nera forcément une augmentation de l’un des deux risques (et la
diminution de l’autre). La seule façon de diminuer à la fois α et β consiste
√ à augmenter la
taille n de l’échantillon, ce qui a pour effet de diminuer l’écart-type σ/ n des gaussiennes
de la figure 5.2 et de les recentrer autour de leurs moyennes.
Pour n fixé, on pourrait décider de minimiser la probabilité totale d’erreur P erreur (de
première ou de seconde espèce) (5.24), donnée ici par

P (H0 )P (d(D) ∈ W ∣H0 ) + P (H1 )P (d(D) ∈ W c ∣H1 ) = P (H0 ) α(xc )+P (H1 ) β(xc ) (5.32)

Si les priors étaient égaux (i.e. P (H0 ) = P (H1 ) = 0.5), minimiser (5.32) reviendrait alors
à minimiser la somme α + β, ce qui aboutirait ici (figure 5.4 gauche) à choisir le seuil

104
6. Introduction aux test statistiques

1.0

3.0
2.5
0.8

2.0
0.6

α + 3β
α+β

1.5
0.4

1.0
0.2

0.5
0.0

0.0
60 70 80 90 100 110 120 130 60 70 80 90 100 110 120 130

xc xc

F IGURE 5.4 – probabilité totale d’erreur (5.32) en fonction du seuil xc , lorsque P (H0 ) = P (H1 ) =
0.5 (gauche), et lorsque P (H0 ) = 0.25 et P (H1 ) = 0.75 (droite)

xc = 12 (µ0 + µ1 ) = 95 situé à mi-distance entre les deux moyennes. Si H1 était jugé a priori
trois fois plus plausible que H0 (i.e. P (H0 ) = 0.25 et P (H1 ) = 0.75), alors on serait conduit
à minimiser l’expression α + 3β, ce qui aboutirait ici (figure 5.4 droite) à choisir le seuil
xc = 91.46, plus proche de µ0 que de µ1 .
De façon plus générale, en notant par c0 (resp. c1 ) le coût de l’erreur de première (resp.
seconde) espèce, avec un coût nul pour les décisions correctes, le coût moyen (5.23) à
minimiser s’écrit ici
P (H0 ) α(xc ) c0 + P (H1 ) β(xc ) c1 .
Exemple 34 (inférence au hasard). Le cas de la décision au hasard est fort instructif :
Monsieur B, prof. de maths, a malheureusement égaré dans le train des copies d’examen :
les données D ont disparu. Qu’à cela ne tienne, il décide d’attribuer à chaque élève un
résultat “réussite” avec probabilité p, et par conséquent d’attribuer le résultat “échec” avec
probabilité 1 − p. En fixant (arbitrairement, ici) H0 = “réussite” et H1 = “échec”, la pro-
babilité α de rejeter H0 à tort est celle de faire échouer un élève qui aurait dû réussir,
événement qui se produit ici (quelle qu’ait été la performance réelle de l’élève) avec la
probabilité 1 − p. Ainsi, α = 1 − p, et par un raisonnement similaire, β = p. On peut noter
que, quelle que soit la valeur de p, on a que α + β = (1 − p) + p = 1 : il s’agit de la bissectrice
du premier quadrant de la figure 5.3, qui est parcourue en faisant varier p.

6.5 Approches de Neyman-Pearson et de Fisher

Exemple 35 (Concentration de zinc dans les harengs, suite). Supposons que, dans le
cadre de l’exemple 32, les deux hypothèses en concurrence soient

H0 ∶ µ = µ0
{
H1 ∶ µ > µ0

avec µ0 = 85 et σ = 24. En se référant à la figure 5.2, H0 serait toujours bien définie par
la gaussienne correspondante, tandis que H1 serait représentée par l’ensemble de toutes les
gaussiennes de même forme (puisque σ ne change pas) situées à droite de H0 : autrement
dit, on pourrait toujours calculer α à partir de xc par (5.25), mais on ne pourrait plus
calculer β puisque µ1 est inconnu : tout ce que l’on sait est que µ1 > µ0 .

Dans ce nouvel exemple, H0 est une hypothèse dite simple, i.e. correspondant à une
seule distribution théorique, contrairement à H1 , qui est alors dit composite. On peut
considérer une hypothèse composite comme un agrégat, un collectif ou une famille d’hy-
pothèses simples. Par exemple :

105
6. Introduction aux test statistiques

● L’énoncé “X suit une loi normale de moyenne 2 et de variance 3” (i.e. “X ∼


N (2, 3)”) constitue un modèle probabiliste simple.
● A un énoncé déterministe tel que “l’avion décolle à 15h30” correspond une seule
distribution de probabilité f (x) pour X = “heure de décollage”, à savoir la distribu-
tion de Dirac X ∼ δ15h30 concentrée au temps x = 15h30 : tout modèle déterministe
est simple.
● L’énoncé “X suit une loi normale de moyenne 4” est un modèle probabiliste com-
posite : la variance étant inconnue, ce modèle est constitué de la famille de tous les
modèles N (4, σ 2 ) avec σ 2 > 0. Les énoncés “X suit une loi normale” et “X suit une
loi normale de variance 1” sont également composites.
● “Ce dé est équilibré” est un modèle probabiliste simple : la fréquence théorique
d’apparition des faces est uniforme, ce qui correspond à une seule distribution ; de
plus, l’indépendance entre lancers successifs y est sous-entendue, ce qui définit une
seule distribution dans le cas de séquences de lancers. Par contre, “Ce dé n’est pas
équilibré” est un énoncé probabiliste composite : il existe en effet une infinité de
distributions de probabilité qui diffèrent de la distribution uniforme.
● “Je prendrai l’Intercity de 19h02” est un énoncé déterministe simple ; “Je prendrai
l’Intercity de 19h02 ou celui de 20h02”, ou “Je ne prendrai pas l’Intercity de 19h02”
sont des énoncés composites.
La probabilité d’obtenir 3 “pile” en trois lancers d’une pièce équilibrée est de 1/23 = 0.125 ;
pour une pièce non équilibrée, et sans autre information, la probabilité correspondante
n’est par contre pas définie.
L’idée que toute théorie H (déterministe ou probabiliste) ne puisse être que réfutée, mais
non pas prouvée, ne s’applique qu’aux hypothèses simples H. En effet, dans ce cas, la
théorie complémentaire H c (“non-H”) est composite, et si l’on pouvait réfuter H c on au-
rait du même coup établi la vérité de H, contredisant ainsi le paradigme de la réfutabilité.
L’exemple 32 illustrait l’approche dite de Neyman-Pearson, qui consiste à tester entre deux
valeurs possibles θ0 et θ1 d’un paramètre théorique θ

H0 ∶ θ = θ0
{
H1 ∶ θ = θ1

et donc à tester entre deux hypothèses simples. Par contraste, l’exemple 35 relève de
l’approche dite de Fisher teste entre une hypothèse simple H0 et une hypothèse composite
H1 , et il en existe en général trois variantes :

unilatérale H ∶ θ = θ0 unilatérale H ∶ θ = θ0 H0 ∶ θ = θ0
{ 0 { 0 bilatérale : {
“à droite” : H1 ∶ θ > θ0 “à gauche” : H1 ∶ θ < θ0 H1 ∶ θ ≠ θ0

La règle de décision de la première variante (unilatérale “à droite”) est (comparer avec
(5.27)) :
“ on rejette H0 au niveau α si d(D) > x1−α ” (5.33)

où d(D) est la variable de décision et x1−α le (1−α)-ème quantile de la distribution sta-
tistique à utiliser dans le test (voir figure 5.5). Tant d(D) que x1−α sont spécifiés, pour
chaque test usuel, dans les formulaires statistiques, auxquels l’utilisateur doit simplement
√ H0 ∶ µ = µ0 contre H1 ∶ µ > µ0 , on a vu
se référer. Par exemple, pour le test de la moyenne
en (5.27) que l’on devait prendre d(D) = x̄−µ σ
0
n et x1−α = u1−α , le (1−α)-ème quantile de
la distribution normale standard.
La règle de décision de la seconde variante (unilatérale “à gauche”) est (figure 5.5) :

“ on rejette H0 au niveau α si d(D) < −x1−α ” ou, de façon équivalente “ si −d(D) > x1−α ” (5.34)

106
6. Introduction aux test statistiques

H0 H0 H0
0.3

0.3

0.3
densité de probabilité

densité de probabilité

densité de probabilité
0.2

0.2

0.2
0.1

0.1

0.1
α α
α=0.10 = 0.05 = 0.05 α=0.10
2 2
0.0

0.0

0.0
-6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6
d (D ) d (D ) d (D )

F IGURE 5.5 – Procédure générale pour le test d’une hypothèse simple H0 , lorsque la distribution
de la variable de décision d(D) sous H0 est symétrique et centrée autour de zéro : test unilatéral à
droite, test bilatéral, et test unilatéral à gauche. On a pris ici α = 10% et une variable de décision
d(D) suivant sous H0 une distribution de Student à 3 degrés de liberté.

Finalement, la règle de décision de la seconde variante (bilatérale) est (figure 5.5) :

“ on rejette H0 au niveau α si ∣d(D)∣ < x1− α2 ” (5.35)

Ces trois variantes sont présentes lorsque la variable de décision d(D) peut prendre des
valeurs tant positives que négatives, et que la distribution de d(D) sous H0 ∶ θ = θ0 est
symétrique, comme dans la figure 5.5, et centrée autour de zéro, la dernière condition
pouvant être imposée en redéfinissant au besoin la variable de décision.
Lorsqu’un chercheur cherche à rejeter H0 , il doit généralement appliquer la version bi-
latérale du test : dans ce cas l’hypothèse alternative H1 ∶ θ ≠ θ0 couvre en effet tous les
cas complémentaires à H0 , alors que dans les versions uni-latérales une des possibilités (à
savoir θ < θ0 dans la version à droite, et θ < θ0 dans la version à gauche) est simplement
exclue dès le départ, et ne pourra ainsi jamais être identifiée si d’aventure elle était vraie 21 .
L’inconvénient du choix bilatéral réside dans le fait que le seuil critique sera alors plus
difficile à dépasser que dans la version unilatérale (car x1− α2 > x1−α ) : on peut facilement
donner des exemples où, pour une valeur de α donnée, d(D) est significative (i.e. conduit
au rejet de H0 ) dans l’une des versions unilatérales, mais pas dans la version bilatérale.
Ce n’est que si l’on a de bonnes raisons de croire que l’une des deux alternatives θ > θ0
ou θ < θ0 peut être a priori écartée qu’il est légitime d’utiliser un test unilatéral. Cela sera
par exemple le cas du test de la différence de salaire moyen entre hommes et femmes en
Suisse au début du XXIème siècle : cette différence pourra être nulle (pas de différence :
c’est H0 ), positive (salaires masculins supérieurs aux salaires féminins : c’est H1 dans
sa version unilatérale à droite), mais non pas négative (les nombreuses études passées
n’ayant semble-t-il jamais documenté un tel cas).

6.5.1 Le cas des variables de décision positives


Il est fréquent que la variable de décision d(D) soit intrinsèquement positive par construc-
tion, comme en figure 5.6, ruinant ainsi la symétrie de la distribution observée dans la
figure 5.5. Dans ce cas, il n’y a plus de variante uni- ou bilatérale, et la règle de décision,
conduisant au rejet de H0 pour d(D) grand, est simplement

“ on rejette H0 au niveau α si d(D) > x1−α ” (5.36)

qui est identique à (5.33).


Parmi les fonctions classiques de distribution de d(D) (sous H0 ) utilisées dans les tests de
base, il faut citer
21. on parle alors parfois d’erreur de troisième espèce

107
6. Introduction aux test statistiques

H0

0.20
densité de probabilité
0.15
0.10
0.05
0.00
0 5 10 15 20
d (D )

F IGURE 5.6 – Procédure générale pour le test d’une hypothèse simple H0 , lorsque la distribution
de la variable de décision d(D) sous H0 est asymétrique et restreinte à d(D) ≥ 0, des valeurs trop
élevées de d(D) conduisant au rejet de H0 . Le début des zones grisées correspond au quantiles
x0.90 (α = 10%, zone gris clair), x0.95 (α = 5%, zone gris foncé) et x0.99 (α = 1%, zone noire). La
distribution choisie ici est celle du χ2 à 3 degrés de liberté.

● la distribution normale standard N (0, 1), et la distribution du t[q] à q degrés de


liberté : ces distributions sont symétriques autour de l’origine, et les tests correspon-
dants admettent des variantes uni- et bilatérale.
● la distribution du χ2 [q] à q degrés de liberté, et la distribution du F [q1 , q2 ] à q1 et
q2 degrés de liberté : ces distributions sont asymétriques et restreintes aux valeurs
positives d(D) ; les tests correspondants n’admettent que la version (5.36).

6.5.2 Niveaux de signification a priori (α) et a posteriori (valeur p)


Considérons la règle de décision (5.33) ou (5.36). Dans la pratique de l’époque “pré-
numérique” couvrant la plus grande partie du XXème siècle, le chercheur fixe lui-même, a
priori 22 , le niveau de signification α qu’il juge acceptable 23 , calcule la variable de décision
d(D) telle qu’indiquée dans les formulaires statistiques, et lit dans les tables statistiques la
valeur de x1−α . Si d(D) > x1−α , le chercheur rejette alors H0 , et d(D) est dit significative.
Sinon, le chercheur ne rejette pas H0 , et d(D) est dit non significative (n.s.).
Ainsi, toute la longue discussion sur les fondements épistémologiques des tests d’hy-
pothèse se résume, d’un point de vue pratique, à vérifier une inégalité du type d(D) > x1−α ,
où la variable de décision d(D) résume tout ce qu’il est pertinent de retenir de l’échantillon
D pour effectuer le test en considération.
Pour une variable de décision d donnée, il existe en général une seule valeur p ∈ (0, 1) telle
que
d(D) = x1−p (5.37)
Cette valeur, qui dépend de d et donc de l’échantillon D, est appelée valeur p (p-value).
Cette valeur p(D) est systématiquement fournie par les logiciels statistiques dédiés, et,
dans la pratique courante actuelle, on peut se passer complètement des formulaires et
tables statistiques en replaçant la règle de décision (5.33) par la règle équivalente

“ on rejette H0 au niveau α si p(D) < α” (5.38)

L’équivalence entre (5.33) et (5.38) est facile à établir : comme d(D) = x1−p(D) par
définition, et que la quantité x1−α est décroissante en α, on a résultat que d(D) > x1−α ssi
p(D) < α (rejet de H0 ), et d(D) < x1−α ssi p(D) > α (non rejet de H0 ).
Autrement dit, la valeur p est le niveau de signification minimal auquel on puisse encore
rejeter H0 . Si p = 2% par exemple, on peut rejeter H0 à α = 5% mais non à α = 1%.
22. i.e. avant d’observer les données, c’est évidemment crucial
23. comme par exemple les valeurs courantes, mais parfaitement arbitraires α = 5% ou α = 1%, ou bien
d’autres valeurs

108
6. Introduction aux test statistiques

La valeur α, fixée par le chercheur, fixe a priori le risque maximal de commettre une erreur
de première espèce (i.e. rejeter H0 à tort), tandis que la valeur p(D) calculée par le logiciel
ou lue sur une table détaillée, donne le risque exact de commettre une erreur de première
espèce en présence de l’échantillon particulier D plutôt qu’un autre. Pour cette raison,
la valeur p est aussi appelée niveau de signification a posteriori, tandis que α serait par
contraste le niveau de signification a priori.
Finalement, on peut considérer le niveau de signification α comme la probabilité a priori
de commettre une erreur de première espèce, i.e. après avoir défini une règle de décision,
mais avant d’avoir constitué un échantillon D. Par contraste, la valeur p est, dans le cas de
rejet de H0 (i.e. lorsque p(D) < α), la probabilité a posteriori de commettre une erreur de
première espèce, i.e. après avoir obtenu l’échantillon particulier D plutôt qu’un autre.

6.6 Test d’une seule hypothèse simple : quel seuil choisir ?


Il est facile, et même trop facile de trouver des patterns (structures particulières, rela-
tions entre variables, etc.) dans un jeu de données, et toute la question est de disposer
d’un guide permettant de déterminer si tel pattern doit être considéré comme significa-
tif (décision : “signal”), i.e. doté d’une réelle existence, pas seulement dans l’échantillon
examiné, mais aussi dans la population elle-même dont il est extrait, ou au contraire si ce
pattern est non significatif (décision : “bruit”), i.e. le fait d’une coı̈ncidence fortuite, d’une
contingence aléatoire qui aurait toutes les chances de ne pas se produire dans un autre
échantillon récolté d’une façon analogue.
C’est précisément pour répondre à la question “le pattern observé est-il significatif ou non ?”
qu’a été développée toute la machinerie exposée ici : l’hypothèse nulle H0 correspond à
un modèle de pur hasard, d’indépendance complète, d’absence de différence ou de struc-
ture particulière, etc., et croire en H0 revient à croire que le pattern observé n’est pas
significatif, tandis que le rejet de H0 équivaut à déclarer le pattern significatif.
Dans la règle de décision (5.33) ou (5.36), une valeur élevée de α entraı̂ne un seuil critique
x1−α faible, et donc un rejet facile de H0 : les patterns sont facilement déclarés significatifs.
A l’inverse, une valeur faible de α entraı̂ne un seuil critique x1−α élevé, et donc un rejet
difficile de H0 : les patterns sont difficilement déclarés significatifs.
Une erreur de première espèce (rejeter H0 à tort) revient ici à déclarer significatif un
pattern qui ne serait qu’une simple coı̈ncidence aléatoire, i.e. à prendre du bruit pour un
signal. Si l’on veut minimiser ce risque, il suffit de poser α = 0, générant un seuil x1.0 =
∞ infini : tout pattern, même le plus massif et intéressant, sera alors considéré comme
du simple bruit, comme une simple coı̈ncidence, et par là-même indigne d’être étudié
davantage : beaucoup d’occasions potentielles perdues pour la recherche scientifique !
A l’inverse, une valeur trop élevée de α aboutit à déclarer trop facilement significatif un
pattern qui n’est qu’une coı̈ncidence propre à cet échantillon-ci, et à s’embarquer et s’en-
combrer dans l’étude vaine de “faux positifs”. En conclusion, α ne devrait être ni trop
grand, ni trop petit, mais il est difficile d’être plus précis de façon générale, à moins de
considérer les risques existentiels (coûts) associés aux erreurs des deux types 24 .
Le seuil α = 5% (qui revient à tolérer un risque de fausse alarme une fois sur vingt) est
très courant, mais il s’agit d’une pure convention, certes largement partagée : α = 4% ou
α = 5.31% seraient tout aussi justifiables... Le seuil α = 1% (tolérer un risque de fausse
alarme une fois sur cent) est aussi fréquemment rencontré.

24. coût proche de zéro, avouons-le, dans le cadre d’un travail purement méthodologique de BA ou de MA.
Pour une publication purement académique ne débouchant sur aucune action directe dans le monde, le seul coût
(qui peut être par ailleurs considérable) est celui associé à la réputation du chercheur.

109
6 Exercices corrigés

Série 1

Sujets : rappels mathématiques, notations, ensembles, fonctions, loga-


rithmes, combinatoire, diagrammes de Venn, probabilités, règle de Bayes

Exercice 1.1
Donner les coordonnées de l’intersection des fonctions f1 (x) = 3x − 2 et f2 (x) = 2x − 2.

Exercice 1.2
Soient x = 2 et y = 4. Calculer 1 :
1. log2 (x) et log2 (y) ;
2. log2 (xy), log2 ( xy ) et log2 ( xy ) ;
3. log2 (xy ) et log2 (y x ) ;
y x
4. log2 ( xyx xy y ).

Exercice 1.3
Soient x1 = 2, x2 = 6, x3 = −1, x4 = 1 et x5 = −2. Calculer :
1. ∑5i=1 xi
2. ∑5i=1 2xi
3. ∑5i=1 xi
2
4. ∑5i=1 log2 (xi )
5. ∑5i=2 i⋅ xi

Exercice 1.4
1. Combien y a-t-il de classements possibles (i.e. de permutations) de 10 artistes dans
un Top 10 ?
2. Combien y a-t-il de manières de classer 6 femmes et 4 hommes dans un Top 10 (sans
distinguer les individus) ?

Exercice 1.5
Représenter chacun des ensembles suivants par un diagramme de Venn :
1. A ∪ (B ∩ C)
2. (A ∪ B) ∩ C
3. (A ∪ B) ∩ C c
4. (A ∪ B)c /C c
1. Rappel : log2 (x) = ln(x)/ ln(2).

110
5. (A/(B ∩ C))c
6. ((A △ B) △ C)c

Exercice 1.6
Soit un jeu de 36 cartes mélangé. Calculer la probabilité de tirer :
1. le 7 de carreau ;
2. un 7 ;
3. un carreau ;
4. le 7 de carreau ou le valet de trèfle ;
5. un 7 ou un valet ;
6. un carreau ou un trèfle.

Exercice 1.7
D’après les résultats de l’exercice précédent,
1. montrer que les événements “tirer un 7” et “tirer un carreau” sont indépendants ;
2. sachant qu’on a tiré un carreau, calculer la probabilité conditionnelle qu’il s’agisse
d’un 7 ;
3. sachant qu’on a tiré un 7, calculer la probabilité conditionnelle qu’il s’agisse d’un
carreau.

Exercice 1.8
Un athlète tente un salto arrière (saut périlleux), mais y échoue malheureusement, et
chute lourdement au sol. Calculer la probabilité que cet accident indique que l’athlète
n’était pas entraı̂né au salto (arrière), sachant que :
● la probabilité qu’un athlète échoue au salto est de 1/3
● la probabilité qu’un athlète ne soit pas entraı̂né au salto est de 1/3
● la probabilité qu’un salto échoue lorsque l’athlète n’y est pas entraı̂né est de 3/4.

Exercice 1.9
Sur une population donnée, nous connaissons l’étendue d’une maladie et la fiabilité d’un
test de dépistage de cette maladie. Soient les événements suivants :
A : “ le test est positif”
M : “l’individu testé est malade”
On sait que P (M ) = 20 1
, P (A∣M ) = 20
19
et P (Ac ∣M c ) = 100
99
.
1. Décrire en français les événements dont les probabilités sont données ci-dessus.
2. Quelle est la probabilité qu’un individu choisi au hasard soit malade sachant qu’il a
réagi positivement au test ?

Exercices supplémentaires (*)


Exercice 1.10
Prouver les affirmations (a–h) de la section 6.4.

Exercice 1.11
Etant donné x1 = 2, x2 = −1, x3 = −1, x4 = 4, x5 = 1 calculer :
(a) ∑5i=1 xi (b) ∑4i=0 xi+1 (c) ∑5i=1 x2i
(d) ∑5i=1 (xi + 1) (e) ∑4i=1 xxi+1
i
(f) 15 ∑5i=1 x3i

Exercice 1.12
1. Calculer : (a) 4! (b) (43) (c) (53)
2. Montrer que 25 (43) = (53)

111
(n+1) n
3. Montrer que ( )
(n+1−k) k
= (n+1
k
)

Exercice 1.13
Vrai ou faux ?
(a) {x ∣ x =/ x} = ∅.
(b) Si A = {x ∣ x est un entier impair} et B = {x ∣ (x − 3)(x − 5) = 0} alors B ⊂ A.
(c) Si A = {x ∣ x2 = 4, x > 9} et B = {x ∣ x ≥ 1}, alors A ⊂ B

Exercice 1.14
On tire au hasard une carte dans un paquet de 52 cartes à jouer.
1. Décrire l’univers Ω lié à cette expérience aléatoire.
2. Considérons les événements A et B correspondants respectivement au tirage d’un
roi et au tirage d’un trèfle. Décrire en français les événements suivants : A ∩ B ,
A ∪ B , A ∩ B c , Ac ∩ B c , A ∖ B , (A ∩ B) ∪ (A ∩ B c ).
3. Calculer les probabilités liées aux 8 événements définis ci-dessus.
4. Les événements A et B sont-ils indépendants ? Vérifiez votre réponse par le calcul.

Exercice 1.15
Les trois informations suivantes sur les événements A et B sont-elles simultanément com-
patibles ? Justifier votre réponse.
1. P (A) = 13 et P (B) = 14 .
2. A et B sont disjoints.
3. A et B sont indépendants.

Exercice 1.16
Trois événements A, B et C sont dits indépendants s’ils satisfont les quatre conditions sui-
vantes :
P (A ∩ B) = P (A) ⋅ P (B)
P (A ∩ C) = P (A) ⋅ P (C)
P (B ∩ C) = P (B) ⋅ P (C)
P (A ∩ B ∩ C) = P (A) ⋅ P (B) ⋅ P (C)
On va montrer sur l’exemple suivant que les trois premières relations peuvent être sa-
tisfaites sans que la quatrième le soit, ce qui signifie que l’indépendance deux à deux
n’implique pas l’indépendance de trois événements :
Considérons l’expérience aléatoire consistant à lancer deux pièces équilibrées distinguables
ainsi que les événements suivants :
A : “la première pièce présente le côté face.
B : “la deuxième pièce présente le côté pile”.
C : “les deux pièces présentent soit les deux le côté face, soit les deux le côté pile”.
Montrer que les événements A, B et C sont indépendants deux à deux, mais ne sont pas
indépendants.

Exercice 1.17
Une urne contient 2 boules marquées d’un “A”, une boule marquée d’un “B” et une boule
marquée d’un “C”. Les 4 boules sont tirées successivement au hasard et sans remise.
Quelles sont les probabilités liées aux événements suivants :
La suite des lettres commence par : i) “A” ; ii) “B” ; iii) “C” ; iv) “AA” ; v) “AB” vi) “ABA”

Corrigé de la série 1
Exercice 1.1
Les coordonnées de l’intersection sont (0, −2).

112
Exercice 1.2
Avec x = 2 et y = 4, on trouve :
1. log2 (x) = 1 et log2 (y) = 2
2. log2 (xy) = 3, log2 ( xy ) = −1 et log2 ( xy ) = 1
3. log2 (xy ) = 4 et log2 (y x ) = 4
y x
4. log2 ( xyx xy y ) = log2 (1) = 0

Exercice 1.3
Avec x1 = 2, x2 = 6, x3 = −1, x4 = 1 et x5 = −2, on trouve :
1. ∑5i=1 xi = 6
2. ∑5i=1 2xi = 12
3. ∑5i=1 xi
2
=3
∑i=1 log2 (xi ) n’est pas défini, car log2 (xi ) n’est pas défini pour les arguments négatifs
5
4.
x3 et x5
5. ∑5i=2 i⋅ xi = 3

Exercice 1.4
1. 10! = 3′ 628′ 800
2. (10
6
)= 10!
4!6!
= 10⋅9⋅8⋅7
4!
= 210

Exercice 1.5

Exercice 1.4
1. 2.
A B A B

C C

3. 4.
A B A B

C C

5. 6.
A B A B

C C

Exercice 1.6
En tirant une carte dans un jeu de 36 cartes mélangé,
1. P ( 7 ∩ carreau ) = 1/36
2. P ( 7 ) = 1/9
3. P ( carreau ) = 1/4
4. P ( (7 ∩ carreau) ∪ (valet ∩ trèfle) ) = 1/18
5. P ( 7 ∪ valet ) = 2/9
6. P ( carreau ∪ trèfle ) = 1/2

113
Exercice 1.7
D’après les résultats de l’exercice précédent,
1. les événements 7 et carreau sont indépendants car on a P (7 ∩ carreau) = 1/36,
P (7) = 1/9 et P (carreau) = 1/4, et donc P (7 ∩ carreau) = P (7) ⋅ P (carreau)
2. P (7∣carreau) = P (P7(carreau
∩ carreau)
)
= 1/36
1/4
= 1/9. Plus simplement encore, en tenant
compte de l’indépendance : P (7∣carreau) = P (7) = 1/9.
3. P (carreau∣7) = P (carreau) = 1/4.

Exercice 1.8
On pose :
● A = “échouer au salto” ;
● B = “ne pas être entraı̂né au salto”.
On sait que P (A) = 1/3, P (B) = 1/3 et P (A∣B) = 3/4. Par la règle de Bayes, on trouve la
solution recherchée P (B∣A) = P (A∣B)P
P (A)
(B)
= (3/4)⋅(1/3)
1/3
= 3/4.

Exercice 1.9
1. A ∣ M : “un individu qui est malade réagit positivement au test”
Ac ∣ M c : “un individu qui n’est pas malade réagit négativement au test”.
P (A) dénote la proportion de malades dans la population, P (A∣M ) la propor-
tion d’individus positifs parmi les malades, et P (Ac ∣M c ) la proportion d’individus
négatifs parmi les non malades.
2. Par la formule de la probabilité totale,
19 1 1 19 57
P (A) = P (A ∣ M ) ⋅ P (M ) + P (A ∣ M c ) ⋅ P (M c ) = + =
20 20 100 20 1000
et ainsi
19 1
P (M ∩ A) P (A ∣ M ) ⋅ P (M ) 5
P (M ∣ A) = = = 20 20
= = 0.83
P (A) P (A) 57
1000
6

Corrigés supplémentaires (*)


Exercice 1.10
a) P (B∣Ω) = P P(B∩Ω)
(Ω)
= P (B)
1
= P (B) : toute probabilité “non conditionnelle” telle
que P (B) peut s’exprimer comme la probabilité conditionnelle de B étant donné
l’événement certain Ω .
b) P (B∣A) = P (B) ssi P (B ∩ A) = P (B)P (A), i.e. ssi A et B sont indépendants :
deux événements sont indépendants ssi la probabilité que l’un se produise n’est pas
affectée par la connaissance que l’autre se produise ou non. De même, P (B∣A) >
P (B) ssi A et B sont en attraction, et P (B∣A) < P (B) ssi A et B sont en répulsion.
c) P (B∣B) = P P(B∩B)
(B)
=P (B)
P (B)
= 1 : la probabilité que B se réalise sachant qu’il se réalise
est de 1. L’évidence intuitive de ce résultat peut être moquée comme rhétorique
stérile ; elle peut aussi être saluée comme lieu d’harmonie entre un formalisme et
notre intuition – un accord plus rare qu’il n’y paraı̂t (cf. paradoxes, biais, et autres
fallacies).
d) de même, P (B∣B̄) = P P(B∩ B̄)
(B)
(∅)
= PP (B) = 0
P (B)
= 0 : la probabilité que B se réalise
sachant qu’il ne se réalise pas est de 0 .
e) P (B∣∅) = P P(B∩∅)
(∅)
= PP (∅)
(∅)
= 00 = indéterminé : la probabilité que B se réalise sa-
chant que l’“impossible s’est produit” ne peut pas être déterminée. Là aussi, toute
autre réponse que “indéterminé” aurait heurté notre intuition : si l’impossible s’est
produit, il faut se taire à jamais – ou réévaluer cet impossible comme finalement
possible, et modifier en conséquence les probabilités de toutes nos évaluations.

114
f) L’identité P (B) = P (B∣A)P (A)+P (B∣Ā)P (Ā), facile à démonter, est toujours vérifiée,
quels que soient A et B. Elle peut être illustrée par le schéma en arbre de la figure
(1.3).
g) Plus généralement, étant donnée une partition A = {Aj }m
j=1 (définition 5.3), on a
toujours
m
P (B) = ∑ P (Aj )P (B∣Aj )
j=1

car la réalisation de B a lieu en même temps que la réalisation de l’un (et l’un seul)
des Aj (propriété d’exhaustivité et d’exclusivité), ce que l’on illustre facilement par
un schéma en arbre.
h)
P (A ∩ B) P (A ∩ B) P (A) P (A)
P (A∣B) = = = P (B∣A)
P (B) P (A) P (B) P (B)

Exercice 1.11
5
(a) ∑ xi = x1 + x2 + x3 + x4 + x5 = 2 + (−1) + (−1) + 4 + 1 = 5
i=1
4
(b) ∑ xi+1 = x0+1 + x1+1 + x2+1 + x3+1 + x4+1 = x1 + x2 + x3 + x4 + x5 = 5
i=0
5
∑ xi = x1 + x2 + x3 + x4 + x5 = 4 + 1 + 1 + 16 + 1 = 23
2 2 2 2 2 2
(c)
i=1
5
(d) ∑(xi + 1) = 3 + 0 + 0 + 5 + 2 = 10
i=1
4
xi x1 x2 x3 x4 2 −1 −1 4
(e) ∑ = + + + = + + + = −2 + 1 − 0.25 + 4 = 2.75
i=1 xi+1 x2 x3 x4 x5 −1 −1 4 1
1 5 3 1 1
(f) ∑ x = (8 − 1 − 1 + 64 + 1) = × 71 = 14.2
5 i=1 i 5 5

Exercice 1.12
En utilisant la formule (n + 1)! = (n + 1) × n! et (n − k + 1)! = (n − k + 1) × (n − k)! on obtient
les résultats suivants :
1. (a) 4! = 4 × 3 × 2 × 1 = 2 (b) (43) = 4!
3!×1!
= 4×3×2×1
3×2×1
=4
(c) (3) = 3!×2!
5 5!
= (3×2×1)×(2×1)
5×4×3×2×1
= 10
2. ( ) = 25 × 3!×1!
5 4
2 3
4!
= 3!×2!
5!
= (53)
(n+1) n (n+1) (n+1)!
3. ( ) = (n+1−k)
(n+1−k) k
× (n−k)!×k!
n!
= (n−k+1)!×k!
= (n+1
k
)

Exercice 1.13
(a) Vrai.
(b) Vrai, car A = {1, 3, 5, 7, . . .} et B = {3, 5} ; ainsi B ⊂ A.
(c) Vrai, car A = ∅ et B = {1, 2, 3, 4, . . .} ; ainsi A ⊂ B.

Exercice 1.14
1. En affectant respectivement aux rangs coeur, pique, carreau, trèfle les numéros 1,
2, 3, 4 et aux cartes de chaque rang, de l’as au roi, les numéros 1 à 13, on obtient
l’univers Ω = {(1, 1), (1, 2), ⋯, (1, 13), ⋯, (4, 13)}, avec ∣Ω∣ = 52.
2. a) A ∩ B : “roi de trèfle”
b) A ∪ B : “roi ou trèfle (ou les deux)”
c) A ∩ B c : “roi et non-trèfle”
d) Ac ∩ B c : “ni roi ni trèfle”

115
e) A ∖ B : “roi, sauf celui de trèfle”
f) (A ∩ B) ∪ (A ∩ B c ) : “roi de trèfle ou de non-trèfle”, i.e. “roi”.
3. A = {(1, 13), (2, 13), (3, 13), (4, 13)} donc P (A) = 524
= 13
1

B = {(4, 1), ⋯, (4, 13)} donc P (B) = 52 = 4


13 1

A ∩ B = {(4, 13)} donc P (A ∩ B) = 52 1

L’événement A ∪ B contient 4 + 13 − 1 = 16 éléments, donc P (A ∪ B) = 16


52
= 4
13
A ∩ B c = {(1, 13), (2, 13), (3, 13)} donc P (A ∩ B c ) = 52
3

Ac ∩ B c = (A ∪ B)c donc P (Ac ∩ B c ) = 52−16


52
= 13
9

A ∖ B = A ∩ B donc P (A ∖ B) = 52
c 3

(A ∩ B) ∪ (A ∩ B c ) = A donc P ( (A ∩ B) ∪ (A ∩ B c ) ) = 13 1

4. Oui (c’est assez intuitif). Le calcul donne P (A ∩ B) = 1


52
= 1
13
⋅ 1
4
= P (A) ⋅ P (B)

Exercice 1.15
Elles ne sont pas simultanément compatibles, car, comme A et B sont disjoints, P (A ∩ B) =
P (∅) = 0 ; mais si A et B sont indépendants, P (A ∩ B) = P (A) ⋅ P (B) = 13 ⋅ 41 = 12
1
=/ 0 , d’où
contradiction.

Exercice 1.16
Un calcul simple donne : P (A) = P (B) = P (C) = 12
P (A ∩ B) = P (B ∩ C) = P (A ∩ C) = 41
P (A ∩ B ∩ C) = 0
Les trois premières relations de la définition sont donc vérifiées sans que la quatrième ne
le soit.

Exercice 1.17
L’univers associé au tirage sans remise est constitué de 12 événements (de même proba-
bilité), à savoir
Ω = {AABC, AACB, ABAC, ACAB, ABCA, ACBA, BAAC, CAAB, BACA, CABA, BCAA, CBAA}

En notant par {A...} l’événement “la suite des lettres commence par “A”, etc., on a ainsi
P ({A...}) = 12 , P ({B...}) = 14 , P ({C...}) = 14 , P ({AA..}) = 16 , P ({AB..}) = 16 ,
P ({ABA.}) = 121

Une autre méthode (plus directe) consiste à examiner le schéma en arbre généré par les
tirages, le premier embranchement correspondant au tirage de la première boule, etc...
Par exemple, P (AB) = P (première = A)P (seconde = B∣première = A) = 12 31 = 16 .

116
Série 2

Série 2

Sujets : types de variables, indicateurs de tendance centrale et de dis-


persion, fonctions indicatrices, fonction de répartition, quantiles, his-
togrammes, barplots et boxplots, diagrammes de dispersion, tables de
contingence.

Exercice 2.1
Un score est la valeur prise par une variable sur un individu. Pour chacun des scores sui-
vants, donner (parmi de nombreuses solutions en général) le type de la variable, des va-
leurs possibles de scores, et un échantillon (= ensemble d’individus) possible.
Par exemple : “La couleur d’un véhicule” est un score de type catégoriel ; les scores pos-
sibles sont “rouge”, “blanc”, “vert”, etc. Ils réfèrent à un échantillon de véhicules tel que
“véhicules circulant entre le 1.9.2014 et le 1.10.2014 dans le canton de Vaud”, “véhicules
hybrides danois mis en circulation en 2010”, etc. Hi
1. La commune de domicile,
2. Le nombre de passagers d’un train,
3. La durée d’un voyage en train Genève-Berne,
4. Les numéros postaux des localités suisses,
5. Le nombre de pattes des animaux domestiques d’un appartement,
6. La corpulence des passagers d’un ferry
7. La saveur des bonbons d’un kiosque,
8. Le maximum annuel, en Suisse, depuis 1830, des températures journalières moyennes,
9. Les millésimes des bouteilles d’une cave de restaurant
10. La qualité de l’équipe de football nationale.

Exercice 2.2
Lors d’un sondage concernant l’élection de 3 candidats (A, B et C), 20 personnes ont
été interrogées. Le tableau des données ci-après contient les scores des variables x =
“intention de vote”, y = “sexe”, z= “âge”, w = “revenu annuel” (en milliers de francs).
1. Décrire le type des variables en jeu et leurs scores possibles.
2. Faire un diagramme en bâtonnets pour x.
3. Faire un histogramme pour z (avec une largeur de classe de 10 ans).
4. Faire un diagramme de dispersion z (en abscisse) et w (en ordonnée)
5. Faire une table de contingence pour y (en lignes) fois x (en colonnes).

117
Série 2

x y z w
1 A F 20 17
2 B H 35 49
3 B H 27 55
4 B F 39 18
5 B F 29 32
6 A F 45 69
7 C H 31 45
8 A F 45 97
9 B H 47 81
10 C F 50 30
11 B F 20 30
12 C F 32 48
13 C F 50 110
14 C H 27 72
15 B F 63 83
16 A H 60 57
17 C H 76 73
18 B F 29 86
19 B F 43 80
20 A H 83 50

Exercice 2.3
Voici les meilleurs temps (données brutes, format [min: sec]) effectués aux 29 courses
internationales d’escargot de 1997 à 2003 (règlement de la course et palmarès obtenus en
2004 du site http ://www.schnecken.ch – aujourd’hui disparu).

15 ∶ 23 20 ∶ 47 20 ∶ 20 21 ∶ 30 > 30 > 30 15 ∶ 35 9 ∶ 11 8 ∶ 17 9 ∶ 16
11 ∶ 15 16 ∶ 05 10 ∶ 06 7 ∶ 38 4 ∶ 03 5 ∶ 54 14 ∶ 18 8 ∶ 07 5 ∶ 11 5 ∶ 40
5 ∶ 39 7 ∶ 05 5 ∶ 36 6 ∶ 55 8 ∶ 12 6 ∶ 16 5 ∶ 27 10 ∶ 00 4 ∶ 32

1. Calculer le premier quartile de cette distribution. Dépend-il de la valeur exacte des


deux observations supérieures à une demi-heure ?
2. Construire un histogramme du temps de course avec les classes suivantes : [0, 6),
[6, 12), [12, 18), [18, 24), [24, 30] où l’on a ramené, pour simplifier, à 30 minutes
les temps supérieurs à la demi-heure. Peut-on, alternativement, construire un histo-
gramme avec la “vraie” partition [0, 6), [6, 12), [12, 18), [18, 24), [24, 30), [30, ∞) ?

Exercice 2.4
Voici le temps en minutes (données mises en classes) consacré quotidiennement à la
révision d’une matière par 100 personnes :

temps (en minutes) nombre de personnes


[0, 5) 12
[5, 10) 4
[10, 15) 7
[15, 20) 8
[20, 25) 14
[25, 30) 32
[30, 35) 18
[35, 40) 3
[40, 45] 2

1. Dessiner le graphe de la fonction de répartition du temps consacré à la pêche

118
Série 2

2. D’après le graphe obtenu, quelle proportion de personnes s’adonnent pendant moins


de 23 min par année aux joies de la pêche ?
3. Donner une estimation du temps moyen consacré annuellement à la pêche par ces
personnes.

Exercice 2.5
12 étudiants ont obtenu les résultats suivants à deux examens :
EXAMEN 1 : 72 ; 75 ; 75 ; 97 ; 54 ; 72 ; 86 ; 72 ; 63 ; 78 ; 82 ; 91.
EXAMEN 2 : 78 ; 42 ; 72 ; 88 ; 86 ; 97 ; 91 ; 79 ; 82 ; 86 ; 91 ; 74.

1. Dessiner la fonction de répartition correspondant à l’examen 1.


2. Trouver la médiane, la moyenne et la variance empirique de chaque examen.
3. Trouver la médiane et la moyenne de l’ensemble des deux examens (24 résultats).
4. Déterminer le 10ème centile, le 30ème centile et l’écart interquartile de l’examen 1.
5. Déterminer les scores standardisés de l’examen 1.

Exercice 2.6
La conversion x = “température en degrés Celsius” ↔ y = “température en degrés Fah-
renheit” est donnée par (2.1). L’enregistrement hebdomadaire de température sur une
certaine station donne une moyenne et un écart-type de 20, respectivement 15 Celsius.
Que valent la température moyenne, son écart type et sa variance, en degrés Fahrenheit ?

Exercice 2.7
Un individu peut posséder ou non une propriété A, ce qui définit une variable bimodale
z A , qui prend les valeurs 0 ou 1. Pour chaque individu i dans un échantillon (constitué de
n individus i = 1, . . . , n), on convient que son score ziA vaut 1 s’il possède la propriété A
(ou s’il appartient à l’ensemble A), et vaut 0 sinon : ziA = 1 ssi i ∈ A, et ziA = 0 ssi i ∉ A.
Une telle variable est appelée fonction indicatrice ou fonction caractéristique de A.
2
Pour rappel, z̄ A = n1 ∑ni=1 ziA , et var(z A ) = (z A ) − (z A )2 (comme pour n’importe quelle
variable numérique). Déterminer si chacun des énoncés suivants est vrai ou faux :

1. Le score ziA de chaque individu de l’échantillon est égal à son carré :(ziA )2 = ziA pour
tout i = 1, . . . , n.
2. Le nombre nA d’individus de l’échantillon appartenant à A est égal à la somme des
scores ziA sur tous les individus : nA = ∑ni=1 ziA .
3. La proportion d’individus de l’échantillon appartenant à A est égale à la moyenne
de z A dans l’échantillon : fA = z̄ A .
4. La variance de z A dans l’échantillon est égale à la proportion d’individus appartenant
à A, multipliée par la proportion d’individus n’appartenant pas à A : c’est à dire
var(z A ) = fA (1 − fA ).
5. Le score ziA d’un individu i est supérieur ou égal à son score ziB ssi appartenir à A
implique d’appartenir à B (p.ex. si A est l’ensemble des saxophonistes et B celui des
musiciens) : ziA ≥ ziB pour tout i = 1, . . . , n ssi A ⊂ B.
6. Le produit des scores ziA et ziB d’un individu i est égal à 1 ssi appartenir à A implique
de ne pas appartenir à B (p.ex. si A est l’ensemble des végétaux et B celui des
minéraux) : ziA ziB = 1 ssi A et B sont disjoints.
7. Les ensembles A, B et C forment une partition de Ω ssi chaque individu de l’échan-
tillon appartient à un et un seul de ces ensembles : ziA + ziB + ziC = 1 pour tout
i = 1, . . . , n.

119
Série 2

Exercices supplémentaires (*)


Exercice 2.8
Identifier les synonymes dans la liste {nominal, quantitatif, catégoriel, catégorie, score,
numérique, modalité, qualitatif}.

Exercice 2.9
Standardiser les scores de la variable x ci-dessous, et calculer la moyenne et la variance
de la variable standardisée.

x 2 6 5 9 7 6

Exercice 2.10
Soit la variable catégorielle x = “région linguistique suisse”, à m = 3 modalités (à savoir
“romande”, “alémanique” et “italophone”). Effectuer une dichotomisation de x, i.e. une
décomposition de x en variables bimodales codées comme 1 ou 0.

Exercice 2.11
Soient 3 variables catégorielles bimodales x, y et z :
x = “sexe” (“femme” codé i = 1 et “homme” codé i = 2)
y = “attitude tabac” (“fumeur” codé j = 1 et “non fumeur” codé j = 2)
z = “latéralité” (“droitier” codé k = 1 et “gaucher” codé k = 2).
En utilisant la notation nijk = “nombre de personnes dans la modalité i de x, j de y et k
de z”, montrer que, dans une population quelconque, le nombre de femmes qui fument est
plus petit ou égal au nombre des personnes qui sont droitières et qui fument, additionné
du nombre de femmes qui sont gauchères.

Corrigé de la série 2
Exercice 2.1
1. La commune de domicile : catégoriel (Lausanne, Ecublens, . . . ) ; échantillon = ha-
bitants du canton de VD (par exemple).
2. Le nombre de passagers d’un train : numérique (0, 1, 2, 3, . . . ) ; échantillon =
ensemble des trains circulant sur le territoire jurassien en 2013.
3. La durée d’un voyage en train Genève-Berne : numérique (1h20m, 3h28m, . . . ) ;
échantillon = tous les voyages Genève-Berne d’une personne donnée entre 2010 et
2020.
4. Les numéros postaux des localités suisses : catégorielle (1000, 1012, . . . ) ; échantillon
= les domiciles des étudiants inscrits à l’UNIL au SP 2020.
5. Le nombre de pattes des animaux d’un appartement : numérique : 0, 2, 4, 6, 8 (en
excluant les animaux estropiés et les mille-pattes), échantillon = ensemble d’appar-
tements d’un quartier de la Chaux-de-Fonds.
6. La corpulence des passagers d’un ferry : ordinale (p.ex. faible, moyenne, forte), ou
numérique (tous les nombres réels non-négatifs mesurant p.ex. le tour de taille) ;
échantillon = tous passagers d’un certain ferry - ou ceux que l’observateur a pu
croiser.
7. La saveur des bonbons : catégorielle (p.ex. fraise, ananas, . . . ou doux, acidulé,
fruité, . . . ) ; échantillon = marchandise exposée dans ce kiosque le 15.9.2014.
8. Le maximum annuel des températures journalières moyennes : numérique (26.3○ C,
32.7○ C, . . . ) ; échantillon = les années 1830 à 2014.
9. Les millésimes des bouteilles : numérique (2013, 2020, 2006. . . ) ; échantillon = les
bouteilles de la cave.

120
Série 2

10. La qualité de l’équipe de football : ordinale (faible, forte, imbattable, la meilleure,


la seconde meilleure . . . ) ; échantillon = un ensemble d’équipes nationales pendant
les années nonante.

Exercice 2.2

variable type de variable scores possibles


x catégoriel A, B, C
1. y catégoriel F, H
z quantitatif R+ (réels positifs) ou N (entiers positifs)
w quantitatif R+ (réels positifs)
2.3.4. Diagramme en bâtonnets (barplot), histogramme et diagramme de dispersion :
candidat candidat diagramme de dispersion
10

100
5
8

80
4

w = revenu
effectif
6
effectif

60
4

40
1
2

20
0

20 30 40 50 60 70 80 90 20 30 40 50 60 70 80
0

A B C âge z = âge

y / x A B C
5. Table de contingence : F 3 6 3
H 2 3 3

Exercice 2.3
Un peu de réflexion montre que le premier quartile ne dépend clairement pas de la valeur
exacte des deux observations supérieures à une demi-heure.
La construction d’un histogramme contenant aussi la classe infinie [30, ∞) serait problé-
matique : la surface du rectangle correspondant devrait correspondre à 2/29 du total,
mais, au vu de sa base infinie, la hauteur de cette classe devrait être nulle (surface = base
× hauteur).

121
Série 2

12

0.30
10

0.25
8
effectif

Fn(x)
6

0.20
4

0.15
2

0.10
0

0 5 10 15 20 25 30 5.6 5.7 5.8 5.9 6.0

temps

Histogramme du temps de course. Un morceau de la fonction de répartition


du temps de course. Le premier quartile
tombe sur la “marche” entre la 7e et la 8e
donnée, donc x0.25 = 5.9 min (= 5 min 54
sec).

Exercice 2.4
1. Fonction de répartition F (t) du temps t en minute consacré quotidiennement à la
révision de la matière (à partir de données mises en classes) :
1.0
0.8
0.6
F(t)

0.4
0.2
0.0

0 10 20 30 40

2. On trouve à partir du graphe de la fonction de répartition F (t) qu’environ 39% des


personnes consacrent moins de 23 min par jour à la révision.
3. Étant donné que les classes ne sont pas constituées du même nombre d’individus, la
moyenne doit être pondérée par le nombre d’individus de chaque classe. La moyenne
pondérée (sur m classes notées j = 1, . . . , m) se calcule par la relation suivante : x =
m
n ∑j=1 j j
1
n x = ∑m j=1 fj xj , c’est à dire en pondérant l’importance de chaque classe par
sa fréquence relative fj = nj /n. En utilisant la moyenne pondérée et en choisissant
comme valeur de classe la moyenne entre ses extrêmes (on ne connaı̂t pas la vraie
valeur), le temps moyen consacré à la révision vaut 100 1
(12 × 2.5 + 4 × 7.5 + 7 × 12.5 +
. . . + 2 × 42.5) = 22.65 minutes, soit 22 minutes et 39 secondes.

Exercice 2.5 1. Fonction de répartition :

122
Série 2

fonction de répartition pour EXAMEN 1

1.0
0.8
0.6
F(x)
0.4
0.2
0.0

50 60 70 80 90 100

x = EXAMEN 1

2. EXAMEN 1 :
1 n 1 12
Médiane : x0.5 = 75. Moyenne : x̄ = ∑ xi = ∑ xi =
n i=1 12 i=1
1
× (54 + 63 + 72 + 72 + 72 + 75 + 75 + 78 + 82 + 86 + 91 + 97) = 76.4
12
2 2
1 n 1 n 1 917
Variance : var(x) = ∑ x2i − ( ∑ xi ) = × 71581 − ( ) = 125.6
n i=1 n i=1 12 12
EXAMEN 2 :
1 n 1 12
Médiane : x0.5 = 84. Moyenne : x̄ = ∑ xi = ∑ xi =
n i=1 12 i=1
1
× (42 + 72 + 74 + 78 + 79 + 82 + 86 + 86 + 88 + 91 + 91 + 97) = 80.5
12
2
1 n 1 n 1 966 2
Variance : var(x) = ∑ x2i − ( ∑ xi ) = × 79980 − ( ) = 184.8
n i=1 n i=1 12 12

3. Médiane : 78.5 (notant qu’il y a 12 notes inférieures à 78, et 12 notes supérieures à


79, la médiane peut être calculée sans tracer la fonction de répartition)
1
Moyenne : x̄ = × (80.5 + 76.4) = 78.5
2
2
1 n 2 1 n 1 917 + 966 2
Variance : var(x) = ∑ xi −( ∑ xi ) = ×(71581+79980)−( ) = 159.3
n i=1 n i=1 24 24

4. A partir de la fonction de répartition F (x) de EXAMEN 1 : on trouve : 1er décile : 63 ;


3ème décile : 72 ; 1er quartile : 72 ; 3ème quartile : 84 (obtenu en faisant la moyenne
du neuvième score 82 et du dixème 86) ; l’écart interquartile de EXAMEN 1 vaut :
84 − 72 = 12.
x − x̄
5. Rappel : le score standardisé de x est défini par xs =
sx
54 − 76.4
Par exemple, la valeur de x lorsque x vaut 54 est de : xs =
s
= −2.00 (on
√ √ 11.2
a utilisé x̄ = 76.4 et s = var(x) = 125.6 = 11.2). Pour les autres valeurs de x, on
x xs
54 −2.00
63 −1.20
72 −0.39
75 −0.13
obtient :
78 +0.14
82 +0.50
86 +0.86
91 +1.30
97 +1.84

123
Série 2

Exercice 2.6
Moyenne : ȳ = 95 x̄ + 32 = 59 20 + 32 = 68 degrés Fahrenheit
Ecart-type : sy = 95 ȳ = 95 15 = 27 degrés Fahrenheit
Variance : var(y) = s2y = 272 = 729 [degrés Fahrenheit au carré] .

Exercice 2.7
1. Vrai
2. Vrai
3. Vrai, car z̄ A = 1
n ∑i=1 ziA =
n nA
n
= fA
2
4. Vrai : var(z A ) = (z A )
− (z A )2 = z A − (z A )2 d’après la première proposition de cet
exercice. Or z − (z ) = fA − fA2 = fA (1 − fA ).
A A 2

5. Faux : ziA ≤ ziB pour tout i = 1, . . . , n si A ⊂ B.


6. Faux : ziA ziB = 0 ssi A et B sont disjoints.
7. Vrai

Corrigés supplémentaires (*)


Exercice 2.8
nominal = catégoriel = qualitatif
quantitatif = numérique
modalité = catégorie = score (d’une variable catégorielle)

Exercice 2.9
x̄ = 5.83, sx = 2.12 xs -1.81 0.08 -0.39 1.50 0.55 0.08 x¯s = 0, var(xs ) = 1

Exercice 2.10
Par exemple, on définit les événements A = “région latine” (i.e. romande ou italophone),
et B = “région romande”, avec les variables indicatrices (=fonctions caractéristiques)
associées, i.e. z ∶= I(A) et w ∶= I(B).
Un romand (x = 1) sera alors codé par (z = 1, w = 1) ; de même, un alémanique (x = 2)
sera codé par (z = 0, w = 0), et un italophone (x = 3) par (z = 1, w = 0). Les m − 1 = 2
variables bimodales z et w constituent alors une dichotomisation possible de la variable
catégorielle x à m = 3 modalités. En général, une variable catégorielle à m modalités peut
être décomposée en (et reconstruite par) m − 1 variables bimodales.
Naturellement, d’autres solutions existent. On peut noter que le profil (z = 0, w = 1), qui
caractériserait un non-latin romand, n’apparaı̂t pas.

Exercice 2.11
Nombre de femmes qui fument = n111 + n112 = n11●
Nombre de personnes droitières qui fument = n111 + n211 = n●11
Nombre de femmes gauchères = n112 + n122 = n1●2
Il s’agit de montrer que n11● ≤ n●11 + n1●2 , ou, de façon équivalente, que n111 + n112 ≤
n111 + n211 + n112 + n122 . Comme n211 et n122 sont non-négatifs, l’inégalité en découle
immédiatement.

124
Série 3

Série 3

Sujets : liens entre deux variables : covariance et corrélation, F-ratio,


chi2. Régression linéaire

Pour les exercices 3.1 et 3.2 ci-dessous, on considère les deux variables numériques
suivantes :

x 3 9 6 9 0 4 5 1 9 1
y 7 0 2 4 9 9 5 9 10 0

Exercice 3.1
1. Tracer la fonction de répartition F (x).
2. D’après votre graphique, quelle proportion des valeurs de x sont strictement inférieures
à 7 ? strictement supérieures à 2 ?
2
3. Dessiner le boxplot de x.
4. Calculer la moyenne, la médiane, l’écart-type et l’intervalle semi-interquartile de x
(défini par 12 (x0.75 − x0.25 )) et comparer les différents résultats obtenus.

Exercice 3.2
1. Calculer var(x), var(y) et cov(x, y).
2. Que vaut corr(x, y) ?
3. Comparer var(xs ), var(y s ), cov(xs , y s ) et corr(xs , y s ) avec les valeurs obtenues aux
deux questions précédentes. Que constatez-vous ?

Exercice 3.3
On considère un échantillon de 180 étudiant.e.s de sexe x (j = 1 : femmes ; j = 2 : hommes)
et de type d’étude y (k = 1 : type A ; k = 2 : type B ; k = 3 : type C) distincts.
1. Trouver les valeurs de la table de contingence njk sachant qu’il y a autant d’étudiantes
de type A que d’étudiants de type B, qu’il n’y a pas d’étudiants de type A, que la pro-
portion hommes/femmes est la même dans les types B et C, que le type C est deux
fois plus nombreux que le type B, et qu’il y a autant d’étudiantes que d’étudiants
dans tout l’échantillon.
2. Que valent n12 et n21 ?
3. Que valent n1● et n●1 ?
4. Vérifier que ∑j nj● = ∑k n●k = n.
nj● n●k
jk une nouvelle table de contingence définie par njk ∶=
5. Soit ntheo theo
n
; trouver les
valeurs de la table de contingence ntheo
jk .
6. Quelle est la probabilité pour qu’une étudiante de l’échantillon suive des études de
type B ?
7. Quelle est la probabilité pour qu’une personne suivant des études de type B soit un
homme ?

Exercice 3.4
Soit la table de contingence njk suivante, qui croise deux variables à m1 = 2 et m2 = 3
modalités (n = 100 individus) :
2. Rappel : un boxplot est une représentation schématique de la répartition des valeurs d’un échantillon ; on
indique la médiane, les premier et troisième quartiles (“boı̂te”) ainsi que, en général, les premier et neuvième
déciles (“moustaches”).

125
Corrigé de la série 3

10 20 10
30 10 20
nj● n●k
jk ∶=
1. Calculer les scores théoriques sous l’hypothèse d’indépendance nth n
.
m2 (njk −njk )
th 2
2. Calculer le chi2 ∶= m1
∑j=1 ∑k=1 th
njk
associé à la table njk .
3. Que vaudrait le chi2 associé cette fois non pas à la table observée njk mais à la table
théorique nth
jk calculée en 3.4.1 ?

Exercice 3.5
On a relevé la taille x (en [cm]) de n = 8 individus répartis dans m = 3 groupes de tailles
n1 = 3, n2 = 2 et n3 = 3 :

Groupe 1 Groupe 2 Groupe 3


160 173 180 177 185 188 152 161

1. Calculer la moyenne totale x̄ et la moyenne de chaque groupe x̄1 , x̄2 et x̄3 .


2. Calculer les variances de chaque groupe var1 (x), var2 (x) et var3 (x) (inutile de cal-
culer la variance totale et les écarts-types).
3. Calculer la moyenne (pondérée) du carré des écarts à la moyenne ou variance inter-
groupe varB (x) ∶= n1 ∑mj=1 nj (x̄j − x̄) .
2

4. Calculer la moyenne (pondérée) des variances ou variance intragroupe varW (x) ∶=


m
n ∑j=1 j
1
n varj (x).
5. Calculer le F-ratio (rappel : F ∶= varB (x) / varW (x) )
m−1 n−m

Exercice 3.6
On a relevé les scores des variables x = “note de dessin” et y = “note de chant” dans une
classe. Les moyennes, les écarts-types et la corrélation empiriques valent : x̄ = 4, ȳ = 5,
sx = 1, sy = 1.5 et r = 2/3.
1. Quel pourcentage de la variance de y est expliqué par x ?
2. Quelle est la note de chant prédite si un élève obtient un 4.5 en dessin ? Rappel : les
valeurs prédites par régression linéaire sont données par y ∗ = ax + b.
3. Même question en utilisant les scores standardisés et la formule y s∗ = rxs .
4. Quelle est la note de dessin prédite si un élève obtient un 5.5 en chant ? (utiliser
x∗ = Ay + B avec les valeurs convenables de A et B)
5. Même question en utilisant les scores standardisés (xs∗ = ry s ).

Corrigé de la série 3
Exercice 3.1
1. et 3. Fonction de répartition de x (à gauche) et boxplot de x (à droite).
10
8
6
4
2
0

. 126
Corrigé de la série 3

2. D’après la fonction de répartition F (x), 70% des valeurs de x sont strictement


inférieures à 7 ; 70% des valeurs de x sont strictement supérieures à 2.
4. x̄ = 10
1
(3 + 9 + . . . + 1) = 4.7 x0.5 = 4.5 (à partir de la fonction de répartition F (x))

var(x) = 10 1
(32 + 92 + . . . + 12 ) − x̄2 = 11.01 sx = var(x) = 3.32
x0.25 = 1 et x0.75 = 9 (à partir de F (x)) et donc 12 (x0.75 − x0.25 ) = 4.

Exercice 3.2
1. var(x) = 11.01, var(y) = 13.45 et cov(x, y) = −2.95.
2. corr(x, y) = −0.24.
3. Par construction, var(xs ) = 1, var(y s ) = 1. Egalement, cov(xs , y s ) = corr(xs , y s ) =
corr(x, y).

Exercice 3.3
njk A B C tot. ntheo
jk A B C tot.
femme 30 20 40 90 femme 15 25 50 90
1. et 5.
homme 0 30 60 90 homme 15 25 50 90
tot. 30 50 100 180 tot. 30 50 100 180
2. n12 = 20, n21 = 0.
3. n1● = 90, n●1 = 30.
6. P (Y = B∣X = femme) = 20
90
= 0.22.
7. P (X = homme∣Y = B) = 30
50
= 0.6.

Exercice 3.4
11 ∶= = = 16, nth
12 ∶= = = 12, etc. La table des effectifs
n1● n●1 40⋅40 n1● n●2 40⋅30
1. nth n 100 n 100
16 12 12
théoriques nth
jk est :
24 18 18

2. chi2 = (10−16) + (20−12) + . . . + (20−18)


2 2 2

16 12 18
= 13.19
3. On obtiendrait un chi2 nul, puisque les variables sont indépendantes par construc-
tion dans la table nth jk . Une autre façon de le dire est que le calcul des effectifs
théoriques à partir de nth jk (plutôt qu’à partir des effectifs observés njk ) donne en-
core et toujours nthjk , et donc que le chi2 associé (3.5) vaut zéro.

Exercice 3.5
1. x̄ = 172, x̄1 = 171, x̄2 = 181, x̄3 = 167.
2. var1 (x) = 68.67, var2 (x) = 16, var3 (x) = 234.
3(171−172)2 +2(181−172)2 +3(167−172)2
3. varB (x) = 8
= 30.
4. varW (x) = 3⋅68.67+2⋅16+3⋅234
8
= 117.5.
5. F = 2 / 5 = 0.64.
30 117.5

Exercice 3.6
(y ∗ )
1. var
var(y) = r = ( 3 ) =
2 2 2 4
9
= 44%
ȳ − ax̄ = 5 − 1 ⋅ 4 = 1, y ∗ = 1 ⋅ 4.5 + 1 = 5.5
s
2. a = r sxy = 23 1.5
1
= 1, b =
3. x = 1 = 0.5, y s∗
s 4.5−4
= 23 ⋅ 0.5 = 13 = 0.33 (on peut vérifier que y ∗ = ȳ + sy ⋅ y s∗ =
5 + 1.5 ⋅ 0.33 = 5.5, cf. question 2)
4. A = r ssxy = 23 1.5
1
= 49 , B = x̄ − Aȳ = 4 − 94 ⋅ 5 = 16
9
, x∗ = 94 ⋅ 5.5 + 16
9
= 4.22
5. y s = 5.5−5
1.5
= 13 , xs∗ = 21
33
= 2
9
= 0.22 (vérification : x∗ = x̄ + sx ⋅ xs∗ = 4 + 1 ⋅ 0.22 = 4.22,
cf. question 4).

127
Série 4

Série 4

Sujets : distributions de probabilité discrètes et continues. Moyennes, va-


riances, quantiles théoriques. Lois de Poisson, binomiale, multinominale,
uniforme, normale. Théorème central limite. Intervalle de confiance.

Exercice 4.1
Le graphe suivant représente la fonction de répartition F (x) d’une loi de probabilité conti-
nue (rappel : F (x) = P (X ≤ x)).
1
0.95
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
F(x)

0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0

−3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7

1. D’après le graphique, que valent la médiane et l’intervalle interquartile de cette dis-


tribution ?
2. Estimer graphiquement P (X ≥ 3) et P (0 ≤ X ≤ 2).
3. On souhaite que P (1 ≤ X ≤ a) = 0.5. Que vaut a ?

Exercice 4.2
On considère la loi de probabilité discrète p suivante, donnant les probabilités pi des va-
leurs numériques possibles xi d’une variable X :

128
Série 4

x p
0 0.4
1 0.3
2 0.2
5 0.1

1. Calculer E(X) et Var(X).


2. Dessiner la fonction de répartition F (x).
3. Donner la médiane et l’intervalle interquartile de cette distribution.

Exercice 4.3
Les Suisses ont lu la trilogie “La vie rêvée d’Anselme” avec une probabilité p = 0.2. On
interroge 12 personnes tirées au hasard dans la population suisse.
1. Quelle est la probabilité que 5 personnes aient lu la trilogie ?
2. Quelle est la probabilité qu’au moins 1 personne l’ait lue ?

Exercice 4.4
Monsieur K. se promène au hasard dans les rues de Lausanne et compte le nombre X
de personnes ayant lu la trilogie “La vie rêvée d’Anselme” qu’il croise en une heure. Les
expériences d’un institut de sondage ont montré que ce nombre vaut en moyenne 20.
1. Quelle est la distribution suivie par la variable X ?
2. Quelle est la probabilité que Monsieur K. croise en une heure 15 personnes ayant lu
la trilogie ?
3. Quelle est la probabilité qu’au moins 1 personne l’ait lue ?

Exercice 4.5
Au SA2012, la Faculté des GSE comptait 792 étudiant-e-s (tous programmes confondus),
dont 350 Vaudois, 318 Confédérés (= autres Suisses), et 124 Etrangers (catégorisés ainsi
selon le lieu de domicile légal au moment de l’obtention de la maturité).
Evaluer la probabilité que, autour d’une table partagée par quatre étudiants de GSE, on
compte 1 Vaudois et 3 étrangers. Quelle hypothèse implicite permet de justifier cette esti-
mation ?

Exercice 4.6
La distribution de la taille des Kurlandaises est une loi normale de moyenne µ = 175 cm et
d’écart-type σ = 15 cm.
1. Quelle est la probabilité qu’une Kurlandaise soit plus grande que 2 m ?
2. Quelle est la probabilité que la taille d’une Kurlandaise soit comprise entre 150 cm
et 170 cm ?
3. Quelle est la probabilité qu’une Kurlandaise soit plus grand que 150 cm sachant
qu’elle est plus petite que 170 cm ?

Exercice 4.7
Vrai ou faux ?
1. Déclarer que X ∼ B(1, p) équivaut à déclarer que X prend les deux valeurs 1 et 0,
avec P (X = 1) = p et P (X = 0) = 1 − p.
2. Si X ∼ B(1, p) alors E(X) = p et Var(X) = p(1 − p).
3. Le 6-ème décile de la loi N (0, 1) est x0.6 = 0.25.
4. L’intervalle interquartile de la loi N (µ, σ 2 ) est 2σ.
5. Chaque jour, Anselme joue au loto et perd 5 francs en moyenne, avec un écart-type
de 20 francs. Alors, au bout de n jours (n grand), la variable X = “perte journalière
moyenne” sera distribuée comme N (5, 400 n
).

129
Série 4

6. Pour mesurer une moyenne avec une précision 10 fois plus grande, il faut 10 fois
plus d’observations.

Exercice 4.8
Soit un dé ordinaire équilibré. On définit les variables Y = “valeur du chiffre tiré” et X =
“variable indicatrice de l’événement chiffre pair tiré”.
1. Calculer Corr(X, Y ).
2. Quelle est, par régression linéaire, la valeur attendue Y ∗ du chiffre tiré si X = 0 ?
3. Idem si X = 1 ?
4. Aurait-on pu trouver ces valeurs par une méthode plus simple ?

Exercice 4.9
Soit un questionnaire à choix multiples comprenant 6 questions avec 4 choix possibles à
chaque fois. Quelle est la probabilité de donner au moins 5 réponses correctes dans les
deux cas suivants :
1. l’étudiant est préparé et trouve la bonne réponse, pour chaque question, avec une
probabilité de 0.9.
2. l’étudiant n’est pas préparé et devine la bonne réponse, pour chaque question, avec
une probabilité de 14 = 0.25.

Exercice 4.10
L’express de 14 heures part tous les jours entre 14h02 et 14h14 ; on fait l’hypothèse que
l’heure X de départ du train suit une loi uniforme dans cet intervalle. Soit la variable X̄ :=
“heure moyenne de départ du train”, où la moyenne est calculée sur n = 81 jours.
1. En utilisant le théorème central limite, calculer la probabilité que X̄ ≤ 14h10 (rap-
et Var(X) = (b−a)
2
pel : si X ∼ U (a, b), alors E(X) = a+b
2 12
).
2. Sur un échantillon de n = 81 jours, on
√ observe que X̄ vaut 14h09. Sachant que
l’écart-type théorique de X vaut σ = 12, donner l’intervalle de confiance à 95%
pour µ = E(X̄).

Exercice 4.11
Vrai ou faux ?
1. La covariance entre deux variables X et Y dépend du système d’unité de ces variables.
2. Sur un échantillon, si la médiane d’une variable X est très différente de sa moyenne
alors sa variance sera élevée.
3. L’intervalle interquartile d’une variable X se calcule comme x0.75 − x0.25 .
4. le calcul du coefficient du chi-carré peut s’appliquer indifféremment à des variables
discrètes ou continues.
5. a) Le F-ratio est défini lorsque le nombre m de groupes est égal au nombre n d’indi-
vidus.
b) Le F-ratio est défini lorsque le nombre m de groupes est égal à 1.
6. Une variable centrée-réduite a par construction un écart-type de 1.
7. Une variable centrée-réduite suit par construction une loi normale standard N (0, 1).

Exercices supplémentaires (*)


Exercice 4.12
Parmi les énoncés suivants, déterminer ceux qui sont vrais :
1. Un centile est : i) une fréquence ; ii) un effectif ; iii) un intervalle ; iv) un point sur
l’axe des x.

130
Série 4

2. Est toujours compris entre 0 et 1 : i) une fonction de distribution ; ii) une fonction
de répartition ; iii) un centile.
3. Une moitié des individus est située : i) au dessus de la moyenne ; ii) en dessous de
la médiane ; iii) dans l’intervalle interquartile.
4. Une variable standardisée possède : i) une moyenne nulle ; ii) une fonction de dis-
tribution symétrique ; iii) une variance nulle.
5. On compare les variables x et y = ax, où a est une constante : i) ȳ = ax̄ ; ii) var(y) =
a2 var(x) ; iii) y s = xs .

Exercice 4.13
Soit l’expérience consistant au lancer d’un dé à 6 faces. On définit deux variables aléatoires :
X qui associe à un lancer la valeur de la face sortie, et Y qui associe, elle, le nombre 1 si
le chiffre sorti est pair et −1 sinon.
Calculer les moyennes E(X) et E(Y ), ainsi que les écarts-types σX et σY des deux va-
riables aléatoires sous les deux distributions suivantes :
1. la distribution de probabilité sur les 6 faces est uniforme (dé équilibré)
2. la distribution de probabilité est concentrée sur l’événement “la face sortie porte le
chiffre 5” (i.e. dé pipé ne faisant que des cinq).

Exercice 4.14
1. Donnez une distribution de probabilité uniforme pour une variable aléatoire discrète
X prenant prenant toutes les valeurs entières entre -2 et 5.
2. Faites de même pour une distribution de probabilité non uniforme.
3. Calculez pour les deux cas (a) P (X ≤ 3), (b) P (−1 ≤ X ≤ 2) et (c) P (X ≥ 3).
4. Peut-on construire une distribution de probabilité uniforme pour une variable aléatoire
discrète X prenant toutes les valeurs entières X = 0, 1, 2, ... ?

Exercice 4.15
1. Calculer pour une variable aléatoire X, dont la distribution de probabilité est une
loi normale standard, les valeurs suivantes : P (X ≤ 1), P (X ≤ 2.58), P (X > 2.58),
P (−2 < X < 2.4), P (−3 < X ≤ 3), x0.5 , x0.7 , x0.2 .
2. Même question si X est une variable N (1, 41 ) .

Exercice 4.16
Donner la distribution de probabilité de la variable aléatoire X représentant le nombre de
garçons dans une famille de cinq enfants, en supposant P (garçon) = 0.51.

Exercice 4.17
1. Quelle est la probabilité qu’une variable normale soit supérieure à la moyenne aug-
mentée de l’écart-type ? à la moyenne augmentée de deux écarts-type ?
2. Soit X ∼ N (50, 10). Que vaut le 99-ème centile de la distribution ?

Exercice 4.18
1. En 1989, 99812 vols de véhicules ont été dénoncés en Suisse, ce qui correspond à
une moyenne horaire de 11.38 véhicules volés.
Evaluer les probabilités d’avoir respectivement 0, 5 et 10 véhicules volés durant une
heure donnée.
2. La probabilité de décrocher le jack-pot d’une machine à sous est de un millionnième.
En jouant 10 fois par semaine pendant cinquante ans, quelle est la probabilité qu’un
individu décroche deux fois le jack-pot ? Que devient cette probabilité si l’approxi-
mation de Poisson est utilisée ?

131
Série 4

Exercice 4.19
Lors d’un examen, une classe obtient une moyenne de 72 points avec un écart-type de
15. En supposant que la variable ”nombre de points obtenus par un étudiant“ suit une loi
normale, calculer :
1. la proportion d’étudiants ayant 90 points ou plus,
2. la proportion d’étudiants ayant 40 points ou moins,
3. la proportion d’étudiants dont le nombre de points diffère de la moyenne de plus de
la moitié de l’écart-type.

Exercice 4.20
Dans ce qui suit, X et Y sont deux variables aléatoires ; X suit une loi binomiale B(n, p)
et Y suit une loi normale N (µ, σ 2 ).
A. Tester la validité des affirmations ci-dessous en justifiant à chaque fois la réponse :
1. n peut prendre n’importe quelle valeur positive.
2. p peut prendre n’importe quelle valeur positive.
3. µ peut prendre n’importe quelle valeur positive.
4. σ peut prendre n’importe quelle valeur positive.
5. Y s ∼ N (0, 1).
6. X s = √
X−np
.
np(1−p)

7. La distribution de Y est toujours symétrique.


B. Compléter les affirmations ci-dessous.
1. Plus p est proche de 0.5, plus Var(X) est . . . . . . . . . . . .
2. Plus p est grand, plus E(X) est . . . . . . . . . . . .
L’intervalle interquartile y0.75 −y0.25 vaut toujours . . . . . . . . . . . . fois l’écart-type σY =
3. √
Var(Y )
4. La distribution de X est symétrique si et seulement si . . . . . . . . . . . .

Exercice 4.21
Dans une certaine profession, le revenu annuel moyen croı̂t avec l’âge des travailleurs,
selon une loi de la forme w = c ⋅ z α , où w est le revenu annuel brut moyen (en Kchf), z
est l’âge (en années), et c et α des constantes positives à déterminer.
A partir des données fictives

âge z revenu w
20 42
30 55
40 63
50 70
60 78

déterminer la valeur des constantes c et α, ainsi que le revenu attendu pour un travailleur
de 65 ans.

Indication : pour résoudre le problème par régression linéaire, il faut d’abord transformer
l’équation non linéaire w = c ⋅ z α en équation linéaire de la forme y = ax + b, où y = y(w) et
x = x(z) sont des transformations appropriées des variables w et z, qu’il d’agit de deviner
au préalable en s’aidant de ses souvenirs mathématiques.

132
Corrigé de la série 4

Corrigé de la série 4
Exercice 4.1
1. x0.5 = 2 (médiane), x0.25 ≈ 1.3 et x0.75 ≈ 2.7 donc x0.75 − x0.25 = 1.4
2. F (3) = P (X ≤ 3) ≈ 0.84. P (X ≥ 3) = 1 − P (X ≤ 3) = 0.16
F (0) ≈ 0.02, F (2) ≈ 0.5. D’où P (0 ≤ X ≤ 2) = F (2) − F (0) = 0.48
3. F (1) ≈ 0.16. P (1 ≤ X ≤ a) = F (a) − F (1) = 0.5. Donc F (a) = F (1) + 0.5 = 0.66 et
a ≈ 2.4

Exercice 4.2
1. E(X) = 0.4 ⋅ 0 + 0.3 ⋅ 1 + 0.2 ⋅ 2 + 0.1 ⋅ 5 = 1.2
Var(X) = E(X 2 ) − E 2 (X) = 0.4 ⋅ 02 + 0.3 ⋅ 12 + 0.2 ⋅ 22 + 0.1 ⋅ 52 − 1.22 = 2.16
2.
1.0
0.8
0.6
F(x)

0.4
0.2
0.0

0 1 2 3 4 5

3. D’après le graphique, x0.5 = 1 (médiane), x0.25 = 0, x0.75 = 2. L’intervalle interquartile


vaut donc x0.75 − x0.25 = 2.

Exercice 4.3
La probabilité que k personnes aient lu la trilogie suit une loi binomiale
B(n = 12, p = 0.2).
12
1. P (X = 5) = ( ) 0.25 ⋅ 0.812−5 = 0.053
5
12
2. P (X ≥ 1) = 1 − P (X = 0) = 1 − ( ) 0.20 ⋅ 0.812 = 0.93
0

Exercice 4.4
1. X suit une loi de Poisson de paramètre λ = 20
15
2. P (X = 15) = exp(−20) 20
15!
= 0.052
0
3. P (X ≥ 1) = 1 − P (X = 0) = 1 − exp(−20) 20
0!
= 1 − exp(−20) ≈ 1

Exercice 4.5
Les proportions d’étudiants Vaudois, Confédérés et Etrangers sont respectivement de 350/792 =
0.442, 350/792 = 0.402, et 350/792 = 0.157. Par la loi multinomiale, la probabilité de la
configuration en question est de
4!
0.4421 ⋅ 0.4020 ⋅ 0.1573 = 4 ⋅ 0.442 ⋅ 1 ⋅ 0.00387 = 0.0068 .
1! 0! 3!
L’hypothèse implicite (et sans doute questionnable ici) justifiant cette estimation est que
les réunions spontanées d’étudiants de GSE ne sont pas soumises à des préférences inter-
individuelles impliquant l’origine ou l’âge (dont dépendent les proportions ci-dessus).

133
Corrigé de la série 4

Exercice 4.6
1. P (X > 200) = P (X s > 200−175
15
) = P (X s > 1.67) = 1 − P (X s ≤ 1.67) = 1 − Φ(1.67) =
1 − 0.953 = 0.047
2. P (150 ≤ X ≤ 170) = P ( 150−175
15
≤ X s ≤ 170−175
15
) = P (−1.67 ≤ X s ≤ −0.33) = Φ(−0.33)−
Φ(−1.67) = (1 − Φ(0.33)) − (1 − Φ(1.67)) = Φ(1.67) − Φ(0.33) = 0.953 − 0.629 = 0.324
P (150≤X≤170)
3. P (150 ≤ X ∣ X ≤ 170) = P (X≤170)
= 0.324
P (X s ≤−0.33)
= 0.324
1−0.629
= 0.873 .

Exercice 4.7
1. vrai : on rappelle que la loi binomiale B(n, p) est la distribution de X = “nombre de
pile en n lancers”, avec p ∶= P (“pile”). Si n = 1 (un seul lancer), les valeurs possibles
de X sont en effet 1 et 0, avec P (X = 1) = p et P (X = 0) = 1 − p.
2. vrai : c’est un cas particulier de E(X) = np et Var(X) = np(1 − p) pour n = 1. On peut
aussi le retrouver par un calcul direct, tel que Var(X) = E(X 2 ) − E(X)2 = p − p2 =
p(1 − p) (on a, dans ce cas particulier, utilisé E(X 2 ) = E(X) = p, puisque X 2 = X
lorsque X = 1 ou 0, comme c’est le cas ici).
3. vrai : il faut trouver dans la table la valeur u telle que Φ(u) = 0.6
4. faux : soit X ∼ N (µ, σ 2 ), et donc X s ∶= X−µ
σ
∼ N (0, 1). En particulier, Xαs = Xασ−µ et
donc Xα = µ+Xα σ. On a X0.75 = µ+X0.75 σ = µ+0.68σ (car Φ(0.68) = 0.75). On trouve
s s

aussi (par calcul complet ou simplement par symétrie) que X0.25 = µ + X0.25 s
σ =
µ − 0.68 σ. Ainsi, l’intervalle interquartile est X0.75 − X0.25 = 2 ⋅ 0.68 σ = 1.36 σ.
σ2 202
5. vrai : c’est précisément le contenu du théorème central limite, avec µ = 5 et n
= n
=
400
n
.
6. faux : l’imprécision sur une moyenne X̄ de n observations peut être représentée par
son écart-type σX̄ = √σX
, où σX est l’imprécision sur une observation. Pour que σX̄
n

soit diminué d’un facteur 10, il faut que n soit augmenté d’un facteur 10, i.e. que
n soit augmenté d’un facteur 100. Notons qu’il est naturel d’utiliser l’écart-type plutôt
que la variance dans ce contexte, puisqu’il est exprimé dans la même unité que la
variable considérée (comme dans p.ex. : “une taille moyenne de 170 cm ± 2 cm”).

Exercice 4.8
Soit un dé ordinaire équilibré. On définit les variables Y = “valeur du chiffre tiré” et X =
“variable indicatrice de l’événement chiffre pair tiré”.
1. Calculer Corr(X, Y ).
2. Quelle est, par régression linéaire, la valeur attendue Y ∗ du chiffre tiré si X = 0 ?
3. Idem si X = 1 ?
4. Aurait-on pu trouver ces valeurs par une méthode plus simple ?

Exercice 4.9
1. Le nombre X de réponses correctes sur 6 questions avec P (réponse correcte) = p
6
suit une loi binomiale : X ∼ B(6, p). Pour p = 0.9, on a donc P (X ≥ 5) = ( ) 0.95 ⋅
5
6
0.11 + ( ) 0.96 ⋅ 0.10 = 0.88.
6
6 6
2. Avec p = 0.25, on a P (X ≥ 5) = ( ) 0.255 ⋅ 0.751 + ( ) 0.256 ⋅ 0.750 = 0.005.
5 6

Exercice 4.10
L’heure restant constante, on peut ne considérer que les minutes après 14h.

134
Corrigé de la série 4

1. La moyenne et la variance de l’heure X de départ du train valent (en minutes après


= 8 et Var(X) = (14−2)
2
14h) E(X) = 2+14 2 12
= 12. Par le théorème central limite,
on trouve que l’heure moyenne X̄ de départ du train suit une loi normale N (8, 12 81
).
Donc P (X̄ ≤ 10) = P (X¯s ≤ √10−8 ) = P (X¯s ≤ 5.196) = Φ(5.196) ≅ 1.
12/81
√ √
2. P (9 − √12 1.96 ≤µ≤9+ √ 1.96) =
12
P (8.25 ≤ µ ≤ 9.75) = 0.95.
81 81

Exercice 4.11
1. Vrai. C’est d’ailleurs la raison pour laquelle le coefficient de corrélation, indépendant
du système d’unité, est préféré pour décrire le lien entre deux variables numériques.
2. Vrai. Cela signifie qu’au moins une valeur est très éloignée de la médiane, ce qui
augmente fortement la variance sur un échantillon.
3. Vrai. L’intervalle semi-interquartile, également utilisé, étant cette somme divisée par
deux.
4. Faux. Le coefficient du chi-carré ne se calcule que dans le cadre de variables catégorielles
qui sont, par nature, discrètes.
varB (x)
5. Faux, dans les deux cas. Rappel : F = varm−1
W (x)
n−m
W (x)
Dans le point a) varn−m = 00 car il y autant de groupe que de d’individus (donc un
seul individu par groupe et pas de variance dans les groupes) et que m = n. Au final,
le dénominateur de F est indéterminé.
B (x)
Dans le point b) var
m−1
, m = 1. Comme il n’y a qu’un seul groupe, la variance entre
les groupe est nulle et m − 1 = 0. Le numérateur est de type 00 , indéterminé.
6. Vrai.
7. Faux. X s n’est normal que si X est normal également.

Corrigés supplémentaires (*)


Exercice 4.12
1. i) faux ; ii) faux ; iii) faux ; iv) vrai.
2. i) faux : une distribution suffisamment concentrée autour de la moyenne comportera
un pic élevé, supérieur à 1 ; ii) vrai ; iii) faux : il est toujours possible de construire
une distribution telle qu’un centile donné xα soit situé en un point quelconque de
l’axe des x.
3. i) faux ; ii) vrai ; iii) vrai : 25% des individus étant situés au dessous du 1er quartile
et 25% au-dessus du 3ème quartile, il en reste donc 50% à l’intérieur de l’intervalle
interquartile.
4. i) vrai ; ii) faux, en général : si la distribution d’une variable est non symétrique, la
distribution de la variable standardisée le sera aussi. iii) faux : une variable standar-
disée possède toujours une variance unité.
5. i) vrai ; ii) vrai : comme y 2 = (ax)2 = a2 x2 et ȳ = ax̄, alors var(y) = y 2 − ȳ 2 =
a2 x2 − a2 x̄2 = a2 (x2 − x̄2 ) = a2 var(x) ; iii) faux en général, mais vrai si a est positif :
y − ȳ ax − ax̄ a x − x̄ a s
ys = √ =√ = √ = x
var(y) a2 var(x) ∣a∣ var(x) ∣a∣

Exercice 4.13
1. E(X) = 16 (1 + 2 + 3 + 4 + 5 + 6) = 3.5
E(Y ) = 61 (−1 + 1 − 1 + 1 − 1 + 1) = 0
2
σX = E((X − E(X))2 ) = E(X 2 ) − E 2 (X) = 61 (1 + 4 + 9 + 16 + 25 + 36) − (3.5)2 ≅ 2.916

135
Corrigé de la série 4

d’où σX ≅ 1.708
σY2 = E(Y 2 ) − E 2 (Y ) = 61 (1 + 1 + 1 + 1 + 1 + 1) − 0 = 1, d’où σY = 1.

2. E(X) = 5 ; E(Y ) = −1.


2
σX = E(X 2 ) − E 2 (X) = 52 − 52 = 0 (comme il se doit dans le cas déterministe)
σY = E(Y 2 ) − E 2 (Y ) = 1 − (−1)2 = 0 (idem).
2

Exercice 4.14 1. Distribution uniforme (une seule possibilité) :


k -2 -1 0 1 2 3 4 5
pk = P (X = k) 18 1
8
1
8
1
8
1
8
1
8
1
8
1
8
2. Exemple de distribution non-uniforme (parmi une infinité de possibilités) :
k -2 -1 0 1 2 3 4 5
pk = P (X = k) 0.1 0.15 0.2 0 0.05 0.3 0.1 0.1
En fait, il suffit que ∑5k=−2 P (X = k) = 1 et P (X = k) ≥ 0 pour tout k = −2, ..., 5.

3. (a) P (X ≤ 3) = P (X = −2) + P (X = −1) + P (X = 0) + P (X = 1) + P (X = 2) + P (X =


3) = 0.7 dans le cas uniforme. Dans le cas non-uniforme, on obtient P (X ≤ 3) =
0.8
(b) P (−1 ≤ X ≤ 2) = P (X = −1) + P (X = 0) + P (X = 1) + P (X = 2) = 0.5 dans le cas
uniforme. Dans le cas non-uniforme, on obtient P (−1 ≤ X ≤ 2) = 0.4.
(c) P (X ≥ 3) = P (X = 3) + P (X = 4) + P (X = 5) = 0.375 dans le cas uniforme. Dans
le cas non-uniforme, on obtient P (X ≥ 3) = 0.5
4. Non, car si la distribution était uniforme, la valeur de P (X = k) serait égale à une
constante c > 0. La somme de toutes les probabilités devant valoir 1, on devrait avoir
c × ∞ = 1 (car il y a une infinité de cas possibles), et donc c = 0, en contradiction avec
c > 0. Ainsi, la consigne “donnez un nombre entier au hasard” est mal définie : ou
bien il est sous-entendu que la distribution en question est la distribution uniforme
(ce qui n’est pas possible comme on vient de le voir), ou bien la distribution n’est
pas définie, et la question ne l’est donc pas non plus.
Exercice 4.15
1. P (X ≤ 1) = Φ(1) = 0.8413 P (X ≤ 2.58) = Φ(2.58) = 0.9951,
P (X > 2.58) = 1 − Φ(2.58) = 0.0049,
P (−2 < X < 2.4) = Φ(2.4) − (1 − Φ(2)) = 0.9690,
P (−3 < X ≤ 3) = 2Φ(3) − 1 = 0.9973.
Comme xα est défini par P (X ≤ xα ) = Φ(xα ) = α, on a x0.5 = 0, x0.7 = 0.525 et
x0.2 = −x0.8 = −0.842.

2. Comme X ∼ N (1, 14 ), la variable standardisée X s = √


X−1
= 2X −2 suit une loi N (0, 1).
1
4
Ainsi :
P (X ≤ 1) = P (X s = 2X − 2 ≤ 2 ⋅ 1 − 2 = 0) = Φ(0) = 0.5,
P (X ≤ 2.58) = P (X s ≤ 3.16) = Φ(3.16) = 0.9992,
P (X > 2.58) = P (X s > 3.16) = 1 − Φ(3.16) = 0.0008,
P (−2 < X < 2.4) = P (−6 < X s < 2.8) = Φ(2.8) − (1 − Φ(−6)) = 0.9974,
P (−3 < X ≤ 3) = P (−8 < X s ≤ 4) = Φ(4) − (1 − Φ(8)) = 1.0000.

Comme P (X ≤ xα ) = P (X s = 2X − 2 ≤ 2xα − 2) = α, nous avons 2xα − 2 = xsα et


xs +2
ainsi xα = α2 (où xsα est le α-ième centile de X s , variable qui suit une loi normale
standard). Par conséquent :
xs +2 xs +2
x0.5 = 0.52 = 0+22
= 1, x0.7 = 0.72 = 0.524+2
2
= 1.262,
xs0.2 +2 −0.842+2
x0.2 = 2
= 2
= 0.579 (xs0.5 , xs0.5 et xs0.7 ont été obtenus dans la partie a).

136
Corrigé de la série 4

Exercice 4.16
Loi binomiale : à chaque “tirage”, P (garçon)= p, P (fille)= q = 1 − p.
Ainsi, P (k garçons et 5 − k filles) = P (X = k) = (k5)pk q 5−k .
Ici, p = 0.51, q = 0.49, d’où P (X = 0) = 0!5!
5!
(0.49)5 = 0.03, P (X = 1) = 4!1!
5!
(0.49)4 (0.51) =
0.15, P (X = 2) = 3!2! (0.49) (0.51) = 0.31, P (X = 3) = 2!3! (0.49) (0.51) = 0.32, P (X =
5! 3 2 5! 2 3

4) = 1!4!
5!
(0.49)(0.51)4 = 0.17 et P (X = 5) = 0!5!
5!
(0.51)5 = 0.03.

Exercice 4.17
1. X est une variable normale ssi X ∼ N (µ, σ 2 ). Pour connaı̂tre la probabilité de
l’événement X > µ + σ, il faut d’abord (utilisation des tables) standardiser l’énoncé :
P (X > µ+σ) = P (X −µ > σ) = P ( X−µ σ
> 1) = P (X s > 1) = 1−P (X s < 1) = 1−0.8413 =
0.1587. De même, P (X > µ + 2σ) = 1 − P (X s < 2) = 0.0228.
2. Le 99-ème centile
√ de la distribution standard est (tables) xs0.99 = 2.33. Donc x0.99 =
σx0.99 + µ = 10 2.33 + 50 = 57.37.
s

Exercice 4.18
1. Au vu de l’importance du parc automobile n et la faible probabilité p du vol d’une
voiture spécifique, le processus est modélisable par une loi de Poisson P (λ) de pa-
ramètre λ = 11.38. Si X dénote le nombre horaire de voitures volées, on a :
P (X = 0) = exp(−11.38) (11.38)
0

0!
= 0.000011
P (X = 5) = exp(−11.38) (11.38)
5

5!
= 0.018
P (X = 10) = exp(−11.38) (11.38)
10

10!
= 0.11 .
2. Le processus peut être modélisé par une loi binomiale B(n, p) avec p = 1000000 1
et
(365.25)(50)(10)
n= 7
≈ 26089.
Alors P (X = 2) = 26087!2!
26089!
(10−6 )2 (0.999999)26087 = 21 (26089)(26088)(10−12 )(0.974) =
0.000331.
Dans l’approximation de Poisson, λ = 26089 × 10−6 = 0.026 et la probabilité cherchée
vaut exp(−0.026) (0.026)
2

2!
= 0.000329 (soit une valeur très proche, comme il se doit).

Exercice 4.19
Comme X ∼ N (72, 225), la variable standardisée X s = X−72
15
suit une loi N (0, 1). Ainsi :
1. P (X ≥ 90) = P (X ≥ s 90−72
15
) = P (X ≥ 1.2) = 1 − Φ(1.2) = 1 − 0.8849 = 0.1151
s

2. P (X ≤ 40) = P (X s ≤ 40−72
15
) = P (X s ≤ −2.133) = 1 − Φ(2.133) = 1 − 0.983 = 0.017,
3. P (∣X − 72∣ > 15
2
) = P (X < 64.5 ou X > 79.5) = P (X s < − 12 ou X s > 12 ) = 2(1 − Φ( 21 )) =
2(1 − 0.6915) = 0.617.

Exercice 4.20
A. 1. faux : n ne peut prendre qu’une valeur entière positive.
2. faux : p ne peut prendre qu’une valeur dans [0, 1].
3. faux : µ peut prendre n’importe quelle valeur positive ou négative.
4. vrai.
5. vrai : la variable standardisée d’une variable normale suit une loi N (0, 1).
6. vrai : E(X) = np et Var(X) = np(1 − p).
7. vrai.
B. 1. Plus p est proche de 0.5, plus Var(X) est grande.
2. Plus p est grand, plus E(X) est grande.
3. L’intervalle interquartile y0.75 − y0.25 vaut toujours 1.35 fois l’écart-type σY : en
considérant la variable standardisée Y s , on a σY s = 1, y s 0.75 = 0.675, y s 0.25 =

137
Corrigé de la série 4

−y s 0.75 = −0.675 et ainsi y s 0.75 − ŷ0.25 = 1.35 = 1.35 σY s . Si l’on revient à la variable
non standardisée Y , l’intervalle interquartile et la variance seront chacun multipliés
par σY , d’où y s 0.75 − y s 0.25 = 1.35 σY .
4. La distribution de X est symétrique si et seulement si p = 0 .5 . Dans ce cas seulement,
il y a égalité entre les distributions de X = “nombre de pile en n lancers d’une pièce
dont la probabilité d’obtenir pile est p” et de Z = n − X = “nombre de face en n
lancers”.

Exercice 4.21
Pour transformer la relation non-linéaire w = c ⋅ z α en relation linéaire (entre des va-
riables transformées à déterminer), on prend le logarithme naturel ln des deux termes de
l’équation w = c ⋅ z α , ce qui donne

ln w = α ln z + ln c i.e. y = ax + b avec y ∶= ln w, x ∶= ln z, a ∶= α, b ∶= ln c

Il s’agit maintenant de prédire, par régression linéaire, y = ln w en fonction de x = ln z. Les


données correspondantes sont

z w x = ln z y = ln w
20 42 3.00 3.74
30 55 3.40 4.01
40 63 3.69 4.14
50 70 3.91 4.25
60 78 4.09 4.36

ce qui donne x̄ = 3.62, ȳ = 4.10, sx = 0.366, sy = 0.214, cov(x, y) = 0.074, rxy = 0.945, et
donc

a = 0.553 b = 2.098 α = a = 0.553 c = exp b = 8.151

Ainsi, le salaire attendu d’un travailleur de 65 ans est d’environ


w∗ = 8.151 ⋅ 650.553 = 82.0 Kchf.
Remarque : la valeur α = 0.553 est proche de 0.5, i.e. le salaire croı̂t à peu près comme la
racine carrée de l’âge du travailleur.

138
Série 5

Série 5

Sujets : inférence statistique, induction par la règle de Bayes, matrice


de confusion, erreurs de première et seconde espèce, risques et coûts,
courbe ROC, notions de base en tests d’hypothèses, niveau de significa-
tion, puissance, valeur p, tests uni- et bilatéraux.

Exercice 5.1
Un salon de jeux clandestin utilise deux types de pièces : des pièces équilibrées, formant
80% du stock, et des pièces truquées, formant 20% du stock, pour lesquelles P (face) =
0.8. Les deux sortes de pièces ne pas sont distinguables par leur aspect ou leur poids, et
elles sont mélangées dans un stock commun.
(a) trois lancers d’une pièce produisent trois pile. Quelle est la probabilité qu’il s’agisse
d’une pièce truquée ?
(b) trois lancers d’une pièce produisent trois face. Quelle est la probabilité qu’il s’agisse
d’une pièce truquée ?

Exercice 5.2
Un algorithme anti-pourriel du siècle passé, basé sur les caractéristiques textuelles et
les méta-données (adresse de l’expéditeur, moment de l’envoi, etc.) de 2593 courriels
préalablement classés comme légitimes ou pourriel (spam) (échantillon d’apprentissage),
a été testé sur 222 nouveaux messages (échantillon de test), avec les résultats suivants 3 :

Y = décision de l’algorithme → légitime pourriel total


X = nature du courriel ↓
légitime 174 3 177
pourriel 9 36 45
total 183 39 222

En considérant le classificateur comme un algorithme de détection de pourriel, il est naturel


de poser “bruit=courriel légitime” et “signal=pourriel”.
(a) calculer les probabilités de commettre une erreur de première et de seconde espèce
(b) calculer le taux de classification correcte P accord , le taux de classification correcte
au hasard P hasard , et le kappa de Cohen.
(c) (*) calculer la précision, le rappel, et le F -score
(d) (*) calculer la discriminabilité d′ et le critère c du classificateur.

Exercice 5.3
(a) Supposons que les données des prévisions météo de l’exemple 3 du chapitre 1 aient
été obtenues sur n = 100 jours. Donner la table de confusion X = “météo réelle” ×
Y = “prévision météo” correspondante.
(b) Procéder de même avec l’exercice 1.9 (test de dépistage d’une maladie), en considérant
un effectif total de n = 2000 personnes.

Exercice 5.4
Un chercheur désire tester H0 contre H1 . Pour cela, il récolte un échantillon D auquel
correspond une valeur d(D) de la variable de décision d. Admettons que les valeurs élevées
de d(D) correspondent au rejet de H0 et notons dc (α) le seuil critique de rejet de H0 au
niveau de signification α.
3. Sahami, M., Dumais, S., Heckerman, D., & Horvitz, E. (1998) A Bayesian approach to filtering junk e-mail
In Learning for Text Categorization : Papers from the 1998 Workshop. vol. 62, pp. 98–105

139
Série 5

1. Répondre aux questions suivantes :


a) Que signifie un seuil de signification de α = 0.05 ?
b) Qu’entend-on par “d(D) est significatif” ?
c) Est-il plus facile de réfuter une hypothèse simple ou une hypothèse composite ?
2. Vrai ou faux ? Tester la validité des affirmations ci-dessous en justifiant la réponse.
a) Si la valeur p vaut p = 1%, on peut rejeter H0 au niveau de signification α = 2%
b) Si la valeur p vaut p = 0, le risque d’accepter H0 à tort est nul
c) Sur 200 résultats significatifs à p = 5%, 10 en moyenne sont invalides
d) Plus d(D) est significatif, plus d(D) est grand (en valeur absolue) et plus la
valeur p(D) est faible
e) Si d(D) > dc (α), où dc (α) est le seuil critique au niveau α, on a au plus une
probabilité α de déclarer à tort les résultats significatifs
f) d(D) = dc (p(D))

Exercice 5.5
Un enseignant fait passer un test consistant en 10 questions binaires auxquelles il faut
répondre par “oui” ou par “non”. Il estime que sa classe comporte des étudiants préparés
qui répondent juste à chaque question avec une probabilité égale 0.8, et d’autres étudiants
non préparés qui répondent à chaque question au hasard.
L’enseignant décide de valider le test d’un étudiant (i.e. de considérer l’étudiant comme
préparé) si le nombre d de réponses correctes vaut 8 ou plus, et de ne pas le valider
(i.e. de considérer l’étudiant comme non préparé) sinon. Calculer les risques d’erreur de
première espèce α et de deuxième espèce β de la procédure. Cette dernière vous semble-
t-elle équitable ?

Exercice 5.6
Vrai ou faux ? Tester la validité des affirmations ci-dessous en justifiant la réponse.
1. Le niveau de signification α correspond à la probabilité de commettre une erreur de
première espèce
2. Plus grande est la région de rejet W (de H0 ), plus grand sera le niveau de significa-
tion α
3. Si la région de rejet est vide (W = ∅), alors α = 0 et β = 1
4. La variable de décision d(D) est une variable aléatoire
5. Les hypothèses H0 et H1 sont des énoncés portant sur l’échantillon
6. A deux échantillons différents correspondent :
a) des valeurs différentes de la variable de décision
b) des régions de rejet différentes
c) des hypothèses différentes
7. Pour une région de rejet W fixée, α et β diminuent avec la taille de l’échantillon
8. Un niveau de signification α = 2% signifie, qu’en moyenne, 1 chercheur sur 50 rejet-
tera à tort l’hypothèse H0 alors qu’elle est vraie

Exercice 5.7
Les auteurs d’un test de QI (= quotient intellectuel) affirment avoir calibré leur instru-
ment de sorte à fournir un QI moyen de 100 avec un écart-type de 15 dans une po-
pulation adulte. Vous suspectez que ce test est volontairement biaisé de façon à flatter
l’ego des répondants, qui obtiendraient (selon vous) un score de QI supérieur à 100
(en moyenne). Pour cela, vous faites passer le test à 9 personnes (que l’on admettra
sélectionnées aléatoirement dans la population) pour lesquelles vous observez un score
moyen de x̄ = 107.5.

140
Série 5

1. Rejetez-vous l’hypothèse nulle µ = 100 au niveau α = 5% ? au niveau α = 1% ? Quelle


est la valeur p ?
2. Même question qu’en 1), mais cette fois en procédant à un test bilatéral.
3. Si vous observez le score x1 = 130 d’un seul individu (Anselme, en l’occurrence),
rejetez-vous (unilatéralement) l’hypothèse µ = 100 au niveau α = 5% ? au niveau
α = 1% ? Quelle est la valeur p ? Quelle hypothèse supplémentaire a-t-on dû poser ici
implicitement ?

Exercice 5.8
Lors d’un examen, on pose 4 questions à choix multiples (à 2 choix chacunes), et l’on
déclare l’examen réussi si le nombre de bonnes réponses est supérieur ou égal à dc . On
admettra que si un étudiant n’est pas préparé, la probabilité qu’il réponde juste à l’une des
questions vaut 0.5, tandis que cette probabilité vaut 0.8 s’il est préparé.
1. Soient les hypothèses H0 : “l’étudiant est préparé” et H1 : “l’étudiant n’est pas
préparé”. À quoi correspondent (en français) les erreurs de première et de seconde
espèce ?
2. Calculer les probabilités α et β des erreurs correspondantes pour dc = 4, 3, 2, 1, 0.
3. Construire la courbe ROC (“receiver operating characteristic”) correspondante. Cette
courbe donne les valeurs de α en abcisse et de 1 − β en ordonnée que l’on obtient en
faisant varier le seuil critique dc .
4. Vérifier que la courbe ROC passe au-dessus de la droite d’équation 1 − β = α (i.e.
α + β = 1), qui représente la courbe ROC que l’on obtiendrait si l’on déterminait la
réussite de l’étudiant par tirage au sort (indépendamment du résultat obtenu par
l’étudiant).

Exercices supplémentaires (*)


Exercice 5.9
Un linguiste croit pouvoir classer certains documents écrits en deux catégories, se distin-
guant en particulier par l’emploi d’une certaine forme textuelle f , passant d’une fréquence
de 40% pour la catégorie A à une fréquence de 70% pour la catégorie B. Actuellement, le
linguiste est en train d’examiner un document D qu’il croyait au départ pouvoir classer
dans la catégorie A avec une confiance de 80%. Cependant, il se trouve que la forme f en
question est présente dans le document en quatre endroits sur un total de cinq endroits
possibles. La trop forte fréquence d’apparition de la forme semble donc contredire l’appar-
tenance du document D à la catégorie A : à la lumière des faits, quelle foi accorderiez-vous
à cette dernière hypothèse ?

Exercice 5.10
(*) Que vaut la discriminabilité d′ lors d’une inférence faite au hasard, comme dans
l’exemple 34 ?

Exercice 5.11
Deux espèces très proches d’oiseaux migrateurs, se différencient par la date de leur mi-
gration en une région donnée : l’espèce A passe entre l’équinoxe de printemps et 20 jours
après, tandis que l’espèce B passe entre 10 et 40 jours après l’équinoxe de printemps.
Lorsque le temps d’observation t est entre 10 et 20 jours, il y a donc confusion possible sur
l’espèce observée (de loin), et une règle de décision pourrait être


⎪A, si t ≤ tc
“ décider que l’espèce est ⎨

⎪B, si t > tc ”.

141
Corrigé de la série 5

où tc ∈ [10, 20] est le seuil critique de décision. Tracer la courbe ROC correspondant à cette
règle de décision.

Exercice 5.12
(*) Dans une expérience d’acuité visuelle, on demande à un sujet d’indiquer s’il a perçu
ou non un signal, consistant en un cercle de lumière projeté ou non, de façon répétée,
sur un écran lumineux pendant 1/100 de seconde. Le sujet produit ainsi durant 400 es-
sais un taux de 78% de détections correctes et de 19% de fausses alarmes. Calculer la
discriminabilité d′ du signal ainsi que le critère c adopté par le sujet.

Corrigé de la série 5
Exercice 5.1
On pose H0 = “pièce équilibrée” et H1 = “pièce truquée”. Les priors sont P (H0 ) = 0.8 et
P (H1 ) = 0.2.
(a) on pose Da = “trois pile”. Par la loi binomiale, on a P (Da ∣H0 ) = (33) 213 = 0.125 et
P (Da ∣H1 ) = (33)0.23 = 0.008. La probabilité qu’il s’agisse d’une pièce truquée vaut

P (H1 )P (Da ∣H1 ) 0.2 × 0.008


P (H1 ∣Da ) = = = 0.016
P (H0 )P (Da ∣H0 ) + P (H1 )P (Da ∣H1 ) 0.8 × 0.125 + 0.2 × 0.008

(b) on pose Db = “trois face”. On a P (Db ∣H0 ) = (30) 213 = 0.125 et P (Db ∣H1 ) = (30)0.83 =
0.512, et la probabilité qu’il s’agisse d’une pièce truquée vaut
P (H1 )P (Db ∣H1 ) 0.2 × 0.512
P (H1 ∣Db ) = = = 0.506
P (H0 )P (Db ∣H0 ) + P (H1 )P (Db ∣H1 ) 0.8 × 0.125 + 0.2 × 0.512
On peut noter que P (H1 ∣Da ) < P (H1 ) < P (H1 ∣Db ), comme attendu.

Exercice 5.2
(a) α = probabilité de commettre une erreur de première espèce = probabilité de
fausse alarme = 3/177=0.017
β = probabilité de commettre une erreur de seconde espèce = probabilité de
détection manquée = 9/45=0.2
(b) Le taux de classification correcte vaut P accord = (174 + 36)/222 = 0.946
Le calcul des effectifs théoriques de la table de contingence sous indépendance
145.91 31.09
N theo donne N theo = ( ), avec un taux de classification par hasard de
37.09 7.91
P hasard = 145.91+7.91
222
= 0.693. Finalement, κ = 0.946−0.693 1−0.693
= 0.82.
(c) (*) Précision = nombre de pourriels détectés = 3+36
nombre de vrais pourriels détectés 36
= 0.92.
Rappel = nombre de vrais pourriels détectés
nombre de vrais pourriels
= 9+36
36
= 0.8. F -score= 2×0.92×0.8
0.92+0.8
= 0.86.
(d) (*) On tire de (5.28) que Φ(uSN ) = 1 − P (détection pourriel correcte) = 1 − 36/45 = 0.2, d’où
(tables) uSN = −0.84. De même, on tire de (5.29) que Φ(uN ) = 1 − P (fausse alarme) =
1 − 3/177 = 0.983, et donc uN = 2.12. Ainsi, par (5.30) la discriminabilité vaut d′ =
2.12−(−0.84) = 2.96 (une valeur élevée témoignant de l’efficacité du classificateur),
et le critère vaut c = 12 (2.12+(−0.8)) = 0.64 (une valeur positive reflétant le caractère
“conservateur” du détecteur, qui “préfère” déclarer légitime un vrai pourriel que
l’inverse). Ces mêmes valeurs auraient pu être plus directement obtenues de (5.31).

Exercice 5.3
(a) Après avoir nommé lignes et colonnes, on remplit la table comme suit :
(i) l’effectif total vaut 100
(ii) les marges en ligne valent 10 et 90 (au vu de P (A) = 0.1 et P (Ā) = 0.9)
(ii) les effectifs de la première ligne valent 10 et 90 (au vu de P (B∣A) = 0.8 et donc
P (B̄∣A) = 0.2)

142
Corrigé de la série 5

(iv) de même, les effectifs de la seconde ligne valent 9 et 81 (au vu de P (B̄∣Ā) = 0.9
et donc P (B∣Ā) = 0.1)
(v) et finalement, on complète par les marges en colonne 17 et 83.
Y = prévision météo → B = beau temps B̄ = mauvais temps total
X = météo réelle ↓
A = beau temps 8 2 10
Ā = mauvais temps 9 81 90
total 17 83 100

(b) En procédant comme précédemment, on obtient la table de confusion


Y = résultat du test → Ac = négatif A = positif total
X = état de santé ↓

M c = sain 1881 19 1900


M = malade 5 95 100
total 1886 114 2000

Exercice 5.4
1. a) Un seuil de signification de α = 0.05 signifie que le risque de première espèce
(rejeter H0 à tort sur la base des données D) ne doit pas dépasser α.
b) Déclarer “d(D) significatif” revient à dire que, “si H0 était vraie, la probabilité
p que d(D) ait une valeur aussi grande (ou davantage) serait faible”, ce qui
revient à dire que, “si H0 était vraie, il serait peu vraisemblable que d(D) ait une
valeur aussi grande”, ce qui conduit à rejeter H0 (pour autant que p < α, où la
valeur du niveau de signification α, le risque maximal admissible de commettre
une erreur de première espèce, est sous-entendu).
c) Un modèle composite est un agrégat de modèles simples, et par là plus général :
les modèles composites accommodent davantage les données, et sont donc plus
difficiles à réfuter que les modèles simples.
2. a) Vrai, puisque p = 1% ≤ α = 2% : voir la règle de décision (5.38)
b) Faux : si p = 0, alors le risque de rejeter H0 à tort est nul
c) Vrai : par définition, 5% des résultats seront déclarés à tort significatifs
d) Vrai par définition
e) Vrai par définition
f) Vrai par définition

Exercice 5.5
La décision entre les deux hypothèses
● H0 : l’étudiant ayant rendu cette copie est non préparé
● H1 : l’étudiant ayant rendu cette copie est préparé
est basée sur la variable de décision d (le nombre de bonnes réponses) : l’enseignant
accepte H1 si d ≥ 8, et accepte H0 sinon.
Sous H0 , la variable de décision d suit une loi binomiale B(10, 0.5). Ainsi
α = P (d ≥ 8 ∣ H0 ) = (10
8
)0.510 + (10
9
)0.510 + (10
10
)0.510 = 5.5%.
Sous H1 , d suit une loi binomiale B(10, 0.8). Ainsi
β = P (d ≤ 7 ∣ H1 ) = 1 − P (d ≥ 8 ∣ H1 ) = 1 − {(10
8
)0.88 0.22 + (10
9
)0.89 0.2 + (10
10
)0.810 } = 32.2%.
En conclusion, il n’y a qu’une probabilité de 5.5% qu’un étudiant mal préparé soit considéré
comme préparé, alors que la probabilité qu’un étudiant préparé soit considéré comme mal
préparé est de 32.2%. La procédure est donc sévère pour l’étudiant.

143
Corrigé de la série 5

Exercice 5.6
1. vrai par définition.
2. vrai, car α = Prob(d ∈ W ∣ H0 ) .
3. vrai, puisque α = Prob(d ∈ W ∣H0 ) = Prob(d ∈ ∅ ∣ H0 ) = 0 et
β = Prob(d ∈ W C ∣ H1 ) = Prob(d quelconque ∣ H1 ) = 1
4. vrai, car d est une fonction des scores D = {x1 , . . . , xn } . A deux échantillons différents
D et D′ correspondent des scores différents. d(D) est donc une variable aléatoire
sur l’ensemble des échantillons D de taille n.
5. faux, H0 et H1 sont des modèles, i.e. des énoncés portant sur la population.
6. a) vrai, si on se réfère à la définition de d(D) rappelée ci-dessus
b) faux, car W est fixée préalablement à la constitution de l’échantillon
c) faux, les hypothèses H0 et H1 à tester sont énoncées indépendamment des
données D
7. oui, si le test est bien conçu.
8. vrai, puisque α = Prob(rejeter H0 ∣H0 vraie)

Exercice 5.7
1. Il s’agit d’un test unilatéral où l’on oppose :
● H0 ∶ µ = 100
● H1 ∶ µ > 100 √
Suivant (5.27), on rejette H0 au niveau α si x̄−µ 0
n > u1−α . Pour α = 5%, on a
√ σ
107.5−100
15
9 = 1.5 < u0.95 = 1.65 et donc on ne rejette pas H0 . Il s’ensuit qu’on ne
la rejette pas non plus au niveau α = 1% puisque u0.99 = 2.33 > u0.95 = 1.65. En
suivant (5.37) et en cherchant dans la table, on trouve que Φ(1.5) = 0.933, donc
p = 1 − 0.933 = 0.067.
2. Dans le cas d’un test bilatéral (i.e. si l’on admet que le test pourrait être biaisé tant
négativement que positivement), on oppose :
● H0 ∶ µ = 100
● H1 ∶ µ ≠ 100 √
On rejette H0 au niveau α si∣ x̄−µ
σ
0
n∣ > u1−α/2 . Pour α = 5%, on a 1.5 < u0.975 = 1.96,
et pour α = 1%, 1.5 < u0.995 = 2.58. Dans ce cas, p = [1 − Φ(1.5)] ⋅ 2 = 0.067 ⋅ 2 = 0.134.

3. Avec n = 1, on rejette l’hypothèse nulle au niveau α = 5% puisque 130−100 15
1=2>
u0.95 = 1.65, mais pas au niveau α = 1% puisque 2 < u0.99 = 2.33 (p = 1 − Φ(2) =
1 − 0.977 = 0.023).
On a ici admis implicitement que la distribution du QI dans la population suit une
loi normale, sans quoi l’usage de la loi normale ne serait pas justifié ; par contraste,
l’usage de la loi normale dans les points 1 et 2 ci-dessus est automatiquement justifié
par le théorème central limite pour n → ∞ (même si n = 9 n’est en l’occurrence pas
si grand).

Exercice 5.8
1. L’erreur de première espèce consiste à rejeter H0 à tort, i.e. à faire échouer un
étudiant préparé. L’erreur de seconde espèce consiste à accepter H0 à tort, i.e. à
faire réussir un étudiant non préparé.
2. Soit X le nombre de réponses correctes. X suit la loi binomiale B(4, 0.8) sous H0 ,
et suit la loi binomiale B(4, 0.5) sous H1 . Par construction, α = P (X < dc ∣H0 ) et
β = P (X ≥ dc ∣H1 ), qu’il est parfois plus pratique de calculer de façon équivalente
comme α = 1 − P (X ≥ dc ∣H0 ) et β = 1 − P (X < dc ∣H1 ).
a) pour dc = 4 : α = 1 − P (X ≥ 4∣H0 ) = 1 − 0.84 = 0.59 et β = P (X ≥ 4∣H1 ) = 0.54 =
0.06

144
Corrigé de la série 5

4
b) pour dc = 3 : α = 1 − P (X ≥ 3∣H0 ) = 1 − 0.84 − ( ) 0.83 × 0.2 = 0.18 et β = P (X ≥
3
4
3∣H1 ) = 0.54 + ( ) 0.54 = 0.31
3
4 4
c) pour dc = 2 : α = 1 − 0.84 − ( ) 0.83 × 0.2 − ( ) 0.82 × 0.22 = 0.027 et β = 0.54 +
3 2
4 4
( ) 0.54 + ( ) 0.54 = 0.69
3 2
d) pour dc = 1 : α = 0.24 = 0.0016 et β = 1 − 0.54 = 0.94
e) pour dc = 0 : α = 0 et β = 1
1.0
0.8
0.6
1−β

0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0

3. Voir la figure, obtenue en plaçant les 5 points (α, (1 − β)) calculés en 2


4. Voir la figure, où la diagonale représente la droite α + β = 1

Corrigés supplémentaires (*)


Exercice 5.9
Les probabilités a priori sont de P (A) = 0.8 contre P (B) = 1 − P (A) = 0.2 (puisque les
catégories A et B sont les seules retenues). Si le document D appartenait à la catégorie
A, la probabilité pour que, en 5 occasions, la forme textuelle f apparaisse 4 fois est de
P (D∣A) = 4!1!5!
(0.4)4 (0.6)1 = 0.077. Si, au contraire, le document D appartenait à la
catégorie B, la probabilité correspondante serait de P (D∣B) = 4!1!
5!
(0.7)4 (0.3)1 = 0.36. Par
la règle de Bayes, la probabilité a posteriori recherchée vaut donc

P (D∣A) P (A) (0.077) (0.8)


P (A∣D) = = = 0.32
P (D∣A) P (A) + P (D∣B) P (B) (0.077) (0.8) + (0.36) (0.2)

Exercice 5.10
(*) Lorsque la décision est aléatoire, la discriminabilité d′ (qui mesure la capacité du
classificateur à discriminer entre H0 et H1 ) vaut zéro, comme il se doit. Pour le montrer,
rappelons que, dans une inférence aléatoire, α = 1 − p et β = p pour un certain p ∈ [0, 1]
quelconque, lequel dénote la probabilité de choisir H0 (cf. exemple 34). Et ainsi, par
(5.31),

d′ = Φ−1 (1 − α) − Φ−1 (β) = Φ−1 (1 − (1 − p)) − Φ−1 (p) = Φ−1 (p) − Φ−1 (p) = 0 .

Exercice 5.11
Le temps de passage T des oiseaux peut être modélisé par une loi uniforme, à savoir

145
Corrigé de la série 5

T ∼ U (0, 20) pour l’espèce A, et T ∼ U (10, 40) pour l’espèce B. Appelons H0 la première
hypothèse (espèce A) et H1 la seconde hypothèse (espèce B). Pour un seuil donné tc ∈
[10, 20], disons tc = 13, α est alors donné par la surface sombre et β par la surface claire
de la figure du milieu ci-dessous (cf. figure 5.2 du chapitre 5) :

1.0
0.05

0.05
H0 H0

0.8
densités de probabilité uniforme

densités de probabilité uniforme


0.04

0.04

0.6
H1 H1
0.03

0.03

1−β
0.4
0.02

0.02

0.2
0.01

0.01
tc=13
0.00

0.00

0.0
-10 0 10 20 30 40 50 -10 0 10 20 30 40 50 0.0 0.2 0.4 0.6 0.8 1.0

t t α

Pour tc = 10 on a α = 0.5 (la moitié de la surface sous H0 ) et β = 0. Pour tc = 20 on a α = 0


et β = 1/3 (le tiers de la surface sous H1 ). En faisant varier tc dans [10, 20], les surfaces
correspondantes α(tc ) et β(tc ) varient linéairement en fonction de tc (puisque leur base
varie linéairement et que leur hauteur est constante). Ce qui implique que la relation entre
α(tc ) et β(tc ) elle-même est linéaire, i.e. que la courbe ROC, reliant α(tc ) (en abscisse) et
1 − β(tc ) (en ordonnée) est elle-même linéaire, i.e. constituée d’un segment de droite dont
deux points ont déjà été déterminés, à savoir α = 0.5 et 1 − β = 1 (pour tc = 10), et α = 0 et
1 − β = 2/3 = 0.66 (pour tc = 20), ce qui finalement détermine la courbe ROC de la figure
de droite ci-dessus.
Note : si l’on observait un temps de passage t inférieur à 0, ou supérieur à 40, aucune des
deux hypothèses H0 ou H1 ne pourrait être vraie, et le cadre inférentiel que l’on a adopté
ici serait visiblement trop restreint : on aurait affaire à une “erreur de troisième espèce”,
i.e. une situation où ni H0 ni H1 ne sont vraies.

Exercice 5.12
(*) On détermine d’abord les valeurs uSN et uN par Φ(uSN ) = 1 − 0.78, d’où uSN =
−0.77, et Φ(uN ) = 1 − 0.19, d’où uN = 0.88. On calcule ensuite d′ = 0.88 − (−0.77) = 1.65
et c = 12 (0.88 + (−0.77)) = 0.055 ; la discriminabilité est élevée (seules 5% des valeurs
d’une distribution normale standard étant supérieures à 1.65), et le sujet adopte un critère
neutre, i.e. sans biais (c étant proche de 0).

146
Formulaire et tables

Formulaire pour le cours méthodes quantitatives I


Indicateurs empiriques moyenne : x = 1
n
n
∑i=1 xi variance : var(x) = s2x = (x − x)2 =
x2 − x2

écart-type : sx = var(x) standardisation : xs = x−x̄
s
covariance : cov(x, y) = (x − x)(y − y) =
cov (x,y) r −rxz ryz
xy−x̄ȳ corrélation : rxy =corr(x, y) = sx sy corrélation partielle : rxy∣z = √ xy 2 √ 2 1−rxz 1−ryz

(x−x)3 (x−x)4
coefficient d’asymétrie : a3 = s3x
coefficient d’aplatissement : a4 = s4x

n 2 (n−1)r 2 −1
Estimateurs : estimer µ par x̄, p par f , σ 2 par n−1
s , ρ2 par n−2

(y ∗ )
Régression de Y sur X : y ∗ = ax + b = var
s
a = rxy sxy b = ȳ − ax̄ 2
rxy var(y)
var(y) = var(y ∗ ) + var(e)

Analyse de Variance : var(x) = varB (x) + varW (x) = 1


n ∑j=1 nj (x̄j − x̄)2 +
m 1
n
m
∑j=1 nj s2j

varB (x) (njk −ntheo


jk )
2
F-ratio : F = varm−1
W (x)
chi-carré 2 variables : chi2=∑jk ntheo jk =
ntheo
n−m jk
nj● n●k
n

f
Entropie : H(X) ≡ H(f ) = − ∑m
j=1 fj log fj Entropie relative : K(f ∣∣g) = ∑m j
j=1 fj log gj

Probabilités conditionnelles
P (A ∩ B) P (A)
P (A∣B) = = P (B∣A) P (B) = P (B∣A)P (A) + P (B∣Ac )P (Ac )
P (B) P (B)

A et B indépendants ⇔ P (A∣B) = P (A) ⇔ P (B∣A) = P (B) ⇔ P (A ∩ B) = P (A)P (B)

Fonction de distribution F (x) et quantiles (densité continue positive)

P (x ≤ xα ) = F (xα ) = α avec xα = α-ième quantile

Loi binomiale B(n, p) (X = nbre piles en n lancers, avec P (pile) = p.)

n n n!
P (X = k) = ( ) pk (1 − p)n−k k = 0, 1, ..., n avec ( )=
k k (n − k)!k!

E(X) = np Var(X) = np(1 − p)

147
Tests statistique pour le cours méthodes quantitatives I

Loi de Poisson P (λ) (limite de B(n, p) pour n grand, p petit, np = λ).

λk
P (X = k) = e−λ k = 0, 1, ..., ∞ E(X) = λ Var(X) = λ
k!

Théorème central limite : Si X1 , ..., Xn sont des variables indépendantes, de même


distribution (quelconque), de moyenne µ et de variance σ 2 , alors, pour n grand (n ≥ 20),
la variable somme X ∶= ∑ni=1 Xi suit une loi N (nµ, nσ 2 ), et la variable moyenne X̄ ∶=
2
n
X suit une loi N (µ, σn ).
n ∑i=1 i
1

Intervalles de confiance
σ σ
P (x̄ − √ u1− α2 ≤ µ ≤ x̄ + √ u1− α2 ) = 1 − α
n n

s s
P (x̄ − √ t1− α2 [n − 1] ≤ µ ≤ x̄ + √ t1− α2 [n − 1]) = 1 − α
n−1 n−1
√ √
f (1 − f ) f (1 − f )
P (f − u1− α2 ≤ p ≤ f + u1− α2 ) = 1 − α
n n

Tests statistiques pour le cours méthodes quantitatives I


test hypothèses règle de décision

principe soit H0 est vrai on rejette H0 au niveau α si (1,2)


général soit H1 est vrai d(D) > x1−α (⇔ p(D) < α)

de la moyenne H0 : µ = µ0 on rejette H0 au niveau α si (3)


x̄−µ0 √
pour σ connu H1 : µ > µ0 (2) σ
n > u1−α

de la moyenne H0 : µ = µ0 on rejette
√ H0 au niveau α si (3)
pour σ inconnu H1 : µ > µ0 (2) x̄−µ0
s
n − 1 > t1−α [n−1]

de la moyenne H0 : µ1 = µ2 on rejette√H0 au niveau α si (3)


(x̄ −x̄ ) n1 +n2 −2
pour 2 groupes H1 : µ1 > µ2 (2) √ 1 2 > t1−α [n1 +n2 −2]
( n + n )(n1 s1 +n2 s2 )
1 1 2 2
1 2

de la moyenne pour H0 : µx = µy on√ rejette H0 au niveau α si (3)


2 groupes appariés H1 : µx > µy (2) z̄
sz
n − 1 > t1−α [n−1] (zi ∶= xi − yi )

Remarques :
(1) d(D) est la variable de décision, dépendante des données D. x1−α est le seuil cri-
tique associé, tabulé.
α est le niveau de signification (a priori). p(D) est la valeur p (ou niveau de
signification a posteriori).
(2) pour un test bilatéral, remplacer d(D) par ∣d(D)∣ et α par α2 .
(3) l’échantillon doit être suffisamment grand (typiquement n ≥ 10 ou n ≥ 20) pour
que l’utilisation de la loi normale puisse être justifiée.

148
Table de la loi normale

Table de la loi normale


Table de la loi normale, donnant pour x ≥ 0, les valeurs de la fonction de distribution
cumulée Φ(u) ∶= P (X s ≤ u) , où X s est une variable normale standard X s ∼ N (0, 1).

u Φ(u) u Φ(u) u Φ(u) u Φ(u) u Φ(u) u Φ(u) u Φ(u)


0 0.5 0.61 0.729069 1.22 0.888768 1.83 0.966375 2.44 0.992656 3.05 0.998856 3.66 0.999874
0.01 0.503989 0.62 0.732371 1.23 0.890651 1.84 0.967116 2.45 0.992857 3.06 0.998893 3.67 0.999879
0.02 0.507978 0.63 0.735653 1.24 0.892512 1.85 0.967843 2.46 0.993053 3.07 0.99893 3.68 0.999883
0.03 0.511966 0.64 0.738914 1.25 0.89435 1.86 0.968557 2.47 0.993244 3.08 0.998965 3.69 0.999888
0.04 0.515953 0.65 0.742154 1.26 0.896165 1.87 0.969258 2.48 0.993431 3.09 0.998999 3.7 0.999892
0.05 0.519939 0.66 0.745373 1.27 0.897958 1.88 0.969946 2.49 0.993613 3.1 0.999032 3.71 0.999896
0.06 0.523922 0.67 0.748571 1.28 0.899727 1.89 0.970621 2.5 0.99379 3.11 0.999065 3.72 0.9999
0.07 0.527903 0.68 0.751748 1.29 0.901475 1.9 0.971283 2.51 0.993963 3.12 0.999096 3.73 0.999904
0.08 0.531881 0.69 0.754903 1.3 0.9032 1.91 0.971933 2.52 0.994132 3.13 0.999126 3.74 0.999908
0.09 0.535856 0.7 0.758036 1.31 0.904902 1.92 0.972571 2.53 0.994297 3.14 0.999155 3.75 0.999912
0.1 0.539828 0.71 0.761148 1.32 0.906582 1.93 0.973197 2.54 0.994457 3.15 0.999184 3.76 0.999915
0.11 0.543795 0.72 0.764238 1.33 0.908241 1.94 0.97381 2.55 0.994614 3.16 0.999211 3.77 0.999918
0.12 0.547758 0.73 0.767305 1.34 0.909877 1.95 0.974412 2.56 0.994766 3.17 0.999238 3.78 0.999922
0.13 0.551717 0.74 0.77035 1.35 0.911492 1.96 0.975002 2.57 0.994915 3.18 0.999264 3.79 0.999925
0.14 0.55567 0.75 0.773373 1.36 0.913085 1.97 0.975581 2.58 0.99506 3.19 0.999289 3.8 0.999928
0.15 0.559618 0.76 0.776373 1.37 0.914657 1.98 0.976148 2.59 0.995201 3.2 0.999313 3.81 0.999931
0.16 0.563559 0.77 0.77935 1.38 0.916207 1.99 0.976705 2.6 0.995339 3.21 0.999336 3.82 0.999933
0.17 0.567495 0.78 0.782305 1.39 0.917736 2. 0.97725 2.61 0.995473 3.22 0.999359 3.83 0.999936
0.18 0.571424 0.79 0.785236 1.4 0.919243 2.01 0.977784 2.62 0.995604 3.23 0.999381 3.84 0.999938
0.19 0.575345 0.8 0.788145 1.41 0.92073 2.02 0.978308 2.63 0.995731 3.24 0.999402 3.85 0.999941
0.2 0.57926 0.81 0.79103 1.42 0.922196 2.03 0.978822 2.64 0.995855 3.25 0.999423 3.86 0.999943
0.21 0.583166 0.82 0.793892 1.43 0.923641 2.04 0.979325 2.65 0.995975 3.26 0.999443 3.87 0.999946
0.22 0.587064 0.83 0.796731 1.44 0.925066 2.05 0.979818 2.66 0.996093 3.27 0.999462 3.88 0.999948
0.23 0.590954 0.84 0.799546 1.45 0.926471 2.06 0.980301 2.67 0.996207 3.28 0.999481 3.89 0.99995
0.24 0.594835 0.85 0.802337 1.46 0.927855 2.07 0.980774 2.68 0.996319 3.29 0.999499 3.9 0.999952
0.25 0.598706 0.86 0.805105 1.47 0.929219 2.08 0.981237 2.69 0.996427 3.3 0.999517 3.91 0.999954
0.26 0.602568 0.87 0.80785 1.48 0.930563 2.09 0.981691 2.7 0.996533 3.31 0.999534 3.92 0.999956
0.27 0.60642 0.88 0.81057 1.49 0.931888 2.1 0.982136 2.71 0.996636 3.32 0.99955 3.93 0.999958
0.28 0.610261 0.89 0.813267 1.5 0.933193 2.11 0.982571 2.72 0.996736 3.33 0.999566 3.94 0.999959
0.29 0.614092 0.9 0.81594 1.51 0.934478 2.12 0.982997 2.73 0.996833 3.34 0.999581 3.95 0.999961
0.3 0.617911 0.91 0.818589 1.52 0.935745 2.13 0.983414 2.74 0.996928 3.35 0.999596 3.96 0.999963
0.31 0.62172 0.92 0.821214 1.53 0.936992 2.14 0.983823 2.75 0.99702 3.36 0.99961 3.97 0.999964
0.32 0.625516 0.93 0.823814 1.54 0.93822 2.15 0.984222 2.76 0.99711 3.37 0.999624 3.98 0.999966
0.33 0.6293 0.94 0.826391 1.55 0.939429 2.16 0.984614 2.77 0.997197 3.38 0.999638 3.99 0.999967
0.34 0.633072 0.95 0.828944 1.56 0.94062 2.17 0.984997 2.78 0.997282 3.39 0.999651 4. 0.999968
0.35 0.636831 0.96 0.831472 1.57 0.941792 2.18 0.985371 2.79 0.997365 3.4 0.999663 4.01 0.99997
0.36 0.640576 0.97 0.833977 1.58 0.942947 2.19 0.985738 2.8 0.997445 3.41 0.999675 4.02 0.999971
0.37 0.644309 0.98 0.836457 1.59 0.944083 2.2 0.986097 2.81 0.997523 3.42 0.999687 4.03 0.999972
0.38 0.648027 0.99 0.838913 1.6 0.945201 2.21 0.986447 2.82 0.997599 3.43 0.999698 4.04 0.999973
0.39 0.651732 1. 0.841345 1.61 0.946301 2.22 0.986791 2.83 0.997673 3.44 0.999709 4.05 0.999974
0.4 0.655422 1.01 0.843752 1.62 0.947384 2.23 0.987126 2.84 0.997744 3.45 0.99972 4.06 0.999975
0.41 0.659097 1.02 0.846136 1.63 0.948449 2.24 0.987455 2.85 0.997814 3.46 0.99973 4.07 0.999976
0.42 0.662757 1.03 0.848495 1.64 0.949497 2.25 0.987776 2.86 0.997882 3.47 0.99974 4.08 0.999977
0.43 0.666402 1.04 0.85083 1.65 0.950529 2.26 0.988089 2.87 0.997948 3.48 0.999749 4.09 0.999978
0.44 0.670031 1.05 0.853141 1.66 0.951543 2.27 0.988396 2.88 0.998012 3.49 0.999758 4.1 0.999979
0.45 0.673645 1.06 0.855428 1.67 0.95254 2.28 0.988696 2.89 0.998074 3.5 0.999767 4.11 0.99998
0.46 0.677242 1.07 0.85769 1.68 0.953521 2.29 0.988989 2.9 0.998134 3.51 0.999776 4.12 0.999981
0.47 0.680822 1.08 0.859929 1.69 0.954486 2.3 0.989276 2.91 0.998193 3.52 0.999784 4.13 0.999982
0.48 0.684386 1.09 0.862143 1.7 0.955435 2.31 0.989556 2.92 0.99825 3.53 0.999792 4.14 0.999983
0.49 0.687933 1.1 0.864334 1.71 0.956367 2.32 0.98983 2.93 0.998305 3.54 0.9998 4.15 0.999983
0.5 0.691462 1.11 0.8665 1.72 0.957284 2.33 0.990097 2.94 0.998359 3.55 0.999807 4.16 0.999984
0.51 0.694974 1.12 0.868643 1.73 0.958185 2.34 0.990358 2.95 0.998411 3.56 0.999815 4.17 0.999985
0.52 0.698468 1.13 0.870762 1.74 0.95907 2.35 0.990613 2.96 0.998462 3.57 0.999822 4.18 0.999985
0.53 0.701944 1.14 0.872857 1.75 0.959941 2.36 0.990863 2.97 0.998511 3.58 0.999828 4.19 0.999986
0.54 0.705401 1.15 0.874928 1.76 0.960796 2.37 0.991106 2.98 0.998559 3.59 0.999835 4.2 0.999987
0.55 0.70884 1.16 0.876976 1.77 0.961636 2.38 0.991344 2.99 0.998605 3.6 0.999841 4.21 0.999987
0.56 0.71226 1.17 0.879 1.78 0.962462 2.39 0.991576 3. 0.99865 3.61 0.999847 4.22 0.999988
0.57 0.715661 1.18 0.881 1.79 0.963273 2.4 0.991802 3.01 0.998694 3.62 0.999853 4.23 0.999988
0.58 0.719043 1.19 0.882977 1.8 0.96407 2.41 0.992024 3.02 0.998736 3.63 0.999858 4.24 0.999989
0.59 0.722405 1.2 0.88493 1.81 0.964852 2.42 0.99224 3.03 0.998777 3.64 0.999864 4.25 0.999989
0.6 0.725747 1.21 0.886861 1.82 0.96562 2.43 0.992451 3.04 0.998817 3.65 0.999869 4.26 0.99999

Rappel :
● Φ(uα ) = α et Φ(u1−α ) = 1 − α
● P (X s ≤ −u) = Φ(−u) = 1 − Φ(u)
● P (u1 ≤ X s ≤ u2 ) = Φ(u2 ) − Φ(u1 )
● P (−u ≤ X s ≤ u) = 2Φ(u) − 1

Mise en garde : l’abus de décimales peut gravement nuire à la crédibilité

149
Table de la loi normale

Table du t

Table du t de Student, donnant t1−α [ν] , le (1 − α)-ième centile de la distribution du t


à ν degrés de liberté, en fonction de ν et de α.

α → 0.1 0.05 0.025 0.01 0.005 0.001 0.0005


ν ↓
1 3.078 6.314 12.71 31.82 63.66 318.30 636.6
2 1.886 2.920 4.303 6.965 9.925 22.23 31.60
3 1.638 2.353 3.182 4.541 5.841 10.21 12.92
4 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 1.476 2.015 2.571 3.365 4.032 5.893 6.869
6 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 1.314 1.703 2.052 2.473 2.771 3.421 3.690
28 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 1.311 1.699 2.045 2.462 2.756 3.396 3.659
30 1.310 1.697 2.042 2.457 2.750 3.385 3.646
35 1.306 1.690 3.030 2.438 2.724 3.340 3.591
40 1.303 1.684 2.021 2.423 2.704 3.307 3.551
50 1.299 1.676 2.009 2.403 2.678 3.261 3.496
60 1.296 1.671 2.000 2.390 2.660 3.232 3.460
70 1.294 1.667 1.994 2.381 2.648 3.211 3.435
80 1.292 1.664 1.990 2.374 2.639 3.195 3.416
90 1.291 1.662 1.987 2.368 2.632 3.183 3.402
100 1.290 1.660 1.984 2.364 2.626 3.174 3.390
200 1.286 1.653 1.972 2.345 2.601 3.131 3.340
500 1.283 1.648 1.965 2.334 2.586 3.107 3.310

Pour ν grand, on peut approximer t1−α [ν] par u1−α , le quantile correspondant de la loi normale
standard N (0, 1)..

150

Vous aimerez peut-être aussi