MQ 1

MÉTHODES QUANTITATIVES I
COURS ET EXERCICES
F RANÇOIS B AVAUD
FACULT É DES L ETTRES

FACULT É DES G ÉOSCIENCES ET DE L ’E NVIRONNEMENT
U NIVERSIT É DE L AUSANNE
Table des matières
Table des matières i
1 Introduction et rappels mathématiques 1

1 Introduction : les méthodes quantitatives (*) . . . . . . . . . . . . . . . . . . 1
2 Le formalisme et les mathématiques (*) . . . . . . . . . . . . . . . . . . . . . 2
2.1 Langage naturel et langage formel . . . . . . . . . . . . . . . . . . . . 2
2.2 Complémentarité entre langage naturel et langage formel . . . . . . 3
2.3 Quid du statut des mathématiques ? . . . . . . . . . . . . . . . . . . . 4
3 Définitions et théorèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4 Arithmétique, points, fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.1 Arithmétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2 Points et coordonnées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.3 Fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.4 Indices, signe somme, et signe produit . . . . . . . . . . . . . . . . . . 11
4.5 Factorielles et coefficients binomiaux . . . . . . . . . . . . . . . . . . . 13
5 Ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5.1 Ensembles fermés, ouverts, dénombrables, non dénombrables . . . . 13
5.2 Inclusion, intersection, union, différence symétrique, complémentaire 14
5.3 Partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.4 Diagrammes de Venn . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.5 Evénements, propriétés, ensembles . . . . . . . . . . . . . . . . . . . . 15
6 Probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.1 Axiomes de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
6.2 Fréquences empiriques et probabilités théoriques . . . . . . . . . . . 17
6.3 Indépendance entre deux événements . . . . . . . . . . . . . . . . . . 18
6.4 Probabilité conditionnelle ; formule de Bayes . . . . . . . . . . . . . . 18
2 Données 21
1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Types de variables, et échelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 Variables quantitatives ou numériques . . . . . . . . . . . . . . . . . . 22
2.2 Variables catégorielles ou nominales . . . . . . . . . . . . . . . . . . . 24
2.3 Variables ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Les “variables ouvertes” . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Une seule variable : visualisation et indicateurs . . . . . . . . . . . . . . . . . 27
3.1 Visualisation d’une variable numérique : l’histogramme, la fonction
de répartition et le boxplot. Les quantiles. . . . . . . . . . . . . . . . . 27
3.2 Indicateurs de tendance centrale et de dispersion d’une variable
numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Variables centrées, réduites, standardisées . . . . . . . . . . . . . . . 36
3.4 Visualisation d’une variable catégorielle : le diagramme en bâtonnets
(et circulaire) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4 Deux variables : visualisation et table de contingence . . . . . . . . . . . . . 38
i
4.1 Visualisation de deux variables quantitatives : le diagramme de dis-

persion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.2 Deux variables catégorielles : la table de contingence . . . . . . . . . 39
4.3 Visualisation de deux variables catégorielles . . . . . . . . . . . . . . 40
4.4 Visualisation simultanée d’une variable numérique et d’une variable
catégorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3 Liens entre deux variables 43

1 Introduction : le concept de dépendance (théorique) et de liaison (empirique) 43
1.1 Intérêt de la notion de dépendance . . . . . . . . . . . . . . . . . . . . 44
2 Liaison entre deux variables catégorielles : le coefficient du chi2 . . . . . . . 44
2.1 Quotients d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2 Valeur maximale du chi2, et V de Cramer (*) . . . . . . . . . . . . . 47
2.3 Calcul du chi2 : exemple réduit (format calculette) . . . . . . . . . . 48
3 Liaison entre deux variables numériques : covariance et corrélation . . . . . 48
3.1 Le coefficient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 La droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Liaison entre une variable numérique et une variable catégorielle : le F-ratio 53
4.1 Cas limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5 Le cas des variables bimodales (*) . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1 Le coefficient d’association Q (*) . . . . . . . . . . . . . . . . . . . . . 58
6 Variables liées et prédiction : l’apprentissage automatique (machine lear-
ning)(*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4 Modèles 60
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2 Variables aléatoires et distributions . . . . . . . . . . . . . . . . . . . . . . . . 61
2.1 Distribution de probabilité discrète . . . . . . . . . . . . . . . . . . . . 61
2.2 Distribution de probabilité continue . . . . . . . . . . . . . . . . . . . 62
2.3 Fonction de répartition et quantiles (variables aléatoires numériques) 63
2.4 Moyenne et variance théoriques ; standardisation ; coefficient de va-
riation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.5 Distributions bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1 Les distributions uniforme et concentrée . . . . . . . . . . . . . . . . 67
3.2 Loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3 Loi de Poisson P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4 Loi multinomiale M(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1 Loi uniforme U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2 Loi normale N (µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3 Distribution de Dirac δµ (cas concentré continu) . . . . . . . . . . . . 73
5 Loi des grands nombres et théorème central limite . . . . . . . . . . . . . . . 73
5.1 Somme et moyenne de variables i.i.d. . . . . . . . . . . . . . . . . . . 73
5.2 La précision d’une moyenne est supérieure à celle de ses compo-
santes individuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3 Macro-description déterministe et micro-description aléatoire sont
compatibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4 Loi des grands nombres : la moyenne empirique tend vers la moyenne
théorique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5 Simulations et tirages . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6 Le théorème central limite : omniprésence de la loi normale . . . . . 76
5.7 Lois dérivées de la loi normale : lois du t, du χ2 , du F (*) . . . . . . 78
5.8 Variance infinie : le hasard ”sauvage” (*) . . . . . . . . . . . . . . . . 79
6 Estimations ponctuelles et intervalles de confiance . . . . . . . . . . . . . . . 81
ii
6.1 Estimation ponctuelle d’une moyenne, d’une proportion, d’une va-

riance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.2 Principe de l’intervalle de confiance . . . . . . . . . . . . . . . . . . . 82
6.3 Intervalle de confiance pour la moyenne (variance connue) . . . . . 83
6.4 Intervalle de confiance pour la moyenne (variance inconnue) . . . . 83
6.5 Intervalle de confiance pour la proportion . . . . . . . . . . . . . . . . 84
5 Introduction à l’inférence et aux tests statistiques 85

1 Modèles et données : modèles probabilistes et déterministes . . . . . . . . . 85
2 Induction et déduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.1 Réfutabilité déterministe . . . . . . . . . . . . . . . . . . . . . . . . . . 87
2.2 Réfutabilité probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.3 La règle de Bayes et l’induction . . . . . . . . . . . . . . . . . . . . . . 88
3 Le sondage : population, échantillon et représentativité (*) . . . . . . . . . . 90
4 Inférence pour les modèles paramétriques . . . . . . . . . . . . . . . . . . . . 92
4.1 Estimation par maximum de vraisemblance . . . . . . . . . . . . . . . 93
4.2 Estimation par maximum a posteriori (*) . . . . . . . . . . . . . . . . 93
5 Détection, reconnaissance, confusion et inférence . . . . . . . . . . . . . . . 94
5.1 Matrice de confusion. Coefficient kappa. . . . . . . . . . . . . . . . . 94
5.2 Le cas des réponses binaires (présence/absence ; signal/bruit) . . . . 95
6 Introduction aux test statistiques . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1 Schéma général (m hypothèses simples) . . . . . . . . . . . . . . . . . 98
6.2 Décision optimale, risques et coûts . . . . . . . . . . . . . . . . . . . . 99
6.3 Test de comparaison de deux moyennes. Courbe ROC . . . . . . . . . 100
6.4 La théorie de la détection du signal (*) . . . . . . . . . . . . . . . . . 102
6.5 Approches de Neyman-Pearson et de Fisher . . . . . . . . . . . . . . . 105
6.6 Test d’une seule hypothèse simple : quel seuil choisir ? . . . . . . . . 109
6 Exercices corrigés 110

Série 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Corrigé de la série 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Série 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Série 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Série 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Série 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
iii
1 Introduction et rappels mathématiques
1 Introduction : les méthodes quantitatives (*) 1

Toute discipline empirique, c’est-à-dire fondée sur des données, doit invariablement confron-
ter certaines questions de base.
Typiquement : comment retranscrire les données collectées ? Comment mettre en rela-
tion les quantités ou catégories associées ? Comment associer les profils des diverses ob-
servations ? Dans quelle mesure ces observations soutiennent-t-elles ou non une théorie
donnée ? Comment déchiffrer, élucider les régularités ou la variabilité observés ? Com-
ment transformer toute cette information de façon à pouvoir la visualiser, l’interpréter ?
Comment prédire les valeurs probables qui pourraient être observées ?
Dans leur généralité, ces questions sont communes à toutes les disciplines, et leur traite-
ment constitue les objectifs et propositions des méthodes quantitatives, également appelées
(selon des distinctions réelles mais qui peuvent être négligées en première approximation)
statistiques ou analyse de données.
Selon la discipline considérée, et le type de données et théories associées, certaines métho-
des se révèleront plus adaptées ou centrales que d’autres, et l’on pourra alors se spécialiser
par exemple, en méthodes quantitatives pour la géographie, méthodes quantitatives pour la
linguistique, pour l’économie, la sociologie, la biologie, etc... Cela étant, le socle commun à
toutes ces méthodes quantitatives – qui est l’objet de ce cours d’introduction – est si vaste
et si cohérent que l’on peut, dans la majorité des types de problématiques abordées, parler
de méthodes quantitatives au sens général, sans spécifier une discipline en particulier.
Il se trouve que les questions évoquées ci-dessus, impliquant des notions de géométrie, de
probabilité, d’adéquation d’une théorie à des données etc. sont particulièrement illuminées
et stimulées par le recours à la logique (pour les distinctions de base), aux mathématiques
(pour les définitions plus élaborées et les calculs de base), et à l’informatique (pour les
plus longs calculs et l’automatisation), à savoir les disciplines computationnelles.
Ces disciplines se caractérisent par un recours systématique à un (ou plusieurs) forma-
lisme, formalisme qui peut certes rebuter la lectrice ingénue 2 , mais qui consiste (en tout
cas ici) en des conventions simples, peu nombreuses, et passablement répétitives – de quoi
les maı̂triser aisément au bout d’un moment, si l’on s’en donne au minimum les moyens.
Dans l’études des méthodes quantitatives, l’objectif premier consiste sans doute à maı̂tri-
ser un (ou plusieurs) langage simple, i.e. de pouvoir le lire, l’écrire, et de l’utiliser dans une
communication fluide, de façon générale, avec un minimum de fautes de syntaxe. Cette
syntaxe est réputée acquise lors des études secondaires (I et II), dont les notions suffisent
1. les personnes pressées de réviser peuvent laisser tomber les sections étoilées (*) en première lecture
2. Il est fort pénible que le français oblige à genrer les noms de personnes, alors que le plus souvent il n’est
aucunement question de genre dans l’énoncé. Les formes telles que “les étudiant.e.s”, “le(la) chercheur(euse)”
sont également pénibles, et n’amènent pas d’information supplémentaire, si ce n’est le message “je veux désigner
autant les femmes que les hommes”, “je ne fais pas de distinction” (mais pourquoi devoir alors insister sur la
non-distinction à chaque fois...). En attendant l’usage partagé d’un vrai genre neutre, le premier chapitre a été
mis au féminin, et les suivants au “masculin-neutre” – une solution pas vraiment satisfaisante non plus, car il
n’en existe pas en l’état.
1
2. Le formalisme et les mathématiques (*)
plus que largement pour l’essentiel. Si tel n’était pas tout-à-fait le cas, il n’est jamais trop
tard...
Comment des lettrées maı̂trisant les formes écrites et orales du chinois, de l’hindi, de
l’arabe etc. (ou de toute langue difficile pour, disons, les européens) peuvent-selles sécher
devant une formule mathématique simple ? Il y a là un immense mystère – et sans doute
un immense gâchis : les disciplines computationnelles de base sont tellement plus simples !
Quant aux développements avancés des disciplines computationnelles, ils peuvent être
certes vraiment escarpés et difficiles, mais rien de tel n’est exigé de l’étudiante “standard”
en méthodes quantitatives : au “pire”, ses enseignantes et ses lectures lui transmettront des
résultats directement applicables, i.e. des théorèmes utiles bien établis, mais sans exiger la
maı̂trise de toute la théorie et des preuves, lesquelles ont été établies une fois pour toute
par d’autres personnes : pas besoin de revisiter et de redémarrer ici toute la machine pour
des étudiantes qui ne sont ni logiciennes, mathématiciennes ou informaticiennes, nous
sommes bien d’accord là-dessus.
2 Le formalisme et les mathématiques (*)

2.1 Langage naturel et langage formel
Les thèmes suivants, et bien d’autres, sont récurrents dans ce qui suit :
● la distinction entre observations (données) et théories (modèles)
● les relations statistiques dans les données
● la probabilité d’une observation pour un modèle donné
● la vraisemblance d’une hypothèse suite à des observations.
Pour aborder efficacement ces questions, il est essentiel de pouvoir recourir, en plus du lan-
gage naturel, au langage formel. En (très) gros, le langage naturel est le français (l’anglais,
le hindi, etc.) parlé ou écrit “ordinaire”, tandis qu’un langage formel utilise un formalisme
impliquant des symboles particuliers reliés entre eux par une syntaxe logique strictement
définie. Une formule mathématique, une expression de logique formelle, du code infor-
matique sont des exemples de langage formel.
Exemple 1. Par exemple, “le carré de la longueur de l’hypoténuse est égal à la somme des
carrés des longueurs des deux autres côtés” est un énoncé mathématique en langage naturel,
tandis que “z 2 = x2 + y 2 ” est le même énoncé (une fois définis z, x et y) en langage formel.
Autre exemple : “la probabilité conditionnelle d’obtenir face sachant que l’on a obtenu face
le coup d’avant est égale à la probabilité non conditionnelle d’obtenir face” peut s’écrire
formellement comme “P (Xt+1 = F ∣Xt = F ) = P (Xt+1 = F )”.
Par rapport au langage naturel, le langage formel

(I) est beaucoup plus précis, sobre (et pauvre, pourra-t-on ajouter) : en passant de “Les
illustres convives s’étaient réparties entre le grand salon et la salle des fêtes” à “Deux
pièces contiennent respectivement n1 > 0 et n2 > 0 personnes”, on insiste sur le fait
que deux pièces sont occupées par un certain nombre de personnes, et on élimine
tous les autres éléments de contexte.
Cette précision est inestimable lorsqu’il s’agit de définir un nouvel objet, (tel que,
parmi des myriades d’exemples possibles, un territoire, un flux, une matrice de
corrélation ou un statut étudiante “réussites/échecs/matières non évaluées” dans un
plan d’études) typiquement comme l’objet muni de certaines propriétés (= toutes
ces propriétés et seulement ces dernières).
(II) est beaucoup plus concis ou compressé : dans l’exemple 1, les expressions des va-
riantes formelles sont beaucoup plus courtes que leurs équivalents en langage na-
turel. On peut encore compresser davantage toute expression formelle à volonté,
2
simplement en la représentant par un seul nouveau symbole 3 .

La redondance du langage naturel fait qu’une erreur de syntaxe (par exemple une
faute d’orthographe) peut être corrigée facilement en général. Elle est bien moins
pénalisante qu’une erreur de syntaxe en langage formel : un seul signe incorrect
rend une formule mathématique incompréhensible (ou irrémédiablement autre),
un code informatique inopérant, etc.
(III) est beaucoup plus strict et contraint dans sa syntaxe : une expression formelle
est correcte, “bien formée” ou non, auquel cas elle n’a aucune valeur, aucune utilité,
aucune fonction.
Cette cohésion syntaxique est si forte qu’un énoncé formel tel que “x = 2y + 3” peut
être transformé automatiquement en “y = 21 x − 23 ” sans qu’à aucun moment il ne
soit nécessaire de réfléchir à ce que x et y peuvent représenter ou signifier (il peut
s’agir de coordonnées sur un plan cartésien, d’une relation entre le revenu et l’âge,
d’un système de transcription de notes lors d’un échange universitaire européen,
ou de toute autre chose). Autre exemple, un énoncé tel que x2 − 3x + 2 = 0 peut,
indépendamment de son contexte, être transformé mécaniquement en x0 = {1, 2}
(les solutions de l’équation précédente) : c’est le prodige du calcul, rendu possible
par l’application de règles mathématiques à des expressions formelles.
Par contraste, l’élaboration d’un nouveau concept ou le développement d’une argu-
mentation “verbo-conceptuelle” en langage naturel demande qu’à chaque instant
son auteure (ou sa lectrice) ait à l’esprit l’entièreté des éléments et du contexte
invoqués – un exercice beaucoup plus exigeant, incontestablement.
2.2 Complémentarité entre langage naturel et langage formel

De quoi parle-t-on, quel est le contexte, quelle est la signification du discours ? Le recours
au langage naturel, au début de tout discours et dialogue entre humains, est incontour-
nable : le langage formel n’est jamais utilisé tout seul, sans passages en langage naturel :
un traité de mathématiques ou de logique contient de nombreuses phrases en langage
naturel ; les fonctionnalités et objectifs d’un code informatique sont toujours décrits en
langage naturel, et ce dernier est généralement commenté.
Cela étant, une fois communiqué et introduit le sujet de discussion, il est possible que la
problématique associée se prête à une formalisation, auquel cas il serait vraiment dommage
d’y renoncer : une fois traduit en langage formel, l’énoncé initial peut en effet être traité de
façon purement syntaxique. Quantité d’opérations formelles (i.e. logiques, mathématiques
ou informatiques) peuvent alors y être appliquées automatiquement, sans référence au-
cune à la signification et au contexte de l’énoncé.
3. la seule limite ou difficulté est ici la disponibilité des symboles (lettres latines ou grecques minuscules ou
majuscules, symboles spéciaux etc.). Il s’agit d’une réelle difficulté dans la rédaction d’un article ou un traité
impliquant de nombreux objets formels, comme c’est souvent le cas en méthodes quantitatives : on y manque
hélas très souvent de lettres distinctes et reconnaissables (ce n’est pas une plaisanterie).
3
Ce foisonnement de cheminements formels possibles

permet des raccourcis directs et spectaculaires dans Langage naturel Langage formel
l’obtention de solutions. Il permet le plus souvent SEMANTIQUE
de générer de nouvelles questions pertinentes. Il énoncé initial énoncé initial

en langage naturel en langage formel
clarifie également en retour le rôle (nécessaire ou
non, souhaitable ou non) des éléments de départ
présents dans l’énoncé du problème, et aide à iden- S
Y
tifier d’éventuelles modifications du contexte, propres N
T
à aborder la problématique d’une façon plus féconde. A
L’effort supplémentaire requis est d’une part celui de X
E
la traduction d’un langage à l’autre, dans les deux sens
énoncé(s) final énoncé(s) final
(opération sémantique), et d’autre part celui du tra- en langage naturel en langage formel
vail formel proprement dit, à l’intérieur du système SEMANTIQUE
formel (opération syntaxique).
De nombreuses disciplines ont su tirer profit de cette formalisation : la physique est

entièrement formalisée, une grande partie des sciences économiques l’est, comme le sont
de nombreux chapitres en biologie, sciences de la terre, géographie, linguistique, psycho-
logie, etc.
2.3 Quid du statut des mathématiques ?

Voilà une question disputée. Pour simplifier (beaucoup), l’arithmétique ancienne (disons
celle de l’antiquité) étudiait les propriétés des nombres (entiers), comme dans “trois pommes
plus cinq pommes font huit pommes”, un énoncé valide pour n’importe quelle quantité
conservée (des poires, des personnes, des volumes etc. ), certes formalisé (en notation
moderne) comme “3 + 5 = 8”, mais sans plus.
De même, la géométrie ancienne étudiait les propriétés générales des configurations spa-
tiales, comme dans “le carré de la longueur de l’hypoténuse est égal à la somme des carrés
des longueurs des deux autres côtés”, un énoncé valide pour tout triangle rectangle, quelle
que soit sa position ou son orientation, sa matérialisation (en sable ou en granit), etc.
On peut considérer ces énoncés comme des propriétés vraies 4 pour quantité d’objets réels
(au sens de “observés”) indépendamment de leurs caractéristiques intrinsèques, auquel
cas l’arithmétique et la géométrie constituent une science, plus précisément une partie de
la physique.
On peut, au contraire, comme dans la conception contemporaine largement dominante,
considérer les mathématiques comme un ensemble de propositions logiquement validées
ou prouvées à partir d’un ensemble de définitions et de propositions admises comme
vraies (ou axiomes ; voir section 3), propositions décrivant ou modélisant plus ou moins
adéquatement et utilement la réalité ou monde. Ici, les mathématiques constituent une
partie (de loin la plus féconde) de la logique, et ne constituent pas une science.
Dans les deux cas, les mathématiques se prêtent magnifiquement à la formalisation, à

tel point que “expression formelle” et “expression mathématique” sont aujourd’hui sy-
nonymes. Mais, ainsi que sa forme ancienne l’atteste, les mathématiques ne sont pas
nécessairement formalisées : comme l’illustre la figure 1.1, la lecture d’un traité “ancien”
d’arithmétique ou de géométrie donne la mesure de la difficulté (à produire du contenu,
le communiquer, et à le lire) induite par le recours quasi exclusif au langage naturel.
Nul doute que Al-Khwarizmi, Peletier, et toutes les mathématiciennes anciennes auraient
adopté avec enthousiasme le langage mathématique formel si elles en avaient disposé de
leur temps. Et nul doute aussi que la formalisation “moderne” a permis aux mathématiques
4. ou pas : le théorème de Pythagore n’est plus valide dans un univers courbé par un camp gravitationnel.
4
3. Définitions et théorèmes
F IGURE 1.1 – Gauche : extrait du traité d’algèbre Kitab al-jabr wa al-muqabala (ca. 825) de Al-
Khwarizmi (ca. 780-850). Droite : extrait de l’ouvrage L’algèbre de Jaques Peletier du Mans, départie
en deux livres (1554), de J.Peletier (1517-1582).
d’acquérir cette efficacité, cette puissance, cette nécessité contemporaine incontournable 5 ,

qui en font l’une des plus extraordinaires constructions de l’humanité.
Le fait qu’une grande partie de cette même humanité, passée, présente et certainement
future, réfractaire aux mathématiques, puisse, pendant sa formation, réellement souffrir
de sa confrontation avec les mathématiques est fort malheureux ; mais cela n’y change
rien.
3 Définitions et théorèmes
Un discours mathématique commence toujours par présenter des définitions, ou s’ap-
puyer sur des notions bien définies pour l’audience – et d’autres disciplines feraient bien
de s’en inspirer systématiquement. Une fois introduits ces définitions ou axiomes, leurs
conséquences logiques sont ensuite énoncées : ce sont les théorèmes, et cet enchaı̂nement
illustre parfaitement la démarche déductive, formée de segments de la forme
“ si la propriété A est vraie, alors la propriété B est vraie ”
également énoncés comme
“ si A, alors B ” ou encore A⇒B .
De même, l’énoncé
“ la propriété A est vraie si et seulement si la propriété B est vraie ”

5. comme en informatique, issue des mathématiques et de l’électronique (une partie de la physique).
5
4. Arithmétique, points, fonctions
s’énonce aussi
“ A si et seulement si B ” ou “ A ssi B ” 6 ou encore A⇔B .
Le signe égalité “=”, comme dans “ f (x) = 1 − 2x + x2 ” possède deux significations bien
distinctes : il peut s’agir
● soit d’une définition d’un objet ou d’une propriété, à lire comme “ soit f (x) la
fonction 1 − 2x + x2 ”. On peut préciser cet usage en notant
def △
f (x) ∶= 1 − 2x + x2 ou encore f (x) = 1 − 2x + x2 ou encore f (x) = 1 − 2x + x2
et certaines syntaxes informatiques (telle celle de R) utilisent “ f (x) ← 1 − 2x + x2 ”

exactement dans le même sens.
● soit d’un théorème, comme dans la seconde égalité ci-dessous (la première étant
une définition) :
“ Soit f (x) ∶= (1 − x)2 . Alors f (x) = 1 − 2x + x2 . ”
4 Arithmétique, points, fonctions

4.1 Arithmétique
4.1.1 Opérations et transformations de base
La pratique manuelle des méthodes quantitatives et de la statistique, i.e. avec tables et
calculettes, ou lignes de code exécutées une à une, requiert une connaissance minimale
√ opérations + − × /, il s’agit essen-
de l’arithmétique et de l’algèbre ; en dehors des quatre
tiellement de pouvoir calculer des racines carrées x et des élévations à la puissance xn .
Les factorielles n! et coefficients binomiaux (nk) intervenant dans le cas de la loi binomiale
seront définis plus loin. Il faudra également acquérir (ou retrouver) une familiarité mini-
male avec les logarithmes (ex : entropie, transformation des scores, modèles log-linéaires),
et la fonction exponentielle exp(x) (ex : Loi de Poisson). Les fonctions trigonométriques
sin(x) et cos(x) interviendront dans des applications spécifiques (ex : séries temporelles,
données directionnelles, interprétation géométrique de la corrélation).
Dans la pratique statistique routinière, toutes ces fonctions deviennent pratiquement invi-
sibles en tant que telles à l’utilisateur : elles sont intégrées dans un logiciel ad hoc muni
d’une interface graphique donnant accès aux analyses et graphiques les plus utilisés. Cela
étant, pratiquer tous les calculs requis au moins une fois “à la main” (i.e. à l’aide d’une
calculette, ou en programmant soi-même) constitue une excellente (voire nécessaire)
façon de s’approprier la matière, de maintenir le contact avec la signification réelle d’une
opération statistique, et de conserver une distance critique suffisante face aux sorties de
logiciels, dont les choix peuvent et doivent être discutés, le cas échéant.
4.1.2 Nombres réels

Les nombres à disposition du quantitativiste sont, en toute généralité, des nombres réels,
i.e. pouvant être mis en correspondance exacte avec les points d’une droite munie d’une
origine (le zéro) et d’une unité (+1)). L’ensemble R des nombres réels va de −∞ (“moins
l’infini”) à ∞ (“l’infini”). L’infini doit être pensé comme une limite plutôt que comme un
nombre réel (ce qu’il n’est pas). L’expérience montre que la division ou la multiplication
par 0 ou par ∞ peut prêter à confusion : a ≠ 0 désignant un nombre fini, on a toujours :
a a
a⋅0=0 a⋅∞=∞ =0 = ±∞ a0 = 1 (1.1)
∞ 0
6. “ssi” = “si et seulement si”. En anglais : “iff” = “if and only if”.
6
Par contre, les opérations suivantes sont soit indéterminées, soit impraticables dans l’en-
semble des réels :
0 ∞ √
=? =? 0 ⋅ ∞ =? 00 =? nombre strictement négatif =? (1.2)
0 ∞
Les nombres réels sont ordonnés par les relations “>” (plus grand que), “≥” (plus grand ou
égal que), “<” (plus petit que), “≤” (plus petit ou égal que).
Etonnamment, la terminologie nombre positif est ambigüe : elle peut désigner, selon les
usages, un nombre strictement positif x > 0 (c’est la convention qui sera utilisée ici) ou
bien un nombre non-négatif x ≥ 0. Mêmes remarques pour nombre négatif.
La multiplication (ou la division) de deux nombres de même signe (i.e. tous deux positifs
ou négatifs) donne un nombre positif ; la multiplication (ou la division) de deux nombres
de signe opposé donne un nombre négatif.
La valeur absolue d’un nombre x, notée ∣x∣, est égale à x si x ≥ 0, et à −x sinon. Par
exemple, ∣3∣ = 3 et ∣ − 3∣ = 3.
Le maximum de deux nombres max(x, y) est égal à x si x ≥ y, et à y sinon. De même,
le minimum de deux nombres min(x, y) est égal à x si x ≤ y, et à y sinon. Par exemple,
max(3, −4) = 3 et min(3, −4) = −4. En particulier, ∣x∣ = max(x, −x). Il n’est pas difficile de
prouver les identités suivantes
1 1
max(x, y) = (x + y + ∣x − y∣) min(x, y) = (x + y − ∣x − y∣)
2 2
Soit Z = {. . . , −2, −1, 0, 1, 2, . . .} l’ensemble des entiers relatifs. La partie entière par défaut
ou simplement partie entière (anglais : floor) ⌊x⌋ d’un réel x est le plus grand nombre
entier relatif non supérieur à x. Par exemple, ⌊1.2⌋ = 1, ⌊−2.7⌋ = −3 et ⌊−4⌋ = −4. La partie
entière par excès (anglais : ceiling) ⌈x⌉ d’un réel x est le plus petit nombre entier relatif
non inférieur à x. Par exemple, ⌈1.2⌉ = 2, ⌈−2.7⌉ = −2 et ⌈−4⌉ = −4.
Par construction, ⌈x⌉ = −⌊−x⌋. Aussi, ⌊−x⌋ + ⌊x⌋ = −1, sauf si x est un entier relatif, auquel
cas l’expression vaut zéro.
4.1.3 Continuum et ensemble discret

L’ensemble R des réels est le prototype du continuum, composé d’éléments pour lesquels
on peut passer de l’un à l’autre de façon continue. Il s’oppose à l’ensemble discret, tel
l’ensemble N = {0, 1, 2, . . .} des entiers naturels, pour lequel il faut “sauter” pour passer
d’un élément à l’autre.
R et N possèdent tous deux un nombre infini d’éléments, mais le premier est beaucoup
plus grand que le second. La représentation décimale d’un nombre réel est physiquement
impossible en général : elle exige presque toujours un nombre infini de décimales (on peut
donner un sens mathématique rigoureux à cette affirmation). Par contraste, on peut faire
une liste de tout les nombres entiers (comme 0, 1, 2, . . .) telle que tout nombre entier finira
par y apparaı̂tre dans l’énumération au bout d’un temps fini : pour cette raison, l’ensemble
N est dit dénombrable, au contraire de R qui ne l’est pas.
4.1.4 Précision
Les données numériques résultent :
● de “simples” opérations de comptage, s’exprimant en entiers (le nombre de nais-
sances en une année dans une région donnée ; le nombre de jours de pluie, le nombre
de votants)
● de mesures physiques (la température d’un liquide, la teneur en alcool d’une bière, la
distance entre deux lieux)
7
● d’estimations dépendant de modèles souvent sérieux mais provisoires (l’âge du système

solaire, la part des carottes dans l’alimentation de la Rome antique)
● ou d’indicateurs statistiques préalablement établis (l’espérance de vie à la naissance
dans un pays donné ; le prix médian d’une nuit d’hôtel ; la proportion d’adjectifs dans
un roman donné).
Dans presque tous les cas, il existe une incertitude ou précision finie sur la valeur exacte
de la donnée (difficultés ou ambiguı̈tés de comptage, finesse limitée des instruments ou
des indicateurs, incertitude sur le choix du modèle), limitant le nombre pertinent de
décimales ou, plus généralement, de chiffres dits significatifs. De ce point de vue, une
valeur numérique tend à exprimer deux choses fort distinctes, à savoir la magnitude de sa
valeur, mais aussi sa précision :
● une température de 37.2 ○ C n’est pas la même chose qu’une température de 37.200 ○ C,
qui évoque une précision 100 fois plus grande
● deux villes distantes de 10 miles ne sont pas exactement distantes de 16.093 ki-
lomètres
● avoir lu dans une édition datant de 1970 que le système solaire a 5 milliards d’années
n’autorise pas de dire en l’an 2000 que le système solaire a 5’000’000’030 années
● suite à quelques naissances ou décès, une ville de 30’000 habitants reste une ville de
30’000 habitants.
● si 8 personnes sur 13 sont favorables à un changement, déclarer un taux d’accep-
tation de 0.6154 = 61.54 % est soit maladroit soit franchement délictueux, puis-
qu’une telle précision, portant sur le quatrième chiffre significatif, évoque l’exis-
tence de 1/0.0001 = 10000 résultats possibles, alors qu’il n’y en a ici que 14 (à savoir
0, 1, 2 . . . , 13 personnes favorables à un changement).
Les “nombres arrondis aux décimales significatives” sont à cet égard plus adaptés d’un
point sémantique que les nombres réels, lesquels sont trop précis pour exprimer une va-
leur, et pas conçus pour exprimer l’imprécision, précisément. On peut expliciter ces deux
informations comme dans la notation 37.2 ± 0.2 ○ C, par exemple, qui exprime que la
température réelle se situe quelque part entre 37.0 ○ C et 37.4 ○ C, et qui préfigure la no-
tion d’intervalle de confiance en statistique.
Conserver toute la précision dans les calculs, mais se garder d’exprimer le résultat final avec
une précision supérieure à celle des données de départ, permet de contourner efficacement
bien des écueils dans ces matières – passablement complexes si on veut les formaliser
entièrement.
4.2 Points et coordonnées

La possibilité de représenter graphiquement les résultats numériques, selon des conven-
tions explicites et partagées, est précieuse : le système nerveux humain est très performant
pour reconnaı̂tre des formes visuelles, et très inefficace pour appréhender globalement un
tableau de chiffres.
8
3
Une des représentations graphiques les plus ⎛− 1⎞
C= ⎜ ⎟
⎝2⎠
simples et utiles consiste à représenter des points
2
définis par deux coordonnées (nombres réels)
⎛1⎞
(x, y) sur un “repère 0xy” dit aussi “repère A= ⎜ ⎟
1
⎝1⎠
cartésien”, à savoir sur un plan défini par deux
x
axes orientés (l’axe des x, horizontal, définissant
0
-2 -1 0 1 2 3
l’abscisse du point, et l’axe des y, vertical,
définissant l’ordonnée du point). L’origine (le ⎛0⎞
B= ⎜ ⎟
-1
⎝− 1⎠
point (0, 0)) est généralement placée à l’intersec-
tion des axes, sur lesquels figureront également
-2
les échelles, qui peuvent différer quant à la gra-
duation choisie.
Trois points dans un repère cartésien
4.3 Fonctions
Les mêmes conventions s’appliquent également
10
pour la représentation des fonctions : une fonc- y
tion y = f (x) est une règle de correspondance qui f(x)=x3
à un certain nombre x associe un nombre y.
5
√
Par exemple, f (x) = x3 et g(x) = x + 1 font g(x)= x + 1
respectivement correspondre à un nombre x son x
0
-2 -1 0 1 2
cube et la racine carrée de sa valeur additionnée
d’une unité 7 . Le calcul d’un nombre suffisant
de valeurs telles que f (0) = 0, f (0.5) = 0.125,
-5
f (1) = 1, f (1.5) = 3.375, etc., permet d’esquis-

ser le graphe de la fonction f (x), passant par les
-10
points (0, 0), (0.5, 0.125), (1, 1), (1.5, 3.375), etc.
Quant à la fonction g(x), elle n’est définie que √
pour x ≥ −1. Graphes de f (x) = x3 et g(x) = x+1
Une fonction est dite continue si son graphe peut être tracé sans discontinuités, i.e. sans
lever le crayon. Une fonction est croissante si son graphe “monte” (i.e. si à des valeurs
plus élevées de x correspondent des valeurs plus élevées de y, ou encore si sa pente est
positive) – c’est le cas des fonctions représentées ci-dessus. La décroissance d’une fonction
se définit de façon analogue.
Une fonction f continue et strictement monotone (i.e. strictement croissante ou décrois-
sante) possède un inverse f −1 , défini par f −1 (y) = x ssi y = f (x), ou encore f −1 (f (x)) = x
(pour tout x) ou bien f (f −1 (y)) = y (pour tout y) : à chaque valeur de x correspond une
seule valeur de y (et réciproquement), on dit que la fonction f est une bijection.
Un maximum (local) d’une fonction continue est un point a de l’axe des x tel que la
fonction soit croissante pour x ≤ a et décroissante pour x ≥ a, du moins dans un voisinage
de a, i.e. dans une région suffisamment petite contenant a. La notion de minimum se
définit de façon analogue.
Une fonction est dite convexe (respectivement concave) si sa courbure est orientée vers le
haut (respectivement vers le bas). Un fonction régulière est convexe dans le voisinage d’un
minimum, et concave dans le voisinage d’un maximum. Les points de transition convexe
↔ concave sont appelés points d’inflexion.
7. cette dernière locution, comme souvent avec le langage naturel, est ambigüe : l’ordre des transformations
n’est pas précisé, et deux interprétations sont possibles
9
y=x4 − x3 3 − 2x2 + x
Le graphe de la fonction f (x) = x4 − x3 /3 −
2
2x2 + x ci-contre illustre sa décroissance pour x ∈
(−∞, −1) et x ∈ (1/4, 1), et sa croissance pour
1
x ∈ (−1, 1/4) et x ∈ (1, ∞) (la section 5.1 rappelle
ces notations).
La fonction est localement minimale pour x = −1 x
0
et x = 1, avec valeurs f (−1) = −5/3 et f (1) = −1/3
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
et. Elle est localement maximale pour x = 1/4,

avec f (1/4) = 95/768 = 0.124.
-1
La fonction est convexe pour x ∈ (−∞, −1/2) et
x ∈ (2/3, ∞). Elle est concave pour x ∈ (−∞, −1/2)
et x ∈ (2/3, ∞). Aux points x = −1/2 et x = 2/3,
-2
la fonction passe de convexe à concave, ou l’in-
verse : ce sont les points d’inflexion. Graphe de f (x) = x4 − x3 /3 − 2x2 + x
Les concepts précédents peuvent aussi être définis à l’aide de la notion de dérivée d’une
fonction : une fonction f (x) (suffisamment régulière) est croissante ssi sa dérivée première
(ou pente) satisfait f ′ (x) > 0, et décroissante ssi f ′ (x) < 0. Elle est convexe ssi sa dérivée
seconde satisfait f ′′ (x) > 0, et concave ssi f ′′ (x) < 0. Les extrema (=minima ou maxima)
satisfont à f ′ (x) = 0, et les points d’inflexion à f ′′ (x) = 0.
Bonne nouvelle pour les personnes qui ont souffert au baccalauréat de mathématiques : le
calcul des dérivées, et celui des intégrales (le célèbre calcul différentiel et intégral, appelé
calculus en anglais) n’est pas requis pour les utilisateurs des statistiques : en particulier, les
valeurs des intégrales les plus utilisées sont soit tabulées (ce sont les tables statistiques de
la loi normale, du t, du χ2 , du F ,...), soit calculées par un logiciel.
Cela étant, la compréhension de ces concepts est centrale dans l’appareil logico-formel des
méthodes quantitatives : typiquement, on verra que la probabilité d’un événement décrit
par une valeur continue s’exprimera comme une intégrale. Aussi, il faut distinguer entre
minimum local (les points x = −1 et x = 1 de la figure ci-avant) et minimum global (le point
x = −1, qui constitue le “minimum des minima”). Plutôt que d’écrire
min f (x) = f (−1) on écrit aussi arg min f (x) = −1

x∈R x∈R
où “arg min” désigne l’argument minimisant la fonction qui suit. Les mêmes considérations
et notations s’appliquent aux maxima, naturellement.
4.3.1 Fonctions linéaires ; droites

Les fonctions les plus simples et les plus utilisées en méthodes quantiatives sont les fonc-
tions linéaires, de la forme f (x) = ax + b, où a et b sont deux nombres réels quelconques
bien définis, les paramètres de la fonction 8 . Toute fonction linéaire correspond géométriquement
à une droite et inversement.
8. un usage plus strict réserve l’appellation “linéaire” aux seules fonctions du type f (x) = ax
10
Pour représenter une fonction linéaire, par

y
3
exemple f (x) = 2x − 1, il suffit de déterminer
deux points arbitraires et de tracer la droite. Dans
2
l’exemple, f (0) = −1 et f (1) = 1 : la droite
passe donc par les points (0, −1) et (1, 1), comme ⎛1⎞
⎜ ⎟
1
l’illustre le graphique ci-contre. ⎝1⎠
Le paramètre a s’appelle pente (slope) de la droite x

y = ax + b : la droite est croissante ssi a > 0, et
0
-2 -1 0 1 2 3
décroissante ssi a < 0. Lorsque a = 0, on a la fonc-

⎛0⎞
tion constante f (x) = b, qui associe à tout nombre ⎜ ⎟
-1
⎝− 1⎠
réel x la valeur b. Le paramètre b donne l’ordonnée
à l’origine (intercept), qui est la distance verticale
-2
de la droite à l’origine : la droite passe au-dessus
de l’origine ssi b > 0. Lorsque b = 0, la droite passe Une droite est déterminée
par l’origine. Dans ce cas, les valeurs de y sont par deux points distincts
proportionnelles à celles de x.
4.3.2 Logarithmes et exponentielles

√
A part les fonctions puissance xa (telles que x2 ou x), les fonction non-linéaires les plus
utilisées en méthodes quantitatives sont le logarithme loga (x) et son inverse, l’exponentielle
ax . L’expression loga (x) désigne le logarithme en base a > 1 du nombre x > 0, qui est
l’exposant y auquel il faut élever a pour obtenir x. Autrement dit :
y = loga (x) ⇔ ay = x (1.3)
Par exemple, le logarithme de 32 en base 2 est log2 32 = 5, car 25 = 32. Les bases les
plus utilisées sont les bases a = 2, a = 10 et a = e ∶= 2.71828.... Changer de base revient
à multiplier le logarithme par une constante (comme pour un changement d’unités en
physique) : logb (x) = logb (a) loga (x). Si le choix de la base est sous-entendu, ou si la
propriété dont il est question ne dépend pas de la base, on peut noter log x au lieu de
loga (x). L’écriture ln x réfère à loge (x) (logarithme népérien ou naturel).
y=loga(x)
3
La fonction logarithme loga (x) est croissante,

concave, et définie pour x > 0 seulement. On a
2
loga (1) = 0 et loga (a) = 1. Aussi, limx→0 loga (x) =

1
−∞, limx→0 x loga (x) = 0 et limx→∞ loga (x) = ∞.

x
La propriété essentielle du logarithme (quelle que
0
0 2 a 4 6 8 10
1
soit sa base) est de transformer le produit en
-1
somme, le quotient en différence, et la puissance

en produit :
-2
log(xy) = log(x) + log(y)

-3
x
log( ) = log(x) − log(y)
-4
y
log(xy ) = y log(x) . Graphe du logarithme en base a
4.4 Indices, signe somme, et signe produit

Afin de représenter une série de nombres ou de valeurs, par exemple les âges x respectifs
de n individus, la notation indicée est fort commode : xi (lu “x indice i” ou simplement
“x i”) désignera l’âge du i-ème individu. La somme des âges des n individus s’écrira alors :
x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + . . . + xn (1.4)
11
Pour simplifier et compresser cette écriture, on introduit le “signe somme” ∑ (inspiré du

caractère “sigma majuscule”), et l’on écrit (1.4) sous la forme :
n
∑ xi (1.5)
i=1
De façon générale, ∑ni=k ai désigne la somme de tous les ai , en commençant par l’individu
numéro i = k et en terminant par le numéro i = n (on suppose que k ≤ n). Il est à noter
que l’expression ne dépend pas de la lettre utilisée comme indice, qui est pour cette raison
qualifiée d’indice muet : on a toujours ∑ni=k ai = ∑nj=k aj , quelles que soient les valeurs de
k, de n et de la série ak ,...,an .
Si ri désigne le revenu du i-ème individu, rj désigne évidemment le revenu du j-ème indi-
vidu (et poser la question “que désigne rj ?” montre que l’on a pas compris la convention).
Par contre, qi désigne bien une certaine valeur associée au i-ème individu, mais tant que
l’on a pas défini q (la taille ? l’âge ? le revenu ?) on ne peut rien dire de plus.
De même, la notation
n m
∑ ∑ aij ou encore plus simplement ∑ aij
i=1 j=1 ij
désigne la double somme sur toutes les n valeurs de i et les m valeurs de j. On peut
effectuer la somme dans n’importe quel ordre, pourvu que chaque aij soit comptabilisé
une et une seule fois.
La notation ∑i≠j aij peut être ambigüe (le contexte devrait permettre de lever l’ambiguı̈té) :
il peut s’agir d’une double somme sur i et j excluant les paires i = j, ou d’une somme simple
sur toutes les valeurs de i sauf celle pour laquelle i = j, le cas échéant, qui pourrait alors
s’écrire sans ambiguı̈té comme ∑i ∣ i≠j aij (voir section 5.2), le résultat dépendant alors de
la valeur de j, qui n’est pas muet dans ce cas.
De façon analogue, la notation ∏ni=k ai désigne le produit de tous les ai , en commençant
par le numéro i = k et en terminant par le numéro i = n, à savoir ak ak+1 ak+2 ...an−1 an .
4.4.1 Des indices pas si muets en définitive (*)

L’équation (1.5) peut aussi s’écrire comme
n n n ⊘
∑ ix ou encore ∑ xℵ ou encore ∑ £ℵ ou encore ∑ £ℵ (1.6)
x=1 ℵ=1 ℵ=1 ℵ=1
dès que l’on a convenu de représenter l’âge du x-ème individu par ix (ou l’âge du ℵ-
ième individu par xℵ ou £ℵ ), parmi ⊘ = n individus. D’un point de vue strictement
formel (syntaxique), (1.6) n’est ni meilleur ni moins bon que (1.5). D’un point de vue
sémantique (traduction du langage naturel en langage mathématique et vice-versa), force
est de reconnaı̂tre que les identités de (1.6) sont bien plus difficiles à lire et appréhender
du premier coup que ne l’est (1.5) : les symboles ℵ, £ et ⊘ sont rarement utilisés en
mathématiques, et pratiquement jamais sous cette forme, alors que xi est le standard pour
désigner “la valeur du i-ème individu”.
L’usage rend ainsi certains symboles, en soi arbitraires et muets, plus faciles à lire que
d’autres, et la bonne lisibilité d’un texte mathématique dépend fortement de ces conven-
tions – lesquelles peuvent varier d’une discipline à l’autre, ce qui rend l’écriture mathé-
matique interdisciplinaire particulièrement délicate : certaines conventions doivent néces-
sairement être sacrifiées au profit d’autres (collusions de notations). De plus, l’expérience
montre que l’alphabet des 26 lettres latines (et des 23 lettres grecques), avec leurs va-
riantes majuscules et autres, se révèle vite limité pour exprimer élégamment et lisiblement
un propos un tant soit peu général, particulièrement en méthodes quantitatives.
12
5. Ensembles
4.5 Factorielles et coefficients binomiaux

Pour tout n entier supérieur ou égal à 1, la fonction n! (lue “n factorielle”) est définie par
n! ∶= n ⋅ (n − 1) ⋅ (n − 2) ⋅ ... ⋅ 3 ⋅ 2 ⋅ 1 (1.7)
On définit également 0! ∶= 1.
Par exemple, 4! = 4 ⋅ 3 ⋅ 2 = 24, 5! = 5 ⋅ 4 ⋅ 3 ⋅ 2 = 120, 1! = 1.
On définit d’autre part 0! ∶= 1. Par construction, (n + 1)! = (n + 1) ⋅ n! quel que soit l’entier
n ∈ N. La quantité n! constitue le nombre de permutations d’un ensemble de n individus :
il y a par exemple 6! = 720 façons d’attribuer 6 maisons distinctes à 6 individus, ou 5! = 120
ordres d’arrivée possibles sans ex-aequo lors d’une course de 5 concurrents.
n et k désignant deux entiers non négatifs avec n ≥ 0 et n ≥ k ≥ 0, on définit le coefficient
binomial (nk) comme (nk) ∶= (n−k)!k!
n!
.
Par exemple, (43) = 4!

1!3!
= 4, (42) = 4!
2!2!
= 6, (44) = 1.
L’interprétation du coefficient binomial (nk) (appelé aussi nombre de combinaisons de k
objets parmi n objets) la plus simple est probablement la suivante : considérons n lancers
d’une pièce de monnaie, et appelons k le nombre total de “pile” produits (n − k est donc le
nombre de “face”). Alors (nk) représente le nombre de séquences distinctes contenant k fois
“pile” en n lancers.
Par exemple, il y a (43) = 4 séquences distinctes contenant 3 fois pile en 4 lancers (à
savoir : “PPPF”, “PPFP”, “PFPP”, “FPPP”), et (44) = 1 seule séquence contenant 4 fois pile
en 4 lancers (à savoir : “PPPP”). De même, il y a (53) = 10 types de familles comportant 5
enfants dont 3 filles (et 2 garçons), se distinguant par l’ordre des naissances fille - garçon.
La symétrie pile ↔ face (ou fille ↔ garçon) du comptage des séquences est reflétée dans
la propriété (nk)= (n−k
n
).
Aussi, sans spécifier k = nombre de “pile”, il y a en tout 2n séquences possibles de n
lancers (puisqu’à chaque coup on a les deux possibilités “pile” ou “face”). Ces lancers sont
constitués de (n0 ) lancers distincts avec k = 0 “pile”, de (n1 ) lancers distincts avec k = 1
“pile”, ... , et finalement de (nn) lancers distincts avec k = n “pile”. On a ainsi, en utilisant
le signe “somme” :
n
n
∑( )=2
n
(1.8)
k=0 k
L’équation (1.8) est un cas particulier de l’identité binomiale (dans le cas x = y = 1 ci-
après) : quels que soient n (entier), x et y (réels), on a :
n
n k n−k
∑( )x y = (x + y)n (1.9)
k=0 k
Cette identité est à l’origine de la terminologie “coefficients binomiaux” : par exemple,

dans le développement de la puissance quatre du binôme (x + y)4 = x4 + 4x3 y + 6x2 y 2 +
4xy 3 + y 4 , on retrouve les coefficients (44) = 1, (43) = 4, (42) = 6, etc...
5 Ensembles
5.1 Ensembles fermés, ouverts, dénombrables, non dénombrables
On a déjà utilisé le concept d’ensemble, comme R pour celui des réels, et N pour celui des
entiers.
Formellement, un ensemble est une collection d’individus. Ces individus sont des objets
de même nature (quelconque), tels que des personnes, communes, livres, propositions,
13
5. Ensembles
constellations, nombres, etc... La notation de ces derniers est codifiée : {2, 3, 4} désigne
l’ensemble formé des trois nombres 2, 3 et 4, tandis que [2, 4] désigne l’intervalle de tous
les nombres réels compris entre 2 et 4 inclus (intervalle fermé), et (2, 4) (ou ]2, 4[) désigne
l’intervalle de tous les nombres réels compris entre 2 et 4 non inclus (intervalle ouvert).
Un ensemble A peut être fini (s’il contient un nombre fini d’éléments). La notation ♯ A ou
∣A∣ (cardinal de A) désigne le nombre de ses éléments. Lorsqu’un ensemble est infini, on a
vu qu’il peut être infini dénombrable lorsqu’il est possible de donner une énumération de
ses éléments telle que n’importe quel élément choisi d’avance apparaisse en en temps fini,
comme dans l’ensemble des entiers naturels N. Ou au contraire infini non dénombrable si
une telle énumération n’est pas possible, comme dans l’ensemble R des nombres réels.
5.2 Inclusion, intersection, union, différence symétrique, complémentaire

Un ensemble A est inclus dans un ensemble B (noté A ⊂ B) ssi tous les éléments de A
appartiennent à B. On dit alors que A est un sous-ensemble de B. L’intersection de deux
ensembles A et B (notée A ∩ B) est l’ensemble formé de tous les éléments appartenant
à A et à B. L’union de deux ensembles A et B (notée A ∪ B) est l’ensemble formé de
tous les éléments appartenant à A ou à B (ou les deux : il s’agit ici du “ou” non exclusif).
Formellement, on a donc :
A ∩ B ∶= {x∣x ∈ A et x ∈ B} A ∪ B ∶= {x∣x ∈ A ou x ∈ B} (1.10)
Ici x désigne un élément quelconque, le signe “∈” (“appartient à”) désigne l’appartenance
à un ensemble (et ∉ la non-appartenance), et le signe “∣” se lit “tel que” ou “étant donné
que”.
A ∖ B désigne l’ensemble formé des éléments appartenant à A mais pas à B. La différence
symétrique de deux ensembles A et B (notée A∆B) est l’ensemble formé de tous les
éléments appartenant à A ou bien à B (mais pas les deux : il s’agit ici du “ou” exclusif) :
A ∖ B ∶= {x∣x ∈ A et x ∉ B} A∆B ∶= {x∣x ∈ A ou bien x ∈ B} (1.11)
Dans une situation donnée, on appelle référentiel (souvent noté Ω) l’ensemble contenant
tous les éléments pertinents dans le contexte (par exemple : “tous les nombres réels”, “tous
les habitants de telle ville”, etc...). Une fois le référentiel fixé, il est possible de définir le
complémentaire d’un ensemble A, noté Ac ou encore Ā, constitué de tous les éléments
de Ω n’appartenant pas à A. Par construction, le complémentaire de Ω ne contient aucun
élément : on appelle cet ensemble (noté ∅) l’ensemble vide. Par construction, quel que soit
A ⊂ Ω, on a A ∪ Ā = Ω et A ∩ Ā = ∅. Deux ensembles A et B sont dits disjoints ou exclusifs
s’ils n’ont pas d’éléments en commun, i.e. si A ∩ B = ∅.
5.3 Partition
Une collection d’ensembles A ∶= {A1 , . . . , Am } constitue une partition de Ω ssi :
1) les {Aj } sont mutuellement exclusifs : Aj ∩ Ak = ∅ pour tous j ≠ k.
2) les {Aj } sont exhaustifs : A1 ∪ A2 ∪ ... ∪ Am = ∪m j=1 Aj = Ω.
Si A est une partition de Ω, chaque élément de Ω appartient à un et un seul ensemble Aj
de la partition. Par exemple,
● le territoire du canton de Vaud est, au premier janvier 2017, partitionné en m = 309
territoires communaux
● le texte d’un livre de 198 pages peut être partitionné en ... 198 pages
● les catégories (telles “très satisfait”, “assez satisfait”, “assez insatisfait”, “très insatis-
fait”) d’une question fermée forment (ou devrait toujours former) une partition de
l’ensemble des réponses possibles (quitte à rajouter une catégorie “autre : préciser”).
Une partition B est plus fine (anglais : “finer”) qu’une partition A ou, de façon équivalente,
la partition A est plus grossière (coarser) que B, ou encore B est emboı̂tée (nested) dans
14
5. Ensembles
A, ce que l’on note par

B⪰A
si chaque élément Bj de B appartient à un seul élément Ai de A. Par exemple, la partition
des 309 communes du canton de Vaud est plus fine que la partition des 10 districts. En
général, et par construction
A⪰A si B ⪰ A et C ⪰ B alors C ⪰ A .
5.4 Diagrammes de Venn

Le diagramme de Venn permet de représenter graphiquement les ensembles par une surface
connexe (i.e. d’un seul tenant) contenant les éléments de l’ensemble. Le référentiel Ω,
incluant tous les éléments, sera généralement figuré par un rectangle. Le diagramme de
la figure 1.2 indique immédiatement que D ⊂ A, E ⊂ C, A ∩ E = B ∩ E = ∅, etc... De
plus, les ensembles A, B et C entretiennent entre eux une relation tout à fait générale,
i.e. ils peuvent comporter une intersection commune, trois intersections deux à deux et
trois parties propres (n’appartenant qu’à eux-mêmes). On a également hachuré l’ensemble
A ∩ B ∩ C et quadrillé l’ensemble A ∩ B ∩ D = B ∩ D.
A
D
E
C
B
Ω
F IGURE 1.2 – diagramme de Venn
5.5 Evénements, propriétés, ensembles

D’un point de vue linguistique ou logique, un événement est défini par une proposition qui
peut être vraie ou fausse. Par exemple, l’événement A : = “il pleut mardi”, sera vrai s’il
pleut effectivement mardi, et faux sinon. Chaque événement définit une propriété (au
sens de la section 3), à savoir la propriété qu’il pleuve mardi. Chaque événement définit
également un ensemble (au sens de la section 5), à savoir l’ensemble des mardis pour les-
quels il pleut. Ces équivalences permettent de traiter une collection d’événements comme
une collection d’ensembles, et d’y appliquer les mêmes opérations (algèbre ensembliste).
Si A : = “il pleut mardi” et si B : = “il pleut jeudi”, on a :
● A ∩ B = “il pleut mardi et jeudi”
● A ∪ B = “il pleut mardi ou jeudi”,
● Ā = “il ne pleut pas mardi”
● A ⇒ B = “le fait qu’il pleuve mardi entraı̂ne qu’il pleuve jeudi”, que l’on énonce
aussi par “si A, alors B”, ou encore simplement “A ⊂ B”
● A ⇔ B = “le fait qu’il pleuve mardi entraı̂ne qu’il pleuve jeudi et réciproquement”,
que l’on énonce aussi par “A si et seulement si B” ou plus succintement encore par
“A ssi B” ou “A = B”.
Un événement tel que A = “il pleut mardi” peut être réalisé (i.e. vrai) ou non. Sa fonction
indicatrice ou caractéristique I(A) prend la valeur 1 si A est vrai, et 0 si A est faux.
15
6. Probabilités
En logique, la négation de la proposition A est notée “¬A”, plutôt que, de façon équivalente,
“A” ou “Ac ” en notation ensembliste. La règle dite du modus tollens “(A ⇒ B) ssi (¬B ⇒
¬A)” devient alors “(A ⊂ B) ssi (B̄ ⊂ Ā)” en langage ensembliste.
5.5.1 Quantificateurs universels et existentiels (*)

La logique dite de premier ordre considère des propriétés A(x) dépendant de variables x,
propriétés qui peuvent être vraies ou fausses selon la valeur de x. Par exemple, C(x) = “x
réussit son examen”, ou D(y) = “y aime les méthodes quantitatives”.
Si C(x) est vrai pour toute valeur de x, on peut écrire “∀x C(x)”, qui se lit “pour tout
x, C(x) est vrai”, ou simplement “tout le monde réussit son examen”. Si C(x) est vrai
pour au moins une valeur de x, on peut écrire “∃x C(x)”, qui se lit “il existe x tel que
C(x) est vrai”, ou simplement “(au moins) une personne réussit son examen”. Le symbole
∀ =“pour tout” est appelé quantificateur universel, et le symbole ∃ =“il existe” est appelé
quantificateur existentiel.
En présence de quantificateurs, les règles de négation sont
¬(∀x C(x)) ⇔ ∃x ¬C(x)
(il est faux que tout le monde a réussi son examen ss’il existe une personne qui a raté son
examen). De même, ¬(∃y D(y)) ssi ∀y ¬D(y) (il est faux qu’il existe une personne aimant
les méthodes quantitatives ssi personne n’aime les méthodes quantitatives) 9 .
6 Probabilités
La notion de vraisemblance d’un événement A, ou celle de sa propension à se produire,
sont modélisées par le concept de probabilité de l’événement A.
6.1 Axiomes de probabilité

La probabilité de A, notée P (A), est un nombre réel dans [0, 1], telle qu’une probabilité de
1 qualifie un événement certain, une probabilité de 0 qualifie un événement impossible, et
que ce nombre est d’autant plus grand que l’événement a de chances de se produire. Toute
fonction de probabilité P (.) doit a priori satisfaire aux règles minimales de cohérence ou
axiomes suivants :
1. P (Ω) = 1, P (∅) = 0
2. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) quels que soient A ⊂ Ω et B ⊂ Ω
3. P (Ā) = 1 − P (A) quel que soit A ⊂ Ω
La première règle énonce que le référentiel peut être identifié à un événement certain,
et l’ensemble vide à un événement impossible. La seconde (dite principe d’“inclusion-
exclusion”) permet de passer de la probabilité d’une union à celle d’une intersection et
vice-versa. La troisième formalise le fait que de dire qu’un événement a par exemple 2%
de chances de se produire revient à dire qu’il a 98% de chances de ne pas se produire. Les
règles ci-dessus permettent par exemple de généraliser le principe d’inclusion-exclusion
dans le cas de trois ensembles :
P (A∪B ∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B ∩C)+P (A∩B ∩C) (1.12)
quels que soient A B et C.

9. A noter que la traduction littérale “mot-à-mot” en français de ∀y ¬D(y), à savoir “tout le monde n’aime
pas les méthodes quantitatives”, ne fonctionne pas, ce dernier énoncé étant synonyme de ∃y ¬D(y) .
16
6. Probabilités
6.2 Fréquences empiriques et probabilités théoriques

6.2.1 Fréquences empiriques
La fréquence empirique f (A) d’un événement A est la proportion du nombre de cas ob-
servés où A se produit, i.e.
nombre de fois où A s’est produit n(A) n(A)
f (A) = =∶ = (1.13)
nombre de fois où A s’est produit ou non n(A) + n(Ā) n(Ω)
où n(A) est le nombre de fois où A s’est produit 10 .

Par exemple, il y a eu en Suisse 62’181 décès en 1990, sur une population totale de
6’750’700 habitants. La proportion de décès (toutes catégories d’individus confondues)
est donc de f (décès annuel) = 62181/6750700 = 0.00921 = 0.921%.
La fréquence empirique vérifie les axiomes de la section 6.1 : elle se comporte donc
comme une probabilité, qu’on pourrait appeler probabilité empirique, même si le terme
fréquence (relative) est consacré.
6.2.2 Probabilités théoriques

La modélisation est une activité consubstantielle de la recherche en sciences naturelles, hu-
maines et sociales. On s’y efforce de dompter l’apparente infinité diversité des phénomènes
possibles en y recherchant des régularités, des contraintes, des liens, dans le but de sim-
plifier la description dudit phénomène, i.e. de mieux le comprendre : c’est précisément le
rôle des théories (de l’évolution, en physique, en linguistique, en sociologie, etc.).
Dans ce qui suit, le développement et la formalisation des théories, modèles ou hypothèses 11
seront suffisantes pour permettre de définir la probabilité P (A) d’un événement A perti-
nent pour la théorie. Cette probabilité est la moyenne, selon la théorie, justement, des fois
où cet événement A se produit, et elle s’exprime par
P (A) = E(I(A)) (1.14)
où I(A) est la fonction indicatrice de l’événement A (section 5.5), prenant la valeur 1 si
A est réalisé, et 0 sinon, et où E(.) désigne la moyenne théorique ou espérance déterminée
par la théorie ; on y reviendra abondamment, en remarquant au passage que la définition
(1.14) fait de P (A) une quantité obéissant aux axiomes de probabilité ci-dessus.
Dans les cas les plus simples, le référentiel Ω et les événements A qu’il contient peuvent
tous deux être décomposés, partitionnés en une collection de sous-ensembles ou cas de
même nature, dont il est raisonnable de postuler qu’ils sont équiprobables. Le modèle est
alors dit uniforme, et les probabilités théoriques s’obtiennent simplement comme
nombre de cas favorables (où A se produit) n(A)
P (A) = = (1.15)
nombre de cas possibles n(Ω)
Par exemple, la probabilité de tirer un roi d’un jeu de 52 cartes est de P (roi) = 4/52 =
0.077 = 7.7%. L’équiprobabilité des cas est ici justifiée par des raisons de symétrie, du type
“il n’y a pas plus de chances de tirer un roi qu’une autre carte d’un jeu bien mélangé de 52
cartes”. Aussi naturelle soit cette affirmation, elle n’en constitue pas moins un modèle de
la réalité, modèle qui peut se révéler adéquat ou non.
Dans le cas du lancer d’une pièce de monnaie, il s’agit de bien faire la distinction entre
une probabilité théorique uniforme de P (pile) = 0.5, suggérée par des considérations de
symétrie évidente, et une fréquence empirique de par exemple f (pile) = 0.52, obtenue
dans le cas d’une expérience portant sur 1000 lancers dont 520 auraient donné “pile”.
10. et donc n(A) + n(Ā) = n(Ω) est le nombre total d’observations
11. dans ce contexte, ces termes sont largement synonymes
17
6. Probabilités
De même, il faut distinguer entre l’effectif empirique n(A) de (1.13) qui est un nombre
observé et l’effectif théorique n(A) de (1.15) qui est un nombre postulé ou attendu. Cette
distinction entre données et modèle, sur laquelle on reviendra constamment, constitue la
distinction de base en méthodes quantitatives, statistique et modélisation.
En l’absence de répétition observée, nécessaire au calcul (1.13) d’une fréquence empi-
rique, ou de modèle à disposition (correct ou non), permettant le calcul (1.14) (ou (1.15)
dans le cas uniforme) d’un probabilité théorique, il simplement impossible d’évaluer une
fréquence ou une probabilité.
Quelle est la probabilité de l’apparition de l’humanité à travers l’évolution ? Quelle est la
probabilité d’une fin du monde thermonucléaire ? On ne dispose ici d’aucune répétition
(une seule Histoire, une seule Terre à disposition), et les questions sont trop complexes
pour être résolues, du moins à l’heure actuelle, par des modèles suffisamment élaborés et
validés. En clair, on n’en sait rien.
6.3 Indépendance entre deux événements
Définition 1. Deux événements A et B sont dits indépendants ssi P (A ∩ B) = P (A)P (B).
Attention ! P (A∩B) = P (A)P (B) est une propriété très particulière, qui n’est généralement
pas réalisée : deux événements ne sont pas indépendants en général. Si P (A ∩ B) ≠
P (A)P (B), alors
● ou bien P (A∩B) > P (A)P (B), qui exprime que A et B se produisent simultanément
plus facilement qu’ils ne se produisent chacun séparément : les événements A et B
sont positivement associés, ou en attraction
● ou bien P (A ∩ B) < P (A)P (B) : les événements A et B sont négativement associés,
ou en répulsion.
Sous indépendance P (A ∩ B) = P (A)P (B), les événements A et B ne sont pas associés :
neutralité.
Exemple 2. Parler d’un dé équilibré implique deux choses, à savoir que i) le référentiel est
Ω = {1, 2, 3, 4, 5, 6}, et que ii) les six faces sont équiprobables, i.e. que P ({1}) = P ({2}) =
P ({3}) = P ({4}) = P ({5}) = P ({6}) = 1/6.
Considérons les événements A = {2, 4, 6}, B = {1, 2, 3}, et C = {1, 2}. Leur probabilité est
de P (A) = 63 = 12 , P (B) = 36 = 21 et P (C) = 26 = 31 . On a :
● P (A ∩ B) = P ({2}) = 16 < P (A)P (B) = 1
2
⋅ 1
2
= 1
4
: les événements A et B sont
dépendants, en répulsion.
● P (A ∩ C) = P ({2}) = 1
6
= P (A)P (C) = 1
2
⋅ 1
3
= 1
6
: les événements A et C sont
indépendants.
● P (B ∩ C) = P ({1, 2}) = 13 > P (B)P (C) = 1
2
⋅ 1
3
= 1
6
: les événements B et C sont
dépendants, en attraction.
6.4 Probabilité conditionnelle ; formule de Bayes

Une notion essentielle dans le calcul des probabilités est celle de probabilité conditionnelle :
Définition 2. La probabilité conditionnelle de B étant donné A, notée P (B∣A), est la
quantité
P (B ∩ A)
P (B∣A) ∶= . (1.16)
P (A)
18
6. Probabilités
P (B∣A) mesure la probabilité que l’événement B soit réalisé, sachant que l’événement A
est réalisé. La probabilité que A et B soient simultanément réalisés est égale à la probabi-
lité que A soit réalisé, multipliée par la probabilité que B soit réalisé sachant que A l’est,
soit P (B ∩ A) = P (A)P (B∣A) qui donne l’équation (1.16).
Les conséquences directes de la définition (1.16) sont nombreuses et considérables :
a) P (B∣Ω) = P (B) : toute probabilité “non conditionnelle” telle que P (B) peut s’ex-
primer comme la probabilité conditionnelle de B étant donné l’événement certain
Ω.
b) P (B∣A) = P (B) ssi A et B sont indépendants, i.e. ssi P (A ∩ B) = P (A)P (B) :
deux événements sont indépendants ssi la probabilité que l’un se produise n’est pas
affectée par la connaissance que l’autre se produise ou non. De même, P (B∣A) >
P (B) ssi A et B sont en attraction, et P (B∣A) < P (B) ssi A et B sont en répulsion.
c) P (B∣B) = 1 : la probabilité que B se réalise sachant qu’il se réalise est de 1.
L’évidence intuitive de ce résultat peut être moquée comme rhétorique stérile ; elle
peut aussi être saluée comme lieu d’harmonie entre un formalisme et notre intuition
– un accord plus rare qu’il n’y paraı̂t (cf. paradoxes, biais, et autres fallacies).
d) de même, P (B∣B̄) = 0 : la probabilité que B se réalise sachant qu’il ne se réalise pas
est de 0 .
e) P (B∣∅) = 00 = indéterminé : la probabilité que B se réalise sachant que l’“impossible
s’est produit” ne peut pas être déterminée. Là aussi, toute autre réponse que “indé-
terminé” aurait heurté notre intuition : si l’impossible s’est produit, il faut se taire
à jamais – ou réévaluer cet impossible comme finalement possible, et modifier en
conséquence les probabilités de toutes nos évaluations.
f) L’identité
P (B) = P (B∣A)P (A) + P (B∣Ā)P (Ā) (1.17)
peut être illustrée par le schéma en arbre de la figure (1.3).
g) Plus généralement, étant donnée une partition A = {Aj }m j=1 (section 5.3), l’identité
suivante, dite formule des probabilités totales, est toujours valide :
m
P (B) = ∑ P (Aj )P (B∣Aj ) . (1.18)
j=1
h) La formule dite de Bayes
P (A)
P (A∣B) = P (B∣A) (1.19)
P (B)
permet de relier les probabilités conditionnelles P (A∣B) et P (B∣A), et de constater

qu’elles diffèrent en général, sauf dans le cas très particulier où P (A) = P (B) .
Les équations (1.17) et (1.19) permettent de résoudre un type de problème courant,
comme :
Exemple 3 (problème de prévision météo). “Les prévisions météorologiques d’une certaine
région sont fiables à 80% en cas de beau temps, et à 90% en cas de mauvais temps. Sachant
que le mauvais temps règne à 90%, quelle est la chance qu’une prévision de beau temps soit
correcte ? ”
Solution : relevons d’abord une possible ambiguı̈té, comme souvent en langage naturel,
dans les expressions “en cas de beau temps” et “en cas de mauvais temps” : s’agit-t-il de
beau ou mauvais temps réel ou bien annoncé ? L’expression “prévisions météorologiques”
fait pencher pour la seconde solution 12 .
12. en adoptant la première solution, le problème serait immédiatement résolu avec solution 0.8
19
6. Probabilités
F IGURE 1.3 – L’événement B peut être réalisé dans deux cas : lorsque l’événement A est
réalisé, ou lorsqu’il ne l’est pas. Ainsi, P (B) = P (A)P (B∣A) + P (Ā)P (B∣Ā) .
Posons A = “il fait beau temps” et B = “du beau temps est annoncé”. Les données
sont respectivement P (B∣A) = 0.8, P (B̄∣Ā) = 0.9 et P (Ā) = 0.9. On cherche P (A∣B),
(A)
égal à PP (B) P (B∣A) par (1.19). Dans cette dernière expression, seule la valeur P (B)
est momentanément inconnue ; l’équation (1.17) permet de la calculer comme P (B) =
P (B∣A)P (A) + P (B∣Ā)P (Ā) = 0.8 ⋅ (1 − 0.9) + (1 − 0.9) ⋅ 0.9 = 0.17 13 . Finalement, on trouve
P (A∣B) = P (B∣A)PP (B)
(A)
= 0.8⋅0.1
0.17
= 0.47 : même si les prévisions météo sont plutôt fiables, la
météo exécrable de la région fait qu’une annonce de beau temps n’a que 47% de chances
d’être réalisée.
13. on a utilisé P (A) = 1 − P (Ā) et P (B∣Ā) = 1 − P (B̄∣Ā). Attention ! en général, P (B∣Ā) ≠ 1 − P (B∣A)
20
2 Données
1 Généralités
Les données caractérisent un ensemble de n éléments, aussi appelés individus ou objets.
Ces individus sont de même nature, et forment l’échantillon à disposition. Un échantillon
peut consister en un ensemble de communes, d’un groupe de personnes, de plantes ou
d’animaux, de véhicules dans un parking, de livres contenus dans une bibliothèque, etc.
Aux individus sont associés une ou plusieurs caractéristiques (features) ou variables : par
exemple le prix des livres, la couleur de leur couverture, le genre littéraire ou documen-
taire, la langue utilisée, l’année d’édition, le nombre de pages, le poids, etc.
Ces données de base sont, en méthodes quantitatives et statistiques, systématiquement
mises sous forme tabulaire (tableau à deux entrées) : aux n lignes du tableau (éléments
horizontaux) correspondent les n individus, aux p colonnes du tableau (éléments verti-
caux) correspondent les p variables. Le tableau lui-même contient, à l’intersection de la
ligne i et de la colonne k, le score xik de l’individu i sur la k-ème variable (table 2.1).
x1 x2 x3 x y z
i=1 x11 x12 x13 i=1 x1 y1 z1
i=2 x21 x22 x23 i=2 x2 y2 z2
i=3 x31 x32 x33 i=3 x3 y3 z3
i=4 x41 x42 x43 i=4 x4 y4 z4
i=5 x51 x52 x53 i=5 x5 y5 z5
TABLE 2.1 – échantillon de n = 10 individus caractérisés par p = 3 variables, notées comme
x1 , x2 , x3 (à gauche) ou x, y, z (à droite) : les deux conventions d’écriture sont courantes et co-
existent. Attention : il s’agit de bien distinguer x2 , qui dénote l’ensemble des scores de la deuxième
variable, de x2 , le score du deuxième individu sur la variable x.
Exemple 4 (Participants à un cours de master). Considérons le jeu de données fictif de la

table 2.2, donnant quelques caractéristiques de participants à un cours de master. Le score
identifiant sexe ^
age nationalité commune domicile "J’apprécie les maths" "Mes motivations..."
1 F 24 suisse Lausanne énormément ............
2 F 31 iranienne Ecublens beaucoup ............
3 M 23 suisse Sion beaucoup ............
4 M 45 suisse Lutry plutôt oui ............
5 F 25 russe Lausanne plutôt oui ............
6 M 24 française Echandens beaucoup ............
7 M 23 suisse Petit-Lancy pas du tout ............
8 F 26 suisse St-Sulpice plutôt non ............
9 M 23 suisse Bulle plutôt oui ............
10 M 22 belge Echallens énormément ............
TABLE 2.2 – jeu de données (fictif) : un échantillon constitué de n = 10 étudiants de master
21
2. Types de variables, et échelles
de "nationalité" pour l’individu 10 est "belge", le score de "J’apprécie les maths"

pour l’individu 2 est "beaucoup", etc.
2 Types de variables, et échelles

Les variables décrivant un échantillon ne sont pas toutes de même nature. Les deux types
principaux sont constitués
● par les variables numériques ou quantitatives, pour lesquelles les scores possèdent
un caractère numérique qui peut être manipulé arithmétiquement ; en particulier, il
est possible de calculer la moyenne de deux scores numériques. Par exemple, l’âge
moyen des deux premiers individus de la table 2.2 est (24 + 31)/2 = 27.5 ans.
● par les variables nominales ou catégorielles, pour lesquelles les scores dénotent l’ap-
partenance à une catégorie ou un groupe, sans posséder de caractère numérique ; en
particulier, la moyenne de deux scores catégoriels (tels que sexe, domicile ou natio-
nalité) ne fait pas sens.
2.1 Variables quantitatives ou numériques

On l’a vu, les scores de ces variables sont de nature numérique, ce qui permet de les
additionner, les multiplier, etc. En particulier, on peut calculer la moyenne (définie plus
loin) d’une variable quantitative, et d’une variable quantitative seulement.
Par exemple, "^ age", "taille", "poids", "revenu", "température", "temps" (time), "dis-
tance" etc. sont des variables quantitatives, mais les variables "sexe", "profession" ou
"cursus d’étude" ne le sont pas. On verra que l’ensemble des variables quantitatives
peut être décomposé à son tour de façon plus fine selon 3 ou 4 classes d’échelles princi-
pales.
Pour ce faire, il est éclairant de se demander dans quelle mesure deux observateurs dis-
tincts, devant chacun attribuer des scores aux variables, parviendront ou non aux mêmes
conclusions. On pourra considérer leurs conclusions comme identiques à une transforma-
tion près, transformation caractérisant justement l’échelle (et le type) des variables en jeu.
2.1.1 Echelle de quotient

Par exemple, dire que deux individus ont 12, respectivement 10 ans revient à dire que ces
deux individus ont 144, respectivement 120 mois. Si x est une mesure de l’âge, cx (où c est
une constante positive) est une autre mesure de l’âge, obtenue par changement d’unité :
par exemple, c = 12 dans la transformation "années"→"mois". Par contre, le rapport des
âges des individus ne dépend pas de l’unité choisie : 12/10 = 144/120 = 1.2. Pour cette
raison, l’échelle en question est appelée échelle de quotient. L’âge, le poids, la taille, la
distance entre deux points, etc... sont généralement exprimés par une échelle de quotient.
Dans une échelle de quotient, le zéro ou origine possède une signification intrinsèque :
toute personne d’âge 0 est un nouveau-né, indépendamment de l’unité de temps choisie.
2.1.2 Echelle d’intervalle

D’autres quantités, telles que la température (il s’agit de la température ordinaire, mesurée
en degrés Celsius ou en degrés Fahrenheit, et non de la température absolue des physiciens
mesurée en degrés Kelvin qui correspond à une échelle de quotient), le temps (comme
dans “le 4 frimaire de l’an II”), la position (d’un point sur une droite) ou l’utilité cardinale
des économistes 1 sont quant à elles définies à une transformation affine ou linéaire 2 près
1. L’utilité est la quantité que le “consommateur rationnel” est sensé maximiser lors d’un achat : à prix
identiques, le bien x sera préféré au bien y si l’utilité de x est supérieure à celle de y.
2. La transformation y = ax + b constitue la transformation affine ou linéaire au sens large, tandis que la
transformation y = cx constitue la transformation linéaire au sens strict, caractérisant les échelles de quotient.
22
de la forme ax + b : la constante a a pour effet de dilater les valeurs d’un facteur a > 0
relativement à l’origine, et la constante b a pour effet de translater toutes les valeurs d’une
quantité constante b. En d’autres termes, le paramètre a fixe l’unité ou la graduation, et le
paramètre b fixe le zéro ou l’origine.
Par exemple, la température en degrés Celsius (x) et la

température en degrés Fahrenheit (y) se correspondent comme
9 5 160
y = x + 32 x= y− . (2.1)
5 9 9
De telles échelles sont dites échelles d’intervalle. Dans une
échelle d’intervalle, le zéro ou origine ne possède pas de signifi-
cation intrinsèque : le zéro Fahrenheit (correspondant à –17,78
degrés Celsius) a été initialement défini comme la température
la plus basse que Daniel Gabriel Fahrenheit (1686-1736) ait
mesuré durant l’hiver 1708-1709 dans sa ville natale de Dant-
zig (Gdańsk), température proche de celle de solidification
d’une certaine solution de saumure.
Par contre, une différence d’échelles d’intervalle (de même unité) constitue une échelle
de quotient : par exemple, une différence de température de zéro entre deux corps signi-
fie que ces deux corps ont la même température, quelle que soit l’unité de température
choisie.
De même, l’année y du calendrier musulman (de durée d’environ 11 jours de moins que
l’année solaire) s’obtient approximativement 3 de l’année x du calendrier grégorien (en
vigueur dans la plupart des pays) par y = ax + b, à savoir
y = (x − 621.5709) × 1.0306888 = 1.0306888 x − 640.6462
2.1.3 Echelles absolues et relatives

Ces échelles s’obtiennent à partir d’échelles de quotient et d’intervalle en supprimant la
possibilité de transformation par dilatation.
Les échelles absolues sont celles qui n’autorisent aucune transformation. Cette échelle se
rencontre dans le cas d’un effectif, comptant le nombre d’individus : s’il y a sept personnes
dans une pièce, on utilisera exclusivement le score “7”, et non pas un autre score tel que
“10”, “-2” ou “3.1416” qui exprimerait la même chose dans une autre unité ou repère.
Les échelles relatives autorisent la translation mais non la dilatation. Un exemple est donné
par l’année solaire qui dépend de l’origine de la chronologie, mais dont la graduation
n’est pas arbitraire puisqu’elle correspond à une révolution terrestre : par exemple, la
transformation de l’année grégorienne x en année révolutionnaire y est donnée par y =
x − 1792, comportant un changement de zéro mais pas d’unité.
En résumé, on peut déterminer les échelles des variables quantitatives en répondant aux
deux questions (table 2.3) : “le zéro est-il arbitraire ?” (invariance de translation) et “la
graduation est-elle arbitraire ?” (invariance de dilatation).
2.1.4 Echelles non-linéaires

Ce qui précède concernait les transformations linéaires f (x) = ax + b d’une variable nu-
mérique x. Or nombreux sont les exemples d’utilisation (particulièrement en physique) de
3. Des transformations dites quasi-affines permettent une meilleure approximation : voir Troesch, A. (1998).
Droites discrètes et calendriers. Mathématiques et Sciences Humaines, 141, pp. 11–41.
23
type de variable / échelle transformation admissible f (x) exemples

quantitatif / absolu f (x) = x (identité) effectif
quantitatif / quotient ax, c > 0 (linéaire strict) poids, âge, longueur
quantitatif / relatif x + b (translation) année solaire
quantitatif / intervalle ax + b, a > 0 (linéaire large) température, position
qualitatif=nominal=catégoriel bijection (recodage) nationalité, sexe, domicile
ordinal f (x) croissante classe sociale, dureté
“ouvert” dépend des choix du chercheur question ouverte
TABLE 2.3 – types de variables et échelles
transformations non linéaires, telle la transformation logarithmique f (x) = A loga (x) de

base a, ou la transformation en puissance f (x) = Axa d’exposant a.
Par exemple, les variantes des échelles de Richter (1935) en sismologie résultent de trans-
formations logarithmiques de l’énergie libérée par un séisme. Le décibel (1923) est une
mesure logarithmique (en base 10) du rapport de deux puissances acoustiques ou électro-
magnétiques.
L’échelle de Beaufort (1805) quantifie la vitesse du vent sur l’eau en 13 degrés, allant de
y = 0 "calme", y = 1 "très légère brise"... jusqu’à y = 12 "ouragan". Elle évoque une
variable ordinale (section 2.3), à ceci près que l’échelle de Beaufort y s’obtient approxi-
mativement (dans l’empan considéré) comme “l’entier le plus proche√ de la racine cubique
du quotient par 9 du carré de la vitesse du vent v en km/h”, soit y ≈ 3 (v 2 /9), qui est une
transformation de puissance de la vitesse d’exposant a = 2/3.
Ces variables obtenues par transformations non-linéaires d’une variable quantitative sont-
elles quantitatives à leur tour ? Oui, incontestablement, et on peut en particulier en cal-
culer des moyennes, à condition d’être bien conscient que la moyenne d’une transformation
non-linéaire des scores n’est pas égale à la transformation de la moyenne des scores. En parti-
culier la première est systématiquement plus grande ou égale (respectivement plus petite
ou égale) que la seconde si la transformation est convexe (resp. concave) 4 .
2.2 Variables catégorielles ou nominales

Les modalités d’une variable catégorielle définissent une partition de l’ensemble des indivi-
dus : chaque individu possède une seule modalité (exclusivité) et une seule (exhaustivité ;
voir le chapitre précédent). Une variable catégorielle x est plus fine qu’une autre variable
catégorielle y si la partition associée à x est plus fine que la partition associée à y.
Par exemple, la variable catégorielle x ="commune de domicile" est plus fine que y =
"canton de domicile". Autre exemple : la variable x ="nationalité" 5 de modalités
{suisse,étranger} est moins fine que la variable y ="origine" de modalités {"zuri-
chois", "bernois",..., "jurassien",..., "français", "allemand", ...}.
Lorsqu’elle se pose, la question du choix d’une bonne catégorisation est naturellement cru-
ciale, et complexe. Une catégorisation trop grossière implique évidemment une trop forte
perte d’information, et une catégorisation trop fine aboutit à des modalités rencontrées
une seule fois dans l’échantillon - ce qui n’est pas interdit, mais génère des difficultés
d’exploitation et de traitement des données 6 .
Des modalités telles que "français", "masculin", "Yverdon", "divorcé", etc. pourraient
être recodées en "F", "M", "Yv.", "Div.", ou encore en "f", "1", "13", "d", ou encore en
4. ce résultat constitue l’inégalité de Jensen (1906)
5. potentiellement problématique : la double nationalité viole l’exclusivité de la partition, et l’état d’apatride
viole son exhaustivité
6. en particulier, la variabilité des caractéristiques dans un sous-groupe formé d’un seul individu ne peut pas
être estimée – on y reviendra
24
tout autre codage plus ou moins pratique, qui aurait été convenu d’avance (pour autant
évidemment que l’on se soit bien mis d’accord sur les modalités de codages, telles que
"masculin" ↔ 1). Ces scores ou codes, encore appelés modalités, sont de simples noms ou
catégories, d’où la qualification d’échelle nominale ou catégorielle que l’on utilise dans ces
cas 7 . Les scores nominaux sont donc définis à un recodage près, donné par transformation
biunivoque ou bijection x → f (x) (table 2.3), comme par exemple f ("féminin") = 1 et
f ("masculin") = 2.
2.2.1 Variables bimodales et variables indicatrices

Un type particulier est constitué par les variables catégorielles à deux valeurs possibles,
dites bimodales ou encore dichotomiques. Des variables telles que "sexe", "possède un
four à micro-ondes", "sait nager", etc... sont bimodales. Toute variable bimodale par-
titionne l’univers Ω en deux ensembles complémentaires A et Ac , comme dans A = {nageurs}
et Ac = {non nageurs}.
Inversement, tout ensemble ou événement A de Ω définit une variable catégorielle bimo-
dale x, ainsi qu’une autre variable indicatrice 8 z qui lui est équivalente, dont les scores sont
définis par
⎧
⎪
⎪1 si i ∈ A
zi = I(i ∈ A) = ⎨
⎪0 sinon
⎪
⎩
où I(.) représente la fonction indicatrice. Il se trouve que, contrairement à x qui est au-
thentiquement catégoriel, la variable variable indicatrice z est quantitative, et on peut en
particulier la moyenne, qui n’est autre que la proportion d’individus de l’échantillon ap-
partenant à l’ensemble A.
Si, par exemple, A = {femmes}, alors zi = 1 ssi i est une femme, et zi = 0 sinon. Bien
que la notion de “sexe moyen” soit absurde, celle de la moyenne de la variable indicatrice
0/1 associé à une variable bimodale fait sens : c’est ici la proportion de femmes dans
l’échantillon.
Ce procédé, qui facilite grandement la manipulation et le traitement des variables bi-
modales, peut être étendu aux variables catégorielles x à m modalités que l’on peut di-
chotomiser, c’est-à-dire recoder sans perte d’information en m − 1 variables indicatrices
{z1 , . . . , zm−1 } à valeurs 0/1.
2.3 Variables ordinales

L’échelle de Mohs (1812) vise à étalonner la dureté des minéraux au moyen scores allant
de 1 (“friable sous l’ongle”, tel le talc) à 10 (“maximalement dur”, tel le diamant). Un
minéral a est au moins aussi dur qu’un minéral b, noté aRb, ssi a peut rayer b. L’idée est de
quantifier cette relation (entre paires de minéraux) en attribuant à chaque minéral a un
score numérique xa tel que
xa ≥ xb ⇔ a est au moins aussi dur que b .
Ceci fait de R une relation transitive (si aRb et bRc alors aRc) et réflexive (∀a, aRa), et
totale (∀ab, aRb ou bRa) : on parle d’une relation de préordre total 9 .
Si aRbRc, on pourrait alors quantifier arbitrairement les duretés minérales par xa = 5,
xb = 3 et xc = 1, ou bien par xa = 50, xb = 20 et xc = 10, ou encore par xa = 5.1, xb = 5
et xc = 4.9, etc... , pourvu que xa ≥ xb ≥ xc soit respectée. Autrement dit, si x → f (x)
7. on parle aussi de facteur pour une variable catégorielle, une notion qui n’a rien à voir avec la notion de
facteur en analyse factorielle (qui est une technique d’analyse multivariée plus avancée)
8. aussi appelée dummy variable
9. “préordre total” et non pas “ordre total” car la propriété d’antisymétrie (si aRb et bRa, alors a = b) n’est
pas vérifiée : si deux minéraux ont la même dureté, ils ne sont pas forcément identiques.
25
est une transformation admissible des scores ordinaux x en d’autres scores ordinaux f (x)
équivalents, il faut que f (x) ≥ f (y) lorsque x ≥ y : les scores ordinaux ne sont donc définis
qu’à une transformation croissante f (x) près (table 2.3).
Les mêmes considérations s’appliquent à la quantification, a priori arbitraire, des scores
de fréquence temporelle associés à toujours, presque toujours, très souvent, souvent, etc...,
qui doit satisfaire
xtoujours > xpresque toujours > . . . > xsouvent > . . . > xrarement > . . . > xjamais
De même, certaines stratifications sociales, typiques de la sociologie anglo-saxonne du

XXème siècle, reflètent (avec de multiples variations) l’ordonnancement en classes sociales
xupper class > xupper middle class > xlower middle class > xworking class
Dans un registre plus organique, l’échelle

des selles de Bristol 10 quantifie visuel-
lement les selles humaines en sept types
ordinaux, allant de 1= "petites crottes
dures et détachées, ressemblant à des
noisettes" à 7= "pas de morceau solide,
entièrement liquide".
Plus près de nous (en quelque sorte), la note obtenue lors d’une épreuve quantifie la
qualité de la prestation de la personne évaluée : une note de 5 (sur une échelle de 1 à 6,
avec un seuil de suffisance à 4) dénote une prestation bien meilleure qu’une note de 2.5,
mais peut-on dire que la première est deux fois plus grande 11 ? Cela est justifié dans le cas,
par exemple, d’une épreuve constituée de questions à choix multiples vrai/faux de même
valeur, mais l’est moins dans le cas d’une épreuve orale ou d’un travail de mémoire, où les
critères d’évaluation, même bien explicités, contiennent toujours une part d’interprétation
subjective (d’où des écarts entre évaluateurs).
Pourtant, on continue à calculer des moyennes (réservées aux variables numériques) de
notes pour décider de la réussite ou non à un module, etc. En d’autres termes, on élève sou-
vent, car c’est fort pratique, les variables ordinales à la dignité de variables quantitatives,
i.e. on traite souvent un score ordinal comme s’il était numérique. Comme autre exemple,
les catégories "pas du tout d’accord", "plut^ ot pas d’accord", "plut^ ot d’accord",
"tout à fait d’accord", sont couramment converties en scores respectifs 1,2,3 et 4, les-
quels seront alors traités de façon numérique, en calculant en particulier des moyennes.
Ce dernier exemple illustre la transformation en rang d’un score ordinal, qui sera abordée
plus loin, et qui a l’avantage d’être d’application très générale, sans souci particulier de
légitimation.
Dans l’autre direction, les scores ordinaux (par exemple ceux associés aux classes so-
ciales) peuvent être dégradés vers le bas en les considérant comme des scores purement
catégoriels, moins structurés encore puisque la relation d’ordre a alors disparu.
2.4 Les “variables ouvertes”

Les “variables ouvertes” désignent des caractéristiques individuelles qui n’ont pas encore
été catégorisées ni quantifiées. L’exemple-type d’une variable ouverte est constitué des
questions ouvertes, telles que "Mes motivations pour suivre ce master" (figure 2.2)
ou "en quelques mots, votre perception des relations Suisse-UE" apparaissant
dans un questionnaire.
10. Lewis, S. J., et K. W. Heaton (1997) Stool form scale as a useful guide to intestinal transit time. Scandinavian
Journal of Gastroenterology, vol 32 no 9 pp. 920–924
11. ou plutôt 4/1.5 = 2.67 fois plus grande que la seconde, en partant du minimum de 1
26
3. Une seule variable : visualisation et indicateurs
L’analyse statistique n’est pas immédiate et ne va pas de soi, car n = 50 individus donne-
ront en général 50 réponses différentes, qu’il s’agira alors de quantifier ou de catégoriser
au moyen d’une (ou de plusieurs) variable quantitative ou catégorielle, à définir : les
questions ouvertes sont plus complexes à traiter que les questions fermées – et sont donc
clairement à éviter sauf si l’on a de bonnes raisons (et compétences) de faire autrement.
Si les réponses à "Mes motivations pour suivre ce master" sont concises, on peut ty-
piquement tenter de les recoder (a priori, i.e. selon une grille d’analyse prédéfinie selon la
problématique de la recherche, ou a posteriori, i.e. en essayant de regrouper les réponses
selon les thèmes qui se trouvent avoir émergé) selon quelques catégories (associées à une
ou plusieurs variables) telles que "Intér^ et général pour la discipline", "Intér^ et
pour un aspect spécifique", "Débouchés attendus pour un futur travail", etc.
Même si l’exercice peut sembler simple, sa réalisation diffère le plus souvent d’un cher-
cheur à l’autre, dont les choix coı̈ncident rarement..
Si les réponses sont plus élaborées et longues, on a affaire à de véritable textes, qu’il s’agit
là aussi de catégoriser et/ou quantifier : une entreprise occupant depuis des décennies
de nombreux chercheurs en statistique textuelle, traitement automatique du langage natu-
rel (TALN ; en anglais : NLP : natural language processing) et intelligence artificielle, af-
faire toujours en cours à laquelle de nombreuses recherches et enseignements avancés et
contemporains (en analyse de données, en “data mining”, en “machine learning”, etc.)
sont dédiés...
Selon la formule consacrée, ces questions débordent largement le cadre de ce cours, dans
lequel le statut des variables numériques, catégorielles ou ordinales sera considéré comme
fixé, et leurs scores donnés. Ce qui ne devrait toutefois jamais interdire de questionner
l’origine, la pertinence, la validité et l’exactitudes de ces scores, qui ne tombent pas du
ciel : une personne (ou un groupe de personnes) a forcément dû décider de produire
telles données à partir des informations disponibles, et cette personne doit pouvoir nous
expliquer le comment et le pourquoi de ses choix et traitements : ce “certificat d’origine
contrôlée”, cette “traçabilité” est un ingrédient essentiel de l’objectivité et de la reproduc-
tibilité scientifiques.
3 Une seule variable : visualisation et indicateurs

Le chercheur dispose à ce stade d’un tableau de données constitué de n lignes (les indivi-
dus) et p colonnes (les variables, de type numérique, catégoriel ou ordinal). Ce format, le
seul retenu ici, est, de loin, le plus courant – des modèles de données plus élaborés ayant été
conçus dans le domaine des bases de données. On supposera également que tous les scores
sont connus, i.e. qu’il n’y a pas de données manquantes, dont le traitement constitue, on
peut s’en douter, tout un chapitre en soi.
Pour n grand, il est impossible à un sujet humain d’appréhender d’un seul coup d’oeil
les caractéristiques principales de la distribution des scores : quelle est l’allure générale
de la distribution des valeurs ? Y a-t-il des relations entre variables ? Peut-on résumer
ses caractéristiques principales au moyen de, disons, deux ou trois quantités judicieu-
sement choisies ? Ces questions de visualisation et d’extraction d’indicateurs associés à
un échantillon sont au coeur des méthodes descriptives en statistique et en analyse de
données : comment compresser l’ensemble des données d’un échantillon, pour en produire
une représentation plus simple, mieux adaptée à la perception humaine, tout en s’efforçant
de limiter la perte d’information résultante ?
3.1 Visualisation d’une variable numérique : l’histogramme, la fonction de répartition et

le boxplot. Les quantiles.
On dispose d’un échantillon de n scores numériques bruts x = {x1 , . . . , xn }. On parti-
tionne l’ensemble des valeurs de l’échantillon en m intervalles consécutifs ou classes de la
27
100 100 100
80 80 80
60 60 60
effectif
effectif
effectif
40 40 40
20 20 20
0 0 0
20 30 40 50 60 70 80 20 30 40 50 60 70 80 20 30 40 50 60 70 80
x = âge des répondant.e.s x = âge des répondant.e.s x = âge des répondant.e.s
F IGURE 2.1 – Histogrammes des âges des répondant.e.s de l’exemple 5, avec des classes de la forme
]20, 21] etc. (à gauche), [20, 21[ etc. (au milieu), et ]20.5, 21.5] etc. (à droite). D’une spécification à
l’autre, la forme des trois histogrammes reste inchangée, avec décalage des classes d’une année ou
d’une demi-année.
forme ]aj , aj+1 ], ouvertes à gauche et fermées à droite 12 , où aj et aj+1 (avec aj < aj+1 sont
les limites de la j-ème classe, et e ∶= aj+1 − aj est son épaisseur ou largeur, généralement
constante.
Le nombre d’observations dans la j-ème classe ]aj , aj+1 ] est son effectif (count) nj . Par
définition,
n m
nj = ∑ I(aj < xi ≤ aj+1 ) et ∑ nj = n
i=1 j=1
i.e. la somme des effectifs de chaque classe est la taille de l’échantillon. L’histogramme
est le graphique obtenu par des rectangles dont les bases, en abscisse, sont les classes
elle-mêmes, et les hauteurs, en ordonnée, sont définies
● soit par les effectifs nj
● soit par les effectifs relatifs, fréquences ou proportions fj = nj /n. Par construction,
∑j=1 fj = 1 = 100%. Ce choix revient à contracter les ordonnées d’un facteur 1/n,
m
sans changer la forme de l’histogramme.

Exemple 5 (Questionnaire “Chamberonne” : âges). Un questionnaire électronique portant
sur la rivière “Chamberonne”, traversant le site de Dorigny de l’Université de Lausanne, a
été envoyé en décembre 2016 à une quinzaine de milliers de membres de la communauté
universitaire. Parmi les répondants, n = 1365 ont indiqué leur année de naissance yi , d’où
l’âge en nombres d’années a été déterminé comme xi = 2016 − yi . La figure 2.1 donne les
histogrammes correspondants, avec des largeurs de classe d’une année, et trois mises en
classes différentes.
Exemple 6 (Epreuves). En 2012-2013, un total de n = 215 étudiant.e.s a passé quatre

épreuves, chacune notée de 1 à 6 au centième de point, associées à l’enseignement “Mé-
thodes Quantitatives I et II” de la faculté des Lettres et de la faculté des Géosciences et
de l’Environnement de l’Université de Lausanne. La figure 2.2 donne les histogrammes
correspondants, avec des largeurs de classe d’un demi-point.
La plus petite valeur de l’échantillon est xmin = mini xi , et la plus grande xmax = maxi xi .
L’intervalle [xmin , xmax ] constitue l’empan de la distribution, et sa taille xmax − xmin en
12. ce que nous supposerons par la suite, sauf mention contraire ; le choix [aj , aj+1 [ est aussi possible, pourvu
qu’il soit spécifié. Dans le cas de scores entiers avec des classes délimitées par des entiers, comme dans le cas de
l’âge donné en années, passer d’une convention ]18, 19], ]19, 20], etc... à l’autre [18, 19[, [19, 20[, etc... revient
à translater tout l’histogramme d’une classe ; il est alors préférable d’utiliser des limites demi-entières telles que
]17.5, 18.5], ]18.5, 19.5], etc... ou [17.5, 18.5[, [18.5, 19.5[, etc... Cf. figure 2.1 .
28
50
60
40
effectif
effectif
40 30
20
20
10
0 0
0 1 2 3 4 5 6 1 2 3 4 5 6
x = note première épreuve x = note seconde épreuve
50 60
50
40
40
effectif
effectif
30
30
20
20
10
10
0 0
1 2 3 4 5 6 1 2 3 4 5 6
x = note troisième épreuve x = note quatrième épreuve
F IGURE 2.2 – Histogrammes des notes obtenues par les n = 215 aux étudiant.e.s aux quatre
épreuves (exemple 6), avec une largeur de classe (= précision) d’un demi-point
est l’étendue (range). La mise en classe doit couvrir tout l’empan de la distribution, d’où
m⋅e ≥ (xmax −xmin ), où e est la largeur de classe et m le nombre de classes. Plus e est grand
(et m petit), plus grande est la compression (= la perte d’information) des données brutes.
Inversement, le choix d’une largeur e trop petite aboutit à une série de “pics” et“déserts”
en apparence fortuits 13 (voir figure 2.3).
Le polygone de fréquences est la ligne obtenue en reliant les points du milieu des som-
mets de chaque rectangle d’un histogramme. Ce dernier est plus lisible que l’histogramme
lorsque deux groupes ou plus sont à représenter simultanément (figure 2.4 droite).
3.1.1 Fonction de répartition et quantiles

Définition 3. La fonction de distribution cumulée ou fonction de répartition empirique
F (x) est la proportion de valeurs de l’échantillon {x1 , . . . , xn } inférieures ou égales à x :
nombre observations ≤ x ♯{xi ∣xi ≤ x} ♯{xi ∣xi ≤ x}

F (x) ∶= = = (2.2)
nombre observations ♯{xi } n
où ”♯ A” dénote le nombre d’éléments contenus dans l’ensemble A.

13. i.e. intuitivement jugés comme peu pertinents et sans réelle signification : si l’on avait pu, dans un univers
parallèle, répliquer les épreuves en jeu avec des questions, étudiants et experts très légèrement modifiés, les “pics”
et “déserts” (pour e petit) seraient alors, en toute vraisemblance, complètement différents, sans que l’allure
générale de la distribution (histogramme pour e grand) ne soit sensiblement modifiée.
29
35
50
30
40 25
20
effectif
effectif
30
15
20
10
10
5
0 0
1 2 3 4 5 6 1 2 3 4 5 6
x = note troisième épreuve x = note troisième épreuve
14
8
12
10
6
8
effectif
effectif
6 4
4
2
0 0
1 2 3 4 5 6 1 2 3 4 5 6
x = note troisième épreuve x = note troisième épreuve
F IGURE 2.3 – Histogrammes des notes obtenues par les n = 215 participants aux 3ème contrôle
continu de méthodes quantitatives I et II, année 2012-2013, au demi, quart, dixième et vingtième
de point
100 100
80 80
étudiant.e.s et doctorant.e.s
professeurs, post-docs, MA, MER
personnel administratif et technique; autres
60 60
effectif
effectif
40 40
20 20
0 0
20 30 40 50 60 70 80 20 30 40 50 60 70 80
x = âge des répondant.e.s x = âge des répondant.e.s
F IGURE 2.4 – Gauche : polygone de fréquences, obtenu en reliant les milieux des sommets des
rectangles d’un histogramme. Droite : polygone de fréquences multiples, permettant de superposer
les distributions d’une variable selon plusieurs groupes (exemple 5).
30
1.0
1.0
0.8
0.8
fonction de répartition F(x)

0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
1 2 3 4 5 6 2 3 4 5 6
x = note première épreuve x = note seconde épreuve
1.0
1.0
0.8
0.8

0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
2 3 4 5 6 2 3 4 5 6
x = note troisième épreuve x = note quatrième épreuve
F IGURE 2.5 – Fonctions de répartition empirique des notes obtenues par les n = 215 parti-
cipants aux 4 contrôles continus de méthodes quantitatives I et II, année 2012-2013.
Pour construire manuellement la fonction de répartition, on réordonne (i.e. ré-indice)

d’abord les scores par ordre croissant : x(1) ≤ x(2) ≤ . . . ≤ x(n) . La fonction de distribution
F (x) se construit alors comme un escalier croissant dont les marches augmentent d’une
hauteur n1 chaque fois que l’on rencontre une nouvelle valeur x(i) . S’il y a r scores ex-
aequo, la hauteur de la marche correspondante sera de nr . Par construction, F (x) = 0 pour
x < xmin , et F (x) = 1 pour x ≥ xmax (figure 2.5).
Imaginons qu’un nombre de plus en plus grand de notes, chacune mesurée avec une
précision infinie et toutes différentes, soient collectées, et que toutes les notes possibles
dans l’étendue [xmin , xmax ] = [1, 6] finissent par être réalisées, quoiqu’en proportion va-
riable en général : par exemple, il y aurait plus de notes dans l’intervalle ]4, 5] que dans
l’intervalle ]2, 3]. Dans cette limite, la hauteur des marches de l’escalier de la fonction de
répartition correspondante F (x), ainsi que la longueur des paliers horizontaux, tendraient
tous deux vers zéro : F (x) serait alors une fonction continue et strictement croissante, au-
trement dit une bijection de l’étendue des valeurs possibles vers l’intervalle [0, 1].
La médiane d’une distribution, notée x0.5 , est la valeur séparant l’échantillon en deux
moitiés de même effectif, à savoir la moitié constituée des valeurs inférieures à la médiane,
et l’autre moitié constituée des valeurs supérieures à la médiane. Plus généralement, Le
α-ème quantile d’une distribution, noté xα , est la valeur telle qu’une proportion α des
individus de l’échantillon ont un score inférieur à xα , ou, de façon équivalente, telle qu’une
proportion 1 − α des individus ont un score supérieur à xα .
31
Par exemple, la valeur x0.75 est le 75ème centile, ou encore le 3ème quartile, telle que
75% des individus de l’échantillon ont un score inférieur à x0.75 (et 25% des individus
ont un score supérieur à x0.75 ). De même, en considérant la variable x = “revenu”, le
20ème centile ou 2ème décile x0.20 sera le revenu non atteint par 20% des individus de
l’échantillon, et dépassé par 80% des individus.
L’idée fondant le concept de quantile est de découper l’échantillon en parties d’effectifs
égaux de 1/100 (centiles), 1/10 (déciles) ou encore 1/4 (quartiles) 14 ; ce découpage en-
traı̂ne en général la création de classes de largeur inégale : s’il y a bien 20% des individus
dans la classe ]x0.2 , x0.4 ] ou dans la classe ]x0.4 , x0.6 ], les largeurs x0.4 − x0.2 et x0.6 − x0.4
sont en général différentes. Si d’aventure ces classes étaient toutes de même largeur, cela
signifierait que la distribution des valeurs de x serait uniforme (ce concept sera formelle-
ment défini plus loin).
Les considérations ci-dessus présupposent qu’il existe une et une seule valeur xα parta-
geant la distribution en deux parties, de proportions α et 1 − α. C’est vrai si la fonction
de répartition F (x) est strictement croissante et continue dans l’étendue (i.e. bijective,
comme dans le cas limite d’un échantillon infini de valeurs continues évoqué ci-dessus),
mais problématique dans le cas d’un échantillon fini de valeurs brutes : si l’on dispose
par exemple de n = 8 valeurs distinctes, n’importe quelle valeur située dans l’intervalle
]x(2) , x(3) [ est un candidat au premier quartile x0.25 (car 2 valeurs observés sont plus pe-
tite, et 6 valeurs plus grandes), mais aucune valeur x0.01 ne peut prétendre, au sens strict,
séparer l’échantillon en deux parties de proportions respectives de 1% et 99% : dit simple-
ment, on ne peut pas découper un ensemble de 8 valeurs en 100 parties. La définition des
quantiles doit alors être adaptée.
Définition 4 (quantiles pour F (x) continue et strictement croissante). Pour α ∈]0, 1[, le
αème quantile est la valeur unique, notée xα , telle que F (xα ) = α.
Définition 5 (quantiles pour F (x) en escalier). Pour α ∈]0, 1[, la droite horizontale y = α
coupe F (x)
● soit le long d’un “mur” vertical correspondant à une observation x(i) , auquel cas le αème
quantile est défini comme xα = x(i)
● soit sur un “plateau” horizontal couvrant l’intervalle [x(i) , x(i+1) ], auquel cas le αème
x +x
quantile est défini comme le milieu du plateau xα = (i) 2 (i+1) .
Avec cette définition 15 , la valeur de la médiane vaut x0.5 = x( n+1

2
) si n est impair, et
x0.5 = 12 (x( n2 ) + x( n2 +1) ) si n est pair 16 .

Exemple 7 (Nombre d’enfants par ménage). Le nombre d’enfants vivant dans n = 12
ménages est de x = {0, 0, 0, 0, 0, 1, 1, 1, 2, 3, 3, 5}. La figure 2.6 donne l’histogramme et la
fonction de répartition, permettant de calculer les quantiles.
3.1.2 Le cas de données regroupées en classes

Il est fréquent que l’information initiale soit disponible sous forme de scores déjà regroupés
en classe, comme dans un histogramme, plutôt que sous la forme de scores bruts : on sait
que nj scores appartiennent au j-ème intervalle ]aj , aj+1 ], mais on ignore où les scores
bruts se situent plus précisément dans l’intervalle.
14. x0.25 est le premier quartile, ou encore le 25ème centile. x0.6 est le 6ème décile ou 60ème centile.
15. d’autres définitions existent (par exemple, le logiciel R propose neuf options possibles), avec des résultats
d’autant plus proches que n est grand
16. plus généralement, et à l’intention des matheux : xα = 12 x(⌈nα⌉) + 12 x(⌊nα⌋+1) , où ⌈y⌉ désigne la partie
entière par excès (ceiling) de y, i.e. l’unique nombre entier N tel que N − 1 < y ≤ N , et ⌊y⌋ désigne la partie
entière par défaut (floor) de y, i.e. l’unique nombre entier N tel que N ≤ y < N + 1 ; cf. chapitre 1, section 4.1.2.
32
5 1.00
0.95
0.90
0.85
4 0.80

0.75
0.70
0.65
3 0.60
effectif
0.55
0.50
0.45
2 0.40
0.35
0.30
0.25
1 0.20
0.15
0.10
0.05
0 0.00
0 1 2 3 4 5 -1 0 1 2 3 4 5 6
x = nombre d'enfants x = nombre d'enfants
F IGURE 2.6 – Exemple 7 (avec n = 12 et x = {0, 0, 0, 0, 0, 1, 1, 1, 2, 3, 3, 5}) : histogramme et fonction

de répartition empirique, et détermination graphique (définition 5) de la médiane x0.5 = 1, du
troisième quartile x0.75 = 2.5 et du nonante-cinquième centile x0.95 = 5 .
100 1.0 1.00

0.95
0.90
0.85
80 0.8 0.80

0.75
0.70
0.65
60 0.6 0.60
effectif
0.55
0.50
0.45
40 0.4 0.40
0.35
0.30
0.25
20 0.2 0.20
0.15
0.10
0.05
0 0.0 0.00
1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
x = note troisième épreuve x = note troisième épreuve x = note troisième épreuve
F IGURE 2.7 – Notes du 3ème contrôle continu, données en classes entières : construction de la
fonction de répartition empirique, et détermination graphique (définition 4) de la médiane x0.5 =
4.39, du troisième quartile x0.75 = 4.92 et du nonante-cinquième centile x0.95 = 5.48 .
Dans ce cas, en supposant les scores bruts répartis uniformément dans les intervalles, la
fonction de répartition F (x) peut être construite à partir de l’histogramme correspondant
en empilant dans la classe j tous les rectangles précédents, le j-ème y compris, puis en
remplaçant chaque dernier rectangle empilé par sa diagonale croissante, de façon à obte-
nir une ligne continue. Cette dernière est le graphe de F (x), qui est une fonction continue,
et strictement croissante pour autant qu’aucune classe ne soit vide. La définition 4 s’ap-
plique alors, et les quantiles xα peuvent être déterminés graphiquement 17 , comme sur la
figure 2.7.
3.1.3 Boxplots
Les boxplots ou “boı̂tes à moustache” constituent une autre représentation graphique de
la distribution d’une variable numérique x, particulièrement intéressante en présence de
17. la procédure revient à interpoler linéairement la valeur du quantile à l’intérieur de la classe dans laquelle
tombe le quantile : xβ étant le quantile de la limite inférieure de la classe et xγ celui de la limite supérieure
(figurés par des points dans la figure 2.7, milieu), l’interpolation fournit une valeur de xα égale à :
γ−α α−β
xα = xβ + xγ
γ−β γ−β
33
80
70
5
60
4
note
50
age
3
40
2
30
1
20
1ère épreuve 2ème épreuve 3ème épreuve 4ème épreuve Etu ProfMer PostDoc Ass PAT Autre
statut
F IGURE 2.8 – B OXPLOTS. Gauche : notes aux 4 épreuves de méthodes quantitatives (exemple 6).
Droite : âge des répondants selon leur statut (exemple 5).
plusieurs séries de valeurs (figure 2.8). Le trait à l’intérieur des boı̂tes indique la médiane
x0.5 , et leurs limites indiquent le premier quartile x0.25 et le troisième quartile x0.75 . La
région couverte par les “tiges” ou “moustaches” est censée délimiter l’étendue des autres
valeurs “modérément distantes” de la zone centrale, et les scores au-delà sont parfois
qualifiés d’extrêmes. La définition de la longueur des “tiges” ou “moustaches” varie d’un
logiciel à l’autre 18 .
3.2 Indicateurs de tendance centrale et de dispersion d’une variable numérique

3.2.1 Indicateurs de tendance centrale : médiane, moyenne, mode
Si l’on devait remplacer tout un échantillon de scores numériques {x1 , x2 , ..., xn } par une
seule valeur (ce qui se traduirait bien sûr par une perte d’information), quelle devrait être
cette valeur ? Tel qu’énoncé, le problème n’est pas suffisamment précis pour posséder une
solution unique. Tout candidat “raisonnable” à la représentation de cette valeur “typique”,
“représentative”, sera appelé indicateur de tendance centrale. Les indicateurs de tendance
centrale les plus utilisés sont
● la moyenne empirique (empirical mean), notée x̄, définie par
1 n
x̄ = ∑ xi (2.3)
n i=1
● la médiane (median) x0.5 : par construction, une moitié des scores sont supérieurs
à la médiane, et l’autre moitié inférieurs
● le mode (mode), dans le cas données groupées en classe (histogrammes), défini
comme le milieu de la classe la plus peuplée, dite classe modale. Naturellement,
tout changement dans la mise en classe (origine et largeur des classes) entraı̂ne
généralement un changement du mode.
La médiane est plus robuste que la moyenne, c’est-à-dire moins sensible aux valeurs ex-
trêmes 19 d’un échantillon, lesquelles apparaissent en particulier dans le cas de distribu-
tions très asymétriques, comme dans le cas des revenus (beaucoup de petits revenus, de
rares très gros revenus, et de très rares très très gros revenus) : le revenu médian représente
18. sur la figure 2.8, cette longueur vaut une fois et demi l’intervalle interquartile x0.75 − x0.25 (section 3.2.2)
pour autant que les tiges ne dépassent pas xmax (en haut) ou xmin (en bas) ; dans d’autres conventions, c’est les
intervalles [x0.01 , x0.99 ] ou [x0.05 , x0.95 ] qui sont utilisés pour calibrer l’extrémité des tiges.
19. i.e. très distantes du reste des valeurs
34
bien mieux la valeur typique du revenu pour l’ensemble d’une population que ne l’est le
revenu moyen, lequel est en général étonnamment élevé, à cause des quelques très gros
revenus “tirant” la moyenne vers le haut.
Les valeurs extrêmes peuvent également résulter d’erreurs de mesure ou de saisie. On
préférera ainsi l’usage de la médiane à la moyenne lorsque la qualité des données est en
question 20 . Dans les autres cas (distributions à peu près symétriques ne comportant pas de
valeurs extrêmes), les indicateurs de tendance centrale que sont la médiane et la moyenne
ont des valeurs proches.
3.2.2 Indicateurs de dispersion : variance et intervalle interquartile

La seconde classe d’indicateurs la plus importante est celle des indicateurs de dispersion :
il s’agit ici d’indiquer si les valeurs sont peu dispersées ou très dispersées autour de la va-
leur centrale. Par exemple, chacun des échantillons {2, 3, 3, 4} et {0, 1, 5, 6} possède une
moyenne (ici égale à la médiane) de x̄ = 3 ; cependant, les valeurs du second échantillon
sont beaucoup plus dispersées. L’indicateur de dispersion le plus utilisé pour les variables
quantitatives est la variance empirique, définie comme :
1 n 1 n 2
var(x) = ∑(xi − x̄) = ( ∑ xi ) − x̄
2 2
(2.4)
n i=1 n i=1
La première formule est plus parlante mathématiquement, tandis que la deuxième, qui lui
est équivalente, se prête souvent mieux (mais pas toujours) au calcul manuel. On note
aussi, symboliquement
var(x) = (x − x̄)2 = x2 − x̄2 (2.5)
ce qu’on peut lire par “variance = moyenne des carrés − carré de la moyenne”.
√ utilise souvent la notation sx , ou encore simplement s , pour var(x). La quantité sx =

2 2
On
var(x) est appelée écart-type. L’écart-type est une mesure de dispersion plus intuitive
que la variance ; en particulier, et contrairement à la variance, l’écart-type s’exprime dans
les mêmes unités que la variable x : si x mesure la taille en [cm], sx s’exprimera en
[cm] mais s2x en [cm2 ]. Naturellement, l’écart-type détermine complètement la variance,
et vice-versa.
Attention : la plupart des logiciels fournissent une autre valeur pour la variance, dite
variance sans biais (unbiased variance), et définie par
1 n n n
̂
var(x) = ŝ2 ∶= ∑(xi − x̄) =
2
var(x) = s2 (2.6)
n − 1 i=1 n−1 n−1
qui ne diffère notablement de la variance ordinaire var(x) = s2 que pour de petits échan-
tillons 21 .
Une autre mesure de dispersion est constituée par l’intervalle interquartile x0.75 − x0.25 ou
sa moitié, l’intervalle semi-interquartile x0.75 −x
2
0.25
. Mentionnons aussi l’étendue xmax −xmin ,
déjà rencontrée.
3.2.3 Moyennes, variances et quantiles pondérés

Considérons un groupe de 60 personnes constitué de 40 femmes et 20 hommes. La taille
moyenne des femmes est de x̄f = 168 cm, et celle des hommes est de x̄h = 175 cm. Quelle
est la taille moyenne x̄ d’un individu quelconque du groupe, sans tenir compte du sexe ?
20. on définit également la moyenne tronquée (trimmed mean), qui est la moyenne des observations dont
ont été exclues une même proportion des valeurs les plus hautes et des valeurs les plus basses : par exemple, le
calcul de moyenne tronquée à 5% s’effectuera en retirant au préalable les 5% valeurs les plus basses et les 5%
valeurs les plus hautes. La moyenne tronquée à 50% est la médiane.
̂
21. on rencontre également les notations s2n pour var(x), et s2n−1 pour var(x)
35
Comme les femmes sont deux fois plus nombreuses que les hommes, la taille moyenne de
ces dernières x̄f doit contribuer deux fois plus à x̄ que ne le fait x̄h . On doit donc poser
x̄ = 40×168+20×175
60
= 23 × 168 + 13 × 175 = 170.33 cm.
En général, si l’on a affaire à m groupes j = 1, ..., m, les nj individus du j-ème groupe
ayant tous obtenu le même score xj , la moyenne pondérée sera calculée comme
1 m m
x̄ = ∑ n j xj = ∑ fj xj (2.7)
n j=1 j=1
où n = n1 + n2 + ... + nm est l’effectif total, et fj = nj /n est la proportion ou fréquence du

groupe j. Par définition, ∑mj=1 fj = 1. On définit de même la variance pondérée par
1 m m
var(x) = ∑ nj (xj − x̄) = ∑ fj (xj − x̄) = x2 − x̄
2 2 2
(2.8)
n j=1 j=1
Les mêmes formules s’appliquent lorsque les données sont regroupées en m classes de
fréquences relatives f1 , ..., fm : on calcule alors la moyenne et la variance de la variable x
comme si tous les résultats de la classe j étaient situés au milieu xj de celle-ci 22 .
En présence de n observations de valeurs x = {x1 , . . . , xn } de poids relatifs f = {f1 , . . . , fn },
le calcul de la fonction de répartition F (x) s’effectue de la même façon que dans la section
3.1.1 : on ordonne les valeurs de façon croissante x(1) ≤ x(2) ≤ . . . ≤ x(n) et on construit
la fonction en escalier avec les marches de hauteurs f(1) , f(2) , . . . , f(n) . En cas d’ex-aequo
x(i) = x(i+1) , la marche correspondante sera de hauteur f(i) + f(i+1) . Finalement, les quan-
tiles se calculent à partir de F (x) selon la définition 5.
3.3 Variables centrées, réduites, standardisées

Soit x = {x1 , x2 , ..., xn } un échantillon de scores numériques correspondant à une variable
quantitative x, de moyenne x̄ et de variance var(x) = s2 . Les valeurs des xi dont qualifiées
de scores bruts, par contraste avec les scores transformés par les opérations suivantes :
● centrer un score, c’est lui soustraire le score moyen.
On note xci = xi − x̄ le i-ème score centré.
● réduire un score, c’est le diviser par l’écart-type.
On note xri = xsi le i-ème score réduit.
● standardiser un score, c’est le centrer puis le réduire (et non l’inverse).
On note xsi = xis−x̄ le i-ème score standardisé.
Dire qu’un score standardisé vaut par exemple xsi = 1.5 signifie simplement que le score
brut xi se trouve à 1.5 écarts-type au-dessus de la moyenne, à savoir xi = x̄ + 1.5 s.
A bien des égards, la moyenne x̄ joue le rôle d’origine pour une variable quantitative x, et
l’écart-type sx celui d’unité. Centrer une variable revient alors à prendre la moyenne comme
origine : les scores centrés seront positifs ou négatifs suivant que les scores bruts xi (non
transformés) sont supérieurs ou non à la moyenne. De même, réduire une variable revient
à l’exprimer dans un système où l’unité vaut un écart-type (figure 2.9).
Par construction, et comme l’illustre la figure 2.9, centrer une variable a pour effet de
ramener sa moyenne à zéro (xc = 0) sans que la dispersion relative des points ne soit
modifiée (var(xc ) = var(x)). De même, standardiser une variable a pour effet de ramener
sa moyenne à zéro (xs = 0) et sa variance à l’unité (var(xs ) = 1).
Plus généralement, il est facile de montrer que la transformation linéaire y ∶= ax + b, où x
et y sont deux variables quantitatives, transforme les moyennes, variances et écarts-types
comme
ȳ = ax + b = ax̄ + b var(y) = var(ax + b) = a2 var(x) sy = ∣a∣sx (2.9)
22. cette procédure ne tient pas compte de la dispersion possible des scores à l’intérieur de chacune des classes
(appelée variance intra-groupe) ce qui a pour effet de sous-estimer la variance totale, dont les deux contributions
sont la variance intra-groupe (ici négligée) et la variance (3.12), dite inter-groupe (voir chapitres suivants).
36
standardisés
centrés
réduits
bruts
-2 0 2 4 6
valeurs des scores
F IGURE 2.9 – Troisième épreuve (exemple 6) : distribution des valeurs des scores bruts xi , des
scores réduits xri , des scores centrés xci , et des scores standardisés xsi . Ici x̄ = 4.33 et s = 0.78 .
0.5
700
700
600
0.4
600
500
500
proportion
0.3
effectif
400
effectif
400
300
0.2
300
200
200
0.1
100
100
0.0
0
0
Etu ProfMer PostDoc Ass PAT Etu ProfMer PostDoc Ass PAT Autre Etu ProfMer PostDoc Ass PAT Autre
F IGURE 2.10 – Diagramme en bâtonnets ou barplot : trois variantes de l’exemple 8
3.4 Visualisation d’une variable catégorielle : le diagramme en bâtonnets (et circulaire)

x étant une variable catégorielle à m modalités, le diagramme en bâtonnets (barplot)
consiste à placer sur l’axe horizontal les m catégories, et sur l’axe vertical des bâtonnets
soit de hauteur nj , l’effectif de la modalité j = 1, . . . , m, soit de hauteur fj = nj /n, l’effectif
relatif ou proportion de la modalité j.
Naturellement, l’ordre des catégories, ainsi que la distance entre elles n’a aucune signifi-
cation, et sont arbitraires : ce sont des considérations de pure lisibilité qui déterminera le
choix la disposition des bâtonnets. Pour les mêmes raisons de pure lisibilité, les bâtonnets
peuvent être épaissis, même si l’épaisseur ne possède aucune signification non plus. Sous
cette forme, le diagramme en bâtonnets ressemble à un histogramme (figure 2.10), même
s’il en diffère profondément.
Exemple 8 (Questionnaire “Chamberonne” (exemple 5) : "statut"). Les n = 1365 ré-

pondants du questionnaire ont été catégorisés en m = 6 modalités selon leur statut :
"étudiants", "professeurs et ma^ ıtres d’enseignement et de recherche", "ma^ ı-
tres-assistants", "chercheurs post-doctoraux et premiers assistants", "assis-
tants et doctorants", "personnel administratif et technique" et "autres". La
figure 2.10 donne trois variantes du diagramme en bâtonnets correspondant.
Le diagramme circulaire ou camembert (pie chart ; figure 2.11) est une alternative possible
au diagramme en bâtonnets. Autant le camembert est populaire dans certains medias et
37
4. Deux variables : visualisation et table de contingence
Etu
Etu
Autre
Autre
ProfMer
ProfMer PostDoc
PAT
Ass
PostDoc
PAT
Ass
F IGURE 2.11 – Diagrammes circulaires pour l’exemple 8, et variante tridimensionnelle du dia-

gramme de bâtonnets (bas, droite), avec une profondeur sans signification. La représentation “tridi-
mensionnelle” et “éclatée” (haut, droite) contient une épaisseur, un éclatement, un angle de vue et
des couleurs additionnelles sans signification. Trois représentations rajoutent des “ombres” sur les
“bords”.
chez les amateurs de “joliesse”, autant il est dédaigné voire exécré par les puristes : il ne
permet pas de comparer directement l’importance relative de deux secteurs aux surfaces
proches, ni de relier précisément l’importance des secteurs aux effectifs ou aux propor-
tions. De surcroı̂t, il contient le plus souvent des éléments fantaisistes (couleurs, épaisseur,
inclinaison et perspective, “éclatement”, ombres) sans signification, et qui, loin d’améliorer
la lisibilité de la figure, produisent des biais perceptifs additionnels attestés.
Ici, le “joli” est certainement l’ennemi du “vrai” : sans améliorer la lisibilité des données,
ces fioritures sont incontestablement kitsch. Cela étant dit, trouver “joli” un diagramme
circulaire est en soi parfaitement légitime, et ne fait pas de vous une mauvaise personne.
Et mépriser les personnes qui trouvent “joli” les diagrammes circulaires ne fera pas de
vous une meilleure personne.
4 Deux variables : visualisation et table de contingence

4.1 Visualisation de deux variables quantitatives : le diagramme de dispersion
Pour visualiser simultanément deux variables quantitatives x et y, on représente chaque
individu i = 1, . . . , n par un point de coordonnées (xi , yi ) dans un repère cartésien 0xy. La
figure obtenue s’appelle diagramme de dispersion (scattergram ou scatterplot ; figure 2.12).
Le diagramme de dispersion permet de détecter visuellement si les scores x et y tendent à
être liés : ce sera le cas si, par exemple (et comme ici), des valeurs grandes de x tendent
à correspondre à des valeurs grandes de y, i.e. si la forme du nuage de points tend à être
“croissante”. L’introduction du coefficient de corrélation entre x et y, abordé plus loin,
permettra de quantifier le concept de liaison (linéaire) entre deux variables quantitatives.
38
6
5
5
note quatrième épreuve
note seconde épreuve
4
4
3
3
2
2
1
1
1 2 3 4 5 6 1 2 3 4 5 6
note première épreuve note troisième épreuve
F IGURE 2.12 – Diagrammes de dispersion des résultats des n = 215 participants aux épreuves de
méthodes quantitatives (exemple 6)
4.2 Deux variables catégorielles : la table de contingence

La représentation simultanénée de deux variables catégorielles x et y, contenant respecti-
vement m1 et m2 modalités, est basée sur les effectifs croisés njk définis comme
njk = nombre d’individus appartenant à la fois à la modalité j de x et à la modalité k de y (2.10)
L’indice j prend les valeurs possibles j = 1, . . . , m1 , et l’indice k prend les valeurs possibles
k = 1, . . . , m2 . L’ensemble des effectifs croisés constitue ainsi une table à m1 lignes et m2
colonnes (ou table m1 × m2 ), appelée table de contingence (contingency table ; table 2.4).
y → k=1 k=2 ⋯ k ⋯ k = m2 marge en ligne
x ↓
j=1 n11 n12 ⋯ n1k ⋯ n1m2 n1●
j=2 n21 n22 ⋯ n2k ⋯ n2m2 n2●
j=3 n31 n32 ⋯ n3k ⋯ n3m2 n3●
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
j nj1 nj2 ⋯ njk ⋯ njm2 nj●
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
j = m1 nm 1 1 nm1 2 ⋯ nm1 k ⋯ nm1 m2 nm 1 ●
marge en colonne n●1 n●2 ⋯ n●k ⋯ n●m2 n●● = n
TABLE 2.4 – Table de contingence m1 × m2 , contenant les effectifs croisés njk des modalités des
variables catégorielles x et y, ainsi que les marges en ligne nj● , les marges en colonne n●k , et le total
n●● = n
Le nombre d’individus dans la catégorie j de x, sans tenir compte de la catégorie k de y,
constitue le total marginal de la j-ème ligne ou marge en ligne de la table de contingence.
Elle est notée nj● , et s’obtient en sommant les modalités de k correspondantes :
m2
nj● ∶= nj1 + nj2 + ... + njm2 = ∑ njk
k=1
De même,
m1
n●k ∶= n1k + n2k + ... + nm1 k = ∑ njk
j=1
est le total marginal de la k-ème colonne, i.e. la somme de tous les individus dans la moda-
lité k de y (sans tenir compte des valeurs possibles de la variable x).
39
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 15 81 140 207 72 102 111 0 0 0 728
ProfMer 4 16 47 25 8 14 21 0 0 0 135
PostDoc 1 2 12 15 2 14 7 0 0 1 54
Ass 4 27 31 36 7 23 29 0 0 0 157
PAT 4 16 22 29 20 43 16 126 30 10 316
Autre 1 4 4 7 1 2 3 0 19 4 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 2.5 – table de contingence "statut" × "faculté", avec les totaux marginaux
Un indice remplacé par le symbole “●” indique ainsi une sommation sur toutes les valeurs
possibles de l’indice remplacé. Selon cette convention,
m1 m2 m1 m2
n●● = ∑ nj● = ∑ n●k = ∑ ∑ njk = n = effectif total = taille de l’échantillon.
j=1 k=1 j=1 k=1
Exemple 9 (Questionnaire “Chamberonne” (exemples 5 et 8) : "statut" × "faculté").

Dans l’exemple 8, les n = 1365 répondants du questionnaire ont été catégorisés en m1 = 6
modalités selon x = "statut".
Il se trouve que ces répondants sont également issus de m2 = 10 “facultés”, selon la va-
riable catégorielle y = "faculté" aux modalités "théologie et sciences des religions",
"droit, sciences criminelles et administration publique", "lettres", "sciences sociales
et politiques", "HEC", "biologie et médecine", "géosciences et environnement", "services
centraux", "institut suisse de droit comparé + BCU + garderie + archives cantonales"
et "autre".
La table 2.5 donne la table de contigence associée, ainsi que ses marges.
4.3 Visualisation de deux variables catégorielles

200
200
Etu FTSR
ProfMer Droit
PostDoc Lettres
Ass SSP
PAT HEC
150
150
Autre FBM
GSE
SerC
IBGA
effectif
effectif
Autre
100
100
50
50
0
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre Etu ProfMer PostDoc Ass PAT Autre
F IGURE 2.13 – Visualisation simultanée des variables catégorielles "statut" et

"faculté" (exemple 9) : diagrammes en bâtonnets groupés
Pour visualiser simultanément les variables catégorielles x et y, on peut “itérer” la construc-

tion en diagramme en bâtonnets, en faisant varier, pour chaque modalité j de x, toutes les
modalités k de y (ou inversement) : on parle de diagramme en bâtonnets groupé (grouped
barplot ; figure 2.13)). On peut aussi empiler les bâtonnets d’un des diagrammes groupés,
40
FTSR
Droit
Lettres
SSP
HEC
FBM
GSE
SerC
IBGA
Autre
300 Etu
ProfMer
PostDoc
Ass
250
PAT
Autre
200
Etu
effectif
statut
150
ProfMer
100
PostDoc
Ass
50
PAT
Autre
0
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre faculté
F IGURE 2.14 – Visualisation simultanée des variables catégorielles "statut" et

"faculté" (exemple 9) : diagramme en bâtonnets empilé (gauche), et diagramme en mosaı̈que
(droite). Dans ce dernier, la largeur des colonnes est proportionnelle à l’effectif de chaque faculté, ce
qui rend la hauteur de chaque colonne identique (et permet de comparer directement la fréquence
relative des statuts au sein de chaque faculté) ; la convention est inverse pour le diagramme en
bâtonnets empilé.
produisant un diagramme en bâtonnets empilé (stacked barplot ; figure 2.14 gauche). On

peut enfin utiliser le diagramme en mosaı̈que (mosaic plot) où chaque effectif croisé njk est
représenté par une surface qui lui est proportionnelle (figure 2.14 droite).
4.4 Visualisation simultanée d’une variable numérique et d’une variable catégorielle

On a déjà rencontré ce cas deux fois : sur la figure 2.4 droite, par superposition des po-
lygones de fréquence (de "age" pour différentes modalités de "statut"), ainsi que sur
la figure 2.8, par juxtaposition des boxplots (de "note" pour différentes modalités de
"épreuve" ; de "age" pour différentes modalités de "statut").
(*) Une troisième possibilité, le spine plot, une forme de diagramme en mosaı̈que, consiste à
partitionner l’axe horizontal numérique en segments de longueur proportionnelle à l’effec-
tif contenu dans le segment. Les colonnes au-dessus de chaque segment, toutes de hauteur
100%, sont ensuite partitionnées de façon à refléter la fréquence relative des modalités à
l’intérieur du segment. La figure 2.15 illustre le procédé, qui constitue une alternative aux
boxplots juxtaposés de la figure 2.8.
41
1.0
1.0
quatrième épr.
Autre
0.8
0.8
PAT
troisième épr.
0.6
0.6
Ass
epreuve
statut
PostDoc
deuxième épr.
0.4
0.4
ProfMer
0.2
0.2
première épr.
Etu
0.0
0.0
1.5 3.5 4 4.5 5 5.5 6 15 20 25 30 35 40 45 50 60
note age
F IGURE 2.15 – Visualisation simultanée d’une variable numérique et d’une variable catégorielle :
"note" et "epreuve" (exemple 6) à gauche, "age" et "statut" (exemple 8) à droite. On y lit, par
exemple, que les notes entre 5.5 et 6 sont bien plus fréquentes lors de la première épreuve que lors
de la quatrième épreuve, alors que c’est le contraire pour les notes entre 3.5 et 4.
42
3 Liens entre deux variables
1 Introduction : le concept de dépendance (théorique) et de liaison (empirique)

La profession d’un individu est-il liée à sa nationalité ? Par exemple, il y aurait peut-être
une proportion plus grande de banquiers chez les Suisses (et moins de marins), de restau-
rateurs chez les Français, de prêtres chez les Polonais...
Cette question est celle de la dépendance entre deux variables x et y, ici "profession"
et "nationalité" supposées univoques et bien définies (ce qui est toute une autre his-
toire en pratique). On dira que deux variables x et y sont indépendantes si la distribution
des valeurs (numériques ou catégorielles) de l’une est sans relation avec la distribution
des valeurs de l’autre : par exemple, les variables x="poids" et y="taille" ne sont en
général pas indépendantes dans une population humaine, car la distribution de "poids"
dans une sous-population d’individus de y=150 cm diffère de la distribution de "poids"
dans une autre sous-population d’individus de y=200 cm, typiquement plus lourds que
dans la première.
Par contre, on s’attend à ce que les variables z="couleur de cheveux" et w="note à
l’examen de linguistique diachronique" soient indépendantes : la distribution des
notes chez les noirauds devrait par exemple être la même que chez les roux : la couleur
de cheveux ne devrait être en rien liée à la note à l’examen de linguistique diachronique.
De même qu’il faut distinguer entre le concept théorique de probabilité, qui réfère à un
modèle du monde, et le concept empirique de fréquence, qui réfère à des observations sur
un échantillon, il faut distinguer entre :
1) le concept de dépendance théorique (ou dépendance tout court) entre deux variables
X et Y , notées dans ce contexte par des majuscules
2) le concept de “dépendance empirique” (plutôt appelée “liaison”) entre deux séries de
n valeurs notées x et y, ou simplement x et y.
Dans le contexte théorique, la notion d’indépendance est formalisée ainsi :
Définition 6 (indépendance entre variables X et Y ). Soit A un ensemble de valeurs pos-

sibles de X, et B un ensemble possible de valeurs de Y . Alors X et Y sont dits indépendants
ssi
P (X ∈ A et Y ∈ B) = P (X ∈ A) P (Y ∈ B) (3.1)
quels que soient les ensembles A et B.
Cette définition évoque celle, similaire mais distincte, de l’indépendance entre deux événements :
pour rappel, deux événements A et B sont dits indépendants si P (A et B) = P (A)P (B).
La notion de “non-liaison” dans les observations est la traduction empirique de (3.1), où
les probabilités P () sont remplacées par les fréquences observées ; la section 2 illustre le
propos pour x et y catégoriels.
43
2. Liaison entre deux variables catégorielles : le coefficient du chi2
1.1 Intérêt de la notion de dépendance

Le cas de l’indépendance entre variables est le plus simple mathématiquement, mais aussi
le moins intéressant : s’il s’avérait que, dans une population, la profession des enfants
était indépendante de celle des parents, il n’y aurait pas grand-chose à ajouter à ce constat
d’indépendance.
S’il y avait au contraire dépendance (ce qui est évidemment le cas ici) une foule de ques-
tions surgiraient aussitôt : comment qualifier cette dépendance ? est-elle forte, faible ?
Reflète-t-elle un lien spécifique entre certaines professions particulières seulement, ou
constitue-elle un fait généralisable à l’ensemble des professions ? à l’ensemble des pays ?
Quels modèles de choix d’une profession permettent-ils de rendre compte de la dépendance
observée ?...
Une grande, voire la majeure partie de la recherche empirique dans certaines disciplines,
consiste à mettre en évidence, qualifier et interpréter la dépendance mutuelle entre va-
riables caractérisant une population ou un échantillon. On verra que toute forme attestée
de dépendance entre variables
● permet de prédire la valeur de certaines variables à partir de la connaissance des
valeurs d’autres variables (exemple : régression simple ou multiple, méthodes de
classification, etc. )
● permet de compresser (avec ou sans perte) l’ensemble des données, qui ne sont
pas aussi versatiles, changeantes ou volatiles qu’elles auraient pu l’être, i.e. qui
témoignent d’une structure plus déterministe (mais pas complètement déterministe
non plus) que celle générée par le hasard pur. La Théorie de l’Information et les
méthodes dites factorielles illustrent et exploitent précisément cette compressibilité.
Ce qui suit est consacré à la question de comment définir et calculer des indices de liaisons
entre variables, selon leur type numérique ou catégoriel. La question de la généralisation
possible du constat de dépendance empirique à toute la population dont l’échantillon est
extrait sera abordé plus loin, dans les tests d’hypothèses.
2 Liaison entre deux variables catégorielles : le coefficient du chi2

On dispose de deux variables catégorielles, x et y (par exemple "profession" et "natio-
nalité"), dont les catégories j = 1, . . . , m1 , respectivement k = 1, . . . , m2 , indicent la table
de contingence associée, constituée des effectifs njk =“nombre d’individus de profession
j et de nationalité k”, relativement à un certain échantillon (par exemple les résidents
jurassiens en 2010) de taille n = n●● .
La définition (3.1) de l’indépendance théorique, que l’on peut aussi écrire comme
P (X = j et Y = k) = P (X = j) P (Y = k), s’adapte au contexte empirique en faisant les
substitutions suivantes
njk
P (X = j et Y = k) → pjk ∶=
n
nj●
P (X = j) → fj ∶= (3.2)
n
n●k
P (Y = k) → ρk ∶=
n
Les quantités fj (avec fj ≥ 0 avec ∑j=1 fj = 1) sont les fréquences relatives de la variable
m1
x, et les quantités ρk (avec ρk ≥ 0 ∑m k=1 ρk = 1) sont les fréquences relatives de la variable

2
y. Quant à pjk , ce sont les fréquences jointes (avec pjk ≥ 0 et ∑j,k pjk = 1). D’après (3.1), et
après simplification par n, il y a donc absence de liaison (empirique) entre x et y ssi
nj● n●k
njk = (3.3)
n
ce qui peut être (très exceptionnellement) le cas (généralement non), pour un échantillon
donné. La quantité de droite représente l’effectif attendu (anglais : “expected”) ou théorique
44
Etu 15 81 140 207 72 102 111 0 0 0 728
ProfMer 4 16 47 25 8 14 21 0 0 0 135
PostDoc 1 2 12 15 2 14 7 0 0 1 54
Ass 4 27 31 36 7 23 29 0 0 0 157
PAT 4 16 22 29 20 43 16 126 30 10 316
Autre 1 4 4 7 1 2 3 0 19 4 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.1 – effectifs observés njk "statut" × "faculté", avec les totaux marginaux
Etu 14.71 74.07 129.87 161.83 55.80 100.45 94.87 63.92 24.86 7.61 728
ProfMer 2.73 13.74 24.08 30.01 10.35 18.63 17.59 11.85 4.61 1.41 135
PostDoc 1.09 5.49 9.63 12.00 4.14 7.45 7.04 4.74 1.84 0.56 54
Ass 3.17 15.97 28.01 34.90 12.03 21.66 20.46 13.79 5.36 1.64 157
PAT 6.39 32.15 56.37 70.25 24.22 43.60 41.18 27.75 10.79 3.30 316
Autre 0.91 4.58 8.03 10.00 3.45 6.21 5.86 3.95 1.54 0.47 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.2 – effectifs théoriques nth
jk "statut" × "faculté", avec les totaux marginaux
sous l’hypothèse d’indépendance, noté nth

jk :
nj● n●k
jk ∶=
nth (3.4)
n
Une forte différence entre les effectifs attendus nth

jk et observés njk témoigne d’une forte
dépendance entre les variables x et y. La mesure classique de cette dépendance est donnée
par le coefficient du chi-carré, défini (pour de bonnes raisons mathématiques) par :
m1 m2 (njk − nth
jk )
2 m1 m2 (njk −
nj● n●k 2
) m1 m2 n2jk
chi2 ∶= ∑ ∑ =∑∑ n
nj● n●k = n(( ∑ ∑ ) − 1) (3.5)
j=1 k=1 nth
jk j=1 k=1 n j=1 k=1 nj● n●k
Un chi2 élevé dénote ainsi une forte liaison entre les variables catégorielles x et y.
Exemple 10 ( “Chamberonne” (suite)).
Considérons à nouveau la table de contingence formée par les m1 = 6 modalités de la
variable catégorielle x = "statut" et les m2 = 10 modalités de la variable catégorielle y
= "faculté" des n = 1365 répondants du questionnaire “Chamberonne” (table 3.1).
Les effectifs théoriques correspondants sont donnés dans la table 3.2. On voit par exemple
qu’il y a davantage de répondants étudiants en SSP (207) que l’on aurait pu s’y attendre
(161.83) si "statut" et "faculté" n’étaient pas liés, i.e. si la proportion de répondants
étudiants était la même pour chaque faculté (soit fétudiants = 728/1365 = 50.7%) ; ou encore,
de façon équivalente, si la part des réponses émanant de la faculté des SSP était la même
quel que soit le statut (soit ρSSP = 319/1365 = 22.2%).
La valeur du chi-carré (3.5) est ici de chi2 = 917.73 : est-ce grand, est-ce petit ? On y
reviendra à la section (2.2). On peut toutefois noter que, si tous les effectifs de la table 3.1
avaient été multipliés par disons 10, la valeur du chi-carré aurait été également multipliée
par 10. Pour des fréquences relatives (3.2) f , ρ et p données, la valeur du chi-carré est
proportionnelle à l’effectif total n. Cela justifie l’introduction d’un indice relatif de liaison
entre les variables, le phi-carré simplement défini par
chi2
phi2 ∶= (3.6)
n
45
Etu 1.02 1.09 1.08 1.28 1.29 1.02 1.17 0 0 0 1
ProfMer 1.47 1.16 1.95 0.83 0.77 0.75 1.19 0 0 0 1
PostDoc 0.92 0.36 1.25 1.25 0.48 1.88 0.99 0 0 1.77 1
Ass 1.26 1.69 1.11 1.03 0.58 1.06 1.42 0 0 0 1
PAT 0.63 0.50 0.39 0.41 0.83 0.99 0.39 4.54 2.78 3.03 1
Autre 1.10 0.87 0.50 0.70 0.29 0.32 0.51 0 12.37 8.50 1
1 1 1 1 1 1 1 1 1 1
TABLE 3.3 – quotients d’indépendance "statut" × "faculté", avec leurs moyennes pondérées en
marge
qui ne dépend que des fréquences relatives, mais pas de l’effectif n.
2.1 Quotients d’indépendance

La comparison entre effectifs observés et effectifs théoriques est la clef de compréhension
de la notion de dépendance, et de sa quantification par le coefficient du chi2. Cela étant,
son interprétation immédiate n’est pas si évidente : dans l’exemple il y a dans l’exemple 10
à la fois beaucoup d’étudiants et beaucoup de personnes issues de SSP dans les répondants,
et l’on anticipe ainsi un effectif joint (ou croisé) élevé, tant observé (nétudiants, SSP = 207)
que théorique (nthétudiants, SSP = 161.83). La différence de 207 − 161.83 = 45.17 doit-elle être
considérée comme plus (ou moins) notable que, disons, la différence correspondante en
faculté des HEC nétudiants, HEC − nth
étudiants, HEC = 72 − 55.80 = 16.2, faculté dont les répondants ont
été moins nombreux ?
Les quotients d’indépendance, définis par
njk pjk
qjk ∶= th
= (3.7)
njk fj ρk
permettent de répondre à la question, au sens où, par construction :

1. qjk > 1 ssi njk > nth jk , i.e ssi les catégories j (de x) et k (de y) sont conjointement
sur-représentées ou en attraction
2. qjk < 1 ssi njk < nth
jk , i.e ssi les catégories j et k sont conjointement sous-représentées
ou en répulsion
3. qjk = 1 ssi njk = nth
jk , i.e ssi les catégories j et k sont en relation de neutralité.
La table 3.3 associée est fort éclairante 1 : elle montre immédiatement que, par exemple,
les étudiants de SSP sont 1.28 fois plus nombreux qu’attendu sous l’hypothèse d’indé-
pendance entre "statut" et "faculté", et que ceux de HEC, 1.29 plus nombreux, sont
aussi, et même très légèrement plus, sur-représentés. A l’inverse, il y a deux fois moins de
personnes “PAT” en faculté de Droit qu’attendu sous indépendance (qPAT, Droit = 0.5).
Les quotients d’indépendance qjk sont non-négatifs, et leurs valeurs moyennes valent, tant
en ligne qu’en colonne, toujours 1. Plus précisément, on a toujours, par construction, que
∑ fj qjk = 1 ∀k ∑ ρk qjk = 1 ∀j (3.8)

j k
Dans (3.8), les moyennes en question sont des moyennes pondérées (par le poids relatif fj
des lignes, respectivement le poids relatif ρk des colonnes) ; on y reviendra. Le coefficient
du chi-carré (3.5) s’écrit aussi sous la forme
chi2
chi2 = n phi2 phi2 = = ∑ fj ρk (qjk − 1)2 = (∑ fj ρk qjk
2
)−1 (3.9)
n jk jk
1. mais, malheureusement, très peu produite dans la pratique
46
Etu - - 256 - 110 198 187 - - - 751
ProfMer - - - - - - - 126 - - 126
PostDoc - - - - - - - - 49 - 49
Ass - 146 - - - - - - - - 146
PAT - - - 319 - - - - - - 319
Autre 29 - - - - - - - - 15 44
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.4 – dépendence fonctionnelle de "statut" relativement à "faculté" : "faculté" est
plus fine que ou emboı̂tée dans "statut", ce qui revient à dire que la connaissance de "faculté"
entraı̂ne celle de "statut". Dans cette table, les marges en colonnes coı̈ncident exactement avec les
marges originales de la table 3.1, mais ce n’est pas le cas des marges en ligne – qu’on ne peut pas
faire coı̈ncider également avec les marges originales tout en conservant la propriété de dépendance
fonctionnelle.
(où le phi2 été défini en 3.6), qui montre que chi2 = 0 ssi qjk = 1 pour toutes les cases jk,
i.e. ssi njk = nth
jk , comme il se doit.
2.2 Valeur maximale du chi2, et V de Cramer (*)

Pour toute table de contigence m1 × m2 d’effectif n, la valeur maximale que peut atteindre
le chi-carré est
n × min(m1 − 1, m2 − 1) (3.10)
Cette valeur maximale est atteinte dans le cas de la dépendance fonctionnelle y = f (x) (ou
x = f (y) 2 ), où chaque catégorie de la variable x est associée avec une unique catégorie
de y, i.e. lorsque y est plus fin que x, noté y ⪰ x .
Dans l’exemple, y = "faculté" possède m2 = 10 catégories, soit davantage que x =
"statut" qui n’en possède que m1 = 6. Il y a alors dépendance fonctionnelle ssi les tous
les membres de chaque faculté ont le même statut, comme en table 3.4, où Lettres,
HEC, FBM et GSE serait uniquement composées d’étudiants, SerC uniquement composée de
ProfMer, IGBA uniquement composée de PostDoc, etc. Pour une telle table de contingence
(qui est loin d’être la seule possible), le chi-carré atteint sa valeur maximale de chi2 =
1365 × min(6 − 1, 10 − 1) = 1365 × 5 = 7175.
On dit aussi 3 que la variable catégorielle y est plus plus fine (finer) que x, que y est
emboı̂tée (nested) dans x, ou que x est plus grossière (coarser) que y.
Contrairement à l’indice de liaison classique entre deux variables numériques, le coeffi-
cient de corrélation, dont la valeur absolue varie entre 0 et 1 (section 3), la valeur maxi-
male (3.10) du chi2 dépend du nombre d’individus et du nombre de catégories en jeu.
Dans l’espoir de faciliter l’interprétation de la valeur du chi2, on a alors proposé différents
indices dérivés du chi2, dont l’un des plus connus (à défaut d’être très utilisé) est le V de
Cramer, défini par
√
chi2
V ∶= ∈ [0, 1] V de Cramer (3.11)
n min(m1 − 1, m2 − 1)
2. La preuve, pas si facile, est éclairante, mais souvent absente des manuels, raison pour laquelle on la donne
ici : supposons que m1 ≤ m2 . Il découle alors de (3.5) et (3.6) que
m1 m2 n2jk (a) m1 m2 njk m1 nj● m1
phi2 + 1 = ∑ ∑ ≤ ∑ ∑ =∑ = ∑ 1 = m1
j=1 k=1 nj● n●k j=1 k=1 nj● j=1 nj● j=1
où (a) découle de njk ≤ n●k . L’égalité en (a) est atteinte ssi njk njk = njk n●k , i.e. ssi chaque modalité colonne
k de y est concentrée dans unique modalité ligne j[k] de x, pour laquelle njk = 0 sauf si j = j[k], qui est
la condition de dépendance fonctionnelle x = f (y). Ainsi, phi2 + 1 ≤ m1 et donc chi2 ≤ n(m1 − 1) lorsque
m1 ≤ m2 . Le cas m1 ≥ m2 se traite de façon symétrique, d’où finalement chi2 ≤ n min(m1 − 1, m2 − 1). 2
3. pour rappel, toute partition des individus induit une variable catégorielle et réciproquement
47
3. Liaison entre deux variables numériques : covariance et corrélation
2.3 Calcul du chi2 : exemple réduit (format calculette)
Exemple 11 (choix d’enseignement selon le genre). 140 étudiant.e.s de genre X = {F, M}

ont choisi l’un des quatre enseignements à option Y = {A, B, C, D}. Les effectifs croisés, les
proportions correspondantes et leurs marges sont :
X/Y A B C D
F 31 6 7 4 48
M 37 15 16 24 92
68 21 23 28 140
X/Y A B C D
F 0.22 0.04 0.05 0.03 0.34
M 0.26 0.11 0.11 0.17 0.66
0.49 0.15 0.16 0.20 1
TABLE 3.5 – Gauche : effectifs croisés njk . Droite : proportions correspondantes fjk = njk /n●● .
Les effectifs attendus, ainsi que les quotients d’indépendance, sont donnés par :
X/Y A B C D X/Y A B C D
F 23.31 7.2 7.89 9.6 48 F 0.75 1.20 1.13 2.40 1
M 44.69 13.8 15.11 18.4 92 M 1.21 0.92 0.94 0.77 1
68 21 23 28 140 1 1 1 1 1
TABLE 3.6 – Gauche : effectifs théoriques ou attendus nth
jk . Droite : quotients d’indépendance qjk =
njk /nth
jk , avec leurs moyennes pondérées en marge.
La sur-représentation la plus importante est celle des étudiantes dans le cours D (qF,D =
2.40). La sous-représentation la plus importante est celle des étudiantes dans le cours A
(qF,A = 0.75).
La valeur du chi2 s’obtient comme :
(31 − 23.31)2 (6 − 7.2)2 (7 − 7.89)2 (4 − 9.6)2 (37 − 44.69)2
chi2 = + + + + +
23.31 7.2 7.89 9.6 44.69
(15 − 13.8)2 (16 − 15.11)2 (24 − 18.4)2
+ + + = 9.28 .
13.8 15.11 18.4
3 Liaison entre deux variables numériques : covariance et corrélation

3.1 Le coefficient de corrélation
Il s’agit ici de donner une mesure de la dépendance entre deux variables quantitatives.
Exemple 12 (Notes de maths et de physique). Considérons l’échantillon suivant, donnant

x = "note de mathématiques" et y = "note de physique" pour n = 10 individus :
individu 1 2 3 4 5 6 7 8 9 10
x = note de mathématiques 5.5 5.0 4.5 1.5 6.0 4.5 3.0 3.5 5.0 4.0
y = note de physique 5.5 3.5 4.0 3.0 6.0 5.0 2.0 2.5 5.0 5.5
Il apparaı̂t clairement sur le diagramme de dispersion (figure 3.1), qu’il existe une liaison
entre x et y : le score yi d’un individu i est, en moyenne, d’autant plus élevé que son score
xi est plus élevé, et vice-versa.
48
6
5
5
y
note de physique ⎛x⎞
note de physique
⎜ ⎟
4 ⎝y⎠
4
3
3
2
2
1
1
1 2 3 4 5 6 1 2 3 4 5 6
note de maths note de maths x
F IGURE 3.1 – Gauche : notes de mathématiques et de physique de n = 10 individus. Droite : mêmes

données, sur lesquelles la droite de régression (section 3.2) a été rajoutée en traitillé. En particulier,
cette dernière passe par les moyennes x̄ = 4.25 et ȳ = 4.2 .
Une mesure de la force de cette liaison est donnée par la covariance empirique entre x et
x, définie comme la moyenne du produit des écarts à la moyenne (selon x et y respective-
ment) 4 :
1 n
cov(x, y) ∶= ∑(xi − x̄)(yi − ȳ) (3.12)
n i=1
L’usage de la covariance comme mesure du lien entre deux variables quantitatives souffre
cependant d’un défaut : comme cov(ax, by) = ab cov(x, y), la covariance dépend du sytème
d’unités choisies : par exemple, la covariance entre "^ age" et "revenu" (quelle qu’elle soit)
deviendrait 12 fois plus grande si l’âge était mesuré en mois plutôt qu’en années, et chan-
gerait de façon analogue en changeant de monnaie. Pour palier à ce défaut, on divise le
résultat obtenu par le produit des écarts-types sx sy , ce qui revient à définir un nouveau
coefficient, le coefficient de corrélation, noté corr(x, y) ou rxy :
cov(x, y) cov(x, y)
corr(x, y) = rxy = =√
sx sy var(x)var(y)
(3.13)
∑i=1 (xi − x̄)(yi − ȳ)
1 n
∑i=1 (xi − x̄)(yi − ȳ)
n
=√ n
=√
∑i=1 (xi − x̄)2 ∑i=1 (yi − ȳ)2
n n
∑i=1 (xi − x̄)2 n1 ∑i=1 (yi − ȳ)2
1 n n
n
Par construction, corr(ax, by) = corr(x, y) : la corrélation entre deux variables ne dépend
pas des unités choisises. Plus généralement, corr(ax + c, by + d) = corr(x, y) : la corrélation
est invariante par translation et dilatation ; on peut s’en convaincre en réalisant que la
corrélation entre deux variables est la covariance entre les deux variables standardisées :
corr(x, y) = cov(xs , y s )
De plus, il est possible de démontrer que la valeur maximale du coefficient de corrélation

est de +1, et ceci ssi les tous les scores sont liés une relation linéaire de la forme yi = axi + b,
où a > 0 et b sont deux paramètres réels.
De façon analogue, la valeur minimale que peut atteindre le coefficient de corrélation est
de −1, et ceci ssi yi = axi + b, avec a < 0 (qui rend la relation décroissante) et b quelconque.
4. Pour mieux apréhender (3.12), supposons que x et y soient positivement liés. Un individu i dont le score
xi serait supérieur à la moyenne x̄ tendrait alors à posséder également un score y supérieur à la moyenne ȳ,
de sorte que (xi − x̄)(yi − ȳ) ≥ 0. Inversement, on s’attend à ce que yi − ȳ ≤ 0 si xi − x̄ ≤ 0, de sorte que
(xj − x̄)(yj − ȳ) ≥ 0 aussi. La covariance cov(x, y) tendra donc a être positive s’il existe une liaison positive
(relation croissante entre x et y), et négative dans le cas d’une liaison négative.
49
12
12
10
10
8
8
6
6
y
y
4
4
2
2
0
0
-2
-2
-2 -1 0 1 2 0 1 2 3 4 5 6
x x2
F IGURE 3.2 – Gauche : relation non-linéaire entre x et y, avec droite de régression en traitillé : la
relation est très marquée, mais le coefficient de corrélation, très petit (corr(x, y) = −0.032), est inca-
pable de la saisir. Droite : la relation entre y et x2 (au lieu de x) est par contre approximativement
linéaire, avec une très forte corrélation (corr(x2 , y) = 0.95)
Si x et y sont empiriquement indépendants au sens de (3.1), alors corr(x, y) = 0, mais

l’implication réciproque est en général fausse : x et y peuvent entretenir une forte rela-
tion non-linéaire (figure 3.2, gauche), auquel cas l’usage du coefficient de corrélation, qui
mesure la force de la relation linéaire entre x et y, est inadapté.
En résumé :
x et y non liés Ô⇒ corr(x, y) = 0 et corr(x, y) = ±1 Ô⇒ y = ax + b
alors que, pour des variables catégorielles x et y, on a :
x et y non liés ⇐⇒ chi2 = 0
Notations : cov(x, y) est souvent noté comme sxy . Ainsi, sxx = cov(x, x) = var(x) = s2x .
corr(x, y) est souvent noté comme rxy ou simplement r.
3.2 La droite de régression

L’allure générale d’un diagramme de dispersion associé à deux variables x et y suggère
souvent une relation numérique approximative entre x et y, qui pourrait être formalisée
par
yi = f (xi ) + ei . (3.14)
² ®
partie aléatoire
partie déterministe
ou tendance ou bruit
ou résidu
Dans (3.14), f (x) est une fonction donnant l’allure générale (si elle existe) du nuage
de points, et le second terme ou résidu, purement aléatoire, rend compte de la présence
de déviations “inexpliquées” (en l’état) par rapport à cette tendance générale. L’idée est
que, si l’on collectait les valeurs d’un échantillon (x̃, ỹ) distinct de (x, y), mais également
représentatif d’une même Population 5 , alors on aurait
ỹi = f (x̃i ) + ẽi (3.15)
5. par exemple : (x, y) est la taille et le poids des élèves d’une classe de gymnase, et (x̃, ỹ) est la taille et le
poids des élèves d’une classe parallèle
50
où la tendance f () serait la même que celle dans (3.14), mais les résidus ẽi seraient com-
plètement différents des résidus ei de (3.14) et sans liaison aucune avec ces derniers.
La forme la plus simple d’une relation entre x et y est donnée par la relation linéaire
f (x) = ax + b, i.e.
yi = axi + b + ei = yi∗ + ei (3.16)
´¹¹ ¹ ¹ ¸¹ ¹ ¹ ¹¶ ®
tendance résidu
ou valeur prédite yi∗
Dans (3.16), yi représente les valeurs observées, tandis que yi∗ = axi + b représente les va-
leurs prédites. Dans l’idéal, on aimerait que les valeurs prédites correspondent aux valeurs
observées, i.e. que l’on puisse déterminer une droite y = ax + b dont la pente a (slope) et
l’ordonnée à l’origine b (intercept) passe par tous les points du diagramme de dispersion.
En général, ce n’est évidemment pas possible : le nuage de points n’est pas strictement
aligné, et l’on demande alors à ce que la magnitude des résidus ei = yi − yi∗ soit, en
moyenne, aussi petite que possible. On déterminera ainsi les paramètres ajustables a et b
de façon à ce que la quantité
n n
h(a, b) ∶= ∑ e2i = ∑(yi − axi − b)2 (3.17)
i=1 i=1
soit soit minimum : c’est le critère dit des moindres carrés (least squares) 6 .
La minimisation de (3.17) fournit une solution unique (a, b), dont on peut montrer qu’elle
est donnée par
sxy sy
a= 2 =r b = ȳ − a x̄ (3.18)
sx sx
On peut également montrer (sans démonstration) que :
(i) La droite de régression y ∗ = ax + b passe par les moyennes (x̄, ȳ) (figure 3.1 droite)
(ii) La moyenne empirique des résidus est nulle : ē = 0
(iii) En écrivant yi − ȳ = (yi − yi∗ ) + (yi∗ − ȳ) = ei + (yi∗ − ȳ), la variance empirique var(y)
(dite aussi variance totale dans ce contexte) peut être exactement décomposée en
deux composantes, la variance expliquée et la variance résiduelle :
1 n 1 n 1 n
var(y) = ∑(yi − ȳ)2 = ∑(yi∗ − ȳ)2 + ∑(yi − yi∗ )2 =
´¹¹ ¹ ¹ ¸ ¹ ¹ ¹ ¶ n i=1 n i=1 n i=1
variance totale
(3.19)
= var(y ∗ ) + var(e) .
´¹¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹¶ ´¹¹ ¹ ¹ ¸¹ ¹ ¹ ¶
variance expliquée variance résiduelle
La variance expliquée var(y ∗ ) tire son nom du fait que la variabilité de x entraı̂ne
celle de y ∗ , au vu de la relation y ∗ = ax + b. La variance résiduelle var(e) s’in-
terprète comme la partie de la variance empirique des y qui n’est pas expliquée par
la régression de y sur x : si la variance résiduelle var(e) était nulle, tous les résidus
ei seraient égaux à leur moyenne ē, qui est toujours nulle comme on l’a vu plus
haut. Autrement dit (cf. section 3.1) :
var(e) = 0 ⇐⇒ yi = a xi + b ⇐⇒ r = ±1 ⇐⇒ ajustement parfait (3.20)
(iv) La relation var(e) = (1 − r2 ) var(y), toujours vraie, montre également que les
résidus sont nuls lorsque r = 1 ou r = −1 (ajustement parfait), et que
var(y) − var(e) var(y ∗ ) variance expliquée

r2 = = =
var(y) var(y) variance totale
6. le critère alternatif dit de déviation absolue minimale (least absolute deviation), consistant à déterminer a
et b de façon à minimiser ∑n i=1 ∣ei ∣, est également naturel, et possède de meilleures propriétés de robustesse des
estimations. Son traitement mathématique est cependant bien plus difficile que celui des moindres carrés.
51
Ainsi, le carré de la corrélation, r2 , également appelé coefficient de détermination,

mesure la proportion de variance (de l’une des deux variables) expliquée par la
régression (sur l’autre variable).
(v) Si l’on standardise les deux variables, et considère la régression de yis = (yi − ȳ)/sy
sur xsi = (xi − x̄)/sx , on aboutit à la forme très simple
∗
yis = r xsi (3.21)
Comme ∣r∣ ≤ 1, (3.21) montre que les scores standardisés prédits yis ∗ sont, en valeur
absolue, plus petits que les scores standardisés du prédicteur xsi : cela implique que
les scores bruts prédits yi∗ sont (relativement à l’écart-type sy ) plus proches de la
moyenne (ȳ) que ne le sont les scores bruts du prédicteur xi (relativement à l’écart-
type sx , et par rapport à la moyenne x̄) : c’est cette propriété, toujours vraie, qui a
conduit Francis Galton en 1886 à caractériser par le nom de régression la méthode
de prédiction par une relation linéaire étudiée ici.
L’exemple de Galton portait sur la relation entre x = "taille moyenne des deux
parents" et y = "taille des enfants" sur un échantillon de n = 928 individus
pour laquelle une corrélation d’environ r = 0.5 (plus précisément r = 0.46) avait
été observée 7 . Si la taille (moyenne) des parents était de deux écarts-types au
dessus de la moyenne (i.e. xs = 2), alors on s’attendrait que leurs enfants soient
aussi plus grands que la moyenne, mais seulement avec y s ∗ = 0.5 × 2 = 1 écart-type
au dessus de la moyenne. Inversement, si la taille d’un enfant était de un écart-
type au-dessus de la moyenne (i.e. y s = 1), alors on on s’attendrait, en inversant
le rôle de x et de y, à ce que la taille moyenne de ses parents soit seulement de
x∗ = r y s = 0.5 × 1 = 0.5 écart-type au dessus de la moyenne : comme r > 0, la taille
des enfants issus de parents plus grands que la moyenne tend à être également
plus grande (et vice-versa), mais (comme r < 1) dans une moindre mesure : d’où le
phénomène de régression vers la moyenne.
(vi) Les quantités cov(x, y) et corr(x, y) restent inchangées lorsque l’on échange x et
y. Cela étant la droite de régression x∗ = Ay + B n’est pas la même que la droite de
régression y ∗ = ax + b : c’est x qui est prédit en fonction de y dans le premier cas,
alors que c’est l’inverse dans le second cas. En inversant les rôles de x et y dans
(3.18), on obtient
sxy sx
A= 2
=r B = x̄ − A ȳ
sy sy
Les deux droites de régression se croisent en (x̄, ȳ) avec un angle θ d’autant plus
grand que r est petit 8 (figure 3.3 droite). En particulier, θ = 0 ssi r2 = 1 (ajustement
parfait) et θ = 90○ ssi r = 0 (aucune liaison entre x et y).
Exemple 13 (Notes de maths et de physique (suite)). En retournant à l’exemple avec
x=note de mathématiques et y="note de physique" de la figure 3.1, on trouve que
x̄ = 4.25, ȳ = 4.2, cov(x, y) = xy − x̄ȳ = 19.05 − 17.85 = 1.2, √var(x) = s2x = 1.5625,
var(y) = s2y = 1.76, et donc r = corr(x, y) = cov(x, y)/(sx sy ) = 1.2/ 1.5625 × 1.76 = 0.724 :
la positivité de ce dernier reflète la tendance croissante du nuage de points de la figure
3.1.
On tire également de (3.18) que a = 0.768 et b = 0.936. Si un onzième et nouvel élève ayant
x11 = 6 de mathématiques arrivait en classe, la prédiction linéaire de sa note de physique
∗
(supposée inconnue) serait de y11 = 0.768 × 6 + 0.936 = 5.544.
7. Galton, F. (1886) Regression Towards Mediocrity in Hereditary Stature, The Journal of the Anthropological
Institute of Great Britain and Ireland, vol. 15, pp. 246–263
sx sy 1−r 2
8. la comparaison des deux pentes permet d’établir que tan θ = s2 2
x +sy ∣r∣
52
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio
6
6
5
quatrième épreuve
deuxième épreuve
5
4
4
3
3
2
3.0 3.5 4.0 4.5 5.0 5.5 6.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
première épreuve troisième épreuve
F IGURE 3.3 – Diagrammes de dispersion et, en traitillé (dashed), droites de régression linéaire de
la seconde épreuve en fonction de la première (gauche ; r = 0.49), et de la quatrième épreuve en
fonction de la troisième (droite ; r = 0.52 ; on y a rajouté en pointillé (dotted) la droite de régression
x∗ = Ay + B prédisant cette fois la troisième épreuve en fonction de la quatrième. L’intersection des
deux droites a lieu sur le point des valeurs moyennes (x̄, ȳ) avec un angle θ).
Enfin, r2 = 0.52 : la note de mathématiques explique 52% de la variabilité de la note de

physique (et vice-versa), ce qui revient à dire que 48% de la variabilité de la note de phy-
sique n’est pas liée à celle de mathématiques. Une partie de ces 48% peut éventuellement
être expliquée (ou non) par d’autres variables (âge, motivation, aptitude, milieu socio-
économique, etc. ) mais, faute de données additionnelles disponibles, on ne peut rien en
dire de plus ici.
Exemple 14 (Epreuves). Les notes des quatre épreuves de méthodes quantitatives obte-
nues par les n = 215 étudiant.e.s de l’année 2012-2013 peuvent être corrélés, et donner
lieu à diverses régressions linéaires, dont celles de la figure 3.3.
2
Il se trouve que r12 = 0.492 = 24% de la variabilité de la seconde épreuve est “exprimée”
ou “expliquée” par la première, et vice-versa – et donc que 76% de la variance d’une des
2
deux variables n’est pas expliquée par l’autre variable. De même, r34 = 0.522 = 27% de la
variance de la quatrième épreuve est “expliquée” par la variance de la troisième épreuve,
et vice-versa.
Les deux droites de la figure 3.3 de droite sont la droite de régression de la quatrième
épreuve en fonction de la troisième épreuve (en traitillé), respectivement celle de la
troisième épreuve en fonction de la quatrième épreuve (en pointillé). Leur intersection
a lieu au point moyen (x̄, ȳ) = (4.33, 4.54) sous un angle θ, qui se trouve être de 34.9○ , et
dont la non-nullité reflète l’imperfection de l’ajustement linéaire (r2 < 1).
4 Liaison entre une variable numérique et une variable catégorielle : le F-ratio

Il reste à étudier le cas de la dépendance entre une variable quantitative x et une va-
riable catégorielle y à m modalités. Chacune de ces j = 1, ..., m modalités définit un
groupe, constitué de tous les individus possédant la modalité j. D’autre part, ces individus
possèdent des scores xi quantitatifs, qui diffèrent généralement d’un individu à l’autre.
Deux cas peuvent alors se présenter :
1. les scores individuels xi tendent à être plus proches des scores des individus du
même groupe que des scores des individus d’un autre groupe (cas de groupes ho-
mogènes relativement à x). Les modalités de la variable y influencent alors la dis-
tribution des valeurs de x, ce qui revient à dire que x et y sont liées (figure 3.4,
haut).
53
2. la distribution des scores individuels xi , et en particulier leur proximité relative, n’est

pas influencée par le groupe j auquel appartient l’individu : x et y ne sont alors pas
liées (figure 3.4, bas).
F IGURE 3.4 – groupes bien et mal séparés relativement aux scores de x
Dans le cas de la corrélation, on a vu en (3.19) comment la variance pouvait se décomposer

en variance expliquée et résiduelle. Ici, la maı̂trise du problème passe également par une
décomposition de la variance 9 consistant à comparer les fluctuations de x à l’intérieur des
groupes et entre les groupes.
Considérons pour cela un échantillon de taille n, composé de m groupes j = 1, ..., m (cor-
respondant chacun à une modalité de y). Soit nj ≥ 1 l’effectif du groupe j. Naturellement,
∑j=1 nj = n. La moyenne et la variance totales, à savoir dans tout l’échantillon, sans tenir
m
compte de sa partition en groupes, sont données par les formules habituelles :

1 n 1 n
x̄ = ∑ xi s2 ≡ var(x) = ∑(xi − x̄)
2
(3.22)
n i=1 n i=1
Le même calcul peut être effectué à l’intérieur de chacun des groupes : la moyenne et la
variance dans le groupe j sont :
1 nj 1 nj
x̄j ∶= ∑ xi s2j ≡ varj (x) ∶= ∑(xi − x̄j )
2
(3.23)
nj i=1 nj i=1
où les sommations ne portent plus que sur les nj individus du groupe j (quitte à re-
numéroter les individus de i = 1 à i = nj pour chaque groupe). La décomposition annoncée
est réalisée par l’identité suivante, toujours vraie :
var(x) = varB (x) + varW (x) (3.24)
où varB (x), appelée variance intergroupe (between) mesure la variance des moyennes
des groupes x̄j autour de la moyenne totale x̄, et varW (x), appelée variance intragroupe
(within) mesure la moyenne des variances s2j = varj (x) à l’intérieur de chaque groupe.
Les moyennes dont il est état ici sont des moyennes pondérées par l’effectif relatif nj /n de
chaque groupe :
1 m 1 m
varB (x) ∶= ∑ nj (x̄j − x̄)
2
varW (x) ∶= ∑ nj varj (x) (3.25)
n j=1 n j=1
Considérons le cas de groupes absolument homogènes, tels que tous les scores xi soient
identiques à l’intérieur du même groupe. Dans ce cas, s2j = 0 et donc varW (x) = 0 : la
variance totale s’exprime entièrement par varB (x).
Inversement, supposons que les groupes aient tous même distribution, et qu’en particulier
leurs moyennes x̄j coı̈ncident (et coı̈ncident donc avec la moyenne totale x̄). Dans ce cas,
varB (x) = 0, et la variance totale s’exprime entièrement par varW (x). Dans le premier cas,
les groupes sont tout-à-fait séparés (et le lien entre x et y est maximal), tandis que dans
le second, les groupes sont confondus (et le lien entre x et y est nul).
9. C’est précisément ce type de propriété qui rend la variance si commode à manipuler, et par là unique
parmi tous les indicateurs possibles de dispersion que l’on pourrait facilement imaginer et construire.
54
La figure 3.4 exhibe deux situations intermédiaires, mais bien marquées cependant : les
groupes sont bien séparés dans la répartition du haut, avec un rapport varB (x)/varW (x)
grand.
Dans la répartition du bas, les groupes sont mal séparés, avec un rapport varB (x)/varW (x)
petit ; notons que, pour une fois, perception visuelle et indicateurs numériques s’accordent
assez bien : lorsque le rapport varB (x)/varW (x) est grand (petit), les groupes sont bien
(mal) séparés visuellement.
Le rapport varB (x)/varW (x) constitue donc une mesure adéquate du lien entre la variable
quantitative x et la variable catégorielle y, possédant également la propriété nécessaire de
ne pas dépendre du système d’unités choisi pour x. On lui préfère cependant (à des fins
de tests d’hypothèses qui seront abordés plus loin) le rapport F ou F -ratio défini par 10 :
varB (x)
F ∶= var
m−1
(3.26)
W (x)
n−m
L’indice F est non négatif. Sa valeur minimale de 0 est atteinte ssi varB (x) = 0, i.e. ssi les
moyennes des groupes x̄1 , ..., x̄m coı̈ncident (et donc coı̈ncident avec la moyenne totale
x̄) : dans ce cas, les groupes sont indistinguables les uns des autres.
Inversement, la valeur maximale de F vaut +∞, ce qui est le cas ssi varW (x) = 0, i.e.
ssi tous les scores de chaque groupe coı̈ncident (et coı̈ncident donc avec la moyenne du
groupe) : dans ce cas, les groupes sont complètement homogènes, et donc maximalement
distinguables les uns des autres. En termes de liaison entre variables, on a donc, à l’instar
du chi2 :
x et y non liés ⇐⇒ F = 0
Exemple 15 (Course à la publication).

En 2018, dix chercheuses de trois instituts universitaires a, b et c, toutes spécialistes du
partitionnement probabiliste de réseaux pondérés (soft clustering of weighted networks),
se lancent un défi (discutable), à savoir celui de publier pendant une année donnée le
maximum d’articles scientifiques dans des revues à comité de lecture anonyme. La table
3.7 donne le nombre (fictif) d’articles acceptés, par chercheuse et par institut.
institut a a a b b b c c c c
production individuelle 4 5 6 5 5 5 2 2 4 4
TABLE 3.7 – nombre de publications x de n = 10 chercheuses, selon leur institut y
Les nombres moyens d’articles publiés, au total et par institut, sont
1 1
x̄ = (4 + 5 + . . . + 4) = 4.2 x̄a = (4 + 5 + 6) = 5 x̄b = 5 x̄c = 3
10 2
La variance totale vaut
1 2
s2 = var(x) = (4 + 52 + 62 + 52 + 52 + 52 + 22 + 22 + 42 + 42 ) − 4.22 = 1.56
10
SSB )/( SSW ) = MSB , où
10. on trouve aussi, dans les sorties logicielles traditionnelles, la disposition F = ( m−1 n−m MSW
les sommes des carrés (SS = Sum of Squares) inter (SSB) et intra (SSW) représentent simplement les variances
correspondantes, mais non divisées par n, à savoir SSB = n varB (x) et SSW = n varW (x). Les quantités MSB ∶=
SSB/(m − 1), respectivement MSW ∶= SSW/(n − m), sont les carrés moyens inter, respectivement intra (MS =
Mean Squares).
55
et les variances de chaque groupe sont

1 2
s2a = vara (x) = ((4 − 5)2 + (5 − 5)2 + (6 − 5)2 ) =
3 3
1
sb = varb (x) = ((5 − 5) + (5 − 5) + (5 − 5) ) = 0
2 2 2 2
3
1
sc = varc (x) = ((2 − 3)2 + (2 − 3)2 + (4 − 3)2 + (4 − 3)2 ) = 1
2
4
La variance intragroupe (3.25) vaut ainsi
3 2 3 4
varW (x) = + 0 + 1 = 0.6
10 3 10 10
tandis que la variance intergroupe (3.25) vaut
3 3 4
varB (x) = (5 − 4.2)2 + (5 − 4.2)2 + (3 − 4.2)2 = 0.96 .
10 10 10
On vérifie que
varB (x) + varW (x) = 0.96 + 0.6 = 1.56 = var(x)
comme il se doit (équation 3.24). Le F -ratio (3.26) s’obtient finalement comme
0.96
F= 3−1
0.6
= 5.6
10−3
Est-ce grand ? petit ? Malheureusement, le F -ratio, à l’instar du chi2, ne possède pas d’in-
terprétation directe ; il faudra attendre la théorie des tests d’hypothèses, exposée plus loin,
pour apprécier pleinement l’utilité de l’indice F . Par contre, la quantité 11
varB (x) varB (x)

η 2 ∶= = (3.27)
var(x) varB (x) + varW (x)
représente la proportion de variance (de x, quantitatif) “expliquée” (par y, catégoriel, i.e.

par l’appartenance aux groupes) ; il vaut ici 0.96/1.56 = 62%.
Cette quantité, également désignée sous le nom de (carré du) rapport de corrélation ou de
2
coefficient eta-carré, est complètement analogue au coefficient de détermination rxy , lequel
mesure, comme on l’a vu, la proportion de variance de y “expliquée” ou “exprimée” par la
régression linéaire de y (quantitatif) sur x (quantitatif, également), ou inversement 12 .
Exemple 16 (Températures moyennes dans différentes villes de Suisse).

Les températures annuelles moyennes (en degrés Celsius) dans différentes villes de Suisse
en 1990 ont été de
● Suisse Romande : Genève : 11.0 ; Lausanne : 11.2 ; Sion : 10.2 ; Neuchâtel : 11.0
● Suisse Alémanique : Berne : 9.4 ; Bâle : 10.9 ; Zurich : 9.9 ; Saint-Gall : 8.8 ; Lu-
cerne : 10.0 ; Coire : 9.9
● Suisse Italienne (Tessin) : Lugano : 12.6 ; Locarno : 11.6.
Les m = 3 groupes sont ici les modalités de la variable catégorielle y =“région linguis-
tique”, et la variable quantitative est x = “température annuelle moyenne”. Les effectifs
régionaux sont de n1 = 4, n2 = 6 et n3 = 2, et l’effectif total est n = 12.
Les moyennes régionales sont x̄1 = 14 (11.0 + 11.2 + 10.2 + 11.0) = 10.85, x̄2 = 9.8 et x̄3 = 12.1.
Les variances régionales sont de s21 = 14 (11.02 +11.22 +10.22 +11.02 )−10.852 = 0.15, s22 = 0.41
var (x)
11. reliée au F par la relation η 2 = varB(x) = F + Fn−m
m−1
12. (*) dans le cas de deux variables catégorielles x et y, on peut montrer que la quantité analogue à η 2 ou r2
est donnée par la quantité √ chi2 , bornée supérieurement par la quantité V2 = n min(mchi2
n (m1 −1)(m2 −1) 1−1,m −1)
2
qui est le carré du V de Cramer (3.11)
56
et s32 = 0.25. La moyenne totale est de x̄ = 12

1
(4 × 10.85 + 6 × 9.8 + 2 × 12.1) = 10.54, ce que
l’on aurait pu aussi déterminer en faisant la moyenne simple des 12 observations.
La variance intergroupe vaut varB (x) = 121
(4×(10.85−10.54)2 +6×0.41+2×(12.1−10.54)2 ) =
0.70, et la variance intragroupe varW (x) = 12
1
(4 × 0.15 + 6 × (9.8 − 10.54)2 + 2 × 0.25) = 0.29.
La variance totale est alors de var(x) = 0.70 + 0.29 = 0.99, ce que l’on aurait aussi pu
déterminer par un calcul direct sur les 12 observations.
Enfin, le F -ratio vaut F = 0.70/(3−1)

0.29/(12−3)
= 10.73 et le rapport de corrélation η 2 = 0.70
0.99
= 70.7%.
age × statut).
Exemple 17 (Questionnaire “Chamberonne” (suite) : ^
La table ci-dessous donne les âges moyens, ainsi que
leur dispersion, des n = 1365 répondants du question-
80
naire “Chamberonne”, selon les m = 6 statuts
70
statut effectif nj moyenne x̄j variance s2j écart-type sj
60
Etu 728 23.0 22.9 4.8
ProfMer 135 51.5 99.2 10.0
50
age
PostDoc 54 37.5 39.6 6.3
Ass 157 29.7 18.5 4.3
PAT 316 42.4 101.6 10.1
40
Autre 45 43.0 215.9 14.7
total 1365 31.8 159.9 12.6
30
Aussi,
20
106.4
varB (x) = 106.4, varW (x) = 53.6 et F = 6−1
53.6 = 539.6. Etu ProfMer PostDoc Ass PAT Autre
1365−6
statut
4.1 Cas limite

S’il n’y a qu’un seul groupe (m = 1), la notion de liaison entre y = “groupe” et x ne fait pas
sens. Dans ce cas, la variance intergroupe varB (x) est nulle, et le F-ratio (3.26) devient
0
F = var 0 (x) = indéterminé (3.28)
W
n−m
comme il se doit.
A l’inverse, si chaque groupe ne contient qu’une seule observation (n = m), il n’est pas
possible non plus d’évaluer la force de la liaison entre y et x : dans ce cas, la variance
intragroupe varW (x) est nulle, et le F-ratio (3.26) devient
varB (x)
F= m−1
0
= indéterminé (3.29)
0
comme il se doit également.

(3.28) et (3.29) expriment qu’à une “question absurde” correspond une “non-réponse” –
la seule réponse raisonnable, en l’occurence.
En méthodes quantitatives et de façon générale, quantité d’indices ont été proposés (et
continuent à l’être) pour mesurer toutes sortes de choses (la variété, l’inégalité, l’accord,
l’homogénéité, la similarité, etc.). Ces indices sont le plus souvent très inégaux dans la qua-
lité de leur conception et leur utilité pour l’interprétation. Il n’est pas facile de construire
un indice jouissant de nombreuses “bonnes propriétés souhaitables”, et, souvent, un indice
satisfaisant à toutes les propriétés souhaitées n’existe pas.
Confronter des indices proposés à des cas limite (comme on vient de le faire avec le F-
ratio) et observer s’ils se comportent alors correctement ou non est un moyen très efficace
de faire un premier tri (le plus souvent drastique) entre ces candidats.
57
5. Le cas des variables bimodales (*)
5 Le cas des variables bimodales (*)

On a vu aux chapitre “Données” que toute variable catégorielle bimodale pouvait être
codée en “1/0”, où 1 est à interpréter comme la présence d’un certain événement ou pro-
priété A, et 0 comme son absence ; la variable numérique x codée en présence-absence
comme
⎧
⎪
⎪1 si i ∈ A
xi = I(i ∈ A) = ⎨
⎪
⎪0 sinon
⎩
est appelée variable indicatrice (ou “dummy variable”). Par construction, f ∶= x̄ donne la
proportion d’individus possédant la propriété A dans l’échantillon, laquelle détermine ici
la variance comme var(x) = f (1 − f ).
Soit B un autre événement dont la variable indicatrice associée est y (i.e. yi = I(i ∈ B)).
Le nombre d’individus nxy associé aux quatre valeurs possibles (1, 1), (1, 0), (0, 1) et (0, 0)
de (x, y) définit la table de contingence 3.8.
y
y = 1 (B) y = 0 (B c )
x x = 1 (A) n11 n10
x = 0 (Ac ) n01 n00
TABLE 3.8 – Table de contingence associée à deux variable bimodales x et y
Comme les variables indicatrices sont numériques, on peut calculer leur covariance cov(x, y) =
xy − x̄ȳ = n11 /n − (n11 + n10 )(n11 + n01 )/n2 , où n = n11 + n10 + n01 + n00 est la taille de
l’échantillon. Procédant de même, on obtient après simplification
n11 n00 − n10 n01
r = corr(z, w) = √ (3.30)
(n11 + n10 )(n01 + n00 )(n11 + n01 )(n10 + n00 )
Cette expression , ne dépend pas (au signe près) du codage utilisé pour x et y, en vertu
de la propriété d’invariance d’échelle de la corrélation corr(ax + b, cy + d) = ± corr(x, y).
Revenant à la nature catégorielle des variables x et y, le calcul du chi2 (d’indépendance)
sur la table de contingence 3.8 aboutit à l’expression très simple
chi2 = n r2 (3.31)
qui démontre la parenté entre le chi2 et le r2 . Enfin, en considérant x comme numérique

et y comme catégoriel à deux modalités (ou l’inverse), le F résultant serait de
r2
F = (n − 1) . (3.32)
1 − r2
5.1 Le coefficient d’association Q (*)

Dans le cas de deux variables bimodales, on peut également rencontrer le coefficient d’as-
sociation Q (“Q de Yule”) défini à partir des effectifs de la table 3.8 comme
n11 n00 − n10 n01
Q ∶= (3.33)
n11 n00 + n10 n01
qui obéit à −1 ≤ Q ≤ 1, avec
● Q = +1 ssi n10 = 0 ou n01 = 0 (i.e. ssi B ⊂ A ou A ⊂ B)
● Q = −1 ssi n11 = 0 ou n00 = 0 (i.e. ssi A ∩ B = ∅ ou c ∩ B c = ∅ )
● Q = 0 ssi chi2 = 0 (i.e. ssi r = 0 dans (3.31) ou encore ssi F = 0 dans (3.32)).
Exemple 18 (Association entre deux textes).
On a comparé 13 les occurrences d’une liste de 2246 substantifs (extraits de l’oeuvre
13. G.U.Yule (1944) The Statistical Study of Literary Vocabulary, Cambridge University Press
58
6. Variables liées et prédiction : l’apprentissage automatique (machine learning)(*)
partie II
présent absent total
présent 544 461 1005
partie I absent 476 765 1241
total 1024 1226 2246
TABLE 3.9 – Co-occurrences de substantifs dans les deux parties de ”Pilgrim’s Progress” de John
Bunyan
complète de John Bunyan) dans deux parties d’une oeuvre de John Bunyan,“Pilgrim’s
Progress”, parties I (1678) et II (1684). Parmi ces substantifs, 544 sont apparus dans les
deux parties, 461 dans la partie 1 uniquement, etc... (table 3.9).
Le coefficient d’association vaut Q = (544 ⋅ 765 − 476 ⋅ 461)/(544 ⋅ 765 + 476 ⋅ 461) = 0.31 > 0,
indiquant un vocabulaire plus similaire entre les parties I et II de “Pilgrim’s Progress” qu’il
ne l’est entre deux parties choisies au hasard dans l’oeuvre complète de Bunyan (d’où
avait été extraite la liste des 2246 substantifs). Si la liste des substantifs retenus avait été
plus étendue (par exemple établie à partir de tout le vocabulaire littéraire de l’époque), la
valeur de l’indice d’association Q aurait été sensiblement plus grande, en toute probabilité.
6 Variables liées et prédiction : l’apprentissage automatique (machine learning)(*)

La régression linéaire de y sur x (section 3.2) permet de prédire des valeurs y ∗ = ax +
b à partir des valeurs de x, grâce au fait que y et x sont liés. Il s’agit là d’un principe
fondamental, dont la portée dépasse largement le cadre simple de régression linéaire :
si deux variables x et y sont liées, alors la connaissance de l’une améliore la prédiction de
l’autre.
L’application de ce principe, au coeur des méthodes de prédiction, requiert :
(1) d’observer n fois le phénomène bivarié (constitution de l’échantillon (x, y))
(2) d’en inférer une règle de prédiction, typiquement de la forme y ∗ = f (x)
(3) à partir de la valeur (numérique ou catégorielle) d’une nouvelle observation xi
(nouvelle = absente de l’échantillon observé, dit d’apprentissage), de prédire ou
d’estimer la valeur yi∗ = f (xi ) de yi (lequel est inobservé)
(4) au-delà de l’estimation (3) (dite ponctuelle) de la seule valeur yi∗ , estimer la fluc-
tuation des valeurs qui seront réellement observées (erreur attendue sur la prédic-
tion, intervalles de confiance, etc.), ou plus généralement proposer une estimation
probabiliste, donnant la probabilité conditionnelle P (yi ∣xi ) que yi prenne telle ou
telle valeur connaissant xi .
Il y a donc apprentissage automatique (machine learning) du motif (ou “pattern”) des
relations entre les variables, ouvrant la possibilité d’améliorer la prédiction (ponctuelle ou
probabiliste) de y dès que la valeur de x est connue.
Les principes justifiant l’inférence ponctuelle (3) peuvent être de nature purement heuris-
tiques, typiquement basées sur l’ajustement optimal (fit) tel qu’exprimé par le principe des
moindres carrés de la régression linéaire. Ils peuvent au contraire être dérivés de fonde-
ments théoriques, ainsi que le sont systématiquement les prédictions probabilistes (4), plus
sophistiquées, qui font recours à la modélisation, i.e. à des descriptions probabilistes du
monde – c’est l’objet du chapitre suivant.
59
4 Modèles
1 Introduction
Un modèle est une idée de la réalité, ou plutôt une formalisation de cette idée. Cette for-
malisation doit pouvoir être suffisamment souple pour accommoder des idées élaborées,
et en même temps suffisamment ferme et précise pour être confrontée avec la réalité,
justement.
Les modèles probabilistes répondent précisément à cette double exigence, et leur usage
s’est imposé de façon universelle, en sciences naturelles comme en sciences humaines et
sociales. Le formalisme associé, et son empreinte massive sur toute la recherche scien-
tifique, n’a pas, jusqu’à preuve du contraire, de concurrents sérieux. Cette suprématie,
de nature conceptuelle, résulte de son efficacité à servir les besoins de la science ; elle
ne découle pas d’un choix idéologique ou culturel imposé par un cénacle de personnes
influentes 1 .
Un modèle probabiliste dit que telle chose, tel état du monde, telle configuration, se pro-
duit avec telle probabilité. Lorsqu’une seule configuration est possible, le modèle est dit
déterministe. Sinon, le modèle exprime une tendance (trame, motif, pattern) coexistant
avec une composante purement aléatoire.
Des phénomènes très différents, tels la distribution des erreurs de lo-

calisation en astronomie, la taille des spécimens d’une espèce, la posi-
tion d’une particule dans un mouvement diffusif, sont bien modélisés
par une famille de modèles simples de même allure, en l’occurence
les modèles gaussiens. De même, les modèles binomiaux, de Poisson,
etc. peuvent décrire le nombre de personnes connues rencontrées
lors d’un événement, le nombre de glissements de terrains dans une
période et région donnée, le nombre de courriels quotidiens échangés
entre deux pays, etc.
Ces familles de modèles simples constituent des outils de base en
modélisation. Elles peuvent être combinées de diverses manières, de
façon à pouvoir exprimer des idées élaborées qui seraient parfois bien
difficiles à exprimer en langage naturel. Naturellement, les idées ou
intuitions de départ demandent à être formalisées ou opérationnalisées
pour pouvoir être traduites en modèles probabilistes – une condition
nécessaire pour pouvoir tester ces idées, et faire des prédictions. Urania, muse de l’astronomie
Quant au contenu des idées elles-mêmes, il peut être révolutionnaire, séduisant, généreux,
ou bien conventionnel, possiblement dérangeant voire déprimant pour la sensibilité du
chercheur – peu importe ici : ces considérations sont parfaitement étrangères aux pré-
occupations de la modélisation quantitative, pour laquelle seul compte ici l’adéquation (ou
non) des modèles aux données, dans une perspective résolument et purement scientifique.
1. On parle ici de l’efficacité épistémologique des modèles probabilistes, et non pas des conditions de leur
application concrète dans la vie des chercheurs (instituts universitaires, laboratoires, départements R&D, admi-
nistration publique, think-tanks...)
60
2. Variables aléatoires et distributions
2 Variables aléatoires et distributions

Un lancer de dé peut prendre 6 valeurs possibles, à savoir , ,
, , ou .
La taille d’un être humain adulte peut, si l’on en croit les livres de records, varier de 54
à 272 centimètres. La face d’un dé, la taille d’un humain sont des exemples de variable
aléatoire, notée en majuscule comme X, par contraste avec la notation minuscule des
scores x = {x1 , . . . , xn } (notés aussi simplement x) rencontrés dans un échantillon.
Une variable (aléatoire) X est continue lorsque ses valeurs possibles constituent un conti-
nuum, i.e. lorsqu’entre deux valeurs distinctes de X il existe toujours une valeur in-
termédiaire distincte des précédentes. Par exemple, la variable X ="taille en centi-
mètres" est continue 2 , de valeurs possibles [54, 272] ⊂ R.
Une variable (aléatoire) X est discrète lorsque ses valeurs possibles constituent un en-
semble dénombrable, lequel peut être fini ou infini. Par exemple, la variable X ="face du
dé" est discrète avec un ensemble fini de valeurs possibles, et la variable Y = "nombre
d’atomes d’hydrogène dans un multivers" est discrète avec un ensemble infini de va-
leurs possibles N = {0, 1, 2, . . .}.
On peut imaginer des variables qui seraient discrètes en endroits et continues en d’autres 3 ,
des continua qui ne seraient pas directement numériques 4 , ou des valeurs possibles de
variables correspondant à des objets composites et structurés 5 , mais il est (largement)
suffisant, pour les besoins pratiques en méthodes quantitatives, de se ramener aux cas
suivants :
⎧
⎪soit continue, auquel cas elle est numérique avec des valeurs possibles dans R
⎪
⎪
⎪ ⎧
⎪
la variable X est ⎨ ⎪elle est alors soit numérique (i.e. on peut en faire la moyenne)
⎪
⎪
⎪soit discrète, ⎨
⎪
⎩ ⎪
⎪soit catégorielle.
⎩
X= "nombre d’invités à son anniversaire" est un exemple de variable discrète nu-
mérique, prenant les valeurs possibles {0, 1, 2, 3, . . .} = N. Un exemple de variable discrète
catégorielle est X= "nationalité" (dans un groupe donné de personnes) prenant par
exemple les valeurs "suisse", "belge", "bulgare",..., "russe", que l’on peut toujours
numéroter par les entiers j = 1, 2, . . . , m de N.
2.1 Distribution de probabilité discrète

Dans le cas discret, la probabilité pj ∶= P (X = xj ) que la variable X prenne les valeurs
possibles xj , pour j = 1, 2, . . . , m, définit une distribution de probabilité discrète, telle que
m
pj ≥ 0 ∑ pj = 1 . (4.1)
j=1
Une distribution D discrète de probabilité est spécifiée en fixant les valeurs des probabilités
p1 , p2 ,...,pm (avec m fini ou infini) que la variable X prenne respectivement les valeurs
x1 , x2 ,...,xm . On dit que “X est distribuée selon D”, que l’on note simplement “X ∼ D”, où
D est déterminée par les valeurs (p, x) = (p1 , . . . , pm , x1 , . . . , xm ).
Les probabilités en jeu sont des nombres devant toujours satisfaire :
m
pj ≥ 0 ∑ pj = 1 (4.2)
j=1
2. ce qui suppose une précision infinie de la taille – une fiction commode, systématiquement utilisée pour les
variables continues
3. tels les niveaux d’énergie d’un électron selon qu’il est lié ou non à un noyau atomique
4. telles des sensations visuelles, auditive, olfactives
5. tel qu’un texte, un paysage, un réseau, un groupe mathématique...
61
0.20
densité de probabilité f(x)
0.15
0.10
0.05
a b c
0.00
-10 -5 0 5
F IGURE 4.1 – l’expression ∫ab f (x) dx représente un nombre, en l’occurrence la surface de la zone
c
en gris foncé. De même, ∫b f (x) dx est égal à la surface de la zone en gris clair. Ces nombres sont
les probabilités que X ∈ [a, b], respectivement X ∈ [b, c]. Par construction, ∫R f (x) dx = 1.
Par exemple (dé), p1 = 0.5, p2 = 0, p3 = 0.1 etc. définit un dé théorique où la face apparaı̂t
la moitié du temps, la face
jamais, la face une fois sur dix, etc.
Si la variable discrète X, distribuée selon D, est numérique, alors sa moyenne théorique ou
espérance vaut
m
E(X) ∶= ∑ pj xj . (4.3)
j=1
2.2 Distribution de probabilité continue

Le cas des distributions des variables continues est mathématiquement plus délicat : si
X est une variable aléatoire prenant des valeurs possibles sur le continuum R, ou une
partie de R, la distribution de probabilité continue D de X devra spécifier la valeur de
P (X ∈ [a, b]) pour tout intervalle [a, b]. De nouveau, on dira que X est distribué selon D,
noté X ∼ D.
Pour autant que cette distribution D soit suffisamment régulière 6 , cette dernière peut être
entièrement définie à l’aide d’une fonction non négative f (x), appelée densité de probabi-
lité, ayant la propriété
b
P (X ∈ [a, b]) = ∫ f (x) dx (4.4)
a
Le signe intégrale “∫ ” ne devrait pas inquiéter le lecteur plus que cela : toutes les intégrales
associées aux distributions courantes en statistique sont disponibles sous forme de tables,
ou plus directement dans un logiciel scientifique de base (librairies R, Matlab, Python,
etc...). La seule définition dont on aura besoin est la suivante :
b
Définition : la quantité ∫a f (x) dx (“intégrale de f (x) de a à b”) est la surface délimitée
par l’axe des x, le graphe de f (x) ≥ 0, et les droites x = a et x = b (figure 4.1).
6. ou encore dite absolument continue, ce que nous supposerons par la suite ; il n’y a alors pas lieu de dis-
tinguer entre les valeurs de P (X ∈ [a, b]) (intervalle fermé) et de P (X ∈ (a, b)) (intervalle ouvert), car la
probabilité que X prenne exactement la valeur X = a ou X = b est nulle ; plus généralement, la probabilité
P (X = a) de n’importe quelle valeur a est nulle si la distribution de X est régulière : par exemple, la probabilité
qu’une pomme d’une espèce donnée pèse entre 100 et 150 grammes est a priori non nulle, mais la probabilité
pour que cette dernière pèse exactement disons 152.000 . . . grammes (avec une précision infinie) est nulle. Toutes
les distributions continues abordées ici seront régulières, à l’exception de la distribution de Dirac (section 4.3),
concentrée en un point, justement.
62
La loi d’addition des aires sur la figure 4.1 correspond simplement à la loi d’addition des
probabilités d’événements disjoints :
b c c
P (X ∈ [a, b]) + P (X ∈ [b, c]) = ∫ f (x) dx + ∫ f (x) dx = ∫ f (x) dx = P (X ∈ [a, c])
a b a
(4.5)
Intuitivement, plus f (x) est élevé, plus grande est la probabilité que la variable X prenne
des valeurs proches de x. On peut obtenir f (x) comme la limite d’un histogramme de
résolution parfaite (i.e. infinie) d’un tirage aléatoire (section 5.5) de n valeurs distribuées
selon f (x) (figure 4.11).
Comme la valeur de X doit se trouver quelque part dans l’intervalle (−∞, ∞), on doit
avoir P (X ∈ (−∞, ∞)) = P (X ∈ R) = 1, et donc, en utilisant (4.4) :
+∞
f (x) ≥ 0 ∫ f (x) dx = 1 (4.6)
−∞
qui est à comparer avec (4.2) : on constate que le signe intégrale“∫ ” joue pour les distri-
butions continues le même rôle que le signe somme “∑” pour les distributions discrètes.
La moyenne théorique ou espérance d’une variable continue X ∼ D vaut
E(X) ∶= ∫ f (x) x dx (4.7)

R
2.3 Fonction de répartition et quantiles (variables aléatoires numériques)
Définition 7. On appelle fonction de répartition de la variable aléatoire X (numérique)

la fonction F définie par
F (x) = P (X ≤ x) (4.8)
Par construction, F (x) est une fonction non décroissante , avec limx→−∞ F (x) = 0,
et limx→∞ F (x) = 1 : ses valeurs sont donc toutes comprises dans l’intervalle [0, 1]. La
fonction de répartition d’une variable aléatoire est l’analogue théorique de la fréquence
empirique cumulée.
2.3.1 Cas continu

0.20
1.0
densité de probabilité f(x)
distribution cumulée F(x)

0.8
0.15
0.6
0.10
0.4
0.05
0.2
a b c a b c
0.00
0.0
-10 -5 0 5 -10 -5 0 5
x x
F IGURE 4.2 – Densité de probabilité f (x) (gauche) et distribution cumulée F (x) correspondante
(droite). Par construction, la dérivée de F (x) vaut F ′ (x) = f (x) : plus f (x) est grande, plus pentue
est F (x). On lit que a = −4 = x0.13 , b = −1 = x0.35 et c = 4 = x0.95 ; aussi, la médiane théorique vaut
ici x0.5 = 0.
63
1.0
fonction de répartition théorique F(x)
fonction de distribution théorique pj
0.20
0.8
0.15
0.6
0.10
0.4
0.05
0.2
0.0
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 5 10
xj = j x
F IGURE 4.3 – Gauche : distribution pj d’une variable numérique X discrète (ici, une distribution
de Poisson P(λ) de paramètre λ = 3.5 voir section 3.3). Droite : fonction de répartition théorique
F (x) correspondante.
Dans le cas continu, la fonction de répartition F (x) s’obtient comme 7

x
F (x) = ∫ f (t) dt . (4.9)
−∞
Il s’agit d’une fonction continue. Elle est de plus strictement croissante (et inversible) si
f (x) > 0. Dans ce cas, le α-ième quantile théorique, qui est la valeur xα définie par
P (X ≤ xα ) = F (xα ) = α s’obtient comme xα = F −1 (α) (4.10)
où F −1 (.) dénote la fonction inverse de la fonction F (.). En complète analogie avec les
quantiles empiriques, on note la médiane théorique par x0.5 (ou par X0.5 ), le premier
quartile théorique par x0.25 , etc... (figure 4.2).
2.3.2 Cas discret

La fonction de répartition associée à une distribution numérique discrète D déterminée
par les valeurs (p, x) est discontinue : il s’agit d’une fonction en escaliers, les positions
horizontales des marches étant données par les valeurs xj , et la hauteur de chaque marche
par pj (figure 4.3).
2.4 Moyenne et variance théoriques ; standardisation ; coefficient de variation

La variance théorique d’une variable aléatoire numérique X ∼ D est
Var(X) = E((X − E(X))2 ) = E(X 2 ) − E 2 (X) (4.11)
i.e.
m
Var(X) = ∑ pj (xj −E(X))2 (cas discret) Var(X) = ∫ f (x)(x−E(X))2 dx (cas continu)
j=1 R
(4.12)
On utilise aussi la notation
● µX ou µ pour la moyenne théorique E(X)
7. pourquoi avoir passé de f (x) dx à f (t) dt ? Simplement parce que le symbole x est “déjà pris” dans le
membre de gauche F (x) de (4.9), et qu’il faut donc un autre symbole (muet), ici t, pour exprimer l’intégration
de −∞ à x dans le membre de droite.
64
● σX
2
ou σ 2 pour la variance théorique
√
● σX ou σ pour l’écart-type théorique Var(X) .
Toute variable quantitative X de moyenne µ et de variance σ 2 peut être centrée par sous-
traction de la moyenne, réduite par division par l’écart type, et standardisée par centration
puis réduction. On peut noter par X c , X r et X s les nouvelles variables ainsi obtenues :
X X −µ
Xc = X − µ Xr = Xs = (4.13)
σ σ
De nouveau, la moyenne (ici théorique) d’une variable aléatoire joue le rôle d’une ori-
gine naturelle, et son écart-type théorique celui d’une unité naturelle (au sens d’une
unité physique). Standardiser une variable revient alors à exprimer son score ou sa va-
leur numérique dans un repère d’origine 0 et d’unité 1. Une fois standardisée, la variable
X s ne dépend plus de l’unité ou de l’origine initiales.
Les identités suivantes, faciles à démontrer, sont complètement analogues aux identités
empiriques correspondantes : X étant une variable quantitative, et a et b des constantes
de signe quelconque, on a
E(aX + b) = aE(X) + b Var(aX + b) = a2 Var(X) (4.14)
Lorsque les valeurs d’une variable quantitative (discrète ou continue) X sont non-négatives
(c’est typiquement le cas des échelles absolues et de quotient), on utilise parfois le coeffi-
cient de variation théorique (respectivement empirique) défini par CV(X) = 100 σX /E(X)
(respectivement cv(X) = 100 sx /x̄), dont l’avantage principal est de fournir une mesure
de dispersion réduite, c’est-à-dire indépendante de l’unité choisie. Par exemple, dire que
le coefficient de variation de X =“ taille” vaut CV(X) = 8.8 signifie que l’écart-type de la
taille σ vaut 0.088 fois la taille moyenne µ, quelle que soit l’unité de taille choisie.
2.5 Distributions bivariées

La distribution jointe ou bivariée D de deux variables aléatoires X et Y est spécifiée :
1. dans le cas continu : par la densité jointe f (x, y) = fXY (x, y) ≥ 0 des valeurs possibles
de X et Y , telle que (figure 4.4)
P (X ∈ A et Y ∈ B) = ∫ ∫ fXY (x, y)dxdy avec ∫ ∫ fXY (x, y)dxdy = 1 .

A B R R
Les distributions univariées fX (x) de X et fY (y) de y s’obtiennent alors par margi-

nalisation, i.e.
fX (x) = ∫ fXY (x, y) dy et fY (y) = ∫ fXY (x, y) dx .

R R
2. dans le cas discret : par la probabilité pjk ≥ 0 que (X, Y ) prenne les m1 × m2 valeurs
possibles (xj , yk ), avec
m1 m2
P (X = xj et Y = yk ) = pjk avec ∑ ∑ pjk = 1 .
j=1 k=1
De nouveau,
P (X = xj ) = ∑ P (X = xj et Y = yk ) = ∑ pjk = pj● et P (Y = yk ) = ∑ pjk = p●k .

k k j
3. dans le cas mixte, où X est continue et Y discrète : par la quantité πj fj (x) telle que
m
P (X ∈ A et Y = yj ) = πj ∫ fj (x) dx avec ∫ fj (x) dx = 1 et ∑ πj = 1 .
A R j=1
65
0.015
0.010
0.010
f(x,y)
f(x,y)
0.005
0.005
5 5
0.000 0.000
0 0
-5 -5
0
5
-5
y 0
5
-5
y
x 10
-10
x 10
15
-10
F IGURE 4.4 – Deux densités de probabilité bivariées f (x, y) donnant la distribution jointe des
variables continues (X, Y )
On a alors
m
P (Y = yj ) = πj ∫ fj (x) dx = πj et f (x) = ∑ πj fj (x) (4.15)
R j=1
ce qui montre que πj est simplement la distribution univariée de Y . La seconde iden-

tité de (4.15), exprimant la densité univariée f (x) de X comme moyenne pondérée
de m densités fj (x), définit ce que l’on appelle un modèle de mélange (mixture mo-
del) 8 . Aussi, fj (x) n’est autre que la densité conditionnelle de X pour Y = yj donné,
en vertu de
πj fj (x)
f (x∣Y = yj ) = = fj (x) .
πj
2.5.1 Indépendance de deux variables
Définition 8 (Indépendance). Deux variables X et Y sont indépendantes si leur distribution

jointe est égale au produit de leurs distributions univariées, i.e. si
● fXY (x, y) = fX (x) fY (y) (cas continu)
● pjk = pj● p●k (cas discret)
● fj (x) = f (x) pour tout j = 1, . . . , m (cas mixte).
2.5.2 Covariance et corrélation théoriques
Définition 9. Etant données deux variables X et Y de moyennes théoriques E(X) et E(Y ),

et de variances théoriques Var(X) = E(X 2 ) − E 2 (X) = σX
2
et Var(Y ) = E(Y 2 ) − E 2 (Y ) = σY2
on définit leur covariance théorique par :
Cov(X, Y ) ∶= E((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ) (4.16)

Par construction, Cov(X, X) = Var(X) : comme on l’a déjà remarqué dans la version
empirique, le concept de covariance (ici théorique) généralise le concept de variance.
Aussi, le seul terme proprement bivarié dans (4.16) est E(XY ), qui vaut respectivement
m1 m2
∫ ∫ f (x, y) x y dx dy et ∑ ∑ pjk xj yk
R R j=1 k=1
8. à titre d’exemple, c’est ainsi qu’a été construite la densité f (x) de la figure 4.2 ; quant à la figure 4.4
droite, elle a été construite par le mélange de deux distributions elles-mêmes bivariées.
66
3. Lois discrètes
1.0
1.0
1.0
0.8
0.8
0.8
probabilité pj
probabilité pj
probabilité pj
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
face du dé xj (j=1,...,6) face du dé xj (j=1,...,6) face du dé xj (j=1,...,6)
F IGURE 4.5 – Trois distributions de probabilité pour le lancer d’un dé à m = 6 faces : distribution
“quelconque” (gauche), uniforme (milieu) et concentrée en j ⋆ = 5 (droite)
dans le cas continu, respectivement discret. Si X et Y sont indépendantes, alors E(XY ) =

E(X)E(Y ), et donc Cov(X, Y ) = 0, mais la réciproque n’est pas vraie.
Définition 10. Le coefficient de corrélation théorique entre X et Y est défini par
E((X − E(X))(Y − E(Y ))) Cov(X, Y )

Corr(X, Y ) = ρXY = √ = (4.17)
(E(X − E(X))2 )(E(Y − E(Y ))2 ) σX σY
Comme dans le cas empirique, le coefficient de corrélation théorique n’est pas affecté par
un changement d’échelle ou d’origine : Corr(aX +b, cY +d) = ±Corr(X, Y ) quels que soient
a, b, c et d, où le signe ± est “+1” ssi a et c sont de même signe, et “−1” sinon.
Par contre, la covariance (et la variance) est affectée par les changements d’échelle (mais
pas d’origine) : Cov((aX + b)(cY + d)) = a c Cov(X, Y ).
Enfin, quels que soient X et Y , −1 ≤ Corr(X, Y ) ≤ +1. Les valeurs extrêmes +1 et -1
impliquent une dépendance fonctionnelle linéaire entre X et Y :
● Corr(X, Y ) = +1 ssi Y = aX + b avec a > 0
● Corr(X, Y ) = −1 ssi Y = aX + b avec a < 0.
3 Lois discrètes
3.1 Les distributions uniforme et concentrée
Parmi toutes les distributions discrètes à m modalités (où m ≥ 2 est fini), deux cas parti-
culiers émergent :
● la distribution uniforme, pour laquelle chaque valeur possible de X a la même chance
d’être réalisée (figure 4.5 milieu) :
1
p1 = p2 = ... = pm = (4.18)
m
● la distribution concentrée en une modalité particulière, disons j ⋆ , pour laquelle (fi-
gure 4.5 droite)
⎧
⎪1 si j = j ⋆
⎪
pj = ⎨
⎪
⎪ 0 sinon .
⎩
Parmi toutes les distributions à m modalités, la distribution uniforme est la plus aléatoire,
et la distribution concentrée la moins aléatoire : l’incertitude sur la catégorie est maximale
dans le premier cas, et minimale (et nulle) dans le second 9 , pour lequel tout caractère
9. La Théorie de l’Information permet de quantifier précisément ce concept d’incertitude
67
3. Lois discrètes
0.30
0.15
0.30
B(6,0.5)
0.25
B(40,0.2)
fonction de distribution pj
B(15,0.9)
0.25
0.20
0.10
0.20
0.15
0.15
0.10
0.05
0.10
0.05
0.05
0.00
0.00
0.00
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 2 4 6 8 11 14 17 20 23 26 29 32 35 38
xj = j xj = j xj = j
F IGURE 4.6 – Trois distributions binomiales B(n, p)
aléatoire a disparu. La distribution concentrée est déterministe : c’est toujours la face j ⋆

qui sortira en lançant un tel dé.
3.2 Loi binomiale B(n, p)

Les séquences de pile ou face permettent de modéliser plus ou moins adéquatement de
nombreux processus tels que les suites fille/garçon de n naissances, les séquences de
réussite ou d’erreur, ou de choix ou non-choix, etc...
A chaque “lancer”, il existe une probabilité fixe p d’obtenir “pile”, et une probabilité q = 1−p
d’obtenir “face” (on parle d’un processus de Bernoulli). Ceci implique en particulier que le
résultat d’un lancer ne dépend pas des précédents (tirages indépendants), et que, puisque
p+q = 1, aucun autre résultat (pièce tombant sur la tranche ou dans une grille, ou attrapée
par un oiseau, ou changée en prince...) n’est possible.
La distribution ou loi binomiale B(n, p) décrit les valeurs possibles (k = 0, 1, 2, ..., n) de la
variable aléatoire
X = "nombre de pile obtenus en n lancers"
comme
n
pk = P (X = k) = ( ) pk (1 − p)n−k . (4.19)
k
La formule précédente découle du fait que, pour obtenir k “pile” en n lancers, il faut que
l’événement “pile” se produise k fois, et ne se produise donc pas n−k fois, ce qui correspond
à une probabilité de pk q n−k = pk (1 − p)n−k ; d’autre part, il existe (nk) = (n−k)!k!
n!
séquences
distinctes (par l’ordre d’apparition des “pile”) de longueur n pour lesquelles l’événement
“pile” se produit exactement k fois.
Les valeurs de n et p définissent entièrement une distribution binomiale particulière : ce
sont les paramètres de la distribution, notée B(n, p).
A l’aide du développement binomial (voir chapitre “Rappels mathématiques”), on peut
montrer que ∑nk=0 pk = 1, comme il se doit, et ce quelles que soient les valeurs des pa-
ramètres n et p. La figure 4.6 donne l’allure de B(n, p) pour différentes valeurs de n et p.
La moyenne et la variance de X sont
E(X) = np Var(X) = np(1 − p) . (4.20)
Cette dernière est nulle pour p = 0 ou p = 1 : dans ce dernier cas, seul l’événement “face”
ou “pile” est possible, i.e. la distribution pk est concentrée en k = 0 ou k = n : c’est le cas
déterministe.
D’autre part, la variance Var(X) est maximale pour p = 1/2 : les événements “pile” et “face”
sont alors équiprobables, et la dispersion de X autour de sa moyenne n/2 est maximale, ce
68
3. Lois discrètes
qui revient à dire que le lancer d’une pièce est maximalement imprédictible lorsque cette
dernière est équilibrée.
3.3 Loi de Poisson P(λ)

Considérons une loi binomiale pour p petit et n grand : on a affaire à un événement rare
mais possédant beaucoup d’occasions de se produire. Dans la limite où p → 0 et n → ∞ de
telle sorte que le produit n p tende vers une constante λ finie, la loi binomiale B(n, p) tend
alors vers une nouvelle loi, la loi de Poisson P(λ) de paramètre λ.
Définition 11. Une variable de Poisson est une variable discrète X prenant toutes les valeurs
entières non-négatives k = 0, 1, 2, 3, . . . avec les probabilités
λk
pk = P (X = k) = exp(−λ) k = 0, 1, 2, .... (4.21)
k!
où λ > 0 est un paramètre positif.
Par exemple, si λ = 2, on a
20 1
P (X = 0) = exp(−2) = = 0.135 = 13.5%
0! e2
1
2 2
P (X = 1) = exp(−2) = 2 = 0.271 = 27.1%
1! e
22 2
P (X = 2) = exp(−2) = 2 = 0.271 = 27.1%
2! e
23 8 1
P (X = 3) = exp(−2) = = 0.180 = 18%
3! 6 e2
P (X ≥ 4) = 1−P (X=0)−P (X=1)−P (X=2)−P (X=3) = 0.143 = 14.3%
E(X) = λ Var(X) = λ . (4.22)
Il s’agit d’une relation tout-à-fait particulière, caractéristique de la loi de Poisson, qui est
rendue possible par le fait que la loi de Poisson ne s’applique qu’à des variables X qui
sont des nombres purs (i.e. des effectifs), donc sans dimension 10 . La loi de Poisson peut
modéliser la distribution de X = "nombre d’événements" dans des cas comme :
● X = "nombre de personnes connues rencontrées dans une foule" : le nombre
n d’individus dans une foule est grand, et la probabilité p qu’une personne prise au
hasard dans la foule soit connue est faible
● X = "nombre d’accidents routiers quotidiens en Suisse" : un grand nombre
n de véhicules est en circulation, et la probabilité p pour qu’un véhicule particulier
soit impliqué dans un accident est faible
● X = "nombre d’appels téléphoniques reçus un jour de semaine" (grand nom-
bre n de personnes susceptibles d’appeler ; faible chance p pour qu’une personne
donnée appelle).
La distribution de Poisson ne dépend que d’un seul paramètre, à savoir λ. Lorsque ce
dernier est inconnu, on peut l’estimer par la valeur λ̂ donnée par la moyenne empirique
x̄ de la variable X en question 11 : par exemple, si Madame K. rencontre en moyenne
10. si la variable X possédait une dimension, le paramètre λ en hériterait (puisque E(X) = λ) ; d’autre part,
Var(X) = λ implique que les unités de λ devraient aussi s’exprimer par le carré de cette dimension, ce qui serait
contradictoire.
11. ce procédé est justifié par la propriété E(X) = λ, et plus généralement par le principe du maximum de
vraisemblance abordé plus loin
69
4. Lois continues
3.5 personnes connues chaque fois qu’elle se rend dans son établissement public favori
(figure 4.3), la probabilité qu’elle n’en rencontre aucune est, toutes choses étant égales
par ailleurs, de l’ordre de P (X = 0) = exp(−3.5)3.50 /0! = exp(−3.5) ≅ 3%.
De façon générale, la distribution de Poisson pk est maximale autour de k = λ. Contraire-
ment à la loi binomiale, pour laquelle la valeur maximale n de X est finie, une variable
distribuée selon la loi de Poisson peut en principe prendre une valeur k arbitrairement
élevée.
Cela étant, la probabilité associée à une valeur élevée tend très rapidement (exponentiel-
lement) vers zéro : il n’est pas possible que 3 ampoules claquent le même jour dans un
appartement par simple “usure naturelle” ; et si cela advenait quand même, le recours à
la notion d’usure aléatoire et indépendante d’une ampoule à l’autre, justifiant l’apparition
de la loi de Poisson, deviendrait alors indéfendable.
3.4 Loi multinomiale M(p)

Considérons le tirage indépendant (i.e. avec remise) de n objets, chacun appartenant à
l’une parmi j = 1, . . . , m catégories possibles, la catégorie j étant sélectionnée avec une
probabilité pj ≥ 0 ; naturellement, ∑m j=1 pj = 1.
Au bout de n tirages, on aura constitué un échantillon composé de n1 objets de la première
catégorie, n2 objets de la seconde catégorie, ..., nm objets de la dernière catégorie, avec
∑j=1 nj = n. La probabilité d’obtenir (dans un ordre quelconque) un tel échantillon est
m
alors de
n!
P (n1 , n2 , . . . , nm ) = pn1 pn2 . . . pnmm (4.23)
n1 ! n2 ! . . . n m ! 1 2
qui est la loi multinomiale M(p) de paramètres p = (p1 , p2 , . . . , pm ). La loi multinomiale

généralise la loi binomiale pour plus de deux catégories 12 .
Exemple : 70% des habitants d’une commune sont suisses, 20% portugais et 10% turcs.
La probabilité pour qu’un immeuble de quatre appartements soit loué par deux locataires
suisses, un locataire portugais et un locataire turc est de 13
4!
P (2, 1, 1) = 0.72 0.21 0.11 = 0.1176 = 11.8% . (4.24)
2!1!1!
4 Lois continues
4.1 Loi uniforme U(a, b)
Une variable suivant une distribution uniforme sur [a, b], notée U(a, b), possède une den-
sité de probabilité f (x) constante à l’intérieur de l’intervalle [a, b], et nulle à l’extérieur.
Pour que la surface totale soit de 1, il faut fixer la constante à 1/(b−a) (figure 4.7 gauche).
a+b (b − a)2
E(X) = Var(X) = . (4.25)
2 12
Par exemple, la croyance que “Claude arrivera entre 20h00 et 20h30” pourrait être modé-
lisée comme X ∼ U (20, 20.5), où X = "heure d’arrivée de Claude" (figure 4.7 droite).
12. si m = 2, en posant n1 =∶ k, n2 = n − k, p1 =∶ p et p2 = 1 − p =∶ q, l’expression précédente devient
pk = P (k, n − k) = k! (n−k)!
n!
pk q n−k , qui n’est autre que la loi binomiale (4.19).
13. on fait ici l’hypothèse hasardeuse que les lieux de résidence sont également accessibles, sans égard à
la nationalité, et que la tendance à occuper préférentiellement des lieux occupés par des personnes de même
nationalité est négligeable, etc... Cela étant, (4.24) a le grande mérite de proposer une estimation quantifiée,
et d’ancrer la discussion vers une amélioration argumentée de cette estimation – plutôt que d’en rester à la
constatation désolée et impuissante de l’existence de biais dans (4.24) : certes, ces biais sont bien là, mais peut-
on les quantifier ? Peut-on améliorer, de façon raisonnée et critique, ce 11.8% ? Devrait-il être deux fois, dix fois
plus petit ? Pourquoi ?
70
4. Lois continues
1 (b − a )
2.0
0.30
densité de probabilité uniforme f(x)

densité de probabilité uniforme f(x)
0.25
1.5
0.20
1.0
0.15
0.10
0.5
0.05
a b
0.0
0.00
0 2 4 6 8 19.9 20.0 20.1 20.2 20.3 20.4 20.5
x X = heure d'arrivée de Claude
F IGURE 4.7 – Distributions uniformes générique U(a, b) (gauche) et particulière (droite)
4.2 Loi normale N (µ, σ 2 )

La loi normale ou loi de Laplace-Gauss est à bien des égards la distribution de référence,
en vertu du théorème central limite, présenté plus loin. Elle jouit de plus de quantités de
propriétés formelles remarquables, qui seront mentionnées ci et là au fur et à mesure.
Définition 12. Une variable (continue) X suit une loi normale de moyenne µ et de variance
σ 2 , noté X ∼ N (µ, σ 2 ), lorsque sa densité de probabilité f (x) est la courbe en cloche ou
gaussienne (figure 4.8 gauche) :
1 (x − µ)2
f (x) = √ exp(− ) (4.26)
2π σ 2 σ2
où π = 3.1416 et exp(x) = ex avec e = 2.71828.
L’équation (4.26) (que la majorité des quantitativistes n’utilise jamais sous cette forme
directe) dit que la distribution normale N (µ, σ 2 ) dépend de deux paramètres µ et σ 2 , qui
se trouvent être la moyenne et la variance 14 de X :
E(X) = µ Var(X) = σ 2 . (4.27)
La forme (4.26) entraı̂ne aussi que la densité f (x) ne s’annule jamais, mais tend très
rapidement (exponentiellement) vers zéro lorsque x diffère de la moyenne µ par plus
de quelques écarts-types σ. La (célèbre) courbe de cette densité a l’allure d’une cloche
symétrique centrée (et maximale) en µ, et possède la particularité que l’écart-type σ est
égal à la distance horizontale entre la moyenne µ et l’un des deux points d’inflexion 15 de
f (x) (figure 4.8 gauche).
La distribution des valeurs de X est centrée autour de la moyenne de la manière suivante
(figure 4.8 droite) : environ
● 50% des valeurs sont dans l’intervalle (µ − 32 σ, µ + 32 σ)
● 68% des valeurs sont dans l’intervalle (µ − σ, µ + σ)
● 95% des valeurs sont dans l’intervalle (µ − 2σ, µ + 2σ)
● 99,7% des valeurs sont dans l’intervalle (µ − 3σ, µ + 3σ).
La loi normale dépendant de deux paramètres (à savoir µ et σ 2 ), on pourrait imaginer que
les tables donnant sa fonction de répartition F (x) = P (X ≤ x) seraient à triple entrée (à
savoir x, µ, σ). En fait, il suffit de disposer de la table de la variable standardisée X s =
(X − µ)/σ, appelée ici variable normale centrée réduite. Par construction, cette dernière
est de moyenne nulle et d’écart-type unité. Par changement de variable dans (4.26), on
14. attention : une paramétrisation tout aussi répandue, aussi notée X ∼ N (µ, σ), indique la valeur de l’écart-
type σ plutôt que de la variance σ 2 .
15. i.e. le point x où f (x) passe de concave à convexe, i.e. tel que sa courbure s’annule (f ′′ (x) = 0).
71
4. Lois continues
densité de probabilité normale standard f(u)

0.4
0.495
0.4
µ=2 σ=1
0.683
σ=2
0.954
σ=3
densité de probabilité normale f(x)

0.997
0.3
0.3
σ=1
0.2
0.2
0.1
0.1
µ=0
0.0
0.0
-10 -5 0 5 10 -5 -4 -3 -2 -1 0 1 2 3 4 5
x u
F IGURE 4.8 – Gauche : trois densités normales N (µ, σ 2 ) de même moyenne et de variances dis-
tinctes ; la surface sous chaque courbe vaut 1. Droite : probabilités que X ∈ [µ − zσ, µ + zσ], pour
z = 2/3, z = 1, z = 2 et z = 3.
0.4
1.0
distribution cumulée normale standard Φ(u)
1−α
0.8
0.3
0.6
0.2
0.4
0.1
0.2
1−α α
0.0
0.0
u1−α u1−α
-5 -4 -3 -2 -1 0 1 2 3 4 5 -4 -2 0 2 4
u u
F IGURE 4.9 – (1−α)-ème quantile u1−α de la loi normale standard (gauche) et fonction de répartition
correspondante (4.28) (droite)
trouve que X s suit une loi N (0, 1), appelée loi normal standard. Pour cette dernière, on
utilise souvent la notation
Φ(u) ∶= P (X s ≤ u) (4.28)
(plutôt que F (x)) pour la fonction de répartition correspondante (figure 4.9 droite). La
possibilité de recourir exclusivement à la fonction Φ(u) découle de la propriété
X −µ x−µ x−µ x−µ

si X ∼ N (µ, σ 2 ), alors P (X ≤ x) = P ( ≤ ) = P (X s ≤ ) = Φ( ) (4.29)
σ σ σ σ
elle-même résultant de “ X ≤ x ⇔ X s ≤ x−µ
σ
”.
De même, uα désignera le α-ième quantile de la loi normal standard ; par exemple, u0.5 =
0, u0 = −∞, u0.63 = 0.33, etc... Par construction, Φ(uα ) = α. De même, Φ(u1−α ) = 1 − α.
De la symétrie de la distribution normale standard découlent les propriétés suivantes,
permettant de calculer n’importe quel quantile ou probabilité à partir des tables de la loi
normale, donnant les valeurs de Φ(u) pour u ≥ 0 seulement :
● P (X s ≤ −u) = Φ(−u) = 1 − Φ(u)
● P (u1 ≤ X s ≤ u2 ) = Φ(u2 ) − Φ(u1 )
● P (−u ≤ X s ≤ u) = 2Φ(u) − 1.
Exemple 19 (Calculs de base pour la loi normale).
Soit X une variable normale de moyenne µ = 5 et d’écart-type σ = 2.
72
5. Loi des grands nombres et théorème central limite
(a) On cherche la probabilité pour que X soit inférieur à 9.

La valeur de la variable centrée réduite correspondant à x = 9 est xs = 9−5
2
= 2, et
donc P (X < 9) = P (X s < 2) = Φ(2) = 0.9772.
(b) On cherche la probabilité pour que X soit supérieur ou égal à 8.36.
On a xs = 8.36−5
2
= 1.68, et donc P (X ≥ 8.36) = P (X s ≥ 1.68) = 1 − P (X s ≤ 1.68) =
1 − Φ(1.68) = 1 − 0.9532 = 0.0465.
(c) On cherche la probabilité pour que X soit compris entre 6 et 8.
Les valeurs standardisées sont xs1 = 6−5
2
= 0.5 et xs2 = 8−5
2
= 1.5, et donc P (6 ≤ X ≤
8) = P (0.5 ≤ X ≤ 1.5) = Φ(1.5) − Φ(0.5) = 0.09332 − 0.6915 = 0.2417.
s
(d) On cherche la probabilité pour que X dépasse 10, sachant qu’il vaut au moins 8.
Les valeurs standardisées sont xs1 = 10−5
2
= 2.5 et xs2 = 8−5
2
= 1.5, et donc, par Bayes
P (X > 10 et X ≥ 8) P (X > 10) 1 − Φ(2.5) 0.0062

P (X > 10∣X ≥ 8) = = = = = 0.093 .
P (X ≥ 8) P (X ≥ 8) 1 − Φ(1.5) 0.0668
Remarque : comme pour toutes les distributions continues régulières, il n’y a aucune
différence entre, disons, P (X ≥ 8) et P (X > 8) : la “différence” P (X = 8) vaut zéro.
4.3 Distribution de Dirac δµ (cas concentré continu)

Si, dans la distribution uniforme continue U(a, b) de la section 4.1, on fait tendre b → a,
alors il devient certain que X = a. La “densité de probabilité” correspondante, notée δa (x),
et appelée fonction delta de Dirac, se comporte de façon singulière comme
⎧
⎪
⎪∞ si x = a
δa (x) = ⎨ et ∫ δa (x) g(x) dx = g(a)
⎪
⎪0 sinon
⎩
R
où g(x) représente n’importe quelle fonction suffisamment régulière (“smooth enough”),
positive ou négative. En particulier, ∫R δa (x) dx = 1.
Naturellement, on a que µ = E(X) = a et σ 2 = Var(X) = 0 : la distribution concentrée de
Dirac est entièrement déterministe, sans aucun caractère aléatoire. La valeur de X ∼ δa
vaut forcément a. Ici, P (X = a) = 1 et P (X ≠ a) = 0.
La même limite s’obtient depuis d’autres distributions continues, telle la loi normale dans
la limite σ → 0 (figure 4.8 gauche), au sens où, en tant que distributions,
lim N (µ, σ 2 ) = δµ .
σ→0
5 Loi des grands nombres et théorème central limite

5.1 Somme et moyenne de variables i.i.d.
Considérons n variables aléatoires X1 , . . . , Xj , . . . , Xn de même distribution (quelconque)
et indépendantes. Ces variables sont dites “i.i.d.”, pour “indépendantes et identiquement
distribuées”.
En particulier, lorsque ces variables sont numériques, elles possèdent la même moyenne
E(Xj ) = µ et la même variance Var(Xj ) = σ 2 . On suppose ici que ces deux quantités
existent ; ce qui, aussi étonnant que cela paraisse, peut ne pas être le cas (section 5.8).
Considérons maintenant deux nouvelles variables construites à partir de X1 , . . . , Xn , à
savoir les variables “somme” Sn et “moyenne” X̄n définies comme
n
1 n
Sn ∶= ∑ Xj X̄n ∶= ∑ Xj . (4.30)
j=1 n j=1
73
Que valent leur moyenne et leur variance ? On peut facilement généraliser à n variables le
résultat suivant, facile à démontrer pour deux variables X et Y quelconques :
E(X ± Y ) = E(X) ± E(Y ) Var(X ± Y ) = Var(X) + Var(Y ) ± 2 Cov(X, Y ) . (4.31)
La première égalité est assez évidente ; quant à la seconde, elle indique que la covariance
intervient comme facteur de correction dans le calcul de la variance d’une somme (ou
d’une différence).
Lorsque les variables X et Y sont indépendantes, on a Cov(X, Y ) = 0, et, sous cette condi-
tion seulement, l’identité “variance d’une somme = somme des variances” est valide.
En généralisant (4.31) au cas i.i.d., on démontre facilement que
σ2
E(Sn ) = n µ E(X̄n ) = µ Var(Sn ) = n σ 2 Var(X̄n ) = . (4.32)
n
5.2 La précision d’une moyenne est supérieure à celle de ses composantes individuelles
La dernière identité de (4.32) dit que la variance de la moyenne est n fois plus petite
que la variance σ 2 de chaque observation. Ou, de √façon équivalente, que l’écart-type de
la moyenne (standard error of mean ou SEM) est n fois plus petite que l’écart-type de
chaque observation. Par exemple :
● si, pour un thermomètre donné, la précision d’une seule mesure de la température
d’une pièce (dont la température est supposée constante) est disons de 1○ C, le fait
de mesurer n = 100 fois cette même température √ et de prendre la moyenne des
mesures permet d’améliorer la précision à 1○ C/ 100 = 0.1○ C.
● si, dans un sondage d’opinion portant sur n = 100 personnes, la précision de l’es-
timation d’une proportion (telle que la proportion de personnes favorables à un
certain changement législatif au niveau national) est de 10%, alors l’extension du
√ à n = 1000 personnes
sondage √ devrait permettre de réduire cette marge d’erreur à
10%/ 1000/100 = 10%/ 10 = 3.2%.
En d’autres termes, (4.32) montre que l’incertitude (mesurée√par l’écart-type) d’une moy-
enne diminue avec la taille n de l’échantillon, mais comme 1/ n seulement : il faut quatre
fois plus d’observations pour être deux fois plus précis : l’augmentation de la précision est
possible, mais se paye au prix fort, littéralement, comme le savent bien les instituts de
sondage.
5.3 Macro-description déterministe et micro-description aléatoire sont compatibles

Une autre façon de le dire : même si chaque valeur individuelle Xj peut être très difficile à
prédire (“micro-description aléatoire”), la moyenne de ces n valeurs est à peu près connue
d’avance, si n est grand (“macro-description déterministe”) :
● la personne achetant un billet de loterie type “Euromillions” peut difficilement
prédire à l’avance ses gains (c’est tout le charme de l’achat) ; par contre, la société
émettant les billets peut assez précisément prédire la distribution du nombre de
billets contenant tant de numéros gagnants.
● en 2018, une personne meurt sur les routes suisses toutes les 38 heures en moyenne.
Le taux de mortalité annuelle correspondant est relativement stable (légèrement à
la baisse) et peut être prédit assez précisément d’une année à l’autre – au contraire
de l’identité des futures victimes, rares mais constituées potentiellement de n’im-
porte quel usager de la route.
● de même, impossible (pour le moment) de savoir qui sera pris dans un bouchon
de telle durée à tel moment lors d’un prochain départ en vacances, même si les
caractéristiques du bouchon (longueur, retard, durée) peuvent être prédites par
avance.
74
1.0
3.5
2
0.8
3.0
0
0.6
2.5
-2
Xn
Xn
Xn
0.4
2.0
-4
0.2
1.5
-6
0.0
0 100 200 300 400 500 0 100 200 300 400 500 0 100 200 300 400 500
n n n
F IGURE 4.10 – Convergence (on non) de la moyenne empirique X̄n vers la moyenne théorique
µ = E(X). Chaque figure décrit trois simulations. Gauche : loi de Bernoulli X ∼ B(1, p) avec p = 0.4.
Milieu : loi de normale X ∼ N (µ, σ 2 ) avec µ = 0.4 et σ = 1. Droite : loi de Cauchy X ∼ t[1], pour
laquelle σ 2 = ∞, ce qui ruine la loi des grands nombres, valide pour les deux cas précédents : le
graphique montre que la plupart des valeurs générées par t[1] sont “modérées”, conduisant à un
rapprochement de X̄n vers 0, mais que quelques rares valeurs “extrêmes” jaillissent de temps en
temps, faisant “exploser” la valeur de X̄n , laquelle ne converge jamais.
Dans ces exemples, autant les caractéristiques individuelles sont pratiquement impossibles
à prédire, autant leur incidence globale moyenne est pour ainsi dire déterminée à l’avance.
5.4 Loi des grands nombres : la moyenne empirique tend vers la moyenne théorique.
Dans la limite n → ∞, on a Var(X̄n ) → 0, ce qui implique que la distribution de X̄n devient
concentrée sur une seule valeur, laquelle ne peut être que µ au vu de E(X̄n ) = µ.
Ainsi, pour n → ∞, la moyenne empirique X̄n converge nécessairement vers la moyenne
théorique µ = E(X).
Cet énoncé constitue la loi des grands nombres. Il justifie, par exemple, le fait d’estimer
la valeur de la probabilité théorique p qu’une pièce de monnaie produise “pile” par la
proportion empirique fn de “pile” en n lancers, lorsque n devient grand.
Plus généralement, on peut concevoir toute distribution théorique (ou Modèle, ou Popu-
lation de valeurs), inobservable, comme la limite de la distribution empirique lorsque la
taille n de l’échantillon tend vers l’infini (figure 4.11).
5.5 Simulations et tirages

La loi des grands nombres, conséquence mathématique de la dernière identité de (4.32),
peut être illustrée au moyen de simulations numériques, impliquant la génération de va-
leurs pseudo-aléatoires 16 distribuées selon une loi D donnée. Dans la figure 4.10, les n
observations x entrant dans le calcul de la moyenne x̄n ont été générées avec le logiciel
R au moyen des commandes
● x=rbinom(n=n, size=1, prob=0.4) Figure de gauche : n valeurs distribuées
chacune selon B(1, p) avec p = 0.4
● x=rnorm(n=n,mean=2,sd=1) Figure du milieu : n valeurs distribuées chacune
selon N (µ, σ 2 ) avec µ = 0.4 et σ = 1
● x=rt(n=n,df=1) Figure de droite : n valeurs distribuées chacune selon une loi
du t à 1 degré de liberté, dite aussi distribution de Cauchy (sections 5.7 et 5.8).
16. “pseudo-aléatoires” plutôt qu’aléatoires, dans la mesure où l’algorithme générant ces valeurs, est, quelle
que soit sa sophistication, forcément déterministe – à moins qu’un signal physique réellement aléatoire (type
désintégration radioactive) ne soit utilisé
75
15000
35000
30000
6000
25000
10000
20000
effectif
effectif
effectif
4000
15000
5000
10000
2000
5000
0
0
-10 -5 0 5 -10 -5 0 5 -10 -5 0 5
x x x
F IGURE 4.11 – Histogrammes résultant du tirage de n = 400′ 000 valeurs distribuées selon la dis-
tribution de probabilité continue f (x) de la figure 4.1, pour des largeurs de classe e décroissantes.
Dans la limite n → ∞ suivie de e → 0, les effectifs relatifs de l’histogramme tendent vers f (x).
De même, les n = 400′ 000 valeurs de la figure 4.11 ont été tirées selon la densité de
mélange (4.15) f (x) = π1 f1 (x) + π2 f2 (x) + π3 f3 (x), avec π1 = 0.5, π2 = π3 = 0.25, et où
les trois densités fj (x) sont respectivement celles de t[3], N (3, 1) et N (−4, 1) (c’est ainsi
que f (x) a été construite en figure 4.2).
Pour la simulation de n valeurs d’un processus discret gouverné par une distribution D
déterminée par les valeurs (p1 , . . . , pm , x1 , . . . , xm ), disons p = (0.4, 0.3, 0.2, 0.1) et x=(a,
b, c, d), on peut utiliser
p=c(0.4,0.3,0.2,0.1)
x=c("a","b","c","d")
sample(x=x, size=30, replace = TRUE, prob = p)
qui génère par exemple la séquence de longueur n = 30
b a a c a a a d c a b b b a a c b b a b c a a a b c c b a d
On parle ici de tirage avec remise : le processus est équivalent au tirage de n = 30 billes
d’urne contenant des billes étiquettées a, b, c et d, en proportions p. Chaque bille tirée est
replacée dans l’urne, ou, de façon équivalente, l’urne contient un nombre infini de billes :
les tirages sont indépendants. Par contraste, dans le tirage sans remise, les billes tirées ne
sont pas remplacées, ce qui fait qu’au plus m valeurs peuvent être tirées, et que les tirages
ne sont plus indépendants. Par exemple, la simulation de 5 tirages sans remise de 3 billes
chaque fois peut être effectuée en répétant 5 fois
sample(x=x, size=3, replace = FALSE, prob = p)
qui génère par exemple les 5 séquences
a b c; b a c; d b a; a b c; b c a .
5.6 Le théorème central limite : omniprésence de la loi normale

Considérons à nouveau la variable “moyenne” X̄n ∶= n1 ∑nj=1 Xj de l’équation (4.30), où les
Xj sont i.i.d, c’est-à-dire indépendants entre eux et suivant une même distribution quel-
conque. On a vu que sa moyenne et sa variance, qu’on suppose finies, sont alors donnés
par (4.32).
Comme la moyenne et la variance ne suffisent généralement pas à déterminer l’entièreté
d’une distribution (il existe une infinité de distributions distinctes possédant la même
moyenne et la même variance), on pourrait s’attendre à ce que la distribution de X̄n
dépende fortement de celle de chacun des Xj , desquels il est composé. C’est vrai, pour n
petit, mais faux, pour n grand : dans ce dernier cas, la distribution de X̄n devient toujours
2
normale ! Comme E(X̄n ) = µ et Var(X̄n ) = σ 2 /n, la loi normale en question est N (µ, σn ).
76
0.30
n=1 n=2 n=3
0.30
0.30
0.25
0.25
0.25
effectifs normalisés
0.20
0.20
0.20
0.15
0.15
0.15
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
-2 0 2 4 6 -2 0 2 4 6 -2 0 2 4 6
xn xn xn
0.6
n=6 n=10 n=20
0.4
0.5
0.3
0.3
0.4
0.2
0.3
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
-4 -2 0 2 4 -4 -2 0 2 4 -3 -2 -1 0 1 2 3
xn xn xn
F IGURE 4.12 – théorème central limite : distributions de N = 3 ⋅ 106 valeurs moyennes xn =

1 n
n ∑i=1 xi , où chaque xi est tiré indépendamment selon la distribution D (4.34), de moyenne µ = 0
et σ = 26/3. Pour n grand, la distribution est très bien approximée par la loi normale N (µ, σ 2 /n).
2
L’échelle verticale des effectifs normalisés donne, pour chaque classe j de l’histogramme, l’effectif nj
divisé par N e, où e est la largeur constante de classe, de sorte que la surface totale grisée soit égale
à 1, comme pour une densité de probabilité.
Plus précisément,
σ2
pour n → ∞, X̄n ∼ N (µ, ) , où µ = E(X) et σ 2 = Var(X) . (4.33)
n
Dans la pratique, un échantillon de taille n ≥ 20 ou même n ≥ 10 (figure 4.12) peut être
déjà suffisamment grand pour que (4.33) soit approximativement valide avec une bonne
précision. Le résultat (4.33), appelé théorème central limite, est étonnant : toute moyenne
d’un nombre suffisant de variables i.i.d. de variance finie suit une loi normale ou de Laplace-
Gauss, d’où son omniprésence en modélisation.
Exemple 20 (Mélange de deux lois uniformes).
On considère une distribution continue X ∼ D générée par le mélange, en proportions π1 =
2/3, respectivement π2 = 1/3, de deux lois uniformes U[−3, −1], respectivement U[2, 6].
Ainsi, une valeur x tirée de D est, avec probabilité 2/3, générée selon U[−3, −1], et, avec
probabilité 1/3, générée selon U[2, 6] : c’est une distribution de mélange (cf. section 2.5),
ce que l’on peut noter symboliquement par
2 1
D= U[−3, −1] + U[2, 6] . (4.34)
3 3
La moyenne théorique de D vaut µ = 23 ⋅ (−2) + 31 ⋅ 4 = 0. Quant à sa variance théorique 17 ,
elle est de σ 2 = 26/3 = 8.667. Cette distribution est bien sûr loin d’être normale : le premier
histogramme de la figure 4.12 est constitué de N = 3 ⋅ 106 valeurs tirées de D.
17. on la détermine facilement par σ 2 = σB
2 + σ 2 , où la variance intergroupe (i.e. entre les moyennes des
W
deux composantes de D) est σB 2 = 2 ⋅ (−2 − 0)2 + 1 ⋅ (4 − 0)2 = 24 , et la variance intragroupe est σ 2 =
3 3 3 W
2 2
2 (−1−(−3))
3 12
+ 1 (6−2)
3 12
= 2
3
77
Si l’on considère toutefois le tirage de N valeurs moyennes xn = n1 ∑ni=1 xi , où chaque xi est
tiré indépendamment selon D, on constate sur la figure 4.12 que, pour n croissant, ces va-
leurs moyennes xn sont distribuées d’une manière qui est de mieux en mieux approximée
par la loi normale N (µ, σ 2 /n) : c’est précisément ce que dit le théorème central limite.
Visuellement, l’approximation est déjà excellente pour n = 20, voire même en dessous.
Exemple 21 (Approximation de la loi binomiale ; correction de continuité).

Quelle est la probabilité P d’obtenir 65 fois pile ou plus en 100 lancers d’une pièce
équilibrée ? Par (4.19), cette valeur est (pour p = 0.5) :
100
1 100
P= ∑ ( ) (4.35)
2100 k=65 k
dont l’évaluation par calculette est pour le moins pénible... Une alternative bienvenue à
cette approche directe est d’utiliser le théorème central limite, en définissant d’abord la
variable indicatrice
⎧
⎪
⎪1 si pile au j-ème lancer
Xj = ⎨
⎪
⎪0 sinon.
⎩
Par construction, X̄100 est la proportion de pile en 100 lancers. Il s’agit alors d’évaluer
P (X̄100 ≥ 0.65). Comme X̄100 suit une loi normale par (4.33), il s’agit de la standardiser.
La moyenne µ de Xj (et de X̄100 ) est de 0.5 (pièce équilibrée). La variance
√ σ 2 de Xj est de
0.25, donc Var(X̄100 ) = 0.25/100 = 1/400, et l’écart type de X̄100 vaut 1/400 = 1/20 = 0.05.
Ainsi
X̄100 − 0.5 0.65 − 0.5
P = P (X̄100 ≥ 0.65) = P ( ≥ ) = P (X̄100
s
≥ 3) = 1 − Φ(3) = 0.00135
0.05 0.05
(4.36)
que l’on peut comparer avec la valeur exacte 18 (4.35) qui est P = 0.00176.
L’approximation fournit le bon ordre de magnitude, à défaut d’être excellente. En fait, on
a ici approximé la distribution d’une variable discrète (le nombre de pile en n lancers)
par une variable continue (une moyenne suivant une loi normale). Or, dans le problème
original discret, P (X̄100 ≥ 0.65) = P (X̄100 > 0.64), ce qui fait que le seuil 0.64 apparaı̂t
tout aussi légitime que le seuil 0.65 utilisé dans (4.36).
Un (bon) compromis entre ces deux candidats est de prendre leur valeur moyenne, à savoir
le seuil 0.645 : cette façon de faire est connue sous le nom de correction de continuité. Elle
aboutit ici à l’approximation normale
X̄100 − 0.5 0.645 − 0.5

P = P (X̄100 ≥ 0.645) = P ( ≥ ) = P (X̄100
s
≥ 2.9) = 1 − Φ(2.9) = 0.00187
0.05 0.05
qui est plus proche de la valeur exacte 0.00176.
5.7 Lois dérivées de la loi normale : lois du t, du χ2 , du F (*)

La plupart des distributions rencontrées dans les tests statistiques de base sont directement
issues de la loi normale, du moins lorsque la taille n de l’échantillon est suffisamment
grande, théorème central limite oblige. Les tables statistiques, ou les valeurs fournies par
les logiciels, permettent à l’utilisateur d’utiliser ces distributions sans qu’il soit nécessaire
d’en maı̂triser leur origine ou leur propriétés.
Voilà pour la théorie. Dans la pratique, ce même utilisateur rencontrera tôt ou tard des
situations problématiques, et sera assailli par des doutes ; une certaine compréhension de
la nature des distributions statistiques classiques se révélera alors précieuse pour clarifier
ses idées et renforcer son jugement autonome.
18. obtenue avec R comme 1-pbinom(q=64,size=100,prob=0.5), ou bien de façon équivalente comme
pbinom(q=64,size=100,prob=0.5,lower.tail=FALSE)
78
0.5
2.0
df1=1 df2=1
f(x) = densité de probabilité du χ2[df] df=1 df=1
f(x) = densité de probabilité du F[df1,df2]

0.4
f(x) = densité de probabilité du t[df]
df1=3 df2=2
df=2 df=2 df1=10 df2=2
df=3 df=3 df1=2 df2=10
0.4
df1=100 df2=3
df=6 df=100
1.5
0.3
df=10
0.3
1.0
0.2
0.2
0.5
0.1
0.1
0.0
0.0
0.0
0 5 10 15 20 25 -4 -2 0 2 4 0 1 2 3 4 5
x x x
F IGURE 4.13 – Gauche : distribution du chi2 χ2 [df] pour différents degrés de liberté df.
(1) Soient X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ),... Xq ∼ N (µq , σq2 ) un ensemble de q
variables gaussiennes indépendantes, de moyennes et de variances quelconques.
Alors la variable somme X ∶= X1 + X2 + ... + Xq suit également une loi normale
N (µ, σ 2 ), de moyenne µ = µ1 + µ2 + ... + µq et de variance σ 2 = σ12 + σ22 + ... + σq2 .
(2) Soient X1 ∼ N (0, 1), X2 ∼ N (0, 1),... Xq ∼ N (0, 1) un ensemble de p variables

gaussiennes standardisées indépendantes. Alors la distribution de la somme des
carrés Y ∶= X12 + X22 + ... + Xq2 suit une loi appelée loi du chi-carré (ou chi-deux) à q
degrés de liberté, et notée χ2 [q].
Si Y ∼ χ2 [q], alors E(Y ) = q et Var(Y ) = 2q (figure 4.13 gauche).
(3) Soient √X ∼ N (0, 1) et Y ∼ χ2 [q] deux variables indépendantes. Alors la variable

T ∶= X/ Y /q suit une loi appelée loi du t (ou loi de Student) à q degrés de liberté,
et notée t[q] (figure 4.13 milieu).
Si T ∼ t[q], alors E(T ) = 0 et Var(T ) = q/(q − 2), pour q ≥ 3. Pour q = 1 ou q = 2,
la variance est infinie. La loi de Student pour q = 1 est appelée loi de Cauchy. Pour
q grand, la distribution de Student t[q] converge vers la distribution normale stan-
dard N (0, 1).
(4) Soient Y1 ∼ χ2 [q1 ] et Y2 ∼ χ2 [q2 ] deux variables indépendantes. Alors la variable

Z ∶= (Y1 /q1 )/(Y2 /q2 ) suit une loi appelée loi du F (ou loi de Fisher) à q1 et q2 .
degrés de liberté, et notée F [q1 , q2 ] (figure 4.13 droite).
Si Z ∼ F [q1 , q2 ], alors E(Z) = q1 /(q2 −2)√ (l’expression pour Var(Z) est compliquée).
Aussi, le carré de la variable T = X/ Y /q ∼ t[q] définie en (3) est T 2 = X 2 /(Y /q),
où X 2 ∼ χ2 [1]. Ainsi, T 2 ∼ F [1, q], i.e. t2 [q] = F [1, q].
En résumé, les distributions du χ2 [q] et du t[q] constituent une famille de distributions
continues indicées par un entier q = 1, 2, 3, . . ., appelé degré de liberté et souvent noté
df=q (pour “degree of freedom”). La distribution continue du F [q1 , q2 ] est une famille
doublement indicée par les entiers q1 , q2 ≥ 1, souvent notés df1 et df2 .
A l’instar de la distribution normale standard, la distribution du t[df] décrit des valeurs
aussi bien négatives que positives. Elle est symétrique autour de zéro, et tend vers la dis-
tribution normale standard lorsque df1 → ∞. Par contraste, les distributions continues
χ2 [df] et F [df1 , df2 ] ne décrivent que des valeurs non-négatives (figure 4.13).
5.8 Variance infinie : le hasard ”sauvage” (*)

La loi des grands nombres et le théorème central limite, qui sont au coeur de l’applica-
tion des statistiques classiques à toutes les disciplines de sciences naturelles, humaines
et sociales, repose sur une condition simple mais cruciale, qui est l’existence d’une va-
riance σ 2 = Var(Xj ) finie pour chaque variable individuelle Xj entrant dans la moyenne
79
X̄n = 1
n
n
∑j=1 Xj .
Toute densité de probabilité f (x) doit tendre vers zéro lorsque ∣x∣ → ∞ (sans quoi l’intégrale
sous la densité serait infinie), mais il est tout-à-fait possible, mathématiquement parlant,
que cette décroissance ne soit pas suffisamment rapide pour assurer la finitude de Var(X)
dans (4.12). Tel est par exemple le cas de
1 exp(− 1 )
f (x) = (Loi de Cauchy) et f (x) = √ x3 (pour x ≥ 0 ; Loi de Lévy)
π(1 + x2 ) π x2
(4.37)
dont les variances sont infinies (figure 4.13 milieu pour df=1 ; et figure 4.14 gauche).
Pour de telles distributions, la loi des grands nombres et le théorème central limite sont
invalides, ainsi que le démontre la figure 4.10 droite, où les valeurs Xj sont tirées selon
une loi de Cauchy (qui est la distribution du t à 1 degré de liberté) : le caractère infini de
la variance fait que, lors de tirages successifs de valeurs issues de telles distributions, des
valeurs extrêmement élevés peuvent soudainement apparaı̂tre dans une série de valeurs
qui s’étaient auparavant comportées de façon tout à fait “modérée”.
L’observateur ne peut être que frappé par le caractère imprédictible et violent de l’ap-
parition de ces valeurs rares mais extrêmes : Mandelbrot 19 parle à cet égard de hasard
sauvage, par contraste avec le “hasard bénin” ou “sage” qui se laisse domestiquer (loi des
grands nombres, théorème central limite) dans le cas des variances finies. Taleb 20 , repre-
nant Mandelbrot, qualifie de cygnes noirs l’apparition soudaine de ces valeurs extrêmes,
pour en souligner le caractère imprévisible et souvent lourd de conséquences (catastrophes
naturelles, risques financiers), et notre difficulté à les intégrer dans notre conception du
monde.
On a recours aux distributions de variance infinie dans la modélisation
● d’événements naturels extrêmes tels crues subites, tremblements de terre
● de fluctuations boursières extrêmes, de crash financiers
● d’extrême inégalité dans la répartition des revenus, comme attestée dans la “loi de
Pareto” gouvernant les revenus très élevés
et de bien d’autres phénomènes encore, en particulier les phénomènes dits self-similaires,
pour lesquels le “tout” est identique (ou en relation simple) à chacune des parties qui le
constituent ; les objects fractals, étudiés et popularisés par Mandelbrot (op.cit.) en sont
l’incarnation emblématique (figure 4.14).
Un objet self-similaire n’a pour ainsi dire pas d’échelle caractéristique, et on ne sera pas
surpris que l’écart-type, qui constitue la mesure naturelle de l’extension ou unité naturelle
d’une variable aléatoire X, soit ici infini. Les distributions associées se comportent typi-
quement, pour les grandes valeurs x de X, comme des distributions du puissance (power
laws) décroissant comme x−a (avec a > 0), pouvant modéliser la distribution des grands
revenus (loi de Pareto), du nombre de “followers” dans les réseaux sociaux, du nombre
de délits reprochés à un accusé, de la sévérité et violence des conflits armés, du prix des
oeuvres d’art, de la taille des tourbillons de sable dans l’air sec et instable, etc.
Pour illustrer la propriété de self-similarité et d’invariance d’échelle, on peut considérer n
variables i.i.d. centrées Xj , qui sont des répliques indépendantes√ de X ∼ N (0, σ 2 ). Leur
moyenne X̄n = n ∑j Xj suit alors une loi N (0, σ /n), et donc nX̄n ∼ N (0, σ ), qui est la
1 2 2
même distribution que celle de X, ce que l’on note par n 2 X̄n ∼ X ou X̄n ∼ n− 2 X.
1 1
Si l’on était parti de la loi de Cauchy X ∼ t[1], on pourrait alors montrer que la distribution
de la moyenne X̄n est la même que celle de chacune des variables qui la constituent, i.e.
que X̄n ∼ X : le “tout” est alors aussi imprédictible que chacune de ses parties !
Pour générer des valeurs suivant une distribution de Cauchy, on peut générer une distribu-
19. Benoı̂t Mandelbrot (1975) Les objets fractals : forme, hasard et dimension, Flammarion
20. Nassim Nicholas Taleb (2007) The Black Swan : the impact of the highly improbable, Penguin
80
6. Estimations ponctuelles et intervalles de confiance
f(x) = densité de probabilité de Lévy

0.20
0.15
0.10
0.05
0.00
0 5 10 15 20 25
F IGURE 4.14 – Gauche : distribution standard de Lévy (4.37). Milieu et droite : objects fractals :
tapis de Sierpiński et chou romanesco.
tion uniforme continue dans [−π/2, π/2], puis lui appliquer la transformation “tangente”
(en radians) 21 :
si Y ∼ U(− π2 , − π2 ) alors X ∶= tan(Y ) ∼ t[1] .
Alternativement, on peut générer deux variables indépendantes normales standard, dont

le rapport suit également une loi de Cauchy :
si Y ∼ N (0, 1) et Z ∼ N (0, 1) alors X ∶= Y

Z
∼ t[1]
ce qui montre incidemment que l’inverse d’une variable de Cauchy est aussi une variable
de Cauchy :
si Y ∼ t[1] alors X ∶= Y1 ∼ t[1] .
Enfin, en considérant une loi de Lévy, on aurait que X̄n ∼ nX : le tout est davantage
imprédictible que chacune des parties qui le constituent ! C’est dur à imaginer, l’intuition
nous fait ici défaut...
Ces trois distributions sont des membres de la famille dite α-stable, pour laquelle
X̄n ∼ n α −1 X
1
α ∈ (0, 2]
avec α = 21 pour la distribution de Lévy, α = 1 pour la distribution de Cauchy, et α = 2 pour

la distribution normale (la seule pour laquelle la variance est finie), famille à laquelle
l’amateur curieux et intéressé pourra utilement se référer ,.
6 Estimations ponctuelles et intervalles de confiance

On a jusqu’ici joué au mathématicien probabiliste, qui étudiait la distribution des valeurs
possibles x d’une observation, ou d’une moyenne d’observations x̄n , selon la nature du
modèle (i.e. de la distribution de probabilité), supposé connu.
Mais, dans la vraie vie des scientifiques, seules les observations sont connues, et le modèle
est inconnu, naturellement. Tout l’enjeu consiste à inférer le modèle, i.e. de caractériser
entièrement ou partiellement ce dernier, à partir des observations. C’est le sujet de l’infé-
rence statistique : (très) vaste programme, qui va nous occuper un moment (chapitres ??
et suivants), et qu’on peut initier par la question “que peut-on dire des valeurs possibles
de la moyenne théorique µ à partir de la moyenne empirique x̄n ?
21. Carles M. Cuadras (2002) Geometrical understanding of the Cauchy distribution. Qüestiió : quaderns d’es-
tadı́stica i investigació operativa 26, pp. 283–287
81
6.1 Estimation ponctuelle d’une moyenne, d’une proportion, d’une variance

On peut estimer un paramètre théorique θ intervenant dans une loi de probabilité par une
seule valeur dépendant de l’échantillon x = {x1 , . . . , xn }, notée θ̂(x). On dit que θ̂(x) est
un estimateur ponctuel de θ.
Un principe (ce n’est pas le seul possible) guidant la détermination de θ̂(x) est d’exiger
que l’estimation soit sans biais (unbiased), i.e. que, en moyenne, elle fournisse la valeur
correcte du paramètre théorique, i.e. que
E(θ̂(x)) = θ estimateur sans biais
Tel est le cas de la moyenne empirique µ̂(x) ∶= x̄n pour l’estimateur de la moyenne
théorique µ. En effet,
1 n 1 n
E(µ̂(x)) = ∑ E(Xi ) = ∑ µ = µ
n i=1 n i=1
comme il se doit. Pour les même raisons, la proportion empirique p̂j (x) ∶= fj d’une
catégorie j est un estimateur sans biais de la proportion théorique correspondante pj .
Par contre, la variance empirique s2 = var(x) n’est pas un estimateur sans biais de la
variance théorique σ 2 : on peut prouver que
n−1 2
E(s2 ) = E(var(x)) = σ
n
ce qui démontre que var(x) sous-estime systématiquement la valeur de la “vraie variance”
σ 2 , et ce d’autant plus que n est petit : la sous-estimation est de 10% pour n = 10, de
1% pour n = 100, etc. Pour cette raison, on introduit une version modifiée de la variance
̂
empirique dite sans biais (unbiased sample variance), notée ŝ2 ou var(x) et définie comme
1 n n 2 n
̂
ŝ2 = var(x) ∶= ∑(xi − x̄) =
2
s = var(x) telle que E(ŝ2 ) = σ 2 (4.38)
n − 1 i=1 n−1 n−1
comme il se doit 22 .
Comme exemple emblématique, on a toujours, pour n = 1, que s2 = 0, qui ne saurait bien
sûr constituer une estimation raisonnable de la variance théorique σ 2 , puisque l’on ne
dispose que d’une seule observation. Par contraste, (4.38) donne ŝ2 = 0/0 = indéterminé,
qui est la seule estimation de la variance théorique qui fasse sens pour n = 1.
6.2 Principe de l’intervalle de confiance

On sait, par la loi des grands nombres, que la moyenne théorique µ est proche de la
moyenne empirique x̄n si n est assez grand. On aimerait, typiquement, déterminer un
intervalle de confiance (confidence interval) de la forme [x̄n − ε(α), x̄n + ε(α)] tel que µ s’y
trouve avec une grande probabilité 1 − α, où la valeur α est petite (typiquement α = 5%
ou α = 1%), i.e. tel que
P (µ ∈ [x̄n − ε(α), x̄n + ε(α)]) = 1 − α (4.39)
Plus petit est α, plus grande devra être la demi-largeur ε(α) de l’intervalle. On s’attend à
ce que
● limα→0 ε(α) = ∞, i.e. on est certain de trouver la valeur de µ quelque part dans R :
un sage constat, qui n’apporte toutefois guère d’information sur µ.
● limα→1 ε(α) = 0, i.e. la probabilité que µ = x̄n exactement est nulle. Dans cette limite,
l’intervalle de confiance se réduit à l’estimation ponctuelle µ̂ = x̄n de la section 6.1.
̂
22. c’est cette variance sans biais var(x) que nombre de logiciels tels R ou SPSS indiquent comme “variance”
par défaut
82

0.4
0.3
0.2
0.1
α 1−α α
2 2
0.0
uα2 = − u1−α2 u1−α2
-5 -4 -3 -2 -1 0 1 2 3 4 5
F IGURE 4.15 – Pour une distribution normale standard, l’intervalle [−u1− α2 , u1− α2 ] délimite une
zone de probabilité 1 − α
6.3 Intervalle de confiance pour la moyenne (variance connue)

On suppose que la moyenne théorique µ est inconnue, mais que l’on connaı̂t la variance
théorique σ 2 , qui est finie, et la moyenne empirique x̄n . Alors, si la taille de l’échantillon n
est suffisamment grande, on peut appliquer le théorème central limite (4.33) qui dit que
la moyenne standardisée suit une loi normale standard :
x̄n − µ √
x̄sn ∶= n ∼ N (0, 1)
σ
et ainsi (figure 4.15)
P (−u1− α2 ≤ x̄sn ≤ u1− α2 ) = Φ(u1− α2 ) − Φ(−u1− α2 ) = (1− α2 )− α2 = 1 − α
que l’on peut réécrire comme

σ
P (µ − ε(α) ≤ x̄n ≤ µ + ε(α)) = 1 − α avec ε(α) = √ u1− α2 . (4.40)
n
Mais l’énoncé (4.40), qui fournit un intervalle de confiance pour la moyenne empirique
centré sur la moyenne théorique, est exactement équivalent à
P (x̄n − ε(α) ≤ µ ≤ x̄n + ε(α)) = 1 − α avec ε(α) = √σ u1− α2 (4.41)

n
qui donne l’intervalle de confiance pour la moyenne théorique, centré sur la moyenne
empirique, lequel est précisément de la forme (4.39) recherchée.
6.4 Intervalle de confiance pour la moyenne (variance inconnue)

Dans la section précédente, la supposition que la variance théorique σ 2 était connue est
très artificielle : on n’a en général accès qu’à la variance empirique s2 = var(x). Dans ce
cas, l’intervalle de confiance devient
P (x̄n − ε(α) ≤ µ ≤ x̄n + ε(α)) = 1 − α avec ε(α) = √s t α [n−1] = √ŝ t1− α [n−1] (4.42)
n−1 1− 2 n 2
où t1− α2 [n−1] est le (1− α2 )-ème quantile de la loi du t à n − 1 degrés de liberté. L’identité
(4.42) est exacte, même pour n petit, si la distribution des observations individuelles est
elle-même normale (ce qui est l’exception plutôt que la règle) ; elle devient toutefois exacte
dans le cas général pour n grand, en vertu du théorème central limite.
La plus grande dispersion de la distribution du t[n−1] par rapport à la distribution normale
standard, d’autant plus marquée que n est petit, fait que les intervalles de confiance (4.42)
83
sont plus grands que ceux basés sur (4.41) (lorsque σ 2 et ŝ2 sont identiques) : par exemple,
pour n = 10 et n = 100, et pour α = 5% (intervalles de confiance à 95%), on a
t0.975 [9] = 2.26 t0.975 [99] = 1.98 u0.975 = 1.96 .
De même, pour α = 1% (intervalles de confiance à 99%), on a
t0.995 [9] = 3.25 t0.995 [99] = 2.63 u0.995 = 2.58 .
Exemple 22 (intervalle de confiance pour une taille).

La taille moyenne de 10 hommes adultes, représentatifs d’un certaine population, est de
175 cm, avec un écart-type de 10 cm. Pour déterminer l’intervalle de confiance à 95%, on
calcule, selon (4.42)
10 10
ε = √ t0.975 [9] = √ 2.26 = 7.54 cm et donc µ ∈ [167.46 cm, 182.54 cm]
9 9
On trouverait de même que l’intervalle de confiance à 99% serait de [164.17 cm, 185.83 cm].
Si l’on nous avait communiqué un √ écart-type théorique de σ = 15 cm, on aurait eu, selon
(4.41), et pour α = 5%, que ε = (15/ 10)⋅1.96 = 6.20cm, et donc un intervalle de confiance
[168.80 cm, 181.20 cm] pour la moyenne théorique µ.
6.5 Intervalle de confiance pour la proportion

Une proportion théorique p est la moyenne p = E(X) d’une variable indicatrice X prenant
des valeurs 1 ou 0. Toutefois, sa variance Var(X) = p(1 − p) est ici entièrement déterminée
par cette valeur moyenne, ce qui justifie un traitement séparé de l’intervalle de confiance
pour la proportion :
√
f (1−f )
P (f − ε(α) ≤ p ≤ f + ε(α)) = 1 − α avec ε(α) = n
u1− α2 (4.43)
où f est la proportion empirique correspondante. De nouveau, l’intervalle (4.43) devient

exact pour n → ∞.
Exemple 23 (intervalle de confiance pour une proportion).

Une sondage représentatif indique que, parmi 100 futurs votants interrogés, 58 personnes
se déclarent en faveur d’une certaine initiative fédérale. Pour déterminer l’intervalle de
confiance (4.43) à 95% pour la proportion réelle√p de “oui” exprimés dans toute la po-
pulation, on calcule la marge d’erreur ε(.05) = 0.58(1−0.58)
100
u0.975 = 0.097 = 9.7%, soit
p ∈ [58% − 9.7%, 58% + 9.7%] = [48.3%, 67.7%], ce que l’on exprime parfois comme p =
58% ± 9.7%.
A noter que le seuil de majorité de p = 50% se trouve dans l’intervalle, i.e. les chances que
l’initiative soit acceptée est, sur la base du sondage, inférieure à 95%. Si le sondage avait
porté sur 1000 futurs votants, dont 580 se seraient√ déclarés en faveur de l’inititative, la
marge d’erreur aurait été réduite d’un facteur 1/ 10 = 0.316, soit ε(.05) = 3.1%, une valeur
certes moindre qu’avec n = 100, mais qui reste relativement élevée : il est coûteux d’obtenir
une bonne précision pour une proportion ; un calcul simple montre que, pour f = .58, il
faudrait disposer d’un échantillon de taille d’au moins n = 9358 pour réduire la marge
d’erreur ε(.05) à moins de 1%.
84
5 Introduction à l’inférence et aux tests
statistiques
Lorsqu’un chercheur s’intéresse à des données D de sciences naturelles (par exemple :

distribution des espèces végétales dans un étang) ou de sciences sociales (par exemple :
dynamiques sociales au sein d’une classe de collège), c’est rarement cet échantillon parti-
culier D (cet étang, cette classe) qui l’intéresse en soi, mais plutôt les régularités (relations,
patterns, etc.) qu’il pourra inférer à partir de D, régularités qui devraient également être
observées sur d’autres échantillons D′ de même nature que D (un autre étang, une autre
classe), mais de composition forcément différente.
Ces régularités sensées être “universelles” (s’appliquant à tous les étangs, toutes les classes)
peuvent, à ce niveau de généralité, être appelées lois, modèles ou hypothèses ; on les note
ici par H.
Faire de l’inférence ou de l’induction, c’est dire quelque chose (d’argumentable, de défen-
dable) sur H (sa forme possible, sa vraisemblance, etc.) à partir de D. Cette définition très
large recoupe pour l’essentiel celle de l’activité scientifique.
On considère ici des modèles probabilistes, exprimant les régularités empiriques sous la
forme de distributions de probabilité, et on parle alors d’inférence statistique. Ses concepts
et principes de base, ainsi que leur opérationnalisation, sont introduits dans ce chapitre.
1 Modèles et données : modèles probabilistes et déterministes

Les modèles probabilistes du chapitre 4 peuvent s’écrire sous la forme générale
P (H∣D) (5.1)
où D, les données, désigne les observations, tandis que H, l’hypothèse, la théorie ou le
modèle lui même, spécifie la probabilité P (D∣H) des observations D en admettant que
l’hypothèse H soit correcte.
Par exemple, trois lancers d’un dé donnent D = {3, 5, 5}, avec comme modèle possible
(parmi de nombreux autres) H = “lancers indépendants et distribution uniforme sur les
faces”. Ou bien, les tailles en centimètres de quatre adultes sont de D = {90, 170, 165, 167}
avec comme modèle possible H = “tailles indépendantes distribuées comme N (170, 102 )”.
La notation P (H∣D), qui permet d’expliciter tant H que D et donc de discuter de leur
relation (c’est l’objet du chapitre) est pratique, générale, et demande à être précisée : selon
le contexte, D peut par exemple décrire une seule observation, ou tout l’échantillon ; ou
consister d’observations univariées (par ex : la face du dé) ou au contraire multivariées
(la face du dé, mais aussi sa position sur la table, son orientation, sa température, etc.).
L’expression mathématique de la fonction de distribution P (D∣H) dépend bien sûr de la
nature des données (discrètes ou continues, univariées ou multivariées, etc.), mais rien ne
limite a priori la variété de ses formes possibles, à l’exception des deux conditions cruciales
P (D∣H) ≥ 0 ∑ P (D∣H) = 1 (5.2)
D
85
1. Modèles et données : modèles probabilistes et déterministes
où la somme porte sur toutes les observations D possibles. En particulier, le support de
la distribution, défini comme l’ensemble des observations D possibles selon le modèle, i.e.
telles que P (D∣H) > 0, peut être très étendu, auquel cas les prédictions du modèle H
auront un caractère très incertain ou très aléatoire 1 ; à l’inverse, le support peut être
concentré sur une seule observation D0 , qui est alors certaine (et les autres impossibles), et
l’on a ici affaire à un modèle déterministe.
On attend d’un bon modèle H
(a) qu’il soit valide, i.e. qu’il décrive correctement, dans le cas d’un modèle probabi-
liste, la distribution empirique des observations D, ou dans le cas d’un modèle
déterministe, l’exacte et unique prédiction empirique D0
(b) qu’il soit concis, i.e. que son expression mathématique soit raisonnablement simple,
et qu’il contienne peu de paramètres ajustables (voir section 4)
(c) qu’il soit aussi universel que possible, i.e. qu’il décrive un ensemble de données
aussi grand que possible (quitte à augmenter le nombre de paramètres, mais pas
trop) 2 .
Ainsi, un bon modèle permet de restreindre, de compresser l’apparente infinité des obser-
vations possibles par une règle ou Loi (déterministe ou probabiliste) beaucoup plus stricte,
régentant leur apparition.
Exemple 24 (Gravitation universelle 3 ).
La chute des corps (sur Terre, en négligeant le frottement),

ou le mouvement des planètes peuvent être décrites par un
formalisme extraordinairement concis, celui de la Gravita-
tion universelle : une fois connues les masses des corps en
jeu, ainsi que leurs positions et vitesses initiales, les trajec-
toires futures des corps sont déterminées de façon unique –
un exemple prototypique de modèle déterministe, permet-
tant de prédire exactement la date de la prochaine éclipse
de Lune, ou du prochain passage de la comète de Halley. Isaac Newton, 1642–1727
Exemple 25 (Dé à m faces). En lançant n fois un certain dé à m faces, peut-être irrégulier,
après l’avoir secoué dans un gobelet (pour neutraliser le mouvement du lanceur et casser
toute dépendance entre lancers successifs), on obtient nj fois la face j = 1, . . . , m.
1. au lieu que par la taille du support, l’incertitude des prédictions est, dans le cas quantitatif univarié,
généralement mesurée par la variance des observations, ou plus généralement par l’entropie de la distribution,
définie dans le cadre de la Théorie de l’Information.
2. toutes choses étant égales par ailleurs, un modèle valide de répartition des revenus en Europe dans les
années 2020 est plus général qu’un modèle valide de répartition des revenus dans le seul district d’Echallens
dans les années 2020 , mais moins général qu’un modèle valide de répartition des revenus dans tous les lieux et
à toutes les époques – même si ce dernier contiendra, vraisemblablement, davantage de paramètres (section 4)
associés aux lieux, aux époques ou à la structure socio-économique dominantes.
3. Newton, I. (1687) Principia mathematica philosophiae naturalis, Halley, E. (ed.), Londres
86
2. Induction et déduction
La distribution de ces effectifs est, en l’absence de

toute autre influence ou vieillissement du dé, par-
faitement décrite par le modèle multinomial de
paramètres B(p1 , . . . , pm , n), qui constitue (pour
n fixé) un modèle probabilité à m−1 paramètres :
si l’on fixe disons la valeur des paramètres p1 ,
p2 , . . . , pm−1 , alors pm est déterminé par la condi-
tion ∑m j=1 pj = 1.
Comme tout modèle probabiliste, ce modèle mul-
tinomial engendre des fluctuations des valeurs
observées. Par exemple, la variance du nombre
d’apparitions de la j-ème face vaut Var(nj ) =
npj (1 − pj ).
Lors d’un jeu de hasard, il serait évidemment sou-
haitable de mieux pouvoir prédire quelle face ap-
paraı̂tra au prochain coup, et donc de modéliser
le processus à l’aide d’un modèle alternatif dont
la variance serait inférieure, voire nulle en choi-
sissant un modèle alternatif déterministe ayant la
prétention de prédire exactement la prochaine oc-
curence.
Cela étant, dans la mesure où B(p1 , . . . , pm , n) est bien le modèle gouvernant le lancer du
dé, tous ces efforts d’‘amélioration” seront vains et contre-productifs – un état de fait que
le formalisme de l’inférence statistique, introduite ici, permet de démontrer effectivement.
2 Induction et déduction
2.1 Réfutabilité déterministe
Le mouvement partant de données D particulières pour aller vers des modèles H généraux
s’appelle induction, et le mouvement inverse déduction.
S’il est possible de déduire rigoureusement d’une théorie tenue pour vraie un certain
nombre de faits, à la manière du mathématicien prouvant des théorèmes à partir d’un
système d’axiomes, l’opération d’induction quant à elle ne possède pas le même caractère
de rigueur : on peut induire à partir de l’expérience quotidienne que “le soleil se lèvera
demain” 4 ; rien cependant n’empêcherait logiquement le soleil de ne pas se lever demain,
contredisant ainsi la théorie.
La dissymétrie entre induction et déduction reflète celle de l’implication logique “⇒” :
supposons que H soit une théorie déterministe que l’on tienne pour vraie ; on peut alors
constituer une liste de prédictions empiriques D entraı̂nées par H, c’est-à-dire pratiquer
la déduction en prouvant que H ⇒ D : ceci constitue une occupation qui peut s’avérer
passionnante, même si H est fausse, comme en témoigne le physicien mathématicien cal-
culant à quoi ressemblerait la matière dans un monde à 2 ou à 26 dimensions.
Dans ce contexte, faire de l’induction consisterait à remonter à H à partir de D. Or, si
les événements “H ⇒ D” et “D” sont tous deux vrais, il n’est pas possible de conclure
que H le soit également. Par contre, si “H ⇒ D” est vraie, mais que “D” soit fausse (i.e.
que les prédictions empiriques D ne soient pas observées), alors on peut conclure que
H est fausse : une théorie ne peut jamais être prouvée, mais seulement éventuellement
contredite par des faits, comme l’ont argumenté Karl Popper et l’école de pensée dite
du Réalisme Critique 5 . Plus précisément, s’il est possible d’imaginer des faits D contre-
4. Hume, D. (1738) A Treatise of Human Nature, Noon, J. (ed.), Londres
5. voir par exemple Chalmers, A.F. (1990) Qu’est-ce que la science ? Récents développements en philosophie des
sciences : Popper, Kuhn, Lakatos, Feyerabend, Ed. La Découverte, Paris
87
disant une théorie H, cette théorie sera dite réfutable. Toute théorie scientifique devrait
être réfutable. La Mécanique Classique (Galilée, Newton) et la Mécanique Relativiste (Ein-
stein), sont réfutables (la première a d’ailleurs été réfutée, la seconde pas (encore)). L’As-
trologie, la Psychanalyse, la doctrine du Matérialisme Dialectique ou celle du Libéralisme
Economique ne sont pas réfutables, car trop imprécises, trop “molles” dans leurs prédictions
pour pouvoir être contredites (on a par exemple beaucoup de peine à imaginer une
expérience dont l’issue pourrait faire conclure à la fausseté des mécanismes symboliques
du rêve tels que décrits par Freud) : ces théories ne sont pas scientifiques à l’aune de la
réfutabilité, sans que cela ne préjuge en soi de leur valeur esthétique ou heuristique.
Il existe un moyen direct, presque automatique, de sauver la plus grande partie d’un
modèle qui se trouverait falsifié par de nouvelles données : il s’agit simplement d’en res-
treindre le domaine de validité. Par exemple, lorsque les données concernant la trajectoire
d’Uranus se trouvèrent en désaccord avec celles prédites par le modèle Newtonien de la
gravitation (H0 ), on aurait pu “sauver” l’essentiel de ce dernier en le remplaçant par H1 :
“la théorie de la gravitation universelle s’applique à tous les corps sauf Uranus”. Il s’agit
là d’un exemple type d’un aménagement dit ad hoc du modèle, ne débouchant sur aucune
nouvelle prédiction, et laissant en particulier complètement dans l’ombre la raison de l’ex-
ception uranienne : bien qu’irréprochable d’un point de vue logique, ce type de pratique
serait difficilement qualifiable de scientifique.
Dans cet exemple, il était naturel d’explorer les conséquences du remplacement de H0
par une théorie non ad hoc, à savoir H2 : “la théorie de la gravitation universelle est
correcte, mais on n’a pas tenu compte de l’influence éventuelle sur Uranus d’un corps
céleste inconnu”. Comme on le sait, le modèle H2 a conduit, moyennant observations et
calculs, à la découverte de Neptune (U. Le Verrier, et J.C. Adams, 1846).
2.2 Réfutabilité probabiliste

La différence majeure entre modèles déterministes et modèles probabilistes est que, s’il est
possible de réfuter les premiers par une seule observation, les seconds ne sont réfutables
au sens strict qu’au bout d’un nombre infini d’observations : par exemple, la théorie déter-
ministe H1 : “cette pièce ne produit que des “pile” est strictement réfutée par l’observa-
tion d’un seul lancer “face”. Par contre, la théorie probabiliste H2 : “cette pièce produit
”pile” avec probabilité 0.5” est, d’un point de vue strict, compatible avec n’importe quelle
séquence de longueur n, telle que F P F P P F P F F F P ou F F F F F F F F F F , bien qu’il soit
assez facile d’objecter à la régularité de la seconde séquence (complétée à volonté par des
F uniquement), et de démontrer son incompatibilité avec H2 pour n → ∞ (voir l’exemple
27).
Comme la plupart des modèles H auxquels nous sommes confrontés (dans la pratique
scientifique ou la vie de tous les jours) sont probabilistes, il en découle que, face à un
nombre fini de données D, la conclusion que l’on est en droit d’espérer, dans le meilleur des
cas, est que la théorie H est peu vraisemblable. Les concepts de niveau de signification α et
de valeur p, abordés plus loin, constituent une formalisation quantitative de cette notion :
on verra que p mesure la vraisemblance du modèle H face aux données D, et que le rejet d’un
modèle H sera d’autant plus fondé que p est petit. La mécanique des relations entre p (ou
α), H et D constitue la théorie des tests statistiques. Avant de l’aborder directement sous
sa forme opérationnelle, il est éclairant de donner un aperçu de son “squelette” principal,
constitué par l’utilisation de la règle de Bayes.
2.3 La règle de Bayes et l’induction

L’impossibilité de prouver la véracité d’une théorie, autrement dit le fait que l’induc-
tion ne soit pas (ou mal) fondée logiquement n’empêche pas qu’elle soit existentiellement
nécessaire : il faut avoir un modèle de ce qu’est le monde pour pouvoir y vivre, ne serait-ce
qu’un modèle minimal tenant pour vrai que le soleil se lèvera demain. Malgré l’absence
88
de solution purement logique générale au problème de l’induction, des progrès ont pu ce-
pendant être obtenus dans des cas particuliers, en faisant intervenir à un moment ou à un
autre la règle de Bayes
P (D∣H) P (H)
P (H∣D) = . (5.3)
P (D)
Exemple 26 (un coup de mou). Une personne se sent fatiguée et sans énergie depuis
quelques jours (D), sans cause apparente. Est-ce là le signe d’une maladie cachée (H) ?
On a :
P (fatigue∣maladie) P (maladie)
P (maladie∣fatigue) = (5.4)
P (fatigue)
En d’autres termes, cette personne, suite au constat de son état de fatigue, a d’autant plus
de raisons de soupçonner l’existence d’une maladie qu’elle estime que
● une maladie pourrait entraı̂ner de la fatigue (P (fatigue∣maladie)).
● une maladie est possible (P (maladie)).
● la fatigue est un événement rare (1/P (fatigue)) : si la personne est fréquemment
fatiguée, elle n’a en effet pas de raison particulière de soupçonner l’existence d’une
maladie, à moins bien sûr que ses états de fatigue précédents n’aient été associés
avec des états de maladie ; mais cette circonstance est déjà décrite par le terme
P (fatigue∣maladie).
Exemple 27 (concurrence entre deux hypothèses). Admettons que l’on ait des raisons
de croire (par exemple suite à une longue expérience en fouilles archéologiques) que, à
propos d’une urne scellée contenant de (très nombreuses) billes, l’une seulement des deux
hypothèses suivantes soit vraie, à savoir
1. H1 : “toutes les billes sont noires”
2. H2 : “la moitié des billes sont blanches, et l’autre noire”.
Le modèle H1 est déterministe. Par contraste, H2 est équivalent à “la probabilité qu’une
bille soit noire est de 0.5” : c’est un modèle probabiliste.
Supposons que l’on extraie n billes de l’urne, et que l’observe D : “n billes noires consécu-
tives”. Comme :
● P (H1 ) + P (H2 ) = 1 (car seules les hypothèses H1 et H2 sont considérées comme
possibles)
● P (D) = P (D∣H1 ) P (H1 ) + P (D∣H2 ) P (H2 ) (schéma “en arbre” toujours vrai)
● P (D∣H1 ) = 1 (hypothèse déterministe)
● P (D∣H2 ) = ( 21 )n (loi binomiale)
on déduit de (5.3) que
P (D∣H1 )P (H1 ) P (H1 )
P (H1 ∣D) = = (5.5)
P (D∣H1 ) P (H1 ) + P (D∣H2 ) P (H2 ) P (H1 ) + ( 12 )n (1 − P (H1 ))
( 12 )n P (H2 ) P (H2 )
P (H2 ∣D) = 1 − P (H1 ∣D) = = (5.6)
P (H1 ) + ( 12 )n P (H2 ) 2n (1 − P (H2 )) + P (H2 )
Les probabilités P (H1 ) et P (H2 ) = 1 − P (H1 ) s’appellent priors : elles représentent la

confiance a priori que l’on a dans les hypothèses H1 et H2 : en cas d’incertitude complète,
on peut par exemple poser P (H1 ) = P (H2 ) = 21 . Les quantités P (H1 ∣D) et P (H2 ∣D) sont
les probabilités correspondantes a posteriori, i.e. évaluées après avoir pris connaissance
des données. Les expressions (5.5) et (5.6) sont représentées en figure 1, dans les cinq
cas suivants : p(H1 ) = 0 ; p(H1 ) = 0.01 ; p(H1 ) = 0.5 ; p(H1 ) = 0.8 et p(H1 ) = 1 (avec
p(H2 ) = 1 − p(H1 ), naturellement).
L’aspect remarquable des formules (5.5) et (5.6) est que, si le nombre n de billes tirées
devient grand, et que D est observé, alors H1 devient certain et H2 impossible, au sens où
limn→∞ P (H1 ∣D) = 1 et limn→∞ P (H2 ∣D) = 0 (figure 5.1) : le modèle probabiliste H2 est
réfuté par un échantillon D de taille arbitrairement grande.
89
3. Le sondage : population, échantillon et représentativité (*)
1.0
1.0
1.0
1.0
P(H1|D) P(H1|D) P(H1|D)
0.8
0.8
0.8
0.8
0.6
0.6
0.6
0.6
P(H1)=0.5 P(H1)=0.8 P(H1)=0.1 P(H1)=0
0.4
0.4
0.4
0.4
0.2
0.2
0.2
0.2
P(H1|D)
n n n n
0.0
0.0
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
F IGURE 5.1 – Exemple 27 : évolution de la probabilité a posteriori ou posterior P (H1 ∣D) (trait
plein) et P (H2 ∣D) = 1 − P (H1 ∣D) (traitillé) en fonction du nombre n (ici étendu à un nombre réel
plutôt qu’entier) de billes noires observées, et en fonction de la probabilité a priori ou prior P (H1 ).
La limite limn→∞ P (H1 ∣D) = 1 dit que l’hypothèse que toutes les billes sont noires devient certaine
au bout d’un nombre infini d’observations, pour autant que P (H1 ) > 0.
Cela est vrai quels que soient les priors P (H1 ) et P (H2 ), à condition qu’ils soient différents
de 0 ou 1 : si l’on pose en effet par exemple P (H) = 0 pour une certaine hypothèse H,
alors on aura toujours P (H∣D) = 0, quelles que soient les données observées (D). Au-
trement dit, si quelqu’un n’accorde au départ aucun crédit à une théorie, alors aucun fait
ultérieur ne pourra le faire changer d’avis ; une anomalie similaire se produit dans le cas
P (H) = 1 : la règle de Bayes (5.3) permet ainsi de décrire aussi bien le phénomène de per-
suasion raisonnée (pour 0 < P (H) < 1) que le phénomène de dogmatisme ou “fanatisme
épistémologique” (pour P (H) = 0 ou P (H) = 1).
Si l’on avait observé D̃ : “il y a au moins une bille blanche parmi les n billes consécutives”,
alors on aurait déjà P (H1 ∣D̃) = 0 et P (H2 ∣D̃) = 1 en un nombre fini de coups, puisque
l’observation d’une seule bille blanche D̃ suffit à réfuter le modèle déterministe H1 , et
donc à ne laisser survivre que son unique concurrent H2 .
En résumé, un modèle déterministe peut être réfuté par une seule contre-observation, tan-
dis qu’un modèle complètement probabiliste (i.e. n’interdisant aucune observation) n’est
réfutable au sens strict que par une infinité d’observations. Un ensemble fini d’observa-
tions ne peut donc que réduire (parfois astronomiquement) la confiance a priori P (H)
que l’on peut mettre en un modèle probabiliste H, sans l’annuler complètement toutefois.
3 Le sondage : population, échantillon et représentativité (*)

Le sondage (par exemple d’opinion) constitue également une procédure inférentielle statis-
tique : à partir d’un échantillon D (le sondage) on cherche ici à inférer les caractéristiques
d’une population P dont font partie les individus de D. Ces caractéristiques d’intérêt sont
constituées d’une ou plusieurs variables x, telles que x = “opinions et comportements po-
litiques” pour P = “citoyens suisses”, ou x = “caractéristiques physiques et abondance
d’une espèce végétale” pour P = “végétation de l’arc alpin”.
Il s’agit de distinguer la procédure du sondage de l’inférence basée sur les modèles pro-
babilistes de la section 1, même si de nombreux points sont communs. Dans les deux cas,
il s’agit typiquement d’estimer une caractéristique moyenne dite théorique x̄P , (proportion
de telle modalité, intensité moyenne de tel indicateur, etc.) dans la population P ou dans
le modèle H, à partir des données D.
90
3. Le sondage : population, échantillon et représentativité (*)
Le sondage le plus simple consiste à extraire, sans remise,

les n individus de l’échantillon, tous sélectionnés avec la
même probabilité à partir des N individus de la population,
comme n billes sont extraites sans remise d’une urne contenant
N ≫ n billes. Chacune des N billes a la même chance d’être
sélectionnée, et l’échantillon ainsi constitué est dit aléatoire
simple, avec un taux de sondage défini comme n/N . Sa consti-
tution suppose que l’on dispose d’une liste préalable de tous
les N individus de la population, et que l’on puisse y accéder
Urne (Vème s. av. J.-C.)
librement – une exigence le plus souvent irréaliste.
Dans le sondage stratifié, on segmente (partitionne) d’abord la population en plusieurs

sous-groupes ou strates déterminés par une variable y (par exemple : selon l’âge, la
formation, la profession, la région linguistique etc.) censés influencer fortement les ca-
ractéristiques d’intérêt (ici x “opinions et comportements politiques”), et dont les propor-
tions p(y) sont connues dans la population.
Comme x et y sont liés, la variabilité de x dans chacune des strates tend à y être moins
grande que dans la population, i.e. les strates sont relativement homogènes relativement
à x. On procède ensuite à un échantillonnage aléatoire dans chacune des strates, et estime
la caractéristique moyenne recherchée x̄P par
̂P = ∑ p(y) x̄y
x̄ (5.7)
y
où x̄y est la valeur de la caractéristique moyenne dans la strate y. Cette identité s’applique
quel que soit le taux de sondage ng /Ng > 0 dans chacune des strates, qui peut varier pour
toutes sortes de raisons (petit échantillon, strates peu accessibles) malgré le souhait du
chercheur. Cela étant dit, il est souhaitable de sur-échantillonner les strates y les moins ho-
mogènes (varY (X) grand), afin d’améliorer la précision de l’estimateur x̄ ̂P , typiquement
en leur appliquant un taux de sondage proportionnel à vary (x).
Quantité d’innovations ont été proposées et pratiquées (sondages à plusieurs degrés, son-
dages par grappes, par boule-de-neige, etc.) par les instituts de sondage publics ou privés.
Le sujet, qui n’est pas développé ici, est très vaste : l’étude et la pratique des sondages
relève de la science (rigueur et rationalité des principes d’inférence), mais aussi de l’art
(les instituts de sondage gardant volontiers leurs petits secrets censés améliorer leurs esti-
mations).
La question centrale est celle de la représentativité de l’échantillon (ou plutôt la repré-
sentativité du processus d’échantillonnage), définie ici ainsi : selon la méthode utilisée,
chaque échantillon possible D ⊂ P possède une certaine probabilité PP (D) d’être consti-
tué. En notant par x̄P la moyenne ou la proportion que l’on cherche à connaı̂tre dans la po-
pulation (par exemple : proportion de personnes votant “oui” à un certain objet politique
soumis en votation), et en notant par x̄D la même quantité mesurée dans l’échantillon D,
on dira que l’échantillon (ou plutôt le processus d’échantillonnage) est représentatif si
x̄P = ∑ PP (D) x̄D (5.8)
D
Dans un sondage aléatoire simple, chaque individu de la population P a la même chance

d’être sélectionné dans l’échantillon D qui sera constitué, lequel sera donc représentatif. La
définition (5.8) n’impose toutefois pas cette condition stricte d’équi-sélection entre indivi-
dus, mais la condition moins forte d’équi-distribution des valeurs de la variable x d’intérêt.
Pour le dire autrement, si, par exemple, l’on savait avec certitude 6 que la distribution
des opinions et comportements politiques (x) des neuchâtelois était en tout point iden-
tique à celle des jurassiens, il n’y aurait pas besoin de sélectionner des neuchâtelois dans
l’échantillon : des jurassiens suffiraient (et vice-versa).
6. un voeu pieux, naturellement
91
4. Inférence pour les modèles paramétriques
Attention : dans un autre sens (courant, et portant donc à confusion), un échantillon D

est dit représentatif si les fréquences relatives des variable de stratification y, supposées
fortement liées à la variable d’intérêt x, sont les exactement les mêmes que dans la po-
pulation P : même proportion de 20-25 ans, de divorcés, de travailleurs du secondaire,
d’habitants péri-urbains, dans telle tranche de revenu, etc. Cette méthode dite des quotas
génère des échantillons qui sont en quelque sorte des modèles réduits de P (relativement
à y), mais qui ne sont pas représentatifs au sens de (5.8).
Les répondants d’un questionnaire adressé à ses connaissances ne constituent aucunement
un échantillon représentatif, sauf en admettant que la population-cible est ... l’ensemble
des individus qui “ressemblent” à ses connaissances : il est évidemment totalement illu-
soire de vouloir prédire la proportion de “oui” dans la prochaine votation nationale en
l’estimant par la proportion correspondante au sein de son groupe d’amis. Il en est de
même de l’échantillon fortement biaisé des répondants à un questionnaire d’opinion, en
accès libre sur internet : y seront sur-représentés les personnes fortement mobilisées par
les questions posées (avec des opinions tranchées particulièrement négatives ou positives),
les personnes ayant un accès facile à internet et le loisir et l’envie d’y passer du temps, etc.
Dans ce dernier exemple, il est en principe envisageable de pouvoir redresser, du moins en
partie, la distribution des réponses pour estimer x̄P , à condition de connaı̂tre les catégories
de stratification des répondants y (âge, sexe, formation, statut familial, etc.) supposées liés
à x. Cette approche nécessite que toutes les strates pertinentes y (i.e. liées à x) soient
suffisamment représentées dans l’échantillon, et que leurs proportions p(y) soient connues
dans la population. En bref, beaucoup de conditions exigeantes (du point de vue des
données et de la méthodologie), bien rarement satisfaites en pratique.
A l’inverse, il est envisageable d’étudier les relations supposées universelles (i.e. valides ici
pour toute la population humaine P) entre, disons, un “score d’intelligence verbale” x1
et un “score d’intelligence spatiale” x2 en se limitant à, disons, des échantillons exclusive-
ment constitués d’étudiants de psychologie, à condition de postuler (et, encore mieux, de
vérifier) que les relations entre x1 et x2 ne dépendent pas de la strate y = (âge, type de
formation, etc.) en jeu.
4 Inférence pour les modèles paramétriques

Les modèles probabilistes utilisés en statistique sont des modèles paramétriques de la forme
P (D∣H) = f (D∣θ), où f () désigne une famille particulière de distributions et θ désigne un
(ou plusieurs) paramètre(s) spécifiant une et une seule distribution au sein de la famille
considérée.
On se limite ici au cas d’observations univariées, i.e. chaque observation porte sur une
seule caractéristique dénotée par x (numérique ou catégorielle), et indépendantes, i.e.
la probabilité d’observer la caractéristique xj pour le j-ème individu ne dépend pas des
observations xi faites sur les autres individus i ≠ j dans l’échantillon D = {xi }ni=1 formé
des n observations. Dans ces conditions,
n
P (D∣H) = P (x1 x2 . . . xn ∣H) = f (x1 ∣θ)f (x2 ∣θ)⋯f (xn ∣θ) = ∏ f (xi ∣θ) (5.9)
i=1
Par exemple :
● f (x∣θ) = px (1 − p)1−x : loi de Bernoulli (cas particulier

de la loi binomiale B(1, p) pour un seul lancer) donnant
la probabilité d’occurence de “pile” (codé x = 1) ou “face”
(codé x = 0) : paramètre θ = p
Jacques Bernoulli, 1654–1705
92
4. Inférence pour les modèles paramétriques
● f (x∣θ) = √ 1 2 exp(− (x−µ)

2
2σ 2
) : loi normale N (µ, σ 2 ) donnant la densité de probabi-
2πσ
lité d’occurence de la valeur x : paramètres θ = (µ, σ 2 ) .
4.1 Estimation par maximum de vraisemblance

On souhaiterait estimer la valeur du (ou des) paramètre θ en présence de n observations D.
Une stratégie très utilisée est la méthode dite du maximum de vraisemblance, qui consiste
à estimer θ par la 7 valeur θ̂ (supposée unique) qui maximise f (D∣θ), c’est à dire
max f (D∣θ) = f (D∣θ̂) i.e. θ̂ = arg max f (D∣θ) . (5.10)

θ θ
Par exemple, pour la loi de Bernoulli, l’estimation du maximum de vraisemblance de p, la

probabilité théorique de “pile” à chaque lancer, est égale à p̂ = k/n (le nombre de “pile” sur
le nombre de tirages), i.e. à la proportion empirique de “pile”.
De même, pour une loi normale, il se trouve que l’estimation du maximum de vraisem-
blance de la moyenne théorique µ est donnée par la moyenne empirique µ̂ = n1 ∑ni=1 xi = x̄,
et que l’estimateur du maximum de vraisemblance de la variance théorique σ 2 est donnée
̂2 = 1 ∑n (xi − x̄)2 = var(x).
par la variance empirique σ n i=1
On a vu (section 6.1 du chapitre 4) que µ̂ = x̄ est un estimateur sans biais de µ, au contraire

̂2 = var(x) qui est biaisé. Pour rappel, un estimateur θ̂ (du maximum de vraisemblance
de σ
ou autre) est dit sans biais si sa moyenne théorique coı̈ncide avec sa vraie valeur θ, i.e. si
E(θ̂) = θ.
4.2 Estimation par maximum a posteriori (*)

La fonction à maximiser dans (5.10) peut aussi s’écrire comme P (D∣H(θ)) ≡ f (D∣θ), où
H(θ) dénote le modèle paramétrique (pour la famille paramétrique en jeu, telle que loi
normale, binomiale, etc.) pour la valeur θ du (ou des) paramètres, et P (.) est une notation
générale pour la probabilité (exprimée par la densité de probabilité f (D∣θ) dans (5.10)).
Or, la règle de Bayes (5.3) suggère que la “bonne quantité” à maximiser n’est pas P (D∣H(θ))
(comme dans le principe du maximum de vraisemblance), mais bien P (H(θ)) P (D∣H(θ))
(qui est le numérateur dans (5.3), le dénominateur P (D) ne dépendant pas de θ). On est
ainsi conduit à remplacer le principe d’estimation du maximum de vraisemblance (5.10)
par le principe dit du maximum a posteriori (MAP)
max P (H(θ)) P (D∣H(θ)) = max π(θ)f (D∣θ̂) = π(θ̂)f (D∣θ̂)

θ θ
(5.11)
i.e. θ̂ = arg max π(θ)f (D∣θ) .
θ
Dans (5.11), la forme du prior P (H(θ)) (qui dit que certaines valeurs de θ sont a priori,
i.e. avant d’observer D, plus probables que d’autres), est simplement exprimée par une
une densité de probabilité a priori π(θ).
Ainsi, le principe du maximum de vraisemblance (5.10) est un cas particulier du principe
du maximum a posteriori (5.11), obtenu lorsque π(θ) est constant (distribution uniforme),
i.e. lorsque toutes les valeurs de θ sont jugées a priori équiprobables.
Exemple 28 (prior non informatif et variance échantillonnale). On a vu (section 4.1)
qu’avec un prior uniforme π(σ) =constante pour l’écart type σ d’une loi normale N (µ, σ 2 ),
̂2 = var(x), i.e. la variance empirique, qui est baisée. En pre-
l’estimation du MAP était σ
nant au contraire le prior dit non informatif 8 π(σ) = 1/σ on trouve que l’estimateur MAP
7. il s’agit d’une estimation de θ dite ponctuelle, i.e. par une seule valeur, plutôt qu’une estimation par un
intervalle de confiance comme on l’a rencontré précédemment
8. Jeffreys, H. (1961) Theory of Probability 3rd Edition, Clarendon Press. L’expression π(σ) = 1/σ implique
entre autres que, a priori, il est aussi vraisemblable que σ soit compris entre disons 1 et 10 que entre 10 et 100.
93
5. Détection, reconnaissance, confusion et inférence
de la variance est
̂2 = n 1 n
σ var(x) = ̂
∑(xi − x̄) = var(x)
n−1 n − 1 i=1
soit précisément la variance empirique sans biais (section 6.1).
5 Détection, reconnaissance, confusion et inférence

5.1 Matrice de confusion. Coefficient kappa.
Exemple 29 (Reconnaissance des émotions). On a demandé à un certain nombre de per-
sonnes de déclamer quelques courtes phrases sur un ton qui devait évoquer l’une des 5
émotions suivantes : normal (neutre), happy, angry, sad et afraid 9 . Chaque enregis-
trement a été converti en un certain nombre de caractéristiques physiques numériques
associées au signal audio. Après avoir entraı̂né un réseau de neurones 10 sur quelques en-
registrements dont la tonalité émotionnelle était donnée (échantillon d’apprentissage), on
a demandé à ce réseau de neurones de déterminer (i.e. de deviner, d’estimer, d’inférer) la
tonalité émotionnelle de 700 nouveaux enregistrements (échantillon de test).
stimulus j / réponse k normal happy angry sad afraid

normal 93 4 10 25 8
happy 17 86 14 6 17
angry 15 7 101 8 9
sad 16 1 7 96 20
afraid 17 13 7 34 69
TABLE 5.1 – Matrice de confusion N = (njk ) : les lignes de la table de contingence sont les stimuli
(“vraies catégories”) et les colonnes sont les réponses (catégories attibuées). Les effectifs sur la
diagonale (93, 86 etc.) donnent le nombre de catégories correctement identifiées, et les effectifs
hors diagonale le nombre d’attributions incorrectes ou confusions.
La matrice de confusion N = (njk ) de la table 5.1 compte le nombre de fois que le stimulus
ou classe j (ici une des m = 5 émotions) a été identifié comme k (la réponse, i.e. l’émotion
estimée par la machine). Il s’agit d’un problème dit d’apprentissage supervisé ou de clas-
sification : la tâche pour le “classificateur” (sujet humain, animal, dispositif mécanique,
algorithme) consiste à inférer la modalité k à laquelle appartient un stimulus dont le “vrai
type” est j. Les éléments diagonaux njj comptent le nombre d’objets correctement classés
dans la classe j. La proportion d’accord P accord mesure le taux (global) de classification
correcte, à savoir
m m
∑j=1 njj ∑j=1 njj 445
P accord ∶= m = (= = 63.6%) (5.12)
∑j,k=1 njk n●● 700
On peut aussi calculer le taux de classification correcte pour chaque stimulus j comme
njj /nj● , avec le résultat
stimulus j normal happy angry sad afraid

taux classification correcte 66.4% 61.4% 72.1% 68.6% 49.3%
9. Petrushin, V. (1999) Emotion in speech : Recognition and application to call centers. In Proceedings of
artificial neural networks in engineering (Vol. 710, p. 22)
10. un dispositif emblématique en intelligence artificielle, comparable à un algorithme de régression non-
linéaire multivariée : l’entraı̂nement du réseau de neurones conduit à fixer ses “poids synaptiques”, à l’instar des
“coefficients de régression” déterminés par l’échantillon d’apprentissage lors d’une régression en statistique
94
qui montre que l’émotion “afraid” était la plus difficile à reconnaı̂tre comme telle. La
mesure d’accord (5.12) donne une estimation un peu optimiste des performances du clas-
sificateur, dans la mesure où une attribution correcte peut être le simple fruit du hasard :
nj● n●k
jk = n●● (qui dénote une
en remplaçant njk par sa valeur attendue sous indépendance ntheo
réponse fournie indépendamment du stimulus), la proportion P hasard d’objets correctement
classés par hasard est 11
m
∑j=1 nj● n●j 98000
P hasard ∶= (= = 20.0%) (5.13)
n2●● 7002
Le coefficient κ dit du “kappa de Cohen” est finalement défini par
P accord − P hasard 0.636 − 0.2

κ ∶= (= = 0.545) (5.14)
1 − P hasard 1 − 0.2
Par construction, κ > 0 signifie que la performance du classificateur est meilleure que celle
du hasard (ce qui est un peu la moindre des choses). κ ≅ 0 dit que le classificateur ne fait
pas mieux que le hasard, et κ < 0 dit que le classificateur fait pire que le hasard !
La valeur maximale de κ vaut 1, obtenu ssi P accord = 1.
5.2 Le cas des réponses binaires (présence/absence ; signal/bruit)

Le cas binaire de m = 2 classes est très répandu : au cours de sa longue ou courte existence,
tout organisme sensible doit sans cesse évaluer son environnement : est-il en sécurité
dans la situation actuelle, ou existe-t-il un danger face auquel il faudrait réagir ? Peut-
il faire confiance à telle personne, croire en sa parole ? Tel candidat à un examen ou
une embauche doit-il être recalé, ou non ? Le voyant suspect qui apparaı̂t sur un tableau
de bord doit-il être pris au sérieux, ou peut-on l’ignorer tranquillement ? Le document
proposé par un moteur de recherche se révélera-t-il pertinent ou non pour la question que
se pose une internaute ? Faut-il déclarer coupable, ou non, un suspect dans une affaire de
meurtre ?
Ces questions de décision, détection, perception ou jugement, de la part d’un organisme
vivant ou d’une machine, partagent la même structure inférentielle de base : les situa-
tions, items, individus ou observations rencontrées peuvent être de deux sortes : les unes
possèdent, réellement, une certaine caractéristique spécifique (présence), et d’autres pas
(absence).
Naturellement, le classificateur (organisme humain, animal, machine) s’efforce, en tenant
compte de l’information à sa disposition, de détecter la présence ou l’absence de cette
caractéristique en commettant le moins d’erreurs possibles.
Deux types d’erreurs sont possibles : ne pas détecter la caractéristique alors qu’elle est
présente, ou la détecter alors qu’elle est absente. L’absence de la caractéristique étant
elle-même une caractéristique, il faut, pour dépasser l’équivalence logique entre les deux
possibilités, et nommer spécifiquement ces dernières, adopter la convention que la ca-
ractéristique en jeu représente une forme de signal 12 , codé comme 1, pouvant requérir
une réaction de l’organisme ou de la machine (présence d’un prédateur ou d’un danger
physique, tromperie ou culpabilité avérée, violation d’une théorie scientifique admise, ou
mise en évidence de liens entre plusieurs phénomènes, etc.), tandis que l’absence de la
caractéristique est assimilable à du bruit, codé comme 0 : simples fluctuations statistiques
de l’environnement ne signalant pas de danger réel, absence de phénomène remarquable
ou de pattern saillant dans les données, bref, rien à signaler.
11. le fait qu’ici P hasard = 0.2 = 1/5 exactement est dû au fait particulier que chacun des 5 stimuli a été
présenté ici le même nombre de fois, soit 140 fois, i.e. 140/700=20.0% pour chaque stimulus.
12. signal par ailleurs difficile à détecter (sans quoi il n’y aurait pas d’erreurs de perception), i.e. noyé dans
du bruit de fond, et souvent ainsi qualifié de “signal plus bruit”
95
5.2.1 Erreurs de première et seconde espèce

Une fois la distinction signal/bruit établie 13 , on pourra nommer les deux types d’erreur
en jeu :
● l’erreur de première espèce, consistant à attribuer à la situation une caractéristique
qu’elle n’a pas, i.e. de détecter un signal alors qu’il n’y a que du bruit : fausse alarme
(false alarm)
● l’erreur de seconde espèce, consistant à ne pas détecter le signal alors qu’il est présent :
manqué (miss).
Plus forte sera la tendance pour un classificateur (organisme, machine) à percevoir un
signal dans les situations rencontrées, plus faible sera l’erreur de seconde espèce, mais
plus forte aussi sera l’erreur de première espèce. Et vice-versa si le classificateur tend à
interpréter systématiquement les situations comme relevant d’un simple bruit.
On peut formaliser ce qui précède en introduisant les deux variables bimodales
● x = “état du Monde”, prenant la valeur x = 1 (signal réellement présent ou “vrai
positif”) ou x = 0 (signal réellement absent ou “vrai négatif”)
● y = “décision”, prenant la valeur y = 1 (signal perçu) ou x = 0 (signal non perçu)
ainsi que la table de contingence 2×2 dont les éléments njk comptent les cas pour lesquels
x = j et y = k. Ainsi (table 5.2)
● n00 est le nombre de “non-reconnaissances correctes” : le signal est absent et il a été
correctement identifié comme tel
● n11 est le nombre de “reconnaissances correctes” : le signal est présent et il a été
correctement identifié comme tel
● n01 est le nombre de “fausses alarmes” : le classificateur a interprété du bruit comme
du signal
● n10 est le nombre de “manqués” : le classificateur a interprété du signal comme du
bruit.
y = “perception” ou “décision”
non : y = 0 (bruit) oui : y = 1 (signal)
non : x = 0 (bruit) n00 : vrais négatifs n01 : fausses alarmes = faux positifs n0●
x = “état du Monde”
oui : x = 1 (signal) n10 : manqués = faux négatifs n11 : vrais positifs n1●
n●0 n●1 n●●
TABLE 5.2 – Table de confusion pour la décision/détection/perception binaire, où n = n●● = n00 +
n01 +n10 +n11 est la taille de l’échantillon. Dans la littérature scientifique, la disposition et/ou l’ordre
des lignes et des colonnes est souvent inversée.
Exemple 30 (Reconnaissance de noms propres en Telugu). Parmi les tâches classiques en

traitement automatique du langage naturel (TALN) (natural language processing ; NLP),
l’une consiste à identifier les noms propres (personnes, lieux, organisations) dans un texte
(named entity recognition ; NER). La table de confusion ci-dessous donne les résultats
obtenus dans une étude 14 sur des textes en Telugu, parlé dans le sud-est indien.
y = “décision”
0 = nom commun 1= nom propre
x = “nature 0 = nom commun 6351 125
du nom” 1 = nom propre 102 454
13. quitte à nommer arbitrairement les deux possibilités, comme dans l’exemple de la réussite ou de l’échec à
un examen
14. Srikanth, P. et Murthy, K.N. (2008) Named entity recognition for Telugu. In Proceedings of the Workshop
on Named Entity Recognition for South and South East Asian Languages (IJCNLP’08) pp. 41–50
96
L’erreur de première espèce consiste ici à prendre un nom commun pour un nom propre
(fausse alarme). Sa probabilité, notée α, peut être estimée par
n01 faux positifs 125
α= = = P (y = 1∣x = 0) (= = 19.3%) (5.15)
n00 + n01 vrais négatifs + faux positifs 6351 + 125
L’erreur de seconde espèce consiste ici à prendre un nom propre pour un nom commun
(détection manquée). Sa probabilité, notée β, peut être estimée par
n10 faux négatifs 102
β= = = P (x = 0∣y = 1) (= = 18.3%) (5.16)
n10 + n11 vrais positifs + faux négatifs 102 + 454
Exemple 31 (Recherche documentaire).
Une spécialiste cherche à identifier, dans une collection

scientifique de 2500 articles, tous les articles pertinents
pour une question (pointue) de recherche. Il se trouve que
50 articles sont effectivement pertinents mais le moteur de
recherche de la collection ne lui en fournit que 40, sur la
base des mots-clef utilisés. De plus, le moteur de recherche
retourne également 150 articles supplémentaires non per-
tinents.
La matrice de confusion associée est :
retourné par le moteur de recherche → non retourné retourné total

statut réel du document ↓
non pertinent n00 = 2300 n01 = 150 2450
pertinent n10 = 10 n11 = 40 50
total 2310 190 2500
La probabilité qu’un document non pertinent soit malgré tout retourné par le moteur de
recherche (erreur de première espèce) est de α = 150/2300 = 6.5%, et la probabilité qu’un
document pertinent ne le soit pas (erreur de seconde espèce) est de β = 10/50 = 20%.
5.2.2 Précision et rappel (*)

Pour juger de l’efficacité d’un dispositif de détection ou décision, tel que celui du moteur
de recherche de l’exemple 31, on utilise également les mesures dites de précision et de
rappel, définies comme
n11 nombre documents pertinents retournés 40
précision ∶= = = P (x = 1∣y = 1) (= = 21%)
n01 + n11 nombre documents retournés 190
(5.17)
n11 nombre documents pertinents retournés 40
rappel ∶= = = P (y = 1∣x = 1) = 1 − β (= = 80%)
n10 + n11 nombre documents pertinents 50
(5.18)
La précision d’un dispositif de détection mesure la pertinence (pour le critère en jeu)
des objets retournés ; elle est faible dans l’exemple 31 où seuls 21% des objets pro-
posés (retournés) par le moteur de recherche sont pertinents. Par contraste, le rappel
mesure la propension à détecter (retourner) les objects pertinents ; elle est élevée dans
l’exemple 31 où 80% des objets réellement pertinents ont été détectés. Par construction,
le rappel, également appelé puissance en théorie des tests statistiques (section 6) est le
complémentaire à l’unité de la probabilité d’erreur de seconde espèce β.
Les formules (5.15), (5.16), (5.17) et (5.18) montrent que α, β et le rappel sont des pro-
babilités conditionnelles étant donnée la ligne x (l’état du monde ou réalité), au contraire
97
6. Introduction aux test statistiques
de la précision qui est une probabilité conditionnelle étant donnée la colonne y (la décision
découlant de l’inférence).
De même que les “erreurs α et β” sont de nature (et de conséquences pratiques) très diffé-
rentes (section 6.4.1), la précision et le rappel mesurent deux aspects bien distincts des
compétences d’un classificateur. En général, plus grande est la précision, plus petit est le
rappel et inversement : dans l’exemple 31, on peut imaginer le cas limite d’un moteur de
recherche retournant l’entièreté des 2500 documents de la collection, avec une précision
de 50/2500 = 2% et un rappel de 50/50 = 100%. A l’opposé, en retournant un seul document
pertinent, la précision serait de 1/1 = 100% et le rappel de 1/50 = 2%.
On a pu malgré tout tenter de définir un indice unique de performance du système (une
idée assez discutable), combinant les deux aspects mesurés par la précision et le rappel,
tel le F -score F (ou sa version pondérée Fγ ) 15 défini comme
2 × précision × rappel 2n11 (1 + γ) × précision × rappel

F ∶= = Fγ ∶= (5.19)
précision + rappel n01 + n10 + 2n11 γ × précision + rappel
Par construction, F = Fγ=1 et 0 ≤ Fγ ≤ 1. Le paramètre γ > 0 a pour effet de sur-pondérer

la contribution de la précision (γ > 1) ou de la sous-pondérer (γ < 1).
6 Introduction aux test statistiques

On applique maintenant le schéma précédent au coeur du sujet, qui est celui de la théorie
des tests statistiques : comment réfuter ou non une hypothèse donnée, laquelle propose ty-
piquement une certaine valeur d’un paramètre θ (paramètre qui peut être par exemple une
moyenne µ ou une corrélation ρ théoriques) ? Pourquoi et comment décider de préférer une
hypothèse à une autre ?
Les tests statistiques sont des procédures standardisées, entièrement automatisées dans le
logiciels. Pour bien comprendre cette mécanique, qui joue un rôle crucial dans le cycle
de l’activité scientifique, il faut en démonter les diverses pièces et les examiner une à une
pour en saisir le rôle et la fonction, puis les réassembler en les appliquant aux données exa-
minées, selon la question posée (tests de la moyenne, de la corrélation, etc.). L’expérience
montre que plusieurs exercices intellectuels de “démontage-remontage” sont nécessaire
avant de bien maı̂triser la mécanique, qui peut alors être ensuite appliquée de façon rou-
tinière et automatique, sans risque de mauvaise compréhension ou interprétation.
6.1 Schéma général (m hypothèses simples)

En présence de m théories ou hypothèses concurrentes H1 , H2 , . . . , Hq (chaque hypothèse
correspondant à une unique 16 distribution de probabilité), on peut généraliser la démarche
de l’exemple 27, et calculer les probabilités a posteriori
P (Hj k)P (D∣Hj ) P (Hj )P (D∣Hj )

P (Hj ∣D) = = m (5.20)
P (D) ∑k=1 P (Hk )P (D∣Hk )
où P (Hj ) est la probabilité a priori ou prior de Hj , et la dernière identité découle de

la supposition cruciale (quoique bien difficile à justifier en général) que l’une, et l’une
seulement des m hypothèses en jeu constitue le “vrai modèle”.
La théorie des tests statistiques est une théorie de la décision, aboutissant à sélectionner
a posteriori l’une des m hypothèses en concurrence, sur la base d’un critère explicite ou
règle de décision. On peut par exemple décider de tenir pour vraie ou d’accepter l’hypothèse
Hj dont la probabilité a posteriori P (Hj ∣D) est la plus grande, et donc (en supposant qu’il
15. lesquels n’ont rien à voir avec le F -ratio associé à la décomposition de la variance
16. on parle alors d’hypothèse simple, par opposition à composite ; voir section 6.5
98
n’y a pas d’ex-aequos) de tenir pour fausses toutes les autres : c’est la règle du maximum a
posteriori (MAP). D’autres règles de décision sont possibles, mais elles aboutissent toujours
à la forme suivante :
on accepte Hj ssi D ⊂ Aj (5.21)
où Aj est la zone d’acceptation de Hj . Les zones d’acceptation des diverses hypothèses
concurrentes sont mutuellement exclusives et exhaustives, i.e. elles forment une parti-
tion de l’ensemble des données D possibles.
La probabilité d’accepter Hk alors que Hj est vraie est donnée par
pjk ∶= P (accepter Hk ∣ Hj vraie) = P (D ⊂ Ak ∣ Hj ) (5.22)
Les éléments pjk forment la matrice des probabilités de confusion. Comme en section 5.1,
les éléments diagonaux pjj donnent les probabilités d’une décision correcte (i.e. accepter
Hj qui est effectivement la vraie hypothèse), tandis que les éléments hors diagonale pjk
pour k ≠ j donnent les probabilités d’une décision incorrecte (i.e. accepter Hk alors que
c’est Hj qui est vraie).
6.2 Décision optimale, risques et coûts

Quelle est la règle de décision optimale, i.e. quelle est la meilleure forme de la partition
{Aj }m
j=1 des zones d’acceptation (5.21) ? Naturellement, on souhaiterait ne jamais faire
d’erreur, i.e. faire en sorte que, dans (5.22), pjk = 0 pour j ≠ k. Mais cela est simplement
impossible en général.
Il est très important de réaliser que les différentes erreurs de décision ont des conséquences
existentielles ou risques de nature bien différente dans la plupart des situations :
● sanctionner d’une note suffisante un travail insuffisant versus sanctionner d’une
note insuffisante un travail suffisant
● diagnostiquer comme non séropositif un individu séropositif versus diagnostiquer
comme séropositif un individu non séropositif
● se réveiller la nuit parce que l’on imagine à tort la présence d’un intrus versus ne
pas se réveiller en présence d’un intrus
● souscrire à une assurance-incendie qui se révèlera inutile versus de ne pas y avoir
souscrit en cas de sinistre
● condamner un innocent versus innocenter un coupable, etc.
Afin de définir une règle de décision optimale, il faut rendre commensurables ces différents
risques, en leur attribuant un coût numérique, mesurant la gravité de l’erreur, du dommage
ou de la perte associées 17 , etc. Soit cjk le coût associé à la situation “Hj vraie et Hk
acceptée”. Le coût moyen est alors
c̄ ∶= ∑ P (Hj ) pjk cjk = ∑ P (Hj ) P (D ⊂ Ak ∣ Hj ) cjk (5.23)
jk jk
Dans le cas où chaque erreur a le même coût (disons 1), et que le coût d’une décision
correcte est nulle, le coût moyen (5.23) devient la probabilité totale d’erreur
P erreur ∶= ∑ P (Hj ) pjk = ∑ P (Hj ) P (D ⊂ Ak ∣ Hj ) (5.24)
j≠k j≠k
Ainsi, la règle de décision optimale correspond à la partition {Aj }m j=1 minimisant (5.23)
ou (5.24). Ce problème peut être mathématiquement ardu mais il est désormais bien
défini, grâce à l’introduction de ces coûts existentiels cjk , dont la nature est toutefois extra-
statistique.
Il est à noter que, dans ce contexte, le terme “risque” peut signifier deux choses :
17. la pratique est courante pour des situations n’impliquant que des risques financiers (par exemple assu-
rances sur les biens), mais (encore) taboue dans la sphère des droits humains (libertés individuelles, droit à
l’éducation, à la sécurité...) ou dans le domaine bio-médical (traitements, expériences, début et fin de vie...)
99
● soit la probabilité de commettre une erreur, comme dans “risque de première espèce”
désignant simplement α (5.15), ou “risque de seconde espèce” désignant β (5.16)
(ou pjk pour j ≠ k en général)
● soit (risques financiers, risques naturels) le dommage attendu ou la perte attendue :
ici, le terme “risque” prend en compte l’ampleur des dégâts possibles ou probables,
et pas seulement la probabilité que des dégâts surviennent.
Ceci est parfois exprimé symboliquement comme “risque = alea × vulnérabilité”
qui correspond ici (dans la situation “Hj vraie et Hk acceptée”) à la quantification
“risque = P (Hj ) pjk × cjk ”.
6.3 Test de comparaison de deux moyennes. Courbe ROC
Exemple 32 (Concentration de zinc dans les harengs). Une étude s’intéresse à la pol-
lution par les métaux dans une pisciculture de Caroline du Sud. Il se trouve que deux
études antérieures ont proposé des valeurs différentes pour la concentration de zinc (en
microgrammes par gramme de matière sèche) dans les harengs, à savoir 85 et 105 ; dans
les deux cas, l’écart-type de la concentration était estimé à environ 24 microgrammes par
gramme 18 .
On va supposer que l’une ou l’autre des valeurs proposées (à l’exclusion de toute autre) est
la vraie valeur – un présupposé extrêmement fort qui va permettre de mettre en oeuvre
le test de comparaison de deux moyennes, dans sa version la plus simple (et quelque peu
artificielle) où les deux variances théoriques sont égales et connues. Ce test oppose deux
hypothèses, désignées par convention par H0 et H1 , et respectivement appelées hypothèse
nulle et hypothèse alternative 19
H ∶ µ = µ0
{ 0
H1 ∶ µ = µ1
avec µ0 = 85, µ1 = 105 et σ = 24. Pour trancher entre les deux théories, on va récolter
un nouvel échantillon D = {x1 , . . . , xn } composé des mesures de concentrations dans n
harengs, dont on calculera la moyenne x̄. Plus x̄ est élevé (respectivement bas), plus la
plausibilité de H1 (resp. H0 ) sera renforcée par les observations.
Concrètement, on adopte la stratégie ou règle de décision suivante : on fixe un seuil cri-
tique xc tel que
● si x̄ > xc , on rejette H0 (et accepte H1 )
● si x̄ ≤ xc , on accepte H0 (et rejette H1 ).
Comme la règle de décision ne dépend ici que de x̄, et non pas des autres détails de
l’échantillon D (tels sa variance, ou son empan, etc.), on dit que x̄ constitue la variable de
décision du test, notée d(D).
L’intervalle W ∶= (xc , ∞) est la zone de rejet (de H0 ), tandis que son complémentaire
W c = [0, xc ] est la zone d’acceptation (de H0 ) 20 .
Si la procédure conduit à accepter H0 alors que H0 est vrai, tout va bien. De même si la
procédure conduit à rejeter H0 (i.e. rejeter H1 ) alors que H0 est fausse (i.e. que H1 est
vraie). Les choses se gâtent (table 5.3)
● si l’on rejette H0 à tort : on parle d’erreur de première espèce
● ou si l’on accepte H0 à tort : on parle d’erreur de seconde espèce.
18. l’exemple est inspiré de Giesy J.P. et Wiener J.G. (1977) Frequency distributions of trace metal concentra-
tions in five freshwater fishes Transactions of the American Fisheries Society vol. 106, no 4, pp. 393–403
19. dans cet exemple, les deux hypothèses en jeu jouent un rôle entièrement symétrique, et la notation H0
pour l’une et H1 pour l’autre est arbitraire. Il n’en sera pas de même dans l’approche courante dite de Fisher
(section 6.5) où H0 représentera une hypothèse simple associée à du bruit, et H1 une hypothèse composite
associée à du signal.
20. dans les notations de la section 6.1, on a W = A1 et W c = A0
100
décision (inférence statistique)

H0 vrai H1 vrai
OK erreur de première espèce
H0 vrai
1−α α = Prob(d(D) ∈ W ∣H0 vrai) =
prob. de rejeter H0 à tort
état du monde erreur de seconde espèce OK
H1 vrai
β = Prob(d(D) ∈ W c ∣H1 vrai) = 1−β
prob. d’accepter H0 à tort
TABLE 5.3 – Les erreurs de première espèce et de seconde espèce et leur probabilités α et β
Plus le seuil critique xc est élevé, plus la probabilité d’erreur de première espèce, notée α,
est petite, et plus grande est la probabilité d’erreur de seconde espèce, notée β, est grande
(figure 5.2). Il se trouve que ces quantités peuvent être calculées exactement en fonction
du seuil critique :
X̄ − µ0 xc − µ0
α = P (d(D) ∈ W ∣H0 vrai) = P (X̄ > xc ∣µ = µ0 ) = P ( > )=
√σ √σ
n n
(a) xc − µ0 √ (b) xc − µ0 √
= P (X̄ s > n) = 1 − Φ( n) (5.25)
σ σ
où l’on a utilisé que (a) la moyenne de la variable X̄ vaut µ, et son écart-type √σn , et
que (b), pour n grand, la variable standardisée correspondante X̄ s suit une loi normale
standard N (0, 1). De même,
X̄ − µ1 xc − µ1
β = P (d(D) ∈ W c ∣H1 vrai) = P (X̄ ≤ xc ∣µ = µ1 ) = P ( ≤ )=
√σ √σ
n n
xc − µ1 √ xc − µ1 √
= P (X̄ s ≤ n) = Φ( n) (5.26)
σ σ
En faisant varier xc dans un intervalle suffisamment grand (disons [40, 150] pour cet
exemple), les fonctions α(xc ) et β(xc ) parcourent pratiquement l’entièreté des valeurs
dans l’intervalle unité [0, 1] : les courbes de la figure 5.3, donnant la valeur de 1 − β(xc )
(en ordonnée) en fonction de α(xc ) (en abscisse) selon le seuil critique xc (et selon n),
sont appelée caractéristiques opérationnelles du récepteur (receiver operating charac-
teristic, ou “courbe ROC”).
La quantité α est aussi appelée risque de première espèce ou niveau de signification. Plutôt
que de déterminer α (ou β) en fonction de xc , l’usage consiste à fixer le niveau de signifi-
cation (à, par exemple α = 5% ou α = 1%), et d’en déduire le seuil critique xc . L’équation
(5.25) donne
xc − µ0 √ xc − µ0 √ σ
1 − α = Φ( n) i.e. u1−α = n i.e. xc = µ0 + √ u1−α
σ σ n
et la règle de décision devient

σ
“ on rejette H0 au niveau α si x̄ > µ0 + √ u1−α ”
n
ou encore
x̄ − µ0 √
“ on rejette H0 au niveau α si n > u1−α .” (5.27)
σ
Il faut noter que la validité du test ne dépend pas d’une éventuelle condition de normalité
de la distribution des concentrations dans les échantillons de poissons : dans l’étude citée,
101
0.05
0.05
H0 H1 H0 H1
0.04
0.04
densité de probabilité
0.03
0.03
0.02
0.02
0.01
0.01
xc=100 xc=92
β=0.266 α=0.030 β=0.052 α=0.191

0.00
0.00
60 70 80 90 100 110 120 130 60 70 80 90 100 110 120 130
x x
F IGURE 5.2 – Test de comparaison de deux moyennes µ0 et µ1 données (exemple 32). La zone de
rejet W de H0 est donnée par x̄ > xc . La surface gris foncé vaut α, et la surface gris claire vaut β.
On a toujours α + β ≤ 1.
1.0
0.8
0.6
1−β
0.4
n=1
n=4
n=9
0.2
n=16
0.0
0.0 0.2 0.4 0.6 0.8 1.0
F IGURE 5.3 – Courbes ROC : comportement de 1 − β(xc ) (en ordonnée) en fonction de α(xc ) (en
abscisse), en faisant varier le seuil critique xc , pour différentes valeurs du nombre n d’observations.
Plus n est grand, plus la courbe se rapproche du point idéal α = β = 0 exempt d’erreurs de première
et de seconde espèce. Inversement, la bissectrice d’équation 1 − β = α, i.e. α + β = 1 correspond à la
situation la plus précaire où, en l’absence de toute donnée, on ne pourrait que choisir au hasard (ou
décider a priori) l’hypothèse H0 ou H1 retenue ; voir exemple 34.
des distributions non normales (telle que la distribution log-normale ou la distribution de

Weibull) se trouvaient de fait mieux modéliser les valeurs de la concentration que la dis-
tribution normale. Rappelons que le recours à la loi normale est ici justifié par le théorème
central limite, qui s’applique à toute série de valeurs indépendantes et identiquement dis-
tribuées, quelle que soit la distribution (de variance finie) en jeu.
6.4 La théorie de la détection du signal (*)

Dans le contexte binaire signal / bruit, les concepts et le formalisme précédents permettent
de caractériser un classificateur (être vivant ou machine) à l’aide de deux nouveaux pa-
ramètres (encore), sa sensitivité ou discriminabilité d′ et son biais ou critère c.
Ces idées, développées en ingénierie et en psychologie dans les années 50-60 forment la
théorie de la détection du signal. Elles ont en particulier fourni un cadre solide aux études
de perception animale ou artificielle, dont la discussion nécessite une brève introduction de
certaines notions de psychométrie.
Avant que n’entre en action la théorie de la détection du signal, l’approche psychométrique
classique visait traditionnellement à déterminer quelle devait être l’intensité minimale
102
d’un stimulus pour qu’il soit perçu par un sujet donné (expérience de détection), ou quelle
devait être la différence d’intensité minimale ou JND (just noticeable difference) entre
deux stimuli pour qu’ils puissent être distingués par un sujet donné (expérience de discri-
mination).
Par exemple, la fréquence sonore minimale audible était
typiquement déterminée comme la fréquence du son cor-
rectement identifié comme tel dans le 50% des cas pour un
sujet donné, au cours d’expériences répétées comportant
des stimuli de fréquence variable. Ou bien, la différence
perceptible minimale de salinité entre deux solutions était
déterminée comme la différence produisant une discrimi-
nation effective dans 50% des cas, etc.
C’est dans ce contexte que Weber (1834) a proposé sa fameuse loi, énonçant que, sur une
grande gamme d’intensité, le rapport entre la différence d’intensité minimale ∆I (ou JND)
et l’intensité I du stimulus de référence était constante pour un type de stimulus donné.
En d’autres termes, la loi (approximativement valide pour un grand nombre de types de
stimulus) s’écrit ∆I/I = k, où la constante k ne dépend que du type de stimulus (par
exemple sonore, olfactif, kinesthésique, etc...) : s’il faut une différence minimale de 10
grammes pour qu’un poids soit reconnu comme plus lourd qu’un poids de référence de
100 grammes, alors on peut s’attendre qu’une différence de 2 kilogrammes soit requise
pour discriminer un poids d’un poids de 20 kilogrammes.
Si l’intensité subjective du stimulus est naturellement déterminante dans une expérience
de détection ou de discrimination, d’autres facteurs influencent la réponse du sujet : ses
attentes (par exemple conditionnées par un expérimentateur déclarant que le signal sera
rarement ou fréquemment émis), la consigne (les consignes “ne déclarez avoir perçu un
signal que si vous en être vraiment sûr” ou “surtout, efforcez-vous de ne manquer aucun
signal” produisent des effets opposés) le type d’environnement (le seuil de détection d’un
bruit pendant le sommeil, élevé dans un environnement protégé, peut s’abaisser dans
une situation perçue comme dangereuse), ou la personnalité du sujet (les “enthousiastes”
tendant à reconnaı̂tre la présence du signal beaucoup plus souvent que les “sceptiques”).
Il se trouve que la faiblesse principale de l’approche psychométrique classique, que l’on
vient d’esquisser, réside en son incapacité à séparer ces deux sources de variation, à savoir
le facteur sensoriel (intensité du stimulus), et le facteur non-sensoriel (attitude du sujet) ;
c’est là qu’entrent en jeu les deux paramètres mentionnés ci-dessus.
La théorie de la détection du signal modélise toute situation de détection au moyen d’une
variable X représentant l’intensité de la sensation du sujet. Même dans des conditions
expérimentales contrôlées, les fluctuations de l’environnement et de l’état interne du sujet
rendent les valeurs de X fluctuantes : ces dernières seront alors décrites par une distribu-
tion de probabilité, plutôt qu’une seule valeur.
Dans le formalisme le plus répandu en détection du signal, on postule alors que
● en condition N de (vrai) bruit (noise), X est distribué selon une loi normale de
moyenne µN et de variance σ 2
● en condition SN de (vrai) signal+bruit (signal+noise), X est distribué selon une loi
normale de moyenne µSN et de même variance σ 2 , avec µSN > µN .
Finalement, le sujet “choisit” un seuil critique xc au-delà duquel sa décision sera SN, et N
en deçà, exactement comme en figure 5.2 où la distribution selon H0 (resp. H1 ) corres-
pondrait à celle de X selon la condition N (resp. SN), avec µN = µ0 et µSN = µ1 .
La différence standardisée d′ ∶= (µSN − µN )/σ est d’autant plus grande que le signal est
net : d′ , contrôlé par l’expérimentateur, mesure le facteur sensoriel pur (intensité ou dis-
criminabilité du signal), tandis que xc , ou de façon équivalente c ∶= [xc − 12 (µN + µS )]/σ,
contrôlé par le sujet, mesure le facteur non-sensoriel (attitude ou critère adopté par le
sujet) : c est nul lorsque xc est à mi-distance entre µN et µSN (attitude “neutre”) ; c est
103
positif lorsque xc est plus proche de µSN que de µN (attitude “conservatrice”, entraı̂nant
un faible nombre de détections correctes et de fausses alarmes) ; enfin, c est négatif dans
le cas opposé “réactif” (grand nombre de détections correctes et de fausses alarmes).
Pour estimer la discriminabilité d′ et le critère c, on commence par calculer
uSN ∶= (xc − µSN )/σ et uN ∶= (xc − µN )/σ à l’aide des équations suivantes :
X − µSN xc − µSN
P (détection correcte) = P (X ≥ xc ∣µ = µSN ) = P ( ≥ ) = 1 − Φ(uSN ) (5.28)
σ σ
X − µN xc − µN
P (fausse alarme) = P (X ≥ xc ∣µ = µN ) = P ( ≥ ) = 1 − Φ(uN ) (5.29)
σ σ
On obtient alors les valeurs recherchées par
1
d′ = uN − uSN c = (uN + uSN ) (5.30)
2
En termes d’erreurs de première et de seconde espèce, il est facile de montrer que, de
façon équivalente
1
d′ = Φ−1 (1 − α) − Φ−1 (β) c = (Φ−1 (1 − α) + Φ−1 (β)) (5.31)
2
où Φ−1 (γ) = uγ est la fonction inverse de Φ(u), associant à une probabilité γ le quantile
uγ correspondant.
Exemple 33 (Expérience de reconnaissance visuelle). Lors d’une expérience de reconnais-
sance visuelle, une série de 90 photographies distinctes est présentée séquentiellement à
un sujet, à intervalles réguliers. On présente ensuite, dans un ordre aléatoire, une seconde
série de 100 photographies distinctes, contenant 60 photographies de la première série et
40 photographies nouvelles. A chaque fois, le sujet doit déterminer si la photographie lui
a déjà été présentée ou non.
Supposons que le sujet ait produit 40 détections correctes et 20 fausses alarmes. On a
donc P (détection correcte) = 40/60 = 0.66. La table de la loi normale montre que la solution
à Φ(uSN ) = 1 − 0.66 = 0.33 est uSN = −0.41 (en notant que Φ(0.41) = 0.66). De même, on
trouve que Φ(uN ) = 1 − 20/40 = 0.5, et donc uN = 0. On en déduit alors d′ = 0 − (−0.41) =
0.41 et c = 21 (0 + (−0.41)) = −0.205.
Supposons qu’un autre sujet ait obtenu, dans les mêmes conditions, 35 détections correctes
et 15 fausses alarmes. On obtient alors, de la même façon, uSN = −0.21 et uN = 0.32. En
conséquence, on a d′ = 0.53 et c = 0.055 : le second sujet reconnaı̂t mieux les photographies
que le premier (sa discriminabilité d′ est supérieure), tout en étant plus “conservateur”, i.e.
prudent dans l’affirmation “j’ai déjà vu cette photographie” (son critère c est supérieur).
6.4.1 Test entre deux hypothèses simples : quel seuil choisir ? Coûts associés aux risques (*)
On aimerait naturellement minimiser chacun des risques α et β, mais toute modification
du seuil critique xc entraı̂nera forcément une augmentation de l’un des deux risques (et la
diminution de l’autre). La seule façon de diminuer à la fois α et β consiste
√ à augmenter la
taille n de l’échantillon, ce qui a pour effet de diminuer l’écart-type σ/ n des gaussiennes
de la figure 5.2 et de les recentrer autour de leurs moyennes.
Pour n fixé, on pourrait décider de minimiser la probabilité totale d’erreur P erreur (de
première ou de seconde espèce) (5.24), donnée ici par
P (H0 )P (d(D) ∈ W ∣H0 ) + P (H1 )P (d(D) ∈ W c ∣H1 ) = P (H0 ) α(xc )+P (H1 ) β(xc ) (5.32)
Si les priors étaient égaux (i.e. P (H0 ) = P (H1 ) = 0.5), minimiser (5.32) reviendrait alors
à minimiser la somme α + β, ce qui aboutirait ici (figure 5.4 gauche) à choisir le seuil
104
1.0
3.0
2.5
0.8
2.0
0.6
α + 3β
α+β
1.5
0.4
1.0
0.2
0.5
0.0
0.0
60 70 80 90 100 110 120 130 60 70 80 90 100 110 120 130
xc xc
F IGURE 5.4 – probabilité totale d’erreur (5.32) en fonction du seuil xc , lorsque P (H0 ) = P (H1 ) =
0.5 (gauche), et lorsque P (H0 ) = 0.25 et P (H1 ) = 0.75 (droite)
xc = 12 (µ0 + µ1 ) = 95 situé à mi-distance entre les deux moyennes. Si H1 était jugé a priori
trois fois plus plausible que H0 (i.e. P (H0 ) = 0.25 et P (H1 ) = 0.75), alors on serait conduit
à minimiser l’expression α + 3β, ce qui aboutirait ici (figure 5.4 droite) à choisir le seuil
xc = 91.46, plus proche de µ0 que de µ1 .
De façon plus générale, en notant par c0 (resp. c1 ) le coût de l’erreur de première (resp.
seconde) espèce, avec un coût nul pour les décisions correctes, le coût moyen (5.23) à
minimiser s’écrit ici
P (H0 ) α(xc ) c0 + P (H1 ) β(xc ) c1 .
Exemple 34 (inférence au hasard). Le cas de la décision au hasard est fort instructif :
Monsieur B, prof. de maths, a malheureusement égaré dans le train des copies d’examen :
les données D ont disparu. Qu’à cela ne tienne, il décide d’attribuer à chaque élève un
résultat “réussite” avec probabilité p, et par conséquent d’attribuer le résultat “échec” avec
probabilité 1 − p. En fixant (arbitrairement, ici) H0 = “réussite” et H1 = “échec”, la pro-
babilité α de rejeter H0 à tort est celle de faire échouer un élève qui aurait dû réussir,
événement qui se produit ici (quelle qu’ait été la performance réelle de l’élève) avec la
probabilité 1 − p. Ainsi, α = 1 − p, et par un raisonnement similaire, β = p. On peut noter
que, quelle que soit la valeur de p, on a que α + β = (1 − p) + p = 1 : il s’agit de la bissectrice
du premier quadrant de la figure 5.3, qui est parcourue en faisant varier p.
6.5 Approches de Neyman-Pearson et de Fisher
Exemple 35 (Concentration de zinc dans les harengs, suite). Supposons que, dans le
cadre de l’exemple 32, les deux hypothèses en concurrence soient
H0 ∶ µ = µ0
{
H1 ∶ µ > µ0
avec µ0 = 85 et σ = 24. En se référant à la figure 5.2, H0 serait toujours bien définie par
la gaussienne correspondante, tandis que H1 serait représentée par l’ensemble de toutes les
gaussiennes de même forme (puisque σ ne change pas) situées à droite de H0 : autrement
dit, on pourrait toujours calculer α à partir de xc par (5.25), mais on ne pourrait plus
calculer β puisque µ1 est inconnu : tout ce que l’on sait est que µ1 > µ0 .
Dans ce nouvel exemple, H0 est une hypothèse dite simple, i.e. correspondant à une
seule distribution théorique, contrairement à H1 , qui est alors dit composite. On peut
considérer une hypothèse composite comme un agrégat, un collectif ou une famille d’hy-
pothèses simples. Par exemple :
105
● L’énoncé “X suit une loi normale de moyenne 2 et de variance 3” (i.e. “X ∼

N (2, 3)”) constitue un modèle probabiliste simple.
● A un énoncé déterministe tel que “l’avion décolle à 15h30” correspond une seule
distribution de probabilité f (x) pour X = “heure de décollage”, à savoir la distribu-
tion de Dirac X ∼ δ15h30 concentrée au temps x = 15h30 : tout modèle déterministe
est simple.
● L’énoncé “X suit une loi normale de moyenne 4” est un modèle probabiliste com-
posite : la variance étant inconnue, ce modèle est constitué de la famille de tous les
modèles N (4, σ 2 ) avec σ 2 > 0. Les énoncés “X suit une loi normale” et “X suit une
loi normale de variance 1” sont également composites.
● “Ce dé est équilibré” est un modèle probabiliste simple : la fréquence théorique
d’apparition des faces est uniforme, ce qui correspond à une seule distribution ; de
plus, l’indépendance entre lancers successifs y est sous-entendue, ce qui définit une
seule distribution dans le cas de séquences de lancers. Par contre, “Ce dé n’est pas
équilibré” est un énoncé probabiliste composite : il existe en effet une infinité de
distributions de probabilité qui diffèrent de la distribution uniforme.
● “Je prendrai l’Intercity de 19h02” est un énoncé déterministe simple ; “Je prendrai
l’Intercity de 19h02 ou celui de 20h02”, ou “Je ne prendrai pas l’Intercity de 19h02”
sont des énoncés composites.
La probabilité d’obtenir 3 “pile” en trois lancers d’une pièce équilibrée est de 1/23 = 0.125 ;
pour une pièce non équilibrée, et sans autre information, la probabilité correspondante
n’est par contre pas définie.
L’idée que toute théorie H (déterministe ou probabiliste) ne puisse être que réfutée, mais
non pas prouvée, ne s’applique qu’aux hypothèses simples H. En effet, dans ce cas, la
théorie complémentaire H c (“non-H”) est composite, et si l’on pouvait réfuter H c on au-
rait du même coup établi la vérité de H, contredisant ainsi le paradigme de la réfutabilité.
L’exemple 32 illustrait l’approche dite de Neyman-Pearson, qui consiste à tester entre deux
valeurs possibles θ0 et θ1 d’un paramètre théorique θ
H0 ∶ θ = θ0
{
H1 ∶ θ = θ1
et donc à tester entre deux hypothèses simples. Par contraste, l’exemple 35 relève de
l’approche dite de Fisher teste entre une hypothèse simple H0 et une hypothèse composite
H1 , et il en existe en général trois variantes :
unilatérale H ∶ θ = θ0 unilatérale H ∶ θ = θ0 H0 ∶ θ = θ0
{ 0 { 0 bilatérale : {
“à droite” : H1 ∶ θ > θ0 “à gauche” : H1 ∶ θ < θ0 H1 ∶ θ ≠ θ0
La règle de décision de la première variante (unilatérale “à droite”) est (comparer avec
(5.27)) :
“ on rejette H0 au niveau α si d(D) > x1−α ” (5.33)
où d(D) est la variable de décision et x1−α le (1−α)-ème quantile de la distribution sta-
tistique à utiliser dans le test (voir figure 5.5). Tant d(D) que x1−α sont spécifiés, pour
chaque test usuel, dans les formulaires statistiques, auxquels l’utilisateur doit simplement
√ H0 ∶ µ = µ0 contre H1 ∶ µ > µ0 , on a vu
se référer. Par exemple, pour le test de la moyenne
en (5.27) que l’on devait prendre d(D) = x̄−µ σ
0
n et x1−α = u1−α , le (1−α)-ème quantile de
la distribution normale standard.
La règle de décision de la seconde variante (unilatérale “à gauche”) est (figure 5.5) :
“ on rejette H0 au niveau α si d(D) < −x1−α ” ou, de façon équivalente “ si −d(D) > x1−α ” (5.34)
106
H0 H0 H0
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
α α
α=0.10 = 0.05 = 0.05 α=0.10
2 2
0.0
0.0
0.0
-6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6
d (D ) d (D ) d (D )
F IGURE 5.5 – Procédure générale pour le test d’une hypothèse simple H0 , lorsque la distribution
de la variable de décision d(D) sous H0 est symétrique et centrée autour de zéro : test unilatéral à
droite, test bilatéral, et test unilatéral à gauche. On a pris ici α = 10% et une variable de décision
d(D) suivant sous H0 une distribution de Student à 3 degrés de liberté.
Finalement, la règle de décision de la seconde variante (bilatérale) est (figure 5.5) :
“ on rejette H0 au niveau α si ∣d(D)∣ < x1− α2 ” (5.35)
Ces trois variantes sont présentes lorsque la variable de décision d(D) peut prendre des
valeurs tant positives que négatives, et que la distribution de d(D) sous H0 ∶ θ = θ0 est
symétrique, comme dans la figure 5.5, et centrée autour de zéro, la dernière condition
pouvant être imposée en redéfinissant au besoin la variable de décision.
Lorsqu’un chercheur cherche à rejeter H0 , il doit généralement appliquer la version bi-
latérale du test : dans ce cas l’hypothèse alternative H1 ∶ θ ≠ θ0 couvre en effet tous les
cas complémentaires à H0 , alors que dans les versions uni-latérales une des possibilités (à
savoir θ < θ0 dans la version à droite, et θ < θ0 dans la version à gauche) est simplement
exclue dès le départ, et ne pourra ainsi jamais être identifiée si d’aventure elle était vraie 21 .
L’inconvénient du choix bilatéral réside dans le fait que le seuil critique sera alors plus
difficile à dépasser que dans la version unilatérale (car x1− α2 > x1−α ) : on peut facilement
donner des exemples où, pour une valeur de α donnée, d(D) est significative (i.e. conduit
au rejet de H0 ) dans l’une des versions unilatérales, mais pas dans la version bilatérale.
Ce n’est que si l’on a de bonnes raisons de croire que l’une des deux alternatives θ > θ0
ou θ < θ0 peut être a priori écartée qu’il est légitime d’utiliser un test unilatéral. Cela sera
par exemple le cas du test de la différence de salaire moyen entre hommes et femmes en
Suisse au début du XXIème siècle : cette différence pourra être nulle (pas de différence :
c’est H0 ), positive (salaires masculins supérieurs aux salaires féminins : c’est H1 dans
sa version unilatérale à droite), mais non pas négative (les nombreuses études passées
n’ayant semble-t-il jamais documenté un tel cas).
6.5.1 Le cas des variables de décision positives

Il est fréquent que la variable de décision d(D) soit intrinsèquement positive par construc-
tion, comme en figure 5.6, ruinant ainsi la symétrie de la distribution observée dans la
figure 5.5. Dans ce cas, il n’y a plus de variante uni- ou bilatérale, et la règle de décision,
conduisant au rejet de H0 pour d(D) grand, est simplement
“ on rejette H0 au niveau α si d(D) > x1−α ” (5.36)
qui est identique à (5.33).

Parmi les fonctions classiques de distribution de d(D) (sous H0 ) utilisées dans les tests de
base, il faut citer
21. on parle alors parfois d’erreur de troisième espèce
107
H0
0.20
0.15
0.10
0.05
0.00
0 5 10 15 20
d (D )
F IGURE 5.6 – Procédure générale pour le test d’une hypothèse simple H0 , lorsque la distribution
de la variable de décision d(D) sous H0 est asymétrique et restreinte à d(D) ≥ 0, des valeurs trop
élevées de d(D) conduisant au rejet de H0 . Le début des zones grisées correspond au quantiles
x0.90 (α = 10%, zone gris clair), x0.95 (α = 5%, zone gris foncé) et x0.99 (α = 1%, zone noire). La
distribution choisie ici est celle du χ2 à 3 degrés de liberté.
● la distribution normale standard N (0, 1), et la distribution du t[q] à q degrés de

liberté : ces distributions sont symétriques autour de l’origine, et les tests correspon-
dants admettent des variantes uni- et bilatérale.
● la distribution du χ2 [q] à q degrés de liberté, et la distribution du F [q1 , q2 ] à q1 et
q2 degrés de liberté : ces distributions sont asymétriques et restreintes aux valeurs
positives d(D) ; les tests correspondants n’admettent que la version (5.36).
6.5.2 Niveaux de signification a priori (α) et a posteriori (valeur p)

Considérons la règle de décision (5.33) ou (5.36). Dans la pratique de l’époque “pré-
numérique” couvrant la plus grande partie du XXème siècle, le chercheur fixe lui-même, a
priori 22 , le niveau de signification α qu’il juge acceptable 23 , calcule la variable de décision
d(D) telle qu’indiquée dans les formulaires statistiques, et lit dans les tables statistiques la
valeur de x1−α . Si d(D) > x1−α , le chercheur rejette alors H0 , et d(D) est dit significative.
Sinon, le chercheur ne rejette pas H0 , et d(D) est dit non significative (n.s.).
Ainsi, toute la longue discussion sur les fondements épistémologiques des tests d’hy-
pothèse se résume, d’un point de vue pratique, à vérifier une inégalité du type d(D) > x1−α ,
où la variable de décision d(D) résume tout ce qu’il est pertinent de retenir de l’échantillon
D pour effectuer le test en considération.
Pour une variable de décision d donnée, il existe en général une seule valeur p ∈ (0, 1) telle
que
d(D) = x1−p (5.37)
Cette valeur, qui dépend de d et donc de l’échantillon D, est appelée valeur p (p-value).
Cette valeur p(D) est systématiquement fournie par les logiciels statistiques dédiés, et,
dans la pratique courante actuelle, on peut se passer complètement des formulaires et
tables statistiques en replaçant la règle de décision (5.33) par la règle équivalente
“ on rejette H0 au niveau α si p(D) < α” (5.38)
L’équivalence entre (5.33) et (5.38) est facile à établir : comme d(D) = x1−p(D) par
définition, et que la quantité x1−α est décroissante en α, on a résultat que d(D) > x1−α ssi
p(D) < α (rejet de H0 ), et d(D) < x1−α ssi p(D) > α (non rejet de H0 ).
Autrement dit, la valeur p est le niveau de signification minimal auquel on puisse encore
rejeter H0 . Si p = 2% par exemple, on peut rejeter H0 à α = 5% mais non à α = 1%.
22. i.e. avant d’observer les données, c’est évidemment crucial
23. comme par exemple les valeurs courantes, mais parfaitement arbitraires α = 5% ou α = 1%, ou bien
d’autres valeurs
108
La valeur α, fixée par le chercheur, fixe a priori le risque maximal de commettre une erreur
de première espèce (i.e. rejeter H0 à tort), tandis que la valeur p(D) calculée par le logiciel
ou lue sur une table détaillée, donne le risque exact de commettre une erreur de première
espèce en présence de l’échantillon particulier D plutôt qu’un autre. Pour cette raison,
la valeur p est aussi appelée niveau de signification a posteriori, tandis que α serait par
contraste le niveau de signification a priori.
Finalement, on peut considérer le niveau de signification α comme la probabilité a priori
de commettre une erreur de première espèce, i.e. après avoir défini une règle de décision,
mais avant d’avoir constitué un échantillon D. Par contraste, la valeur p est, dans le cas de
rejet de H0 (i.e. lorsque p(D) < α), la probabilité a posteriori de commettre une erreur de
première espèce, i.e. après avoir obtenu l’échantillon particulier D plutôt qu’un autre.
6.6 Test d’une seule hypothèse simple : quel seuil choisir ?

Il est facile, et même trop facile de trouver des patterns (structures particulières, rela-
tions entre variables, etc.) dans un jeu de données, et toute la question est de disposer
d’un guide permettant de déterminer si tel pattern doit être considéré comme significa-
tif (décision : “signal”), i.e. doté d’une réelle existence, pas seulement dans l’échantillon
examiné, mais aussi dans la population elle-même dont il est extrait, ou au contraire si ce
pattern est non significatif (décision : “bruit”), i.e. le fait d’une coı̈ncidence fortuite, d’une
contingence aléatoire qui aurait toutes les chances de ne pas se produire dans un autre
échantillon récolté d’une façon analogue.
C’est précisément pour répondre à la question “le pattern observé est-il significatif ou non ?”
qu’a été développée toute la machinerie exposée ici : l’hypothèse nulle H0 correspond à
un modèle de pur hasard, d’indépendance complète, d’absence de différence ou de struc-
ture particulière, etc., et croire en H0 revient à croire que le pattern observé n’est pas
significatif, tandis que le rejet de H0 équivaut à déclarer le pattern significatif.
Dans la règle de décision (5.33) ou (5.36), une valeur élevée de α entraı̂ne un seuil critique
x1−α faible, et donc un rejet facile de H0 : les patterns sont facilement déclarés significatifs.
A l’inverse, une valeur faible de α entraı̂ne un seuil critique x1−α élevé, et donc un rejet
difficile de H0 : les patterns sont difficilement déclarés significatifs.
Une erreur de première espèce (rejeter H0 à tort) revient ici à déclarer significatif un
pattern qui ne serait qu’une simple coı̈ncidence aléatoire, i.e. à prendre du bruit pour un
signal. Si l’on veut minimiser ce risque, il suffit de poser α = 0, générant un seuil x1.0 =
∞ infini : tout pattern, même le plus massif et intéressant, sera alors considéré comme
du simple bruit, comme une simple coı̈ncidence, et par là-même indigne d’être étudié
davantage : beaucoup d’occasions potentielles perdues pour la recherche scientifique !
A l’inverse, une valeur trop élevée de α aboutit à déclarer trop facilement significatif un
pattern qui n’est qu’une coı̈ncidence propre à cet échantillon-ci, et à s’embarquer et s’en-
combrer dans l’étude vaine de “faux positifs”. En conclusion, α ne devrait être ni trop
grand, ni trop petit, mais il est difficile d’être plus précis de façon générale, à moins de
considérer les risques existentiels (coûts) associés aux erreurs des deux types 24 .
Le seuil α = 5% (qui revient à tolérer un risque de fausse alarme une fois sur vingt) est
très courant, mais il s’agit d’une pure convention, certes largement partagée : α = 4% ou
α = 5.31% seraient tout aussi justifiables... Le seuil α = 1% (tolérer un risque de fausse
alarme une fois sur cent) est aussi fréquemment rencontré.
24. coût proche de zéro, avouons-le, dans le cadre d’un travail purement méthodologique de BA ou de MA.
Pour une publication purement académique ne débouchant sur aucune action directe dans le monde, le seul coût
(qui peut être par ailleurs considérable) est celui associé à la réputation du chercheur.
109
6 Exercices corrigés
Série 1
Sujets : rappels mathématiques, notations, ensembles, fonctions, loga-

rithmes, combinatoire, diagrammes de Venn, probabilités, règle de Bayes
Exercice 1.1
Donner les coordonnées de l’intersection des fonctions f1 (x) = 3x − 2 et f2 (x) = 2x − 2.
Exercice 1.2
Soient x = 2 et y = 4. Calculer 1 :
1. log2 (x) et log2 (y) ;
2. log2 (xy), log2 ( xy ) et log2 ( xy ) ;
3. log2 (xy ) et log2 (y x ) ;
y x
4. log2 ( xyx xy y ).
Exercice 1.3
Soient x1 = 2, x2 = 6, x3 = −1, x4 = 1 et x5 = −2. Calculer :
1. ∑5i=1 xi
2. ∑5i=1 2xi
3. ∑5i=1 xi
2
4. ∑5i=1 log2 (xi )
5. ∑5i=2 i⋅ xi
Exercice 1.4
1. Combien y a-t-il de classements possibles (i.e. de permutations) de 10 artistes dans
un Top 10 ?
2. Combien y a-t-il de manières de classer 6 femmes et 4 hommes dans un Top 10 (sans
distinguer les individus) ?
Exercice 1.5
Représenter chacun des ensembles suivants par un diagramme de Venn :
1. A ∪ (B ∩ C)
2. (A ∪ B) ∩ C
3. (A ∪ B) ∩ C c
4. (A ∪ B)c /C c
1. Rappel : log2 (x) = ln(x)/ ln(2).
110
5. (A/(B ∩ C))c
6. ((A △ B) △ C)c
Exercice 1.6
Soit un jeu de 36 cartes mélangé. Calculer la probabilité de tirer :
1. le 7 de carreau ;
2. un 7 ;
3. un carreau ;
4. le 7 de carreau ou le valet de trèfle ;
5. un 7 ou un valet ;
6. un carreau ou un trèfle.
Exercice 1.7
D’après les résultats de l’exercice précédent,
1. montrer que les événements “tirer un 7” et “tirer un carreau” sont indépendants ;
2. sachant qu’on a tiré un carreau, calculer la probabilité conditionnelle qu’il s’agisse
d’un 7 ;
3. sachant qu’on a tiré un 7, calculer la probabilité conditionnelle qu’il s’agisse d’un
carreau.
Exercice 1.8
Un athlète tente un salto arrière (saut périlleux), mais y échoue malheureusement, et
chute lourdement au sol. Calculer la probabilité que cet accident indique que l’athlète
n’était pas entraı̂né au salto (arrière), sachant que :
● la probabilité qu’un athlète échoue au salto est de 1/3
● la probabilité qu’un athlète ne soit pas entraı̂né au salto est de 1/3
● la probabilité qu’un salto échoue lorsque l’athlète n’y est pas entraı̂né est de 3/4.
Exercice 1.9
Sur une population donnée, nous connaissons l’étendue d’une maladie et la fiabilité d’un
test de dépistage de cette maladie. Soient les événements suivants :
A : “ le test est positif”
M : “l’individu testé est malade”
On sait que P (M ) = 20 1
, P (A∣M ) = 20
19
et P (Ac ∣M c ) = 100
99
.
1. Décrire en français les événements dont les probabilités sont données ci-dessus.
2. Quelle est la probabilité qu’un individu choisi au hasard soit malade sachant qu’il a
réagi positivement au test ?
Exercices supplémentaires (*)

Exercice 1.10
Prouver les affirmations (a–h) de la section 6.4.
Exercice 1.11
Etant donné x1 = 2, x2 = −1, x3 = −1, x4 = 4, x5 = 1 calculer :
(a) ∑5i=1 xi (b) ∑4i=0 xi+1 (c) ∑5i=1 x2i
(d) ∑5i=1 (xi + 1) (e) ∑4i=1 xxi+1
i
(f) 15 ∑5i=1 x3i
Exercice 1.12
1. Calculer : (a) 4! (b) (43) (c) (53)
2. Montrer que 25 (43) = (53)
111
(n+1) n
3. Montrer que ( )
(n+1−k) k
= (n+1
k
)
Exercice 1.13
Vrai ou faux ?
(a) {x ∣ x =/ x} = ∅.
(b) Si A = {x ∣ x est un entier impair} et B = {x ∣ (x − 3)(x − 5) = 0} alors B ⊂ A.
(c) Si A = {x ∣ x2 = 4, x > 9} et B = {x ∣ x ≥ 1}, alors A ⊂ B
Exercice 1.14
On tire au hasard une carte dans un paquet de 52 cartes à jouer.
1. Décrire l’univers Ω lié à cette expérience aléatoire.
2. Considérons les événements A et B correspondants respectivement au tirage d’un
roi et au tirage d’un trèfle. Décrire en français les événements suivants : A ∩ B ,
A ∪ B , A ∩ B c , Ac ∩ B c , A ∖ B , (A ∩ B) ∪ (A ∩ B c ).
3. Calculer les probabilités liées aux 8 événements définis ci-dessus.
4. Les événements A et B sont-ils indépendants ? Vérifiez votre réponse par le calcul.
Exercice 1.15
Les trois informations suivantes sur les événements A et B sont-elles simultanément com-
patibles ? Justifier votre réponse.
1. P (A) = 13 et P (B) = 14 .
2. A et B sont disjoints.
3. A et B sont indépendants.
Exercice 1.16
Trois événements A, B et C sont dits indépendants s’ils satisfont les quatre conditions sui-
vantes :
P (A ∩ B) = P (A) ⋅ P (B)
P (A ∩ C) = P (A) ⋅ P (C)
P (B ∩ C) = P (B) ⋅ P (C)
P (A ∩ B ∩ C) = P (A) ⋅ P (B) ⋅ P (C)
On va montrer sur l’exemple suivant que les trois premières relations peuvent être sa-
tisfaites sans que la quatrième le soit, ce qui signifie que l’indépendance deux à deux
n’implique pas l’indépendance de trois événements :
Considérons l’expérience aléatoire consistant à lancer deux pièces équilibrées distinguables
ainsi que les événements suivants :
A : “la première pièce présente le côté face.
B : “la deuxième pièce présente le côté pile”.
C : “les deux pièces présentent soit les deux le côté face, soit les deux le côté pile”.
Montrer que les événements A, B et C sont indépendants deux à deux, mais ne sont pas
indépendants.
Exercice 1.17
Une urne contient 2 boules marquées d’un “A”, une boule marquée d’un “B” et une boule
marquée d’un “C”. Les 4 boules sont tirées successivement au hasard et sans remise.
Quelles sont les probabilités liées aux événements suivants :
La suite des lettres commence par : i) “A” ; ii) “B” ; iii) “C” ; iv) “AA” ; v) “AB” vi) “ABA”
Corrigé de la série 1
Exercice 1.1
Les coordonnées de l’intersection sont (0, −2).
112
Exercice 1.2
Avec x = 2 et y = 4, on trouve :
1. log2 (x) = 1 et log2 (y) = 2
2. log2 (xy) = 3, log2 ( xy ) = −1 et log2 ( xy ) = 1
3. log2 (xy ) = 4 et log2 (y x ) = 4
y x
4. log2 ( xyx xy y ) = log2 (1) = 0
Exercice 1.3
Avec x1 = 2, x2 = 6, x3 = −1, x4 = 1 et x5 = −2, on trouve :
1. ∑5i=1 xi = 6
2. ∑5i=1 2xi = 12
3. ∑5i=1 xi
2
=3
∑i=1 log2 (xi ) n’est pas défini, car log2 (xi ) n’est pas défini pour les arguments négatifs
5
4.
x3 et x5
5. ∑5i=2 i⋅ xi = 3
Exercice 1.4
1. 10! = 3′ 628′ 800
2. (10
6
)= 10!
4!6!
= 10⋅9⋅8⋅7
4!
= 210
Exercice 1.5
Exercice 1.4
1. 2.
A B A B
C C
3. 4.
A B A B
C C
5. 6.
A B A B
C C
Exercice 1.6
En tirant une carte dans un jeu de 36 cartes mélangé,
1. P ( 7 ∩ carreau ) = 1/36
2. P ( 7 ) = 1/9
3. P ( carreau ) = 1/4
4. P ( (7 ∩ carreau) ∪ (valet ∩ trèfle) ) = 1/18
5. P ( 7 ∪ valet ) = 2/9
6. P ( carreau ∪ trèfle ) = 1/2
113
Exercice 1.7
D’après les résultats de l’exercice précédent,
1. les événements 7 et carreau sont indépendants car on a P (7 ∩ carreau) = 1/36,
P (7) = 1/9 et P (carreau) = 1/4, et donc P (7 ∩ carreau) = P (7) ⋅ P (carreau)
2. P (7∣carreau) = P (P7(carreau
∩ carreau)
)
= 1/36
1/4
= 1/9. Plus simplement encore, en tenant
compte de l’indépendance : P (7∣carreau) = P (7) = 1/9.
3. P (carreau∣7) = P (carreau) = 1/4.
Exercice 1.8
On pose :
● A = “échouer au salto” ;
● B = “ne pas être entraı̂né au salto”.
On sait que P (A) = 1/3, P (B) = 1/3 et P (A∣B) = 3/4. Par la règle de Bayes, on trouve la
solution recherchée P (B∣A) = P (A∣B)P
P (A)
(B)
= (3/4)⋅(1/3)
1/3
= 3/4.
Exercice 1.9
1. A ∣ M : “un individu qui est malade réagit positivement au test”
Ac ∣ M c : “un individu qui n’est pas malade réagit négativement au test”.
P (A) dénote la proportion de malades dans la population, P (A∣M ) la propor-
tion d’individus positifs parmi les malades, et P (Ac ∣M c ) la proportion d’individus
négatifs parmi les non malades.
2. Par la formule de la probabilité totale,
19 1 1 19 57
P (A) = P (A ∣ M ) ⋅ P (M ) + P (A ∣ M c ) ⋅ P (M c ) = + =
20 20 100 20 1000
et ainsi
19 1
P (M ∩ A) P (A ∣ M ) ⋅ P (M ) 5
P (M ∣ A) = = = 20 20
= = 0.83
P (A) P (A) 57
1000
6
Corrigés supplémentaires (*)

Exercice 1.10
a) P (B∣Ω) = P P(B∩Ω)
(Ω)
= P (B)
1
= P (B) : toute probabilité “non conditionnelle” telle
que P (B) peut s’exprimer comme la probabilité conditionnelle de B étant donné
l’événement certain Ω .
b) P (B∣A) = P (B) ssi P (B ∩ A) = P (B)P (A), i.e. ssi A et B sont indépendants :
deux événements sont indépendants ssi la probabilité que l’un se produise n’est pas
affectée par la connaissance que l’autre se produise ou non. De même, P (B∣A) >
P (B) ssi A et B sont en attraction, et P (B∣A) < P (B) ssi A et B sont en répulsion.
c) P (B∣B) = P P(B∩B)
(B)
=P (B)
P (B)
= 1 : la probabilité que B se réalise sachant qu’il se réalise
est de 1. L’évidence intuitive de ce résultat peut être moquée comme rhétorique
stérile ; elle peut aussi être saluée comme lieu d’harmonie entre un formalisme et
notre intuition – un accord plus rare qu’il n’y paraı̂t (cf. paradoxes, biais, et autres
fallacies).
d) de même, P (B∣B̄) = P P(B∩ B̄)
(B)
(∅)
= PP (B) = 0
P (B)
= 0 : la probabilité que B se réalise
sachant qu’il ne se réalise pas est de 0 .
e) P (B∣∅) = P P(B∩∅)
(∅)
= PP (∅)
(∅)
= 00 = indéterminé : la probabilité que B se réalise sa-
chant que l’“impossible s’est produit” ne peut pas être déterminée. Là aussi, toute
autre réponse que “indéterminé” aurait heurté notre intuition : si l’impossible s’est
produit, il faut se taire à jamais – ou réévaluer cet impossible comme finalement
possible, et modifier en conséquence les probabilités de toutes nos évaluations.
114
f) L’identité P (B) = P (B∣A)P (A)+P (B∣Ā)P (Ā), facile à démonter, est toujours vérifiée,
quels que soient A et B. Elle peut être illustrée par le schéma en arbre de la figure
(1.3).
g) Plus généralement, étant donnée une partition A = {Aj }m
j=1 (définition 5.3), on a
toujours
m
P (B) = ∑ P (Aj )P (B∣Aj )
j=1
car la réalisation de B a lieu en même temps que la réalisation de l’un (et l’un seul)
des Aj (propriété d’exhaustivité et d’exclusivité), ce que l’on illustre facilement par
un schéma en arbre.
h)
P (A ∩ B) P (A ∩ B) P (A) P (A)
P (A∣B) = = = P (B∣A)
P (B) P (A) P (B) P (B)
Exercice 1.11
5
(a) ∑ xi = x1 + x2 + x3 + x4 + x5 = 2 + (−1) + (−1) + 4 + 1 = 5
i=1
4
(b) ∑ xi+1 = x0+1 + x1+1 + x2+1 + x3+1 + x4+1 = x1 + x2 + x3 + x4 + x5 = 5
i=0
5
∑ xi = x1 + x2 + x3 + x4 + x5 = 4 + 1 + 1 + 16 + 1 = 23
2 2 2 2 2 2
(c)
i=1
5
(d) ∑(xi + 1) = 3 + 0 + 0 + 5 + 2 = 10
i=1
4
xi x1 x2 x3 x4 2 −1 −1 4
(e) ∑ = + + + = + + + = −2 + 1 − 0.25 + 4 = 2.75
i=1 xi+1 x2 x3 x4 x5 −1 −1 4 1
1 5 3 1 1
(f) ∑ x = (8 − 1 − 1 + 64 + 1) = × 71 = 14.2
5 i=1 i 5 5
Exercice 1.12
En utilisant la formule (n + 1)! = (n + 1) × n! et (n − k + 1)! = (n − k + 1) × (n − k)! on obtient
les résultats suivants :
1. (a) 4! = 4 × 3 × 2 × 1 = 2 (b) (43) = 4!
3!×1!
= 4×3×2×1
3×2×1
=4
(c) (3) = 3!×2!
5 5!
= (3×2×1)×(2×1)
5×4×3×2×1
= 10
2. ( ) = 25 × 3!×1!
5 4
2 3
4!
= 3!×2!
5!
= (53)
(n+1) n (n+1) (n+1)!
3. ( ) = (n+1−k)
(n+1−k) k
× (n−k)!×k!
n!
= (n−k+1)!×k!
= (n+1
k
)
Exercice 1.13
(a) Vrai.
(b) Vrai, car A = {1, 3, 5, 7, . . .} et B = {3, 5} ; ainsi B ⊂ A.
(c) Vrai, car A = ∅ et B = {1, 2, 3, 4, . . .} ; ainsi A ⊂ B.
Exercice 1.14
1. En affectant respectivement aux rangs coeur, pique, carreau, trèfle les numéros 1,
2, 3, 4 et aux cartes de chaque rang, de l’as au roi, les numéros 1 à 13, on obtient
l’univers Ω = {(1, 1), (1, 2), ⋯, (1, 13), ⋯, (4, 13)}, avec ∣Ω∣ = 52.
2. a) A ∩ B : “roi de trèfle”
b) A ∪ B : “roi ou trèfle (ou les deux)”
c) A ∩ B c : “roi et non-trèfle”
d) Ac ∩ B c : “ni roi ni trèfle”
115
e) A ∖ B : “roi, sauf celui de trèfle”
f) (A ∩ B) ∪ (A ∩ B c ) : “roi de trèfle ou de non-trèfle”, i.e. “roi”.
3. A = {(1, 13), (2, 13), (3, 13), (4, 13)} donc P (A) = 524
= 13
1
B = {(4, 1), ⋯, (4, 13)} donc P (B) = 52 = 4

13 1
A ∩ B = {(4, 13)} donc P (A ∩ B) = 52 1
L’événement A ∪ B contient 4 + 13 − 1 = 16 éléments, donc P (A ∪ B) = 16

52
= 4
13
A ∩ B c = {(1, 13), (2, 13), (3, 13)} donc P (A ∩ B c ) = 52
3
Ac ∩ B c = (A ∪ B)c donc P (Ac ∩ B c ) = 52−16

52
= 13
9
A ∖ B = A ∩ B donc P (A ∖ B) = 52
c 3
(A ∩ B) ∪ (A ∩ B c ) = A donc P ( (A ∩ B) ∪ (A ∩ B c ) ) = 13 1
4. Oui (c’est assez intuitif). Le calcul donne P (A ∩ B) = 1

52
= 1
13
⋅ 1
4
= P (A) ⋅ P (B)
Exercice 1.15
Elles ne sont pas simultanément compatibles, car, comme A et B sont disjoints, P (A ∩ B) =
P (∅) = 0 ; mais si A et B sont indépendants, P (A ∩ B) = P (A) ⋅ P (B) = 13 ⋅ 41 = 12
1
=/ 0 , d’où
contradiction.
Exercice 1.16
Un calcul simple donne : P (A) = P (B) = P (C) = 12
P (A ∩ B) = P (B ∩ C) = P (A ∩ C) = 41
P (A ∩ B ∩ C) = 0
Les trois premières relations de la définition sont donc vérifiées sans que la quatrième ne
le soit.
Exercice 1.17
L’univers associé au tirage sans remise est constitué de 12 événements (de même proba-
bilité), à savoir
Ω = {AABC, AACB, ABAC, ACAB, ABCA, ACBA, BAAC, CAAB, BACA, CABA, BCAA, CBAA}
En notant par {A...} l’événement “la suite des lettres commence par “A”, etc., on a ainsi
P ({A...}) = 12 , P ({B...}) = 14 , P ({C...}) = 14 , P ({AA..}) = 16 , P ({AB..}) = 16 ,
P ({ABA.}) = 121
Une autre méthode (plus directe) consiste à examiner le schéma en arbre généré par les
tirages, le premier embranchement correspondant au tirage de la première boule, etc...
Par exemple, P (AB) = P (première = A)P (seconde = B∣première = A) = 12 31 = 16 .
116
Série 2
Série 2
Sujets : types de variables, indicateurs de tendance centrale et de dis-

persion, fonctions indicatrices, fonction de répartition, quantiles, his-
togrammes, barplots et boxplots, diagrammes de dispersion, tables de
contingence.
Exercice 2.1
Un score est la valeur prise par une variable sur un individu. Pour chacun des scores sui-
vants, donner (parmi de nombreuses solutions en général) le type de la variable, des va-
leurs possibles de scores, et un échantillon (= ensemble d’individus) possible.
Par exemple : “La couleur d’un véhicule” est un score de type catégoriel ; les scores pos-
sibles sont “rouge”, “blanc”, “vert”, etc. Ils réfèrent à un échantillon de véhicules tel que
“véhicules circulant entre le 1.9.2014 et le 1.10.2014 dans le canton de Vaud”, “véhicules
hybrides danois mis en circulation en 2010”, etc. Hi
1. La commune de domicile,
2. Le nombre de passagers d’un train,
3. La durée d’un voyage en train Genève-Berne,
4. Les numéros postaux des localités suisses,
5. Le nombre de pattes des animaux domestiques d’un appartement,
6. La corpulence des passagers d’un ferry
7. La saveur des bonbons d’un kiosque,
8. Le maximum annuel, en Suisse, depuis 1830, des températures journalières moyennes,
9. Les millésimes des bouteilles d’une cave de restaurant
10. La qualité de l’équipe de football nationale.
Exercice 2.2
Lors d’un sondage concernant l’élection de 3 candidats (A, B et C), 20 personnes ont
été interrogées. Le tableau des données ci-après contient les scores des variables x =
“intention de vote”, y = “sexe”, z= “âge”, w = “revenu annuel” (en milliers de francs).
1. Décrire le type des variables en jeu et leurs scores possibles.
2. Faire un diagramme en bâtonnets pour x.
3. Faire un histogramme pour z (avec une largeur de classe de 10 ans).
4. Faire un diagramme de dispersion z (en abscisse) et w (en ordonnée)
5. Faire une table de contingence pour y (en lignes) fois x (en colonnes).
117
Série 2
x y z w
1 A F 20 17
2 B H 35 49
3 B H 27 55
4 B F 39 18
5 B F 29 32
6 A F 45 69
7 C H 31 45
8 A F 45 97
9 B H 47 81
10 C F 50 30
11 B F 20 30
12 C F 32 48
13 C F 50 110
14 C H 27 72
15 B F 63 83
16 A H 60 57
17 C H 76 73
18 B F 29 86
19 B F 43 80
20 A H 83 50
Exercice 2.3
Voici les meilleurs temps (données brutes, format [min: sec]) effectués aux 29 courses
internationales d’escargot de 1997 à 2003 (règlement de la course et palmarès obtenus en
2004 du site http ://www.schnecken.ch – aujourd’hui disparu).
15 ∶ 23 20 ∶ 47 20 ∶ 20 21 ∶ 30 > 30 > 30 15 ∶ 35 9 ∶ 11 8 ∶ 17 9 ∶ 16
11 ∶ 15 16 ∶ 05 10 ∶ 06 7 ∶ 38 4 ∶ 03 5 ∶ 54 14 ∶ 18 8 ∶ 07 5 ∶ 11 5 ∶ 40
5 ∶ 39 7 ∶ 05 5 ∶ 36 6 ∶ 55 8 ∶ 12 6 ∶ 16 5 ∶ 27 10 ∶ 00 4 ∶ 32
1. Calculer le premier quartile de cette distribution. Dépend-il de la valeur exacte des

deux observations supérieures à une demi-heure ?
2. Construire un histogramme du temps de course avec les classes suivantes : [0, 6),
[6, 12), [12, 18), [18, 24), [24, 30] où l’on a ramené, pour simplifier, à 30 minutes
les temps supérieurs à la demi-heure. Peut-on, alternativement, construire un histo-
gramme avec la “vraie” partition [0, 6), [6, 12), [12, 18), [18, 24), [24, 30), [30, ∞) ?
Exercice 2.4
Voici le temps en minutes (données mises en classes) consacré quotidiennement à la
révision d’une matière par 100 personnes :
temps (en minutes) nombre de personnes

[0, 5) 12
[5, 10) 4
[10, 15) 7
[15, 20) 8
[20, 25) 14
[25, 30) 32
[30, 35) 18
[35, 40) 3
[40, 45] 2
1. Dessiner le graphe de la fonction de répartition du temps consacré à la pêche
118
Série 2
2. D’après le graphe obtenu, quelle proportion de personnes s’adonnent pendant moins

de 23 min par année aux joies de la pêche ?
3. Donner une estimation du temps moyen consacré annuellement à la pêche par ces
personnes.
Exercice 2.5
12 étudiants ont obtenu les résultats suivants à deux examens :
EXAMEN 1 : 72 ; 75 ; 75 ; 97 ; 54 ; 72 ; 86 ; 72 ; 63 ; 78 ; 82 ; 91.
EXAMEN 2 : 78 ; 42 ; 72 ; 88 ; 86 ; 97 ; 91 ; 79 ; 82 ; 86 ; 91 ; 74.
1. Dessiner la fonction de répartition correspondant à l’examen 1.

2. Trouver la médiane, la moyenne et la variance empirique de chaque examen.
3. Trouver la médiane et la moyenne de l’ensemble des deux examens (24 résultats).
4. Déterminer le 10ème centile, le 30ème centile et l’écart interquartile de l’examen 1.
5. Déterminer les scores standardisés de l’examen 1.
Exercice 2.6
La conversion x = “température en degrés Celsius” ↔ y = “température en degrés Fah-
renheit” est donnée par (2.1). L’enregistrement hebdomadaire de température sur une
certaine station donne une moyenne et un écart-type de 20, respectivement 15 Celsius.
Que valent la température moyenne, son écart type et sa variance, en degrés Fahrenheit ?
Exercice 2.7
Un individu peut posséder ou non une propriété A, ce qui définit une variable bimodale
z A , qui prend les valeurs 0 ou 1. Pour chaque individu i dans un échantillon (constitué de
n individus i = 1, . . . , n), on convient que son score ziA vaut 1 s’il possède la propriété A
(ou s’il appartient à l’ensemble A), et vaut 0 sinon : ziA = 1 ssi i ∈ A, et ziA = 0 ssi i ∉ A.
Une telle variable est appelée fonction indicatrice ou fonction caractéristique de A.
2
Pour rappel, z̄ A = n1 ∑ni=1 ziA , et var(z A ) = (z A ) − (z A )2 (comme pour n’importe quelle
variable numérique). Déterminer si chacun des énoncés suivants est vrai ou faux :
1. Le score ziA de chaque individu de l’échantillon est égal à son carré :(ziA )2 = ziA pour
tout i = 1, . . . , n.
2. Le nombre nA d’individus de l’échantillon appartenant à A est égal à la somme des
scores ziA sur tous les individus : nA = ∑ni=1 ziA .
3. La proportion d’individus de l’échantillon appartenant à A est égale à la moyenne
de z A dans l’échantillon : fA = z̄ A .
4. La variance de z A dans l’échantillon est égale à la proportion d’individus appartenant
à A, multipliée par la proportion d’individus n’appartenant pas à A : c’est à dire
var(z A ) = fA (1 − fA ).
5. Le score ziA d’un individu i est supérieur ou égal à son score ziB ssi appartenir à A
implique d’appartenir à B (p.ex. si A est l’ensemble des saxophonistes et B celui des
musiciens) : ziA ≥ ziB pour tout i = 1, . . . , n ssi A ⊂ B.
6. Le produit des scores ziA et ziB d’un individu i est égal à 1 ssi appartenir à A implique
de ne pas appartenir à B (p.ex. si A est l’ensemble des végétaux et B celui des
minéraux) : ziA ziB = 1 ssi A et B sont disjoints.
7. Les ensembles A, B et C forment une partition de Ω ssi chaque individu de l’échan-
tillon appartient à un et un seul de ces ensembles : ziA + ziB + ziC = 1 pour tout
i = 1, . . . , n.
119
Série 2

Exercice 2.8
Identifier les synonymes dans la liste {nominal, quantitatif, catégoriel, catégorie, score,
numérique, modalité, qualitatif}.
Exercice 2.9
Standardiser les scores de la variable x ci-dessous, et calculer la moyenne et la variance
de la variable standardisée.
x 2 6 5 9 7 6
Exercice 2.10
Soit la variable catégorielle x = “région linguistique suisse”, à m = 3 modalités (à savoir
“romande”, “alémanique” et “italophone”). Effectuer une dichotomisation de x, i.e. une
décomposition de x en variables bimodales codées comme 1 ou 0.
Exercice 2.11
Soient 3 variables catégorielles bimodales x, y et z :
x = “sexe” (“femme” codé i = 1 et “homme” codé i = 2)
y = “attitude tabac” (“fumeur” codé j = 1 et “non fumeur” codé j = 2)
z = “latéralité” (“droitier” codé k = 1 et “gaucher” codé k = 2).
En utilisant la notation nijk = “nombre de personnes dans la modalité i de x, j de y et k
de z”, montrer que, dans une population quelconque, le nombre de femmes qui fument est
plus petit ou égal au nombre des personnes qui sont droitières et qui fument, additionné
du nombre de femmes qui sont gauchères.
Exercice 2.1
1. La commune de domicile : catégoriel (Lausanne, Ecublens, . . . ) ; échantillon = ha-
bitants du canton de VD (par exemple).
2. Le nombre de passagers d’un train : numérique (0, 1, 2, 3, . . . ) ; échantillon =
ensemble des trains circulant sur le territoire jurassien en 2013.
3. La durée d’un voyage en train Genève-Berne : numérique (1h20m, 3h28m, . . . ) ;
échantillon = tous les voyages Genève-Berne d’une personne donnée entre 2010 et
2020.
4. Les numéros postaux des localités suisses : catégorielle (1000, 1012, . . . ) ; échantillon
= les domiciles des étudiants inscrits à l’UNIL au SP 2020.
5. Le nombre de pattes des animaux d’un appartement : numérique : 0, 2, 4, 6, 8 (en
excluant les animaux estropiés et les mille-pattes), échantillon = ensemble d’appar-
tements d’un quartier de la Chaux-de-Fonds.
6. La corpulence des passagers d’un ferry : ordinale (p.ex. faible, moyenne, forte), ou
numérique (tous les nombres réels non-négatifs mesurant p.ex. le tour de taille) ;
échantillon = tous passagers d’un certain ferry - ou ceux que l’observateur a pu
croiser.
7. La saveur des bonbons : catégorielle (p.ex. fraise, ananas, . . . ou doux, acidulé,
fruité, . . . ) ; échantillon = marchandise exposée dans ce kiosque le 15.9.2014.
8. Le maximum annuel des températures journalières moyennes : numérique (26.3○ C,
32.7○ C, . . . ) ; échantillon = les années 1830 à 2014.
9. Les millésimes des bouteilles : numérique (2013, 2020, 2006. . . ) ; échantillon = les
bouteilles de la cave.
120
Série 2
10. La qualité de l’équipe de football : ordinale (faible, forte, imbattable, la meilleure,

la seconde meilleure . . . ) ; échantillon = un ensemble d’équipes nationales pendant
les années nonante.
Exercice 2.2
variable type de variable scores possibles

x catégoriel A, B, C
1. y catégoriel F, H
z quantitatif R+ (réels positifs) ou N (entiers positifs)
w quantitatif R+ (réels positifs)
2.3.4. Diagramme en bâtonnets (barplot), histogramme et diagramme de dispersion :
candidat candidat diagramme de dispersion
10
100
5
8
80
4
w = revenu
effectif
6
effectif
60
4
40
1
2
20
0
20 30 40 50 60 70 80 90 20 30 40 50 60 70 80
0
A B C âge z = âge
y / x A B C
5. Table de contingence : F 3 6 3
H 2 3 3
Exercice 2.3
Un peu de réflexion montre que le premier quartile ne dépend clairement pas de la valeur
exacte des deux observations supérieures à une demi-heure.
La construction d’un histogramme contenant aussi la classe infinie [30, ∞) serait problé-
matique : la surface du rectangle correspondant devrait correspondre à 2/29 du total,
mais, au vu de sa base infinie, la hauteur de cette classe devrait être nulle (surface = base
× hauteur).
121
Série 2
12
0.30
10
0.25
8
effectif
Fn(x)
6
0.20
4
0.15
2
0.10
0
0 5 10 15 20 25 30 5.6 5.7 5.8 5.9 6.0
temps
Histogramme du temps de course. Un morceau de la fonction de répartition

du temps de course. Le premier quartile
tombe sur la “marche” entre la 7e et la 8e
donnée, donc x0.25 = 5.9 min (= 5 min 54
sec).
Exercice 2.4
1. Fonction de répartition F (t) du temps t en minute consacré quotidiennement à la
révision de la matière (à partir de données mises en classes) :
1.0
0.8
0.6
F(t)
0.4
0.2
0.0
0 10 20 30 40
2. On trouve à partir du graphe de la fonction de répartition F (t) qu’environ 39% des

personnes consacrent moins de 23 min par jour à la révision.
3. Étant donné que les classes ne sont pas constituées du même nombre d’individus, la
moyenne doit être pondérée par le nombre d’individus de chaque classe. La moyenne
pondérée (sur m classes notées j = 1, . . . , m) se calcule par la relation suivante : x =
m
n ∑j=1 j j
1
n x = ∑m j=1 fj xj , c’est à dire en pondérant l’importance de chaque classe par
sa fréquence relative fj = nj /n. En utilisant la moyenne pondérée et en choisissant
comme valeur de classe la moyenne entre ses extrêmes (on ne connaı̂t pas la vraie
valeur), le temps moyen consacré à la révision vaut 100 1
(12 × 2.5 + 4 × 7.5 + 7 × 12.5 +
. . . + 2 × 42.5) = 22.65 minutes, soit 22 minutes et 39 secondes.
Exercice 2.5 1. Fonction de répartition :
122
Série 2
fonction de répartition pour EXAMEN 1
1.0
0.8
0.6
F(x)
0.4
0.2
0.0
50 60 70 80 90 100
x = EXAMEN 1
2. EXAMEN 1 :
1 n 1 12
Médiane : x0.5 = 75. Moyenne : x̄ = ∑ xi = ∑ xi =
n i=1 12 i=1
1
× (54 + 63 + 72 + 72 + 72 + 75 + 75 + 78 + 82 + 86 + 91 + 97) = 76.4
12
2 2
1 n 1 n 1 917
Variance : var(x) = ∑ x2i − ( ∑ xi ) = × 71581 − ( ) = 125.6
n i=1 n i=1 12 12
EXAMEN 2 :
1 n 1 12
Médiane : x0.5 = 84. Moyenne : x̄ = ∑ xi = ∑ xi =
n i=1 12 i=1
1
× (42 + 72 + 74 + 78 + 79 + 82 + 86 + 86 + 88 + 91 + 91 + 97) = 80.5
12
2
1 n 1 n 1 966 2
Variance : var(x) = ∑ x2i − ( ∑ xi ) = × 79980 − ( ) = 184.8
n i=1 n i=1 12 12
3. Médiane : 78.5 (notant qu’il y a 12 notes inférieures à 78, et 12 notes supérieures à

79, la médiane peut être calculée sans tracer la fonction de répartition)
1
Moyenne : x̄ = × (80.5 + 76.4) = 78.5
2
2
1 n 2 1 n 1 917 + 966 2
Variance : var(x) = ∑ xi −( ∑ xi ) = ×(71581+79980)−( ) = 159.3
n i=1 n i=1 24 24
4. A partir de la fonction de répartition F (x) de EXAMEN 1 : on trouve : 1er décile : 63 ;

3ème décile : 72 ; 1er quartile : 72 ; 3ème quartile : 84 (obtenu en faisant la moyenne
du neuvième score 82 et du dixème 86) ; l’écart interquartile de EXAMEN 1 vaut :
84 − 72 = 12.
x − x̄
5. Rappel : le score standardisé de x est défini par xs =
sx
54 − 76.4
Par exemple, la valeur de x lorsque x vaut 54 est de : xs =
s
= −2.00 (on
√ √ 11.2
a utilisé x̄ = 76.4 et s = var(x) = 125.6 = 11.2). Pour les autres valeurs de x, on
x xs
54 −2.00
63 −1.20
72 −0.39
75 −0.13
obtient :
78 +0.14
82 +0.50
86 +0.86
91 +1.30
97 +1.84
123
Série 2
Exercice 2.6
Moyenne : ȳ = 95 x̄ + 32 = 59 20 + 32 = 68 degrés Fahrenheit
Ecart-type : sy = 95 ȳ = 95 15 = 27 degrés Fahrenheit
Variance : var(y) = s2y = 272 = 729 [degrés Fahrenheit au carré] .
Exercice 2.7
1. Vrai
2. Vrai
3. Vrai, car z̄ A = 1
n ∑i=1 ziA =
n nA
n
= fA
2
4. Vrai : var(z A ) = (z A )
− (z A )2 = z A − (z A )2 d’après la première proposition de cet
exercice. Or z − (z ) = fA − fA2 = fA (1 − fA ).
A A 2
5. Faux : ziA ≤ ziB pour tout i = 1, . . . , n si A ⊂ B.

6. Faux : ziA ziB = 0 ssi A et B sont disjoints.
7. Vrai

Exercice 2.8
nominal = catégoriel = qualitatif
quantitatif = numérique
modalité = catégorie = score (d’une variable catégorielle)
Exercice 2.9
x̄ = 5.83, sx = 2.12 xs -1.81 0.08 -0.39 1.50 0.55 0.08 x¯s = 0, var(xs ) = 1
Exercice 2.10
Par exemple, on définit les événements A = “région latine” (i.e. romande ou italophone),
et B = “région romande”, avec les variables indicatrices (=fonctions caractéristiques)
associées, i.e. z ∶= I(A) et w ∶= I(B).
Un romand (x = 1) sera alors codé par (z = 1, w = 1) ; de même, un alémanique (x = 2)
sera codé par (z = 0, w = 0), et un italophone (x = 3) par (z = 1, w = 0). Les m − 1 = 2
variables bimodales z et w constituent alors une dichotomisation possible de la variable
catégorielle x à m = 3 modalités. En général, une variable catégorielle à m modalités peut
être décomposée en (et reconstruite par) m − 1 variables bimodales.
Naturellement, d’autres solutions existent. On peut noter que le profil (z = 0, w = 1), qui
caractériserait un non-latin romand, n’apparaı̂t pas.
Exercice 2.11
Nombre de femmes qui fument = n111 + n112 = n11●
Nombre de personnes droitières qui fument = n111 + n211 = n●11
Nombre de femmes gauchères = n112 + n122 = n1●2
Il s’agit de montrer que n11● ≤ n●11 + n1●2 , ou, de façon équivalente, que n111 + n112 ≤
n111 + n211 + n112 + n122 . Comme n211 et n122 sont non-négatifs, l’inégalité en découle
immédiatement.
124
Série 3
Série 3
Sujets : liens entre deux variables : covariance et corrélation, F-ratio,

chi2. Régression linéaire
Pour les exercices 3.1 et 3.2 ci-dessous, on considère les deux variables numériques
suivantes :
x 3 9 6 9 0 4 5 1 9 1
y 7 0 2 4 9 9 5 9 10 0
Exercice 3.1
1. Tracer la fonction de répartition F (x).
2. D’après votre graphique, quelle proportion des valeurs de x sont strictement inférieures
à 7 ? strictement supérieures à 2 ?
2
3. Dessiner le boxplot de x.
4. Calculer la moyenne, la médiane, l’écart-type et l’intervalle semi-interquartile de x
(défini par 12 (x0.75 − x0.25 )) et comparer les différents résultats obtenus.
Exercice 3.2
1. Calculer var(x), var(y) et cov(x, y).
2. Que vaut corr(x, y) ?
3. Comparer var(xs ), var(y s ), cov(xs , y s ) et corr(xs , y s ) avec les valeurs obtenues aux
deux questions précédentes. Que constatez-vous ?
Exercice 3.3
On considère un échantillon de 180 étudiant.e.s de sexe x (j = 1 : femmes ; j = 2 : hommes)
et de type d’étude y (k = 1 : type A ; k = 2 : type B ; k = 3 : type C) distincts.
1. Trouver les valeurs de la table de contingence njk sachant qu’il y a autant d’étudiantes
de type A que d’étudiants de type B, qu’il n’y a pas d’étudiants de type A, que la pro-
portion hommes/femmes est la même dans les types B et C, que le type C est deux
fois plus nombreux que le type B, et qu’il y a autant d’étudiantes que d’étudiants
dans tout l’échantillon.
2. Que valent n12 et n21 ?
3. Que valent n1● et n●1 ?
4. Vérifier que ∑j nj● = ∑k n●k = n.
nj● n●k
jk une nouvelle table de contingence définie par njk ∶=
5. Soit ntheo theo
n
; trouver les
valeurs de la table de contingence ntheo
jk .
6. Quelle est la probabilité pour qu’une étudiante de l’échantillon suive des études de
type B ?
7. Quelle est la probabilité pour qu’une personne suivant des études de type B soit un
homme ?
Exercice 3.4
Soit la table de contingence njk suivante, qui croise deux variables à m1 = 2 et m2 = 3
modalités (n = 100 individus) :
2. Rappel : un boxplot est une représentation schématique de la répartition des valeurs d’un échantillon ; on
indique la médiane, les premier et troisième quartiles (“boı̂te”) ainsi que, en général, les premier et neuvième
déciles (“moustaches”).
125
10 20 10
30 10 20
nj● n●k
jk ∶=
1. Calculer les scores théoriques sous l’hypothèse d’indépendance nth n
.
m2 (njk −njk )
th 2
2. Calculer le chi2 ∶= m1
∑j=1 ∑k=1 th
njk
associé à la table njk .
3. Que vaudrait le chi2 associé cette fois non pas à la table observée njk mais à la table
théorique nth
jk calculée en 3.4.1 ?
Exercice 3.5
On a relevé la taille x (en [cm]) de n = 8 individus répartis dans m = 3 groupes de tailles
n1 = 3, n2 = 2 et n3 = 3 :
Groupe 1 Groupe 2 Groupe 3

160 173 180 177 185 188 152 161
1. Calculer la moyenne totale x̄ et la moyenne de chaque groupe x̄1 , x̄2 et x̄3 .

2. Calculer les variances de chaque groupe var1 (x), var2 (x) et var3 (x) (inutile de cal-
culer la variance totale et les écarts-types).
3. Calculer la moyenne (pondérée) du carré des écarts à la moyenne ou variance inter-
groupe varB (x) ∶= n1 ∑mj=1 nj (x̄j − x̄) .
2
4. Calculer la moyenne (pondérée) des variances ou variance intragroupe varW (x) ∶=

m
n ∑j=1 j
1
n varj (x).
5. Calculer le F-ratio (rappel : F ∶= varB (x) / varW (x) )
m−1 n−m
Exercice 3.6
On a relevé les scores des variables x = “note de dessin” et y = “note de chant” dans une
classe. Les moyennes, les écarts-types et la corrélation empiriques valent : x̄ = 4, ȳ = 5,
sx = 1, sy = 1.5 et r = 2/3.
1. Quel pourcentage de la variance de y est expliqué par x ?
2. Quelle est la note de chant prédite si un élève obtient un 4.5 en dessin ? Rappel : les
valeurs prédites par régression linéaire sont données par y ∗ = ax + b.
3. Même question en utilisant les scores standardisés et la formule y s∗ = rxs .
4. Quelle est la note de dessin prédite si un élève obtient un 5.5 en chant ? (utiliser
x∗ = Ay + B avec les valeurs convenables de A et B)
5. Même question en utilisant les scores standardisés (xs∗ = ry s ).
Exercice 3.1
1. et 3. Fonction de répartition de x (à gauche) et boxplot de x (à droite).
10
8
6
4
2
0
. 126
2. D’après la fonction de répartition F (x), 70% des valeurs de x sont strictement

inférieures à 7 ; 70% des valeurs de x sont strictement supérieures à 2.
4. x̄ = 10
1
(3 + 9 + . . . + 1) = 4.7 x0.5 = 4.5 (à partir de la fonction de répartition F (x))
√
var(x) = 10 1
(32 + 92 + . . . + 12 ) − x̄2 = 11.01 sx = var(x) = 3.32
x0.25 = 1 et x0.75 = 9 (à partir de F (x)) et donc 12 (x0.75 − x0.25 ) = 4.
Exercice 3.2
1. var(x) = 11.01, var(y) = 13.45 et cov(x, y) = −2.95.
2. corr(x, y) = −0.24.
3. Par construction, var(xs ) = 1, var(y s ) = 1. Egalement, cov(xs , y s ) = corr(xs , y s ) =
corr(x, y).
Exercice 3.3
njk A B C tot. ntheo
jk A B C tot.
femme 30 20 40 90 femme 15 25 50 90
1. et 5.
homme 0 30 60 90 homme 15 25 50 90
tot. 30 50 100 180 tot. 30 50 100 180
2. n12 = 20, n21 = 0.
3. n1● = 90, n●1 = 30.
6. P (Y = B∣X = femme) = 20
90
= 0.22.
7. P (X = homme∣Y = B) = 30
50
= 0.6.
Exercice 3.4
11 ∶= = = 16, nth
12 ∶= = = 12, etc. La table des effectifs
n1● n●1 40⋅40 n1● n●2 40⋅30
1. nth n 100 n 100
16 12 12
théoriques nth
jk est :
24 18 18
2. chi2 = (10−16) + (20−12) + . . . + (20−18)

2 2 2
16 12 18
= 13.19
3. On obtiendrait un chi2 nul, puisque les variables sont indépendantes par construc-
tion dans la table nth jk . Une autre façon de le dire est que le calcul des effectifs
théoriques à partir de nth jk (plutôt qu’à partir des effectifs observés njk ) donne en-
core et toujours nthjk , et donc que le chi2 associé (3.5) vaut zéro.
Exercice 3.5
1. x̄ = 172, x̄1 = 171, x̄2 = 181, x̄3 = 167.
2. var1 (x) = 68.67, var2 (x) = 16, var3 (x) = 234.
3(171−172)2 +2(181−172)2 +3(167−172)2
3. varB (x) = 8
= 30.
4. varW (x) = 3⋅68.67+2⋅16+3⋅234
8
= 117.5.
5. F = 2 / 5 = 0.64.
30 117.5
Exercice 3.6
(y ∗ )
1. var
var(y) = r = ( 3 ) =
2 2 2 4
9
= 44%
ȳ − ax̄ = 5 − 1 ⋅ 4 = 1, y ∗ = 1 ⋅ 4.5 + 1 = 5.5
s
2. a = r sxy = 23 1.5
1
= 1, b =
3. x = 1 = 0.5, y s∗
s 4.5−4
= 23 ⋅ 0.5 = 13 = 0.33 (on peut vérifier que y ∗ = ȳ + sy ⋅ y s∗ =
5 + 1.5 ⋅ 0.33 = 5.5, cf. question 2)
4. A = r ssxy = 23 1.5
1
= 49 , B = x̄ − Aȳ = 4 − 94 ⋅ 5 = 16
9
, x∗ = 94 ⋅ 5.5 + 16
9
= 4.22
5. y s = 5.5−5
1.5
= 13 , xs∗ = 21
33
= 2
9
= 0.22 (vérification : x∗ = x̄ + sx ⋅ xs∗ = 4 + 1 ⋅ 0.22 = 4.22,
cf. question 4).
127
Série 4
Série 4
Sujets : distributions de probabilité discrètes et continues. Moyennes, va-

riances, quantiles théoriques. Lois de Poisson, binomiale, multinominale,
uniforme, normale. Théorème central limite. Intervalle de confiance.
Exercice 4.1
Le graphe suivant représente la fonction de répartition F (x) d’une loi de probabilité conti-
nue (rappel : F (x) = P (X ≤ x)).
1
0.95
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
F(x)
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
1. D’après le graphique, que valent la médiane et l’intervalle interquartile de cette dis-

tribution ?
2. Estimer graphiquement P (X ≥ 3) et P (0 ≤ X ≤ 2).
3. On souhaite que P (1 ≤ X ≤ a) = 0.5. Que vaut a ?
Exercice 4.2
On considère la loi de probabilité discrète p suivante, donnant les probabilités pi des va-
leurs numériques possibles xi d’une variable X :
128
Série 4
x p
0 0.4
1 0.3
2 0.2
5 0.1
1. Calculer E(X) et Var(X).

2. Dessiner la fonction de répartition F (x).
3. Donner la médiane et l’intervalle interquartile de cette distribution.
Exercice 4.3
Les Suisses ont lu la trilogie “La vie rêvée d’Anselme” avec une probabilité p = 0.2. On
interroge 12 personnes tirées au hasard dans la population suisse.
1. Quelle est la probabilité que 5 personnes aient lu la trilogie ?
2. Quelle est la probabilité qu’au moins 1 personne l’ait lue ?
Exercice 4.4
Monsieur K. se promène au hasard dans les rues de Lausanne et compte le nombre X
de personnes ayant lu la trilogie “La vie rêvée d’Anselme” qu’il croise en une heure. Les
expériences d’un institut de sondage ont montré que ce nombre vaut en moyenne 20.
1. Quelle est la distribution suivie par la variable X ?
2. Quelle est la probabilité que Monsieur K. croise en une heure 15 personnes ayant lu
la trilogie ?
3. Quelle est la probabilité qu’au moins 1 personne l’ait lue ?
Exercice 4.5
Au SA2012, la Faculté des GSE comptait 792 étudiant-e-s (tous programmes confondus),
dont 350 Vaudois, 318 Confédérés (= autres Suisses), et 124 Etrangers (catégorisés ainsi
selon le lieu de domicile légal au moment de l’obtention de la maturité).
Evaluer la probabilité que, autour d’une table partagée par quatre étudiants de GSE, on
compte 1 Vaudois et 3 étrangers. Quelle hypothèse implicite permet de justifier cette esti-
mation ?
Exercice 4.6
La distribution de la taille des Kurlandaises est une loi normale de moyenne µ = 175 cm et
d’écart-type σ = 15 cm.
1. Quelle est la probabilité qu’une Kurlandaise soit plus grande que 2 m ?
2. Quelle est la probabilité que la taille d’une Kurlandaise soit comprise entre 150 cm
et 170 cm ?
3. Quelle est la probabilité qu’une Kurlandaise soit plus grand que 150 cm sachant
qu’elle est plus petite que 170 cm ?
Exercice 4.7
Vrai ou faux ?
1. Déclarer que X ∼ B(1, p) équivaut à déclarer que X prend les deux valeurs 1 et 0,
avec P (X = 1) = p et P (X = 0) = 1 − p.
2. Si X ∼ B(1, p) alors E(X) = p et Var(X) = p(1 − p).
3. Le 6-ème décile de la loi N (0, 1) est x0.6 = 0.25.
4. L’intervalle interquartile de la loi N (µ, σ 2 ) est 2σ.
5. Chaque jour, Anselme joue au loto et perd 5 francs en moyenne, avec un écart-type
de 20 francs. Alors, au bout de n jours (n grand), la variable X = “perte journalière
moyenne” sera distribuée comme N (5, 400 n
).
129
Série 4
6. Pour mesurer une moyenne avec une précision 10 fois plus grande, il faut 10 fois
plus d’observations.
Exercice 4.8
Soit un dé ordinaire équilibré. On définit les variables Y = “valeur du chiffre tiré” et X =
“variable indicatrice de l’événement chiffre pair tiré”.
1. Calculer Corr(X, Y ).
2. Quelle est, par régression linéaire, la valeur attendue Y ∗ du chiffre tiré si X = 0 ?
3. Idem si X = 1 ?
4. Aurait-on pu trouver ces valeurs par une méthode plus simple ?
Exercice 4.9
Soit un questionnaire à choix multiples comprenant 6 questions avec 4 choix possibles à
chaque fois. Quelle est la probabilité de donner au moins 5 réponses correctes dans les
deux cas suivants :
1. l’étudiant est préparé et trouve la bonne réponse, pour chaque question, avec une
probabilité de 0.9.
2. l’étudiant n’est pas préparé et devine la bonne réponse, pour chaque question, avec
une probabilité de 14 = 0.25.
Exercice 4.10
L’express de 14 heures part tous les jours entre 14h02 et 14h14 ; on fait l’hypothèse que
l’heure X de départ du train suit une loi uniforme dans cet intervalle. Soit la variable X̄ :=
“heure moyenne de départ du train”, où la moyenne est calculée sur n = 81 jours.
1. En utilisant le théorème central limite, calculer la probabilité que X̄ ≤ 14h10 (rap-
et Var(X) = (b−a)
2
pel : si X ∼ U (a, b), alors E(X) = a+b
2 12
).
2. Sur un échantillon de n = 81 jours, on
√ observe que X̄ vaut 14h09. Sachant que
l’écart-type théorique de X vaut σ = 12, donner l’intervalle de confiance à 95%
pour µ = E(X̄).
Exercice 4.11
Vrai ou faux ?
1. La covariance entre deux variables X et Y dépend du système d’unité de ces variables.
2. Sur un échantillon, si la médiane d’une variable X est très différente de sa moyenne
alors sa variance sera élevée.
3. L’intervalle interquartile d’une variable X se calcule comme x0.75 − x0.25 .
4. le calcul du coefficient du chi-carré peut s’appliquer indifféremment à des variables
discrètes ou continues.
5. a) Le F-ratio est défini lorsque le nombre m de groupes est égal au nombre n d’indi-
vidus.
b) Le F-ratio est défini lorsque le nombre m de groupes est égal à 1.
6. Une variable centrée-réduite a par construction un écart-type de 1.
7. Une variable centrée-réduite suit par construction une loi normale standard N (0, 1).

Exercice 4.12
Parmi les énoncés suivants, déterminer ceux qui sont vrais :
1. Un centile est : i) une fréquence ; ii) un effectif ; iii) un intervalle ; iv) un point sur
l’axe des x.
130
Série 4
2. Est toujours compris entre 0 et 1 : i) une fonction de distribution ; ii) une fonction
de répartition ; iii) un centile.
3. Une moitié des individus est située : i) au dessus de la moyenne ; ii) en dessous de
la médiane ; iii) dans l’intervalle interquartile.
4. Une variable standardisée possède : i) une moyenne nulle ; ii) une fonction de dis-
tribution symétrique ; iii) une variance nulle.
5. On compare les variables x et y = ax, où a est une constante : i) ȳ = ax̄ ; ii) var(y) =
a2 var(x) ; iii) y s = xs .
Exercice 4.13
Soit l’expérience consistant au lancer d’un dé à 6 faces. On définit deux variables aléatoires :
X qui associe à un lancer la valeur de la face sortie, et Y qui associe, elle, le nombre 1 si
le chiffre sorti est pair et −1 sinon.
Calculer les moyennes E(X) et E(Y ), ainsi que les écarts-types σX et σY des deux va-
riables aléatoires sous les deux distributions suivantes :
1. la distribution de probabilité sur les 6 faces est uniforme (dé équilibré)
2. la distribution de probabilité est concentrée sur l’événement “la face sortie porte le
chiffre 5” (i.e. dé pipé ne faisant que des cinq).
Exercice 4.14
1. Donnez une distribution de probabilité uniforme pour une variable aléatoire discrète
X prenant prenant toutes les valeurs entières entre -2 et 5.
2. Faites de même pour une distribution de probabilité non uniforme.
3. Calculez pour les deux cas (a) P (X ≤ 3), (b) P (−1 ≤ X ≤ 2) et (c) P (X ≥ 3).
4. Peut-on construire une distribution de probabilité uniforme pour une variable aléatoire
discrète X prenant toutes les valeurs entières X = 0, 1, 2, ... ?
Exercice 4.15
1. Calculer pour une variable aléatoire X, dont la distribution de probabilité est une
loi normale standard, les valeurs suivantes : P (X ≤ 1), P (X ≤ 2.58), P (X > 2.58),
P (−2 < X < 2.4), P (−3 < X ≤ 3), x0.5 , x0.7 , x0.2 .
2. Même question si X est une variable N (1, 41 ) .
Exercice 4.16
Donner la distribution de probabilité de la variable aléatoire X représentant le nombre de
garçons dans une famille de cinq enfants, en supposant P (garçon) = 0.51.
Exercice 4.17
1. Quelle est la probabilité qu’une variable normale soit supérieure à la moyenne aug-
mentée de l’écart-type ? à la moyenne augmentée de deux écarts-type ?
2. Soit X ∼ N (50, 10). Que vaut le 99-ème centile de la distribution ?
Exercice 4.18
1. En 1989, 99812 vols de véhicules ont été dénoncés en Suisse, ce qui correspond à
une moyenne horaire de 11.38 véhicules volés.
Evaluer les probabilités d’avoir respectivement 0, 5 et 10 véhicules volés durant une
heure donnée.
2. La probabilité de décrocher le jack-pot d’une machine à sous est de un millionnième.
En jouant 10 fois par semaine pendant cinquante ans, quelle est la probabilité qu’un
individu décroche deux fois le jack-pot ? Que devient cette probabilité si l’approxi-
mation de Poisson est utilisée ?
131
Série 4
Exercice 4.19
Lors d’un examen, une classe obtient une moyenne de 72 points avec un écart-type de
15. En supposant que la variable ”nombre de points obtenus par un étudiant“ suit une loi
normale, calculer :
1. la proportion d’étudiants ayant 90 points ou plus,
2. la proportion d’étudiants ayant 40 points ou moins,
3. la proportion d’étudiants dont le nombre de points diffère de la moyenne de plus de
la moitié de l’écart-type.
Exercice 4.20
Dans ce qui suit, X et Y sont deux variables aléatoires ; X suit une loi binomiale B(n, p)
et Y suit une loi normale N (µ, σ 2 ).
A. Tester la validité des affirmations ci-dessous en justifiant à chaque fois la réponse :
1. n peut prendre n’importe quelle valeur positive.
2. p peut prendre n’importe quelle valeur positive.
3. µ peut prendre n’importe quelle valeur positive.
4. σ peut prendre n’importe quelle valeur positive.
5. Y s ∼ N (0, 1).
6. X s = √
X−np
.
np(1−p)
7. La distribution de Y est toujours symétrique.

B. Compléter les affirmations ci-dessous.
1. Plus p est proche de 0.5, plus Var(X) est . . . . . . . . . . . .
2. Plus p est grand, plus E(X) est . . . . . . . . . . . .
L’intervalle interquartile y0.75 −y0.25 vaut toujours . . . . . . . . . . . . fois l’écart-type σY =
3. √
Var(Y )
4. La distribution de X est symétrique si et seulement si . . . . . . . . . . . .
Exercice 4.21
Dans une certaine profession, le revenu annuel moyen croı̂t avec l’âge des travailleurs,
selon une loi de la forme w = c ⋅ z α , où w est le revenu annuel brut moyen (en Kchf), z
est l’âge (en années), et c et α des constantes positives à déterminer.
A partir des données fictives
âge z revenu w
20 42
30 55
40 63
50 70
60 78
déterminer la valeur des constantes c et α, ainsi que le revenu attendu pour un travailleur
de 65 ans.
Indication : pour résoudre le problème par régression linéaire, il faut d’abord transformer
l’équation non linéaire w = c ⋅ z α en équation linéaire de la forme y = ax + b, où y = y(w) et
x = x(z) sont des transformations appropriées des variables w et z, qu’il d’agit de deviner
au préalable en s’aidant de ses souvenirs mathématiques.
132
Exercice 4.1
1. x0.5 = 2 (médiane), x0.25 ≈ 1.3 et x0.75 ≈ 2.7 donc x0.75 − x0.25 = 1.4
2. F (3) = P (X ≤ 3) ≈ 0.84. P (X ≥ 3) = 1 − P (X ≤ 3) = 0.16
F (0) ≈ 0.02, F (2) ≈ 0.5. D’où P (0 ≤ X ≤ 2) = F (2) − F (0) = 0.48
3. F (1) ≈ 0.16. P (1 ≤ X ≤ a) = F (a) − F (1) = 0.5. Donc F (a) = F (1) + 0.5 = 0.66 et
a ≈ 2.4
Exercice 4.2
1. E(X) = 0.4 ⋅ 0 + 0.3 ⋅ 1 + 0.2 ⋅ 2 + 0.1 ⋅ 5 = 1.2
Var(X) = E(X 2 ) − E 2 (X) = 0.4 ⋅ 02 + 0.3 ⋅ 12 + 0.2 ⋅ 22 + 0.1 ⋅ 52 − 1.22 = 2.16
2.
1.0
0.8
0.6
F(x)
0.4
0.2
0.0
0 1 2 3 4 5
3. D’après le graphique, x0.5 = 1 (médiane), x0.25 = 0, x0.75 = 2. L’intervalle interquartile

vaut donc x0.75 − x0.25 = 2.
Exercice 4.3
La probabilité que k personnes aient lu la trilogie suit une loi binomiale
B(n = 12, p = 0.2).
12
1. P (X = 5) = ( ) 0.25 ⋅ 0.812−5 = 0.053
5
12
2. P (X ≥ 1) = 1 − P (X = 0) = 1 − ( ) 0.20 ⋅ 0.812 = 0.93
0
Exercice 4.4
1. X suit une loi de Poisson de paramètre λ = 20
15
2. P (X = 15) = exp(−20) 20
15!
= 0.052
0
3. P (X ≥ 1) = 1 − P (X = 0) = 1 − exp(−20) 20
0!
= 1 − exp(−20) ≈ 1
Exercice 4.5
Les proportions d’étudiants Vaudois, Confédérés et Etrangers sont respectivement de 350/792 =
0.442, 350/792 = 0.402, et 350/792 = 0.157. Par la loi multinomiale, la probabilité de la
configuration en question est de
4!
0.4421 ⋅ 0.4020 ⋅ 0.1573 = 4 ⋅ 0.442 ⋅ 1 ⋅ 0.00387 = 0.0068 .
1! 0! 3!
L’hypothèse implicite (et sans doute questionnable ici) justifiant cette estimation est que
les réunions spontanées d’étudiants de GSE ne sont pas soumises à des préférences inter-
individuelles impliquant l’origine ou l’âge (dont dépendent les proportions ci-dessus).
133
Exercice 4.6
1. P (X > 200) = P (X s > 200−175
15
) = P (X s > 1.67) = 1 − P (X s ≤ 1.67) = 1 − Φ(1.67) =
1 − 0.953 = 0.047
2. P (150 ≤ X ≤ 170) = P ( 150−175
15
≤ X s ≤ 170−175
15
) = P (−1.67 ≤ X s ≤ −0.33) = Φ(−0.33)−
Φ(−1.67) = (1 − Φ(0.33)) − (1 − Φ(1.67)) = Φ(1.67) − Φ(0.33) = 0.953 − 0.629 = 0.324
P (150≤X≤170)
3. P (150 ≤ X ∣ X ≤ 170) = P (X≤170)
= 0.324
P (X s ≤−0.33)
= 0.324
1−0.629
= 0.873 .
Exercice 4.7
1. vrai : on rappelle que la loi binomiale B(n, p) est la distribution de X = “nombre de
pile en n lancers”, avec p ∶= P (“pile”). Si n = 1 (un seul lancer), les valeurs possibles
de X sont en effet 1 et 0, avec P (X = 1) = p et P (X = 0) = 1 − p.
2. vrai : c’est un cas particulier de E(X) = np et Var(X) = np(1 − p) pour n = 1. On peut
aussi le retrouver par un calcul direct, tel que Var(X) = E(X 2 ) − E(X)2 = p − p2 =
p(1 − p) (on a, dans ce cas particulier, utilisé E(X 2 ) = E(X) = p, puisque X 2 = X
lorsque X = 1 ou 0, comme c’est le cas ici).
3. vrai : il faut trouver dans la table la valeur u telle que Φ(u) = 0.6
4. faux : soit X ∼ N (µ, σ 2 ), et donc X s ∶= X−µ
σ
∼ N (0, 1). En particulier, Xαs = Xασ−µ et
donc Xα = µ+Xα σ. On a X0.75 = µ+X0.75 σ = µ+0.68σ (car Φ(0.68) = 0.75). On trouve
s s
aussi (par calcul complet ou simplement par symétrie) que X0.25 = µ + X0.25 s
σ =
µ − 0.68 σ. Ainsi, l’intervalle interquartile est X0.75 − X0.25 = 2 ⋅ 0.68 σ = 1.36 σ.
σ2 202
5. vrai : c’est précisément le contenu du théorème central limite, avec µ = 5 et n
= n
=
400
n
.
6. faux : l’imprécision sur une moyenne X̄ de n observations peut être représentée par
son écart-type σX̄ = √σX
, où σX est l’imprécision sur une observation. Pour que σX̄
n
√
soit diminué d’un facteur 10, il faut que n soit augmenté d’un facteur 10, i.e. que
n soit augmenté d’un facteur 100. Notons qu’il est naturel d’utiliser l’écart-type plutôt
que la variance dans ce contexte, puisqu’il est exprimé dans la même unité que la
variable considérée (comme dans p.ex. : “une taille moyenne de 170 cm ± 2 cm”).
Exercice 4.8
Soit un dé ordinaire équilibré. On définit les variables Y = “valeur du chiffre tiré” et X =
“variable indicatrice de l’événement chiffre pair tiré”.
1. Calculer Corr(X, Y ).
2. Quelle est, par régression linéaire, la valeur attendue Y ∗ du chiffre tiré si X = 0 ?
3. Idem si X = 1 ?
4. Aurait-on pu trouver ces valeurs par une méthode plus simple ?
Exercice 4.9
1. Le nombre X de réponses correctes sur 6 questions avec P (réponse correcte) = p
6
suit une loi binomiale : X ∼ B(6, p). Pour p = 0.9, on a donc P (X ≥ 5) = ( ) 0.95 ⋅
5
6
0.11 + ( ) 0.96 ⋅ 0.10 = 0.88.
6
6 6
2. Avec p = 0.25, on a P (X ≥ 5) = ( ) 0.255 ⋅ 0.751 + ( ) 0.256 ⋅ 0.750 = 0.005.
5 6
Exercice 4.10
L’heure restant constante, on peut ne considérer que les minutes après 14h.
134
1. La moyenne et la variance de l’heure X de départ du train valent (en minutes après

= 8 et Var(X) = (14−2)
2
14h) E(X) = 2+14 2 12
= 12. Par le théorème central limite,
on trouve que l’heure moyenne X̄ de départ du train suit une loi normale N (8, 12 81
).
Donc P (X̄ ≤ 10) = P (X¯s ≤ √10−8 ) = P (X¯s ≤ 5.196) = Φ(5.196) ≅ 1.
12/81
√ √
2. P (9 − √12 1.96 ≤µ≤9+ √ 1.96) =
12
P (8.25 ≤ µ ≤ 9.75) = 0.95.
81 81
Exercice 4.11
1. Vrai. C’est d’ailleurs la raison pour laquelle le coefficient de corrélation, indépendant
du système d’unité, est préféré pour décrire le lien entre deux variables numériques.
2. Vrai. Cela signifie qu’au moins une valeur est très éloignée de la médiane, ce qui
augmente fortement la variance sur un échantillon.
3. Vrai. L’intervalle semi-interquartile, également utilisé, étant cette somme divisée par
deux.
4. Faux. Le coefficient du chi-carré ne se calcule que dans le cadre de variables catégorielles
qui sont, par nature, discrètes.
varB (x)
5. Faux, dans les deux cas. Rappel : F = varm−1
W (x)
n−m
W (x)
Dans le point a) varn−m = 00 car il y autant de groupe que de d’individus (donc un
seul individu par groupe et pas de variance dans les groupes) et que m = n. Au final,
le dénominateur de F est indéterminé.
B (x)
Dans le point b) var
m−1
, m = 1. Comme il n’y a qu’un seul groupe, la variance entre
les groupe est nulle et m − 1 = 0. Le numérateur est de type 00 , indéterminé.
6. Vrai.
7. Faux. X s n’est normal que si X est normal également.

Exercice 4.12
1. i) faux ; ii) faux ; iii) faux ; iv) vrai.
2. i) faux : une distribution suffisamment concentrée autour de la moyenne comportera
un pic élevé, supérieur à 1 ; ii) vrai ; iii) faux : il est toujours possible de construire
une distribution telle qu’un centile donné xα soit situé en un point quelconque de
l’axe des x.
3. i) faux ; ii) vrai ; iii) vrai : 25% des individus étant situés au dessous du 1er quartile
et 25% au-dessus du 3ème quartile, il en reste donc 50% à l’intérieur de l’intervalle
interquartile.
4. i) vrai ; ii) faux, en général : si la distribution d’une variable est non symétrique, la
distribution de la variable standardisée le sera aussi. iii) faux : une variable standar-
disée possède toujours une variance unité.
5. i) vrai ; ii) vrai : comme y 2 = (ax)2 = a2 x2 et ȳ = ax̄, alors var(y) = y 2 − ȳ 2 =
a2 x2 − a2 x̄2 = a2 (x2 − x̄2 ) = a2 var(x) ; iii) faux en général, mais vrai si a est positif :
y − ȳ ax − ax̄ a x − x̄ a s
ys = √ =√ = √ = x
var(y) a2 var(x) ∣a∣ var(x) ∣a∣
Exercice 4.13
1. E(X) = 16 (1 + 2 + 3 + 4 + 5 + 6) = 3.5
E(Y ) = 61 (−1 + 1 − 1 + 1 − 1 + 1) = 0
2
σX = E((X − E(X))2 ) = E(X 2 ) − E 2 (X) = 61 (1 + 4 + 9 + 16 + 25 + 36) − (3.5)2 ≅ 2.916
135
d’où σX ≅ 1.708
σY2 = E(Y 2 ) − E 2 (Y ) = 61 (1 + 1 + 1 + 1 + 1 + 1) − 0 = 1, d’où σY = 1.
2. E(X) = 5 ; E(Y ) = −1.

2
σX = E(X 2 ) − E 2 (X) = 52 − 52 = 0 (comme il se doit dans le cas déterministe)
σY = E(Y 2 ) − E 2 (Y ) = 1 − (−1)2 = 0 (idem).
2
Exercice 4.14 1. Distribution uniforme (une seule possibilité) :

k -2 -1 0 1 2 3 4 5
pk = P (X = k) 18 1
8
1
8
1
8
1
8
1
8
1
8
1
8
2. Exemple de distribution non-uniforme (parmi une infinité de possibilités) :
k -2 -1 0 1 2 3 4 5
pk = P (X = k) 0.1 0.15 0.2 0 0.05 0.3 0.1 0.1
En fait, il suffit que ∑5k=−2 P (X = k) = 1 et P (X = k) ≥ 0 pour tout k = −2, ..., 5.
3. (a) P (X ≤ 3) = P (X = −2) + P (X = −1) + P (X = 0) + P (X = 1) + P (X = 2) + P (X =

3) = 0.7 dans le cas uniforme. Dans le cas non-uniforme, on obtient P (X ≤ 3) =
0.8
(b) P (−1 ≤ X ≤ 2) = P (X = −1) + P (X = 0) + P (X = 1) + P (X = 2) = 0.5 dans le cas
uniforme. Dans le cas non-uniforme, on obtient P (−1 ≤ X ≤ 2) = 0.4.
(c) P (X ≥ 3) = P (X = 3) + P (X = 4) + P (X = 5) = 0.375 dans le cas uniforme. Dans
le cas non-uniforme, on obtient P (X ≥ 3) = 0.5
4. Non, car si la distribution était uniforme, la valeur de P (X = k) serait égale à une
constante c > 0. La somme de toutes les probabilités devant valoir 1, on devrait avoir
c × ∞ = 1 (car il y a une infinité de cas possibles), et donc c = 0, en contradiction avec
c > 0. Ainsi, la consigne “donnez un nombre entier au hasard” est mal définie : ou
bien il est sous-entendu que la distribution en question est la distribution uniforme
(ce qui n’est pas possible comme on vient de le voir), ou bien la distribution n’est
pas définie, et la question ne l’est donc pas non plus.
Exercice 4.15
1. P (X ≤ 1) = Φ(1) = 0.8413 P (X ≤ 2.58) = Φ(2.58) = 0.9951,
P (X > 2.58) = 1 − Φ(2.58) = 0.0049,
P (−2 < X < 2.4) = Φ(2.4) − (1 − Φ(2)) = 0.9690,
P (−3 < X ≤ 3) = 2Φ(3) − 1 = 0.9973.
Comme xα est défini par P (X ≤ xα ) = Φ(xα ) = α, on a x0.5 = 0, x0.7 = 0.525 et
x0.2 = −x0.8 = −0.842.
2. Comme X ∼ N (1, 14 ), la variable standardisée X s = √

X−1
= 2X −2 suit une loi N (0, 1).
1
4
Ainsi :
P (X ≤ 1) = P (X s = 2X − 2 ≤ 2 ⋅ 1 − 2 = 0) = Φ(0) = 0.5,
P (X ≤ 2.58) = P (X s ≤ 3.16) = Φ(3.16) = 0.9992,
P (X > 2.58) = P (X s > 3.16) = 1 − Φ(3.16) = 0.0008,
P (−2 < X < 2.4) = P (−6 < X s < 2.8) = Φ(2.8) − (1 − Φ(−6)) = 0.9974,
P (−3 < X ≤ 3) = P (−8 < X s ≤ 4) = Φ(4) − (1 − Φ(8)) = 1.0000.
Comme P (X ≤ xα ) = P (X s = 2X − 2 ≤ 2xα − 2) = α, nous avons 2xα − 2 = xsα et

xs +2
ainsi xα = α2 (où xsα est le α-ième centile de X s , variable qui suit une loi normale
standard). Par conséquent :
xs +2 xs +2
x0.5 = 0.52 = 0+22
= 1, x0.7 = 0.72 = 0.524+2
2
= 1.262,
xs0.2 +2 −0.842+2
x0.2 = 2
= 2
= 0.579 (xs0.5 , xs0.5 et xs0.7 ont été obtenus dans la partie a).
136
Exercice 4.16
Loi binomiale : à chaque “tirage”, P (garçon)= p, P (fille)= q = 1 − p.
Ainsi, P (k garçons et 5 − k filles) = P (X = k) = (k5)pk q 5−k .
Ici, p = 0.51, q = 0.49, d’où P (X = 0) = 0!5!
5!
(0.49)5 = 0.03, P (X = 1) = 4!1!
5!
(0.49)4 (0.51) =
0.15, P (X = 2) = 3!2! (0.49) (0.51) = 0.31, P (X = 3) = 2!3! (0.49) (0.51) = 0.32, P (X =
5! 3 2 5! 2 3
4) = 1!4!
5!
(0.49)(0.51)4 = 0.17 et P (X = 5) = 0!5!
5!
(0.51)5 = 0.03.
Exercice 4.17
1. X est une variable normale ssi X ∼ N (µ, σ 2 ). Pour connaı̂tre la probabilité de
l’événement X > µ + σ, il faut d’abord (utilisation des tables) standardiser l’énoncé :
P (X > µ+σ) = P (X −µ > σ) = P ( X−µ σ
> 1) = P (X s > 1) = 1−P (X s < 1) = 1−0.8413 =
0.1587. De même, P (X > µ + 2σ) = 1 − P (X s < 2) = 0.0228.
2. Le 99-ème centile
√ de la distribution standard est (tables) xs0.99 = 2.33. Donc x0.99 =
σx0.99 + µ = 10 2.33 + 50 = 57.37.
s
Exercice 4.18
1. Au vu de l’importance du parc automobile n et la faible probabilité p du vol d’une
voiture spécifique, le processus est modélisable par une loi de Poisson P (λ) de pa-
ramètre λ = 11.38. Si X dénote le nombre horaire de voitures volées, on a :
P (X = 0) = exp(−11.38) (11.38)
0
0!
= 0.000011
P (X = 5) = exp(−11.38) (11.38)
5
5!
= 0.018
P (X = 10) = exp(−11.38) (11.38)
10
10!
= 0.11 .
2. Le processus peut être modélisé par une loi binomiale B(n, p) avec p = 1000000 1
et
(365.25)(50)(10)
n= 7
≈ 26089.
Alors P (X = 2) = 26087!2!
26089!
(10−6 )2 (0.999999)26087 = 21 (26089)(26088)(10−12 )(0.974) =
0.000331.
Dans l’approximation de Poisson, λ = 26089 × 10−6 = 0.026 et la probabilité cherchée
vaut exp(−0.026) (0.026)
2
2!
= 0.000329 (soit une valeur très proche, comme il se doit).
Exercice 4.19
Comme X ∼ N (72, 225), la variable standardisée X s = X−72
15
suit une loi N (0, 1). Ainsi :
1. P (X ≥ 90) = P (X ≥ s 90−72
15
) = P (X ≥ 1.2) = 1 − Φ(1.2) = 1 − 0.8849 = 0.1151
s
2. P (X ≤ 40) = P (X s ≤ 40−72
15
) = P (X s ≤ −2.133) = 1 − Φ(2.133) = 1 − 0.983 = 0.017,
3. P (∣X − 72∣ > 15
2
) = P (X < 64.5 ou X > 79.5) = P (X s < − 12 ou X s > 12 ) = 2(1 − Φ( 21 )) =
2(1 − 0.6915) = 0.617.
Exercice 4.20
A. 1. faux : n ne peut prendre qu’une valeur entière positive.
2. faux : p ne peut prendre qu’une valeur dans [0, 1].
3. faux : µ peut prendre n’importe quelle valeur positive ou négative.
4. vrai.
5. vrai : la variable standardisée d’une variable normale suit une loi N (0, 1).
6. vrai : E(X) = np et Var(X) = np(1 − p).
7. vrai.
B. 1. Plus p est proche de 0.5, plus Var(X) est grande.
2. Plus p est grand, plus E(X) est grande.
3. L’intervalle interquartile y0.75 − y0.25 vaut toujours 1.35 fois l’écart-type σY : en
considérant la variable standardisée Y s , on a σY s = 1, y s 0.75 = 0.675, y s 0.25 =
137
−y s 0.75 = −0.675 et ainsi y s 0.75 − ŷ0.25 = 1.35 = 1.35 σY s . Si l’on revient à la variable
non standardisée Y , l’intervalle interquartile et la variance seront chacun multipliés
par σY , d’où y s 0.75 − y s 0.25 = 1.35 σY .
4. La distribution de X est symétrique si et seulement si p = 0 .5 . Dans ce cas seulement,
il y a égalité entre les distributions de X = “nombre de pile en n lancers d’une pièce
dont la probabilité d’obtenir pile est p” et de Z = n − X = “nombre de face en n
lancers”.
Exercice 4.21
Pour transformer la relation non-linéaire w = c ⋅ z α en relation linéaire (entre des va-
riables transformées à déterminer), on prend le logarithme naturel ln des deux termes de
l’équation w = c ⋅ z α , ce qui donne
ln w = α ln z + ln c i.e. y = ax + b avec y ∶= ln w, x ∶= ln z, a ∶= α, b ∶= ln c
Il s’agit maintenant de prédire, par régression linéaire, y = ln w en fonction de x = ln z. Les

données correspondantes sont
z w x = ln z y = ln w
20 42 3.00 3.74
30 55 3.40 4.01
40 63 3.69 4.14
50 70 3.91 4.25
60 78 4.09 4.36
ce qui donne x̄ = 3.62, ȳ = 4.10, sx = 0.366, sy = 0.214, cov(x, y) = 0.074, rxy = 0.945, et
donc
a = 0.553 b = 2.098 α = a = 0.553 c = exp b = 8.151
Ainsi, le salaire attendu d’un travailleur de 65 ans est d’environ

w∗ = 8.151 ⋅ 650.553 = 82.0 Kchf.
Remarque : la valeur α = 0.553 est proche de 0.5, i.e. le salaire croı̂t à peu près comme la
racine carrée de l’âge du travailleur.
138
Série 5
Série 5
Sujets : inférence statistique, induction par la règle de Bayes, matrice

de confusion, erreurs de première et seconde espèce, risques et coûts,
courbe ROC, notions de base en tests d’hypothèses, niveau de significa-
tion, puissance, valeur p, tests uni- et bilatéraux.
Exercice 5.1
Un salon de jeux clandestin utilise deux types de pièces : des pièces équilibrées, formant
80% du stock, et des pièces truquées, formant 20% du stock, pour lesquelles P (face) =
0.8. Les deux sortes de pièces ne pas sont distinguables par leur aspect ou leur poids, et
elles sont mélangées dans un stock commun.
(a) trois lancers d’une pièce produisent trois pile. Quelle est la probabilité qu’il s’agisse
d’une pièce truquée ?
(b) trois lancers d’une pièce produisent trois face. Quelle est la probabilité qu’il s’agisse
d’une pièce truquée ?
Exercice 5.2
Un algorithme anti-pourriel du siècle passé, basé sur les caractéristiques textuelles et
les méta-données (adresse de l’expéditeur, moment de l’envoi, etc.) de 2593 courriels
préalablement classés comme légitimes ou pourriel (spam) (échantillon d’apprentissage),
a été testé sur 222 nouveaux messages (échantillon de test), avec les résultats suivants 3 :
Y = décision de l’algorithme → légitime pourriel total

X = nature du courriel ↓
légitime 174 3 177
pourriel 9 36 45
total 183 39 222
En considérant le classificateur comme un algorithme de détection de pourriel, il est naturel

de poser “bruit=courriel légitime” et “signal=pourriel”.
(a) calculer les probabilités de commettre une erreur de première et de seconde espèce
(b) calculer le taux de classification correcte P accord , le taux de classification correcte
au hasard P hasard , et le kappa de Cohen.
(c) (*) calculer la précision, le rappel, et le F -score
(d) (*) calculer la discriminabilité d′ et le critère c du classificateur.
Exercice 5.3
(a) Supposons que les données des prévisions météo de l’exemple 3 du chapitre 1 aient
été obtenues sur n = 100 jours. Donner la table de confusion X = “météo réelle” ×
Y = “prévision météo” correspondante.
(b) Procéder de même avec l’exercice 1.9 (test de dépistage d’une maladie), en considérant
un effectif total de n = 2000 personnes.
Exercice 5.4
Un chercheur désire tester H0 contre H1 . Pour cela, il récolte un échantillon D auquel
correspond une valeur d(D) de la variable de décision d. Admettons que les valeurs élevées
de d(D) correspondent au rejet de H0 et notons dc (α) le seuil critique de rejet de H0 au
niveau de signification α.
3. Sahami, M., Dumais, S., Heckerman, D., & Horvitz, E. (1998) A Bayesian approach to filtering junk e-mail
In Learning for Text Categorization : Papers from the 1998 Workshop. vol. 62, pp. 98–105
139
Série 5
1. Répondre aux questions suivantes :

a) Que signifie un seuil de signification de α = 0.05 ?
b) Qu’entend-on par “d(D) est significatif” ?
c) Est-il plus facile de réfuter une hypothèse simple ou une hypothèse composite ?
2. Vrai ou faux ? Tester la validité des affirmations ci-dessous en justifiant la réponse.
a) Si la valeur p vaut p = 1%, on peut rejeter H0 au niveau de signification α = 2%
b) Si la valeur p vaut p = 0, le risque d’accepter H0 à tort est nul
c) Sur 200 résultats significatifs à p = 5%, 10 en moyenne sont invalides
d) Plus d(D) est significatif, plus d(D) est grand (en valeur absolue) et plus la
valeur p(D) est faible
e) Si d(D) > dc (α), où dc (α) est le seuil critique au niveau α, on a au plus une
probabilité α de déclarer à tort les résultats significatifs
f) d(D) = dc (p(D))
Exercice 5.5
Un enseignant fait passer un test consistant en 10 questions binaires auxquelles il faut
répondre par “oui” ou par “non”. Il estime que sa classe comporte des étudiants préparés
qui répondent juste à chaque question avec une probabilité égale 0.8, et d’autres étudiants
non préparés qui répondent à chaque question au hasard.
L’enseignant décide de valider le test d’un étudiant (i.e. de considérer l’étudiant comme
préparé) si le nombre d de réponses correctes vaut 8 ou plus, et de ne pas le valider
(i.e. de considérer l’étudiant comme non préparé) sinon. Calculer les risques d’erreur de
première espèce α et de deuxième espèce β de la procédure. Cette dernière vous semble-
t-elle équitable ?
Exercice 5.6
Vrai ou faux ? Tester la validité des affirmations ci-dessous en justifiant la réponse.
1. Le niveau de signification α correspond à la probabilité de commettre une erreur de
première espèce
2. Plus grande est la région de rejet W (de H0 ), plus grand sera le niveau de significa-
tion α
3. Si la région de rejet est vide (W = ∅), alors α = 0 et β = 1
4. La variable de décision d(D) est une variable aléatoire
5. Les hypothèses H0 et H1 sont des énoncés portant sur l’échantillon
6. A deux échantillons différents correspondent :
a) des valeurs différentes de la variable de décision
b) des régions de rejet différentes
c) des hypothèses différentes
7. Pour une région de rejet W fixée, α et β diminuent avec la taille de l’échantillon
8. Un niveau de signification α = 2% signifie, qu’en moyenne, 1 chercheur sur 50 rejet-
tera à tort l’hypothèse H0 alors qu’elle est vraie
Exercice 5.7
Les auteurs d’un test de QI (= quotient intellectuel) affirment avoir calibré leur instru-
ment de sorte à fournir un QI moyen de 100 avec un écart-type de 15 dans une po-
pulation adulte. Vous suspectez que ce test est volontairement biaisé de façon à flatter
l’ego des répondants, qui obtiendraient (selon vous) un score de QI supérieur à 100
(en moyenne). Pour cela, vous faites passer le test à 9 personnes (que l’on admettra
sélectionnées aléatoirement dans la population) pour lesquelles vous observez un score
moyen de x̄ = 107.5.
140
Série 5
1. Rejetez-vous l’hypothèse nulle µ = 100 au niveau α = 5% ? au niveau α = 1% ? Quelle

est la valeur p ?
2. Même question qu’en 1), mais cette fois en procédant à un test bilatéral.
3. Si vous observez le score x1 = 130 d’un seul individu (Anselme, en l’occurrence),
rejetez-vous (unilatéralement) l’hypothèse µ = 100 au niveau α = 5% ? au niveau
α = 1% ? Quelle est la valeur p ? Quelle hypothèse supplémentaire a-t-on dû poser ici
implicitement ?
Exercice 5.8
Lors d’un examen, on pose 4 questions à choix multiples (à 2 choix chacunes), et l’on
déclare l’examen réussi si le nombre de bonnes réponses est supérieur ou égal à dc . On
admettra que si un étudiant n’est pas préparé, la probabilité qu’il réponde juste à l’une des
questions vaut 0.5, tandis que cette probabilité vaut 0.8 s’il est préparé.
1. Soient les hypothèses H0 : “l’étudiant est préparé” et H1 : “l’étudiant n’est pas
préparé”. À quoi correspondent (en français) les erreurs de première et de seconde
espèce ?
2. Calculer les probabilités α et β des erreurs correspondantes pour dc = 4, 3, 2, 1, 0.
3. Construire la courbe ROC (“receiver operating characteristic”) correspondante. Cette
courbe donne les valeurs de α en abcisse et de 1 − β en ordonnée que l’on obtient en
faisant varier le seuil critique dc .
4. Vérifier que la courbe ROC passe au-dessus de la droite d’équation 1 − β = α (i.e.
α + β = 1), qui représente la courbe ROC que l’on obtiendrait si l’on déterminait la
réussite de l’étudiant par tirage au sort (indépendamment du résultat obtenu par
l’étudiant).

Exercice 5.9
Un linguiste croit pouvoir classer certains documents écrits en deux catégories, se distin-
guant en particulier par l’emploi d’une certaine forme textuelle f , passant d’une fréquence
de 40% pour la catégorie A à une fréquence de 70% pour la catégorie B. Actuellement, le
linguiste est en train d’examiner un document D qu’il croyait au départ pouvoir classer
dans la catégorie A avec une confiance de 80%. Cependant, il se trouve que la forme f en
question est présente dans le document en quatre endroits sur un total de cinq endroits
possibles. La trop forte fréquence d’apparition de la forme semble donc contredire l’appar-
tenance du document D à la catégorie A : à la lumière des faits, quelle foi accorderiez-vous
à cette dernière hypothèse ?
Exercice 5.10
(*) Que vaut la discriminabilité d′ lors d’une inférence faite au hasard, comme dans
l’exemple 34 ?
Exercice 5.11
Deux espèces très proches d’oiseaux migrateurs, se différencient par la date de leur mi-
gration en une région donnée : l’espèce A passe entre l’équinoxe de printemps et 20 jours
après, tandis que l’espèce B passe entre 10 et 40 jours après l’équinoxe de printemps.
Lorsque le temps d’observation t est entre 10 et 20 jours, il y a donc confusion possible sur
l’espèce observée (de loin), et une règle de décision pourrait être
⎧
⎪
⎪A, si t ≤ tc
“ décider que l’espèce est ⎨
⎪
⎪B, si t > tc ”.
⎩
141
où tc ∈ [10, 20] est le seuil critique de décision. Tracer la courbe ROC correspondant à cette
règle de décision.
Exercice 5.12
(*) Dans une expérience d’acuité visuelle, on demande à un sujet d’indiquer s’il a perçu
ou non un signal, consistant en un cercle de lumière projeté ou non, de façon répétée,
sur un écran lumineux pendant 1/100 de seconde. Le sujet produit ainsi durant 400 es-
sais un taux de 78% de détections correctes et de 19% de fausses alarmes. Calculer la
discriminabilité d′ du signal ainsi que le critère c adopté par le sujet.
Exercice 5.1
On pose H0 = “pièce équilibrée” et H1 = “pièce truquée”. Les priors sont P (H0 ) = 0.8 et
P (H1 ) = 0.2.
(a) on pose Da = “trois pile”. Par la loi binomiale, on a P (Da ∣H0 ) = (33) 213 = 0.125 et
P (Da ∣H1 ) = (33)0.23 = 0.008. La probabilité qu’il s’agisse d’une pièce truquée vaut
P (H1 )P (Da ∣H1 ) 0.2 × 0.008

P (H1 ∣Da ) = = = 0.016
P (H0 )P (Da ∣H0 ) + P (H1 )P (Da ∣H1 ) 0.8 × 0.125 + 0.2 × 0.008
(b) on pose Db = “trois face”. On a P (Db ∣H0 ) = (30) 213 = 0.125 et P (Db ∣H1 ) = (30)0.83 =
0.512, et la probabilité qu’il s’agisse d’une pièce truquée vaut
P (H1 )P (Db ∣H1 ) 0.2 × 0.512
P (H1 ∣Db ) = = = 0.506
P (H0 )P (Db ∣H0 ) + P (H1 )P (Db ∣H1 ) 0.8 × 0.125 + 0.2 × 0.512
On peut noter que P (H1 ∣Da ) < P (H1 ) < P (H1 ∣Db ), comme attendu.
Exercice 5.2
(a) α = probabilité de commettre une erreur de première espèce = probabilité de
fausse alarme = 3/177=0.017
β = probabilité de commettre une erreur de seconde espèce = probabilité de
détection manquée = 9/45=0.2
(b) Le taux de classification correcte vaut P accord = (174 + 36)/222 = 0.946
Le calcul des effectifs théoriques de la table de contingence sous indépendance
145.91 31.09
N theo donne N theo = ( ), avec un taux de classification par hasard de
37.09 7.91
P hasard = 145.91+7.91
222
= 0.693. Finalement, κ = 0.946−0.693 1−0.693
= 0.82.
(c) (*) Précision = nombre de pourriels détectés = 3+36
nombre de vrais pourriels détectés 36
= 0.92.
Rappel = nombre de vrais pourriels détectés
nombre de vrais pourriels
= 9+36
36
= 0.8. F -score= 2×0.92×0.8
0.92+0.8
= 0.86.
(d) (*) On tire de (5.28) que Φ(uSN ) = 1 − P (détection pourriel correcte) = 1 − 36/45 = 0.2, d’où
(tables) uSN = −0.84. De même, on tire de (5.29) que Φ(uN ) = 1 − P (fausse alarme) =
1 − 3/177 = 0.983, et donc uN = 2.12. Ainsi, par (5.30) la discriminabilité vaut d′ =
2.12−(−0.84) = 2.96 (une valeur élevée témoignant de l’efficacité du classificateur),
et le critère vaut c = 12 (2.12+(−0.8)) = 0.64 (une valeur positive reflétant le caractère
“conservateur” du détecteur, qui “préfère” déclarer légitime un vrai pourriel que
l’inverse). Ces mêmes valeurs auraient pu être plus directement obtenues de (5.31).
Exercice 5.3
(a) Après avoir nommé lignes et colonnes, on remplit la table comme suit :
(i) l’effectif total vaut 100
(ii) les marges en ligne valent 10 et 90 (au vu de P (A) = 0.1 et P (Ā) = 0.9)
(ii) les effectifs de la première ligne valent 10 et 90 (au vu de P (B∣A) = 0.8 et donc
P (B̄∣A) = 0.2)
142
(iv) de même, les effectifs de la seconde ligne valent 9 et 81 (au vu de P (B̄∣Ā) = 0.9
et donc P (B∣Ā) = 0.1)
(v) et finalement, on complète par les marges en colonne 17 et 83.
Y = prévision météo → B = beau temps B̄ = mauvais temps total
X = météo réelle ↓
A = beau temps 8 2 10
Ā = mauvais temps 9 81 90
total 17 83 100
(b) En procédant comme précédemment, on obtient la table de confusion

Y = résultat du test → Ac = négatif A = positif total
X = état de santé ↓
M c = sain 1881 19 1900

M = malade 5 95 100
total 1886 114 2000
Exercice 5.4
1. a) Un seuil de signification de α = 0.05 signifie que le risque de première espèce
(rejeter H0 à tort sur la base des données D) ne doit pas dépasser α.
b) Déclarer “d(D) significatif” revient à dire que, “si H0 était vraie, la probabilité
p que d(D) ait une valeur aussi grande (ou davantage) serait faible”, ce qui
revient à dire que, “si H0 était vraie, il serait peu vraisemblable que d(D) ait une
valeur aussi grande”, ce qui conduit à rejeter H0 (pour autant que p < α, où la
valeur du niveau de signification α, le risque maximal admissible de commettre
une erreur de première espèce, est sous-entendu).
c) Un modèle composite est un agrégat de modèles simples, et par là plus général :
les modèles composites accommodent davantage les données, et sont donc plus
difficiles à réfuter que les modèles simples.
2. a) Vrai, puisque p = 1% ≤ α = 2% : voir la règle de décision (5.38)
b) Faux : si p = 0, alors le risque de rejeter H0 à tort est nul
c) Vrai : par définition, 5% des résultats seront déclarés à tort significatifs
d) Vrai par définition
e) Vrai par définition
f) Vrai par définition
Exercice 5.5
La décision entre les deux hypothèses
● H0 : l’étudiant ayant rendu cette copie est non préparé
● H1 : l’étudiant ayant rendu cette copie est préparé
est basée sur la variable de décision d (le nombre de bonnes réponses) : l’enseignant
accepte H1 si d ≥ 8, et accepte H0 sinon.
Sous H0 , la variable de décision d suit une loi binomiale B(10, 0.5). Ainsi
α = P (d ≥ 8 ∣ H0 ) = (10
8
)0.510 + (10
9
)0.510 + (10
10
)0.510 = 5.5%.
Sous H1 , d suit une loi binomiale B(10, 0.8). Ainsi
β = P (d ≤ 7 ∣ H1 ) = 1 − P (d ≥ 8 ∣ H1 ) = 1 − {(10
8
)0.88 0.22 + (10
9
)0.89 0.2 + (10
10
)0.810 } = 32.2%.
En conclusion, il n’y a qu’une probabilité de 5.5% qu’un étudiant mal préparé soit considéré
comme préparé, alors que la probabilité qu’un étudiant préparé soit considéré comme mal
préparé est de 32.2%. La procédure est donc sévère pour l’étudiant.
143
Exercice 5.6
1. vrai par définition.
2. vrai, car α = Prob(d ∈ W ∣ H0 ) .
3. vrai, puisque α = Prob(d ∈ W ∣H0 ) = Prob(d ∈ ∅ ∣ H0 ) = 0 et
β = Prob(d ∈ W C ∣ H1 ) = Prob(d quelconque ∣ H1 ) = 1
4. vrai, car d est une fonction des scores D = {x1 , . . . , xn } . A deux échantillons différents
D et D′ correspondent des scores différents. d(D) est donc une variable aléatoire
sur l’ensemble des échantillons D de taille n.
5. faux, H0 et H1 sont des modèles, i.e. des énoncés portant sur la population.
6. a) vrai, si on se réfère à la définition de d(D) rappelée ci-dessus
b) faux, car W est fixée préalablement à la constitution de l’échantillon
c) faux, les hypothèses H0 et H1 à tester sont énoncées indépendamment des
données D
7. oui, si le test est bien conçu.
8. vrai, puisque α = Prob(rejeter H0 ∣H0 vraie)
Exercice 5.7
1. Il s’agit d’un test unilatéral où l’on oppose :
● H0 ∶ µ = 100
● H1 ∶ µ > 100 √
Suivant (5.27), on rejette H0 au niveau α si x̄−µ 0
n > u1−α . Pour α = 5%, on a
√ σ
107.5−100
15
9 = 1.5 < u0.95 = 1.65 et donc on ne rejette pas H0 . Il s’ensuit qu’on ne
la rejette pas non plus au niveau α = 1% puisque u0.99 = 2.33 > u0.95 = 1.65. En
suivant (5.37) et en cherchant dans la table, on trouve que Φ(1.5) = 0.933, donc
p = 1 − 0.933 = 0.067.
2. Dans le cas d’un test bilatéral (i.e. si l’on admet que le test pourrait être biaisé tant
négativement que positivement), on oppose :
● H0 ∶ µ = 100
● H1 ∶ µ ≠ 100 √
On rejette H0 au niveau α si∣ x̄−µ
σ
0
n∣ > u1−α/2 . Pour α = 5%, on a 1.5 < u0.975 = 1.96,
et pour α = 1%, 1.5 < u0.995 = 2.58. Dans ce cas, p = [1 − Φ(1.5)] ⋅ 2 = 0.067 ⋅ 2 = 0.134.
√
3. Avec n = 1, on rejette l’hypothèse nulle au niveau α = 5% puisque 130−100 15
1=2>
u0.95 = 1.65, mais pas au niveau α = 1% puisque 2 < u0.99 = 2.33 (p = 1 − Φ(2) =
1 − 0.977 = 0.023).
On a ici admis implicitement que la distribution du QI dans la population suit une
loi normale, sans quoi l’usage de la loi normale ne serait pas justifié ; par contraste,
l’usage de la loi normale dans les points 1 et 2 ci-dessus est automatiquement justifié
par le théorème central limite pour n → ∞ (même si n = 9 n’est en l’occurrence pas
si grand).
Exercice 5.8
1. L’erreur de première espèce consiste à rejeter H0 à tort, i.e. à faire échouer un
étudiant préparé. L’erreur de seconde espèce consiste à accepter H0 à tort, i.e. à
faire réussir un étudiant non préparé.
2. Soit X le nombre de réponses correctes. X suit la loi binomiale B(4, 0.8) sous H0 ,
et suit la loi binomiale B(4, 0.5) sous H1 . Par construction, α = P (X < dc ∣H0 ) et
β = P (X ≥ dc ∣H1 ), qu’il est parfois plus pratique de calculer de façon équivalente
comme α = 1 − P (X ≥ dc ∣H0 ) et β = 1 − P (X < dc ∣H1 ).
a) pour dc = 4 : α = 1 − P (X ≥ 4∣H0 ) = 1 − 0.84 = 0.59 et β = P (X ≥ 4∣H1 ) = 0.54 =
0.06
144
4
b) pour dc = 3 : α = 1 − P (X ≥ 3∣H0 ) = 1 − 0.84 − ( ) 0.83 × 0.2 = 0.18 et β = P (X ≥
3
4
3∣H1 ) = 0.54 + ( ) 0.54 = 0.31
3
4 4
c) pour dc = 2 : α = 1 − 0.84 − ( ) 0.83 × 0.2 − ( ) 0.82 × 0.22 = 0.027 et β = 0.54 +
3 2
4 4
( ) 0.54 + ( ) 0.54 = 0.69
3 2
d) pour dc = 1 : α = 0.24 = 0.0016 et β = 1 − 0.54 = 0.94
e) pour dc = 0 : α = 0 et β = 1
1.0
0.8
0.6
1−β
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
3. Voir la figure, obtenue en plaçant les 5 points (α, (1 − β)) calculés en 2

4. Voir la figure, où la diagonale représente la droite α + β = 1

Exercice 5.9
Les probabilités a priori sont de P (A) = 0.8 contre P (B) = 1 − P (A) = 0.2 (puisque les
catégories A et B sont les seules retenues). Si le document D appartenait à la catégorie
A, la probabilité pour que, en 5 occasions, la forme textuelle f apparaisse 4 fois est de
P (D∣A) = 4!1!5!
(0.4)4 (0.6)1 = 0.077. Si, au contraire, le document D appartenait à la
catégorie B, la probabilité correspondante serait de P (D∣B) = 4!1!
5!
(0.7)4 (0.3)1 = 0.36. Par
la règle de Bayes, la probabilité a posteriori recherchée vaut donc
P (D∣A) P (A) (0.077) (0.8)

P (A∣D) = = = 0.32
P (D∣A) P (A) + P (D∣B) P (B) (0.077) (0.8) + (0.36) (0.2)
Exercice 5.10
(*) Lorsque la décision est aléatoire, la discriminabilité d′ (qui mesure la capacité du
classificateur à discriminer entre H0 et H1 ) vaut zéro, comme il se doit. Pour le montrer,
rappelons que, dans une inférence aléatoire, α = 1 − p et β = p pour un certain p ∈ [0, 1]
quelconque, lequel dénote la probabilité de choisir H0 (cf. exemple 34). Et ainsi, par
(5.31),
d′ = Φ−1 (1 − α) − Φ−1 (β) = Φ−1 (1 − (1 − p)) − Φ−1 (p) = Φ−1 (p) − Φ−1 (p) = 0 .
Exercice 5.11
Le temps de passage T des oiseaux peut être modélisé par une loi uniforme, à savoir
145
T ∼ U (0, 20) pour l’espèce A, et T ∼ U (10, 40) pour l’espèce B. Appelons H0 la première
hypothèse (espèce A) et H1 la seconde hypothèse (espèce B). Pour un seuil donné tc ∈
[10, 20], disons tc = 13, α est alors donné par la surface sombre et β par la surface claire
de la figure du milieu ci-dessous (cf. figure 5.2 du chapitre 5) :
1.0
0.05
0.05
H0 H0
0.8
densités de probabilité uniforme
densités de probabilité uniforme

0.04
0.04
0.6
H1 H1
0.03
0.03
1−β
0.4
0.02
0.02
0.2
0.01
0.01
tc=13
0.00
0.00
0.0
-10 0 10 20 30 40 50 -10 0 10 20 30 40 50 0.0 0.2 0.4 0.6 0.8 1.0
t t α
Pour tc = 10 on a α = 0.5 (la moitié de la surface sous H0 ) et β = 0. Pour tc = 20 on a α = 0

et β = 1/3 (le tiers de la surface sous H1 ). En faisant varier tc dans [10, 20], les surfaces
correspondantes α(tc ) et β(tc ) varient linéairement en fonction de tc (puisque leur base
varie linéairement et que leur hauteur est constante). Ce qui implique que la relation entre
α(tc ) et β(tc ) elle-même est linéaire, i.e. que la courbe ROC, reliant α(tc ) (en abscisse) et
1 − β(tc ) (en ordonnée) est elle-même linéaire, i.e. constituée d’un segment de droite dont
deux points ont déjà été déterminés, à savoir α = 0.5 et 1 − β = 1 (pour tc = 10), et α = 0 et
1 − β = 2/3 = 0.66 (pour tc = 20), ce qui finalement détermine la courbe ROC de la figure
de droite ci-dessus.
Note : si l’on observait un temps de passage t inférieur à 0, ou supérieur à 40, aucune des
deux hypothèses H0 ou H1 ne pourrait être vraie, et le cadre inférentiel que l’on a adopté
ici serait visiblement trop restreint : on aurait affaire à une “erreur de troisième espèce”,
i.e. une situation où ni H0 ni H1 ne sont vraies.
Exercice 5.12
(*) On détermine d’abord les valeurs uSN et uN par Φ(uSN ) = 1 − 0.78, d’où uSN =
−0.77, et Φ(uN ) = 1 − 0.19, d’où uN = 0.88. On calcule ensuite d′ = 0.88 − (−0.77) = 1.65
et c = 12 (0.88 + (−0.77)) = 0.055 ; la discriminabilité est élevée (seules 5% des valeurs
d’une distribution normale standard étant supérieures à 1.65), et le sujet adopte un critère
neutre, i.e. sans biais (c étant proche de 0).
146
Formulaire et tables
Formulaire pour le cours méthodes quantitatives I

Indicateurs empiriques moyenne : x = 1
n
n
∑i=1 xi variance : var(x) = s2x = (x − x)2 =
x2 − x2
√
écart-type : sx = var(x) standardisation : xs = x−x̄
s
covariance : cov(x, y) = (x − x)(y − y) =
cov (x,y) r −rxz ryz
xy−x̄ȳ corrélation : rxy =corr(x, y) = sx sy corrélation partielle : rxy∣z = √ xy 2 √ 2 1−rxz 1−ryz
(x−x)3 (x−x)4
coefficient d’asymétrie : a3 = s3x
coefficient d’aplatissement : a4 = s4x
n 2 (n−1)r 2 −1
Estimateurs : estimer µ par x̄, p par f , σ 2 par n−1
s , ρ2 par n−2
(y ∗ )
Régression de Y sur X : y ∗ = ax + b = var
s
a = rxy sxy b = ȳ − ax̄ 2
rxy var(y)
var(y) = var(y ∗ ) + var(e)
Analyse de Variance : var(x) = varB (x) + varW (x) = 1

n ∑j=1 nj (x̄j − x̄)2 +
m 1
n
m
∑j=1 nj s2j
varB (x) (njk −ntheo

jk )
2
F-ratio : F = varm−1
W (x)
chi-carré 2 variables : chi2=∑jk ntheo jk =
ntheo
n−m jk
nj● n●k
n
f
Entropie : H(X) ≡ H(f ) = − ∑m
j=1 fj log fj Entropie relative : K(f ∣∣g) = ∑m j
j=1 fj log gj
Probabilités conditionnelles
P (A ∩ B) P (A)
P (A∣B) = = P (B∣A) P (B) = P (B∣A)P (A) + P (B∣Ac )P (Ac )
P (B) P (B)
A et B indépendants ⇔ P (A∣B) = P (A) ⇔ P (B∣A) = P (B) ⇔ P (A ∩ B) = P (A)P (B)
Fonction de distribution F (x) et quantiles (densité continue positive)
P (x ≤ xα ) = F (xα ) = α avec xα = α-ième quantile
Loi binomiale B(n, p) (X = nbre piles en n lancers, avec P (pile) = p.)
n n n!
P (X = k) = ( ) pk (1 − p)n−k k = 0, 1, ..., n avec ( )=
k k (n − k)!k!
E(X) = np Var(X) = np(1 − p)
147
Tests statistique pour le cours méthodes quantitatives I
Loi de Poisson P (λ) (limite de B(n, p) pour n grand, p petit, np = λ).
λk
P (X = k) = e−λ k = 0, 1, ..., ∞ E(X) = λ Var(X) = λ
k!
Théorème central limite : Si X1 , ..., Xn sont des variables indépendantes, de même

distribution (quelconque), de moyenne µ et de variance σ 2 , alors, pour n grand (n ≥ 20),
la variable somme X ∶= ∑ni=1 Xi suit une loi N (nµ, nσ 2 ), et la variable moyenne X̄ ∶=
2
n
X suit une loi N (µ, σn ).
n ∑i=1 i
1
Intervalles de confiance
σ σ
P (x̄ − √ u1− α2 ≤ µ ≤ x̄ + √ u1− α2 ) = 1 − α
n n
s s
P (x̄ − √ t1− α2 [n − 1] ≤ µ ≤ x̄ + √ t1− α2 [n − 1]) = 1 − α
n−1 n−1
√ √
f (1 − f ) f (1 − f )
P (f − u1− α2 ≤ p ≤ f + u1− α2 ) = 1 − α
n n
Tests statistiques pour le cours méthodes quantitatives I

test hypothèses règle de décision
principe soit H0 est vrai on rejette H0 au niveau α si (1,2)

général soit H1 est vrai d(D) > x1−α (⇔ p(D) < α)
de la moyenne H0 : µ = µ0 on rejette H0 au niveau α si (3)

x̄−µ0 √
pour σ connu H1 : µ > µ0 (2) σ
n > u1−α
de la moyenne H0 : µ = µ0 on rejette
√ H0 au niveau α si (3)
pour σ inconnu H1 : µ > µ0 (2) x̄−µ0
s
n − 1 > t1−α [n−1]
de la moyenne H0 : µ1 = µ2 on rejette√H0 au niveau α si (3)

(x̄ −x̄ ) n1 +n2 −2
pour 2 groupes H1 : µ1 > µ2 (2) √ 1 2 > t1−α [n1 +n2 −2]
( n + n )(n1 s1 +n2 s2 )
1 1 2 2
1 2
de la moyenne pour H0 : µx = µy on√ rejette H0 au niveau α si (3)

2 groupes appariés H1 : µx > µy (2) z̄
sz
n − 1 > t1−α [n−1] (zi ∶= xi − yi )
Remarques :
(1) d(D) est la variable de décision, dépendante des données D. x1−α est le seuil cri-
tique associé, tabulé.
α est le niveau de signification (a priori). p(D) est la valeur p (ou niveau de
signification a posteriori).
(2) pour un test bilatéral, remplacer d(D) par ∣d(D)∣ et α par α2 .
(3) l’échantillon doit être suffisamment grand (typiquement n ≥ 10 ou n ≥ 20) pour
que l’utilisation de la loi normale puisse être justifiée.
148
Table de la loi normale

Table de la loi normale, donnant pour x ≥ 0, les valeurs de la fonction de distribution
cumulée Φ(u) ∶= P (X s ≤ u) , où X s est une variable normale standard X s ∼ N (0, 1).
u Φ(u) u Φ(u) u Φ(u) u Φ(u) u Φ(u) u Φ(u) u Φ(u)

0 0.5 0.61 0.729069 1.22 0.888768 1.83 0.966375 2.44 0.992656 3.05 0.998856 3.66 0.999874
0.01 0.503989 0.62 0.732371 1.23 0.890651 1.84 0.967116 2.45 0.992857 3.06 0.998893 3.67 0.999879
0.02 0.507978 0.63 0.735653 1.24 0.892512 1.85 0.967843 2.46 0.993053 3.07 0.99893 3.68 0.999883
0.03 0.511966 0.64 0.738914 1.25 0.89435 1.86 0.968557 2.47 0.993244 3.08 0.998965 3.69 0.999888
0.04 0.515953 0.65 0.742154 1.26 0.896165 1.87 0.969258 2.48 0.993431 3.09 0.998999 3.7 0.999892
0.05 0.519939 0.66 0.745373 1.27 0.897958 1.88 0.969946 2.49 0.993613 3.1 0.999032 3.71 0.999896
0.06 0.523922 0.67 0.748571 1.28 0.899727 1.89 0.970621 2.5 0.99379 3.11 0.999065 3.72 0.9999
0.07 0.527903 0.68 0.751748 1.29 0.901475 1.9 0.971283 2.51 0.993963 3.12 0.999096 3.73 0.999904
0.08 0.531881 0.69 0.754903 1.3 0.9032 1.91 0.971933 2.52 0.994132 3.13 0.999126 3.74 0.999908
0.09 0.535856 0.7 0.758036 1.31 0.904902 1.92 0.972571 2.53 0.994297 3.14 0.999155 3.75 0.999912
0.1 0.539828 0.71 0.761148 1.32 0.906582 1.93 0.973197 2.54 0.994457 3.15 0.999184 3.76 0.999915
0.11 0.543795 0.72 0.764238 1.33 0.908241 1.94 0.97381 2.55 0.994614 3.16 0.999211 3.77 0.999918
0.12 0.547758 0.73 0.767305 1.34 0.909877 1.95 0.974412 2.56 0.994766 3.17 0.999238 3.78 0.999922
0.13 0.551717 0.74 0.77035 1.35 0.911492 1.96 0.975002 2.57 0.994915 3.18 0.999264 3.79 0.999925
0.14 0.55567 0.75 0.773373 1.36 0.913085 1.97 0.975581 2.58 0.99506 3.19 0.999289 3.8 0.999928
0.15 0.559618 0.76 0.776373 1.37 0.914657 1.98 0.976148 2.59 0.995201 3.2 0.999313 3.81 0.999931
0.16 0.563559 0.77 0.77935 1.38 0.916207 1.99 0.976705 2.6 0.995339 3.21 0.999336 3.82 0.999933
0.17 0.567495 0.78 0.782305 1.39 0.917736 2. 0.97725 2.61 0.995473 3.22 0.999359 3.83 0.999936
0.18 0.571424 0.79 0.785236 1.4 0.919243 2.01 0.977784 2.62 0.995604 3.23 0.999381 3.84 0.999938
0.19 0.575345 0.8 0.788145 1.41 0.92073 2.02 0.978308 2.63 0.995731 3.24 0.999402 3.85 0.999941
0.2 0.57926 0.81 0.79103 1.42 0.922196 2.03 0.978822 2.64 0.995855 3.25 0.999423 3.86 0.999943
0.21 0.583166 0.82 0.793892 1.43 0.923641 2.04 0.979325 2.65 0.995975 3.26 0.999443 3.87 0.999946
0.22 0.587064 0.83 0.796731 1.44 0.925066 2.05 0.979818 2.66 0.996093 3.27 0.999462 3.88 0.999948
0.23 0.590954 0.84 0.799546 1.45 0.926471 2.06 0.980301 2.67 0.996207 3.28 0.999481 3.89 0.99995
0.24 0.594835 0.85 0.802337 1.46 0.927855 2.07 0.980774 2.68 0.996319 3.29 0.999499 3.9 0.999952
0.25 0.598706 0.86 0.805105 1.47 0.929219 2.08 0.981237 2.69 0.996427 3.3 0.999517 3.91 0.999954
0.26 0.602568 0.87 0.80785 1.48 0.930563 2.09 0.981691 2.7 0.996533 3.31 0.999534 3.92 0.999956
0.27 0.60642 0.88 0.81057 1.49 0.931888 2.1 0.982136 2.71 0.996636 3.32 0.99955 3.93 0.999958
0.28 0.610261 0.89 0.813267 1.5 0.933193 2.11 0.982571 2.72 0.996736 3.33 0.999566 3.94 0.999959
0.29 0.614092 0.9 0.81594 1.51 0.934478 2.12 0.982997 2.73 0.996833 3.34 0.999581 3.95 0.999961
0.3 0.617911 0.91 0.818589 1.52 0.935745 2.13 0.983414 2.74 0.996928 3.35 0.999596 3.96 0.999963
0.31 0.62172 0.92 0.821214 1.53 0.936992 2.14 0.983823 2.75 0.99702 3.36 0.99961 3.97 0.999964
0.32 0.625516 0.93 0.823814 1.54 0.93822 2.15 0.984222 2.76 0.99711 3.37 0.999624 3.98 0.999966
0.33 0.6293 0.94 0.826391 1.55 0.939429 2.16 0.984614 2.77 0.997197 3.38 0.999638 3.99 0.999967
0.34 0.633072 0.95 0.828944 1.56 0.94062 2.17 0.984997 2.78 0.997282 3.39 0.999651 4. 0.999968
0.35 0.636831 0.96 0.831472 1.57 0.941792 2.18 0.985371 2.79 0.997365 3.4 0.999663 4.01 0.99997
0.36 0.640576 0.97 0.833977 1.58 0.942947 2.19 0.985738 2.8 0.997445 3.41 0.999675 4.02 0.999971
0.37 0.644309 0.98 0.836457 1.59 0.944083 2.2 0.986097 2.81 0.997523 3.42 0.999687 4.03 0.999972
0.38 0.648027 0.99 0.838913 1.6 0.945201 2.21 0.986447 2.82 0.997599 3.43 0.999698 4.04 0.999973
0.39 0.651732 1. 0.841345 1.61 0.946301 2.22 0.986791 2.83 0.997673 3.44 0.999709 4.05 0.999974
0.4 0.655422 1.01 0.843752 1.62 0.947384 2.23 0.987126 2.84 0.997744 3.45 0.99972 4.06 0.999975
0.41 0.659097 1.02 0.846136 1.63 0.948449 2.24 0.987455 2.85 0.997814 3.46 0.99973 4.07 0.999976
0.42 0.662757 1.03 0.848495 1.64 0.949497 2.25 0.987776 2.86 0.997882 3.47 0.99974 4.08 0.999977
0.43 0.666402 1.04 0.85083 1.65 0.950529 2.26 0.988089 2.87 0.997948 3.48 0.999749 4.09 0.999978
0.44 0.670031 1.05 0.853141 1.66 0.951543 2.27 0.988396 2.88 0.998012 3.49 0.999758 4.1 0.999979
0.45 0.673645 1.06 0.855428 1.67 0.95254 2.28 0.988696 2.89 0.998074 3.5 0.999767 4.11 0.99998
0.46 0.677242 1.07 0.85769 1.68 0.953521 2.29 0.988989 2.9 0.998134 3.51 0.999776 4.12 0.999981
0.47 0.680822 1.08 0.859929 1.69 0.954486 2.3 0.989276 2.91 0.998193 3.52 0.999784 4.13 0.999982
0.48 0.684386 1.09 0.862143 1.7 0.955435 2.31 0.989556 2.92 0.99825 3.53 0.999792 4.14 0.999983
0.49 0.687933 1.1 0.864334 1.71 0.956367 2.32 0.98983 2.93 0.998305 3.54 0.9998 4.15 0.999983
0.5 0.691462 1.11 0.8665 1.72 0.957284 2.33 0.990097 2.94 0.998359 3.55 0.999807 4.16 0.999984
0.51 0.694974 1.12 0.868643 1.73 0.958185 2.34 0.990358 2.95 0.998411 3.56 0.999815 4.17 0.999985
0.52 0.698468 1.13 0.870762 1.74 0.95907 2.35 0.990613 2.96 0.998462 3.57 0.999822 4.18 0.999985
0.53 0.701944 1.14 0.872857 1.75 0.959941 2.36 0.990863 2.97 0.998511 3.58 0.999828 4.19 0.999986
0.54 0.705401 1.15 0.874928 1.76 0.960796 2.37 0.991106 2.98 0.998559 3.59 0.999835 4.2 0.999987
0.55 0.70884 1.16 0.876976 1.77 0.961636 2.38 0.991344 2.99 0.998605 3.6 0.999841 4.21 0.999987
0.56 0.71226 1.17 0.879 1.78 0.962462 2.39 0.991576 3. 0.99865 3.61 0.999847 4.22 0.999988
0.57 0.715661 1.18 0.881 1.79 0.963273 2.4 0.991802 3.01 0.998694 3.62 0.999853 4.23 0.999988
0.58 0.719043 1.19 0.882977 1.8 0.96407 2.41 0.992024 3.02 0.998736 3.63 0.999858 4.24 0.999989
0.59 0.722405 1.2 0.88493 1.81 0.964852 2.42 0.99224 3.03 0.998777 3.64 0.999864 4.25 0.999989
0.6 0.725747 1.21 0.886861 1.82 0.96562 2.43 0.992451 3.04 0.998817 3.65 0.999869 4.26 0.99999
Rappel :
● Φ(uα ) = α et Φ(u1−α ) = 1 − α
● P (X s ≤ −u) = Φ(−u) = 1 − Φ(u)
● P (u1 ≤ X s ≤ u2 ) = Φ(u2 ) − Φ(u1 )
● P (−u ≤ X s ≤ u) = 2Φ(u) − 1
Mise en garde : l’abus de décimales peut gravement nuire à la crédibilité
149
Table du t
Table du t de Student, donnant t1−α [ν] , le (1 − α)-ième centile de la distribution du t

à ν degrés de liberté, en fonction de ν et de α.
α → 0.1 0.05 0.025 0.01 0.005 0.001 0.0005

ν ↓
1 3.078 6.314 12.71 31.82 63.66 318.30 636.6
2 1.886 2.920 4.303 6.965 9.925 22.23 31.60
3 1.638 2.353 3.182 4.541 5.841 10.21 12.92
4 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 1.476 2.015 2.571 3.365 4.032 5.893 6.869
6 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 1.383 1.833 2.262 2.821 3.250 4.297 4.781
10 1.372 1.812 2.228 2.764 3.169 4.144 4.587
11 1.363 1.796 2.201 2.718 3.106 4.025 4.437
12 1.356 1.782 2.179 2.681 3.055 3.930 4.318
13 1.350 1.771 2.160 2.650 3.012 3.852 4.221
14 1.345 1.761 2.145 2.624 2.977 3.787 4.140
15 1.341 1.753 2.131 2.602 2.947 3.733 4.073
16 1.337 1.746 2.120 2.583 2.921 3.686 4.015
17 1.333 1.740 2.110 2.567 2.898 3.646 3.965
18 1.330 1.734 2.101 2.552 2.878 3.610 3.922
19 1.328 1.729 2.093 2.539 2.861 3.579 3.883
20 1.325 1.725 2.086 2.528 2.845 3.552 3.850
21 1.323 1.721 2.080 2.518 2.831 3.527 3.819
22 1.321 1.717 2.074 2.508 2.819 3.505 3.792
23 1.319 1.714 2.069 2.500 2.807 3.485 3.768
24 1.318 1.711 2.064 2.492 2.797 3.467 3.745
25 1.316 1.708 2.060 2.485 2.787 3.450 3.725
26 1.315 1.706 2.056 2.479 2.779 3.435 3.707
27 1.314 1.703 2.052 2.473 2.771 3.421 3.690
28 1.313 1.701 2.048 2.467 2.763 3.408 3.674
29 1.311 1.699 2.045 2.462 2.756 3.396 3.659
30 1.310 1.697 2.042 2.457 2.750 3.385 3.646
35 1.306 1.690 3.030 2.438 2.724 3.340 3.591
40 1.303 1.684 2.021 2.423 2.704 3.307 3.551
50 1.299 1.676 2.009 2.403 2.678 3.261 3.496
60 1.296 1.671 2.000 2.390 2.660 3.232 3.460
70 1.294 1.667 1.994 2.381 2.648 3.211 3.435
80 1.292 1.664 1.990 2.374 2.639 3.195 3.416
90 1.291 1.662 1.987 2.368 2.632 3.183 3.402
100 1.290 1.660 1.984 2.364 2.626 3.174 3.390
200 1.286 1.653 1.972 2.345 2.601 3.131 3.340
500 1.283 1.648 1.965 2.334 2.586 3.107 3.310
Pour ν grand, on peut approximer t1−α [ν] par u1−α , le quantile correspondant de la loi normale
standard N (0, 1)..
150

MQ 1

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

MQ 1

Transféré par

Droits d'auteur :

Formats disponibles

MÉTHODES QUANTITATIVES I

FACULT É DES L ETTRES

Table des matières i

1 Introduction et rappels mathématiques 1

4.1 Visualisation de deux variables quantitatives : le diagramme de dis-

3 Liens entre deux variables 43

6.1 Estimation ponctuelle d’une moyenne, d’une proportion, d’une va-

5 Introduction à l’inférence et aux tests statistiques 85

6 Exercices corrigés 110

1 Introduction : les méthodes quantitatives (*) 1

2 Le formalisme et les mathématiques (*)

Par rapport au langage naturel, le langage formel

simplement en la représentant par un seul nouveau symbole 3 .

2.2 Complémentarité entre langage naturel et langage formel

Ce foisonnement de cheminements formels possibles

de générer de nouvelles questions pertinentes. Il énoncé initial énoncé initial

De nombreuses disciplines ont su tirer profit de cette formalisation : la physique est

2.3 Quid du statut des mathématiques ?

Dans les deux cas, les mathématiques se prêtent magnifiquement à la formalisation, à

d’acquérir cette efficacité, cette puissance, cette nécessité contemporaine incontournable 5 ,

“ si la propriété A est vraie, alors la propriété B est vraie ”

également énoncés comme

“ si A, alors B ” ou encore A⇒B .

“ la propriété A est vraie si et seulement si la propriété B est vraie ”

“ A si et seulement si B ” ou “ A ssi B ” 6 ou encore A⇔B .

et certaines syntaxes informatiques (telle celle de R) utilisent “ f (x) ← 1 − 2x + x2 ”

“ Soit f (x) ∶= (1 − x)2 . Alors f (x) = 1 − 2x + x2 . ”

4 Arithmétique, points, fonctions

4.1.2 Nombres réels

4.1.3 Continuum et ensemble discret

● d’estimations dépendant de modèles souvent sérieux mais provisoires (l’âge du système

4.2 Points et coordonnées

f (1) = 1, f (1.5) = 3.375, etc., permet d’esquis-

et. Elle est localement maximale pour x = 1/4,

min f (x) = f (−1) on écrit aussi arg min f (x) = −1

4.3.1 Fonctions linéaires ; droites

Pour représenter une fonction linéaire, par

Le paramètre a s’appelle pente (slope) de la droite x

décroissante ssi a < 0. Lorsque a = 0, on a la fonc-

4.3.2 Logarithmes et exponentielles

y = loga (x) ⇔ ay = x (1.3)

La fonction logarithme loga (x) est croissante,

loga (1) = 0 et loga (a) = 1. Aussi, limx→0 loga (x) =

−∞, limx→0 x loga (x) = 0 et limx→∞ loga (x) = ∞.

somme, le quotient en différence, et la puissance

log(xy) = log(x) + log(y)

4.4 Indices, signe somme, et signe produit

Pour simplifier et compresser cette écriture, on introduit le “signe somme” ∑ (inspiré du

4.4.1 Des indices pas si muets en définitive (*)

4.5 Factorielles et coefficients binomiaux

Par exemple, (43) = 4!

Cette identité est à l’origine de la terminologie “coefficients binomiaux” : par exemple,

5.2 Inclusion, intersection, union, différence symétrique, complémentaire

A ∩ B ∶= {x∣x ∈ A et x ∈ B} A ∪ B ∶= {x∣x ∈ A ou x ∈ B} (1.10)

A ∖ B ∶= {x∣x ∈ A et x ∉ B} A∆B ∶= {x∣x ∈ A ou bien x ∈ B} (1.11)

A, ce que l’on note par

5.4 Diagrammes de Venn

5.5 Evénements, propriétés, ensembles

5.5.1 Quantificateurs universels et existentiels (*)

¬(∀x C(x)) ⇔ ∃x ¬C(x)

6.1 Axiomes de probabilité

quels que soient A B et C.

6.2 Fréquences empiriques et probabilités théoriques

où n(A) est le nombre de fois où A s’est produit 10 .