Académique Documents
Professionnel Documents
Culture Documents
COURS ET EXERCICES
F RANÇOIS B AVAUD
U NIVERSIT É DE L AUSANNE
Table des matières
2 Données 21
1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2 Types de variables, et échelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1 Variables quantitatives ou numériques . . . . . . . . . . . . . . . . . . 22
2.2 Variables catégorielles ou nominales . . . . . . . . . . . . . . . . . . . 24
2.3 Variables ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Les “variables ouvertes” . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Une seule variable : visualisation et indicateurs . . . . . . . . . . . . . . . . . 27
3.1 Visualisation d’une variable numérique : l’histogramme, la fonction
de répartition et le boxplot. Les quantiles. . . . . . . . . . . . . . . . . 27
3.2 Indicateurs de tendance centrale et de dispersion d’une variable
numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Variables centrées, réduites, standardisées . . . . . . . . . . . . . . . 36
3.4 Visualisation d’une variable catégorielle : le diagramme en bâtonnets
(et circulaire) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4 Deux variables : visualisation et table de contingence . . . . . . . . . . . . . 38
i
Table des matières
4 Modèles 60
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2 Variables aléatoires et distributions . . . . . . . . . . . . . . . . . . . . . . . . 61
2.1 Distribution de probabilité discrète . . . . . . . . . . . . . . . . . . . . 61
2.2 Distribution de probabilité continue . . . . . . . . . . . . . . . . . . . 62
2.3 Fonction de répartition et quantiles (variables aléatoires numériques) 63
2.4 Moyenne et variance théoriques ; standardisation ; coefficient de va-
riation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.5 Distributions bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1 Les distributions uniforme et concentrée . . . . . . . . . . . . . . . . 67
3.2 Loi binomiale B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.3 Loi de Poisson P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4 Loi multinomiale M(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1 Loi uniforme U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2 Loi normale N (µ, σ 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.3 Distribution de Dirac δµ (cas concentré continu) . . . . . . . . . . . . 73
5 Loi des grands nombres et théorème central limite . . . . . . . . . . . . . . . 73
5.1 Somme et moyenne de variables i.i.d. . . . . . . . . . . . . . . . . . . 73
5.2 La précision d’une moyenne est supérieure à celle de ses compo-
santes individuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.3 Macro-description déterministe et micro-description aléatoire sont
compatibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4 Loi des grands nombres : la moyenne empirique tend vers la moyenne
théorique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.5 Simulations et tirages . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.6 Le théorème central limite : omniprésence de la loi normale . . . . . 76
5.7 Lois dérivées de la loi normale : lois du t, du χ2 , du F (*) . . . . . . 78
5.8 Variance infinie : le hasard ”sauvage” (*) . . . . . . . . . . . . . . . . 79
6 Estimations ponctuelles et intervalles de confiance . . . . . . . . . . . . . . . 81
ii
Table des matières
iii
1 Introduction et rappels mathématiques
1
2. Le formalisme et les mathématiques (*)
plus que largement pour l’essentiel. Si tel n’était pas tout-à-fait le cas, il n’est jamais trop
tard...
Comment des lettrées maı̂trisant les formes écrites et orales du chinois, de l’hindi, de
l’arabe etc. (ou de toute langue difficile pour, disons, les européens) peuvent-selles sécher
devant une formule mathématique simple ? Il y a là un immense mystère – et sans doute
un immense gâchis : les disciplines computationnelles de base sont tellement plus simples !
Quant aux développements avancés des disciplines computationnelles, ils peuvent être
certes vraiment escarpés et difficiles, mais rien de tel n’est exigé de l’étudiante “standard”
en méthodes quantitatives : au “pire”, ses enseignantes et ses lectures lui transmettront des
résultats directement applicables, i.e. des théorèmes utiles bien établis, mais sans exiger la
maı̂trise de toute la théorie et des preuves, lesquelles ont été établies une fois pour toute
par d’autres personnes : pas besoin de revisiter et de redémarrer ici toute la machine pour
des étudiantes qui ne sont ni logiciennes, mathématiciennes ou informaticiennes, nous
sommes bien d’accord là-dessus.
Pour aborder efficacement ces questions, il est essentiel de pouvoir recourir, en plus du lan-
gage naturel, au langage formel. En (très) gros, le langage naturel est le français (l’anglais,
le hindi, etc.) parlé ou écrit “ordinaire”, tandis qu’un langage formel utilise un formalisme
impliquant des symboles particuliers reliés entre eux par une syntaxe logique strictement
définie. Une formule mathématique, une expression de logique formelle, du code infor-
matique sont des exemples de langage formel.
Exemple 1. Par exemple, “le carré de la longueur de l’hypoténuse est égal à la somme des
carrés des longueurs des deux autres côtés” est un énoncé mathématique en langage naturel,
tandis que “z 2 = x2 + y 2 ” est le même énoncé (une fois définis z, x et y) en langage formel.
Autre exemple : “la probabilité conditionnelle d’obtenir face sachant que l’on a obtenu face
le coup d’avant est égale à la probabilité non conditionnelle d’obtenir face” peut s’écrire
formellement comme “P (Xt+1 = F ∣Xt = F ) = P (Xt+1 = F )”.
2
2. Le formalisme et les mathématiques (*)
3
2. Le formalisme et les mathématiques (*)
4
3. Définitions et théorèmes
F IGURE 1.1 – Gauche : extrait du traité d’algèbre Kitab al-jabr wa al-muqabala (ca. 825) de Al-
Khwarizmi (ca. 780-850). Droite : extrait de l’ouvrage L’algèbre de Jaques Peletier du Mans, départie
en deux livres (1554), de J.Peletier (1517-1582).
3 Définitions et théorèmes
Un discours mathématique commence toujours par présenter des définitions, ou s’ap-
puyer sur des notions bien définies pour l’audience – et d’autres disciplines feraient bien
de s’en inspirer systématiquement. Une fois introduits ces définitions ou axiomes, leurs
conséquences logiques sont ensuite énoncées : ce sont les théorèmes, et cet enchaı̂nement
illustre parfaitement la démarche déductive, formée de segments de la forme
De même, l’énoncé
5
4. Arithmétique, points, fonctions
s’énonce aussi
Le signe égalité “=”, comme dans “ f (x) = 1 − 2x + x2 ” possède deux significations bien
distinctes : il peut s’agir
● soit d’une définition d’un objet ou d’une propriété, à lire comme “ soit f (x) la
fonction 1 − 2x + x2 ”. On peut préciser cet usage en notant
def △
f (x) ∶= 1 − 2x + x2 ou encore f (x) = 1 − 2x + x2 ou encore f (x) = 1 − 2x + x2
6
4. Arithmétique, points, fonctions
Par contre, les opérations suivantes sont soit indéterminées, soit impraticables dans l’en-
semble des réels :
0 ∞ √
=? =? 0 ⋅ ∞ =? 00 =? nombre strictement négatif =? (1.2)
0 ∞
Les nombres réels sont ordonnés par les relations “>” (plus grand que), “≥” (plus grand ou
égal que), “<” (plus petit que), “≤” (plus petit ou égal que).
Etonnamment, la terminologie nombre positif est ambigüe : elle peut désigner, selon les
usages, un nombre strictement positif x > 0 (c’est la convention qui sera utilisée ici) ou
bien un nombre non-négatif x ≥ 0. Mêmes remarques pour nombre négatif.
La multiplication (ou la division) de deux nombres de même signe (i.e. tous deux positifs
ou négatifs) donne un nombre positif ; la multiplication (ou la division) de deux nombres
de signe opposé donne un nombre négatif.
La valeur absolue d’un nombre x, notée ∣x∣, est égale à x si x ≥ 0, et à −x sinon. Par
exemple, ∣3∣ = 3 et ∣ − 3∣ = 3.
Le maximum de deux nombres max(x, y) est égal à x si x ≥ y, et à y sinon. De même,
le minimum de deux nombres min(x, y) est égal à x si x ≤ y, et à y sinon. Par exemple,
max(3, −4) = 3 et min(3, −4) = −4. En particulier, ∣x∣ = max(x, −x). Il n’est pas difficile de
prouver les identités suivantes
1 1
max(x, y) = (x + y + ∣x − y∣) min(x, y) = (x + y − ∣x − y∣)
2 2
Soit Z = {. . . , −2, −1, 0, 1, 2, . . .} l’ensemble des entiers relatifs. La partie entière par défaut
ou simplement partie entière (anglais : floor) ⌊x⌋ d’un réel x est le plus grand nombre
entier relatif non supérieur à x. Par exemple, ⌊1.2⌋ = 1, ⌊−2.7⌋ = −3 et ⌊−4⌋ = −4. La partie
entière par excès (anglais : ceiling) ⌈x⌉ d’un réel x est le plus petit nombre entier relatif
non inférieur à x. Par exemple, ⌈1.2⌉ = 2, ⌈−2.7⌉ = −2 et ⌈−4⌉ = −4.
Par construction, ⌈x⌉ = −⌊−x⌋. Aussi, ⌊−x⌋ + ⌊x⌋ = −1, sauf si x est un entier relatif, auquel
cas l’expression vaut zéro.
4.1.4 Précision
Les données numériques résultent :
● de “simples” opérations de comptage, s’exprimant en entiers (le nombre de nais-
sances en une année dans une région donnée ; le nombre de jours de pluie, le nombre
de votants)
● de mesures physiques (la température d’un liquide, la teneur en alcool d’une bière, la
distance entre deux lieux)
7
4. Arithmétique, points, fonctions
8
4. Arithmétique, points, fonctions
3
Une des représentations graphiques les plus ⎛− 1⎞
C= ⎜ ⎟
⎝2⎠
simples et utiles consiste à représenter des points
2
définis par deux coordonnées (nombres réels)
⎛1⎞
(x, y) sur un “repère 0xy” dit aussi “repère A= ⎜ ⎟
1
⎝1⎠
cartésien”, à savoir sur un plan défini par deux
x
axes orientés (l’axe des x, horizontal, définissant
0
-2 -1 0 1 2 3
l’abscisse du point, et l’axe des y, vertical,
définissant l’ordonnée du point). L’origine (le ⎛0⎞
B= ⎜ ⎟
-1
⎝− 1⎠
point (0, 0)) est généralement placée à l’intersec-
tion des axes, sur lesquels figureront également
-2
les échelles, qui peuvent différer quant à la gra-
duation choisie.
Trois points dans un repère cartésien
4.3 Fonctions
Les mêmes conventions s’appliquent également
10
pour la représentation des fonctions : une fonc- y
tion y = f (x) est une règle de correspondance qui f(x)=x3
à un certain nombre x associe un nombre y.
5
√
Par exemple, f (x) = x3 et g(x) = x + 1 font g(x)= x + 1
respectivement correspondre à un nombre x son x
0
-2 -1 0 1 2
cube et la racine carrée de sa valeur additionnée
d’une unité 7 . Le calcul d’un nombre suffisant
de valeurs telles que f (0) = 0, f (0.5) = 0.125,
-5
points (0, 0), (0.5, 0.125), (1, 1), (1.5, 3.375), etc.
Quant à la fonction g(x), elle n’est définie que √
pour x ≥ −1. Graphes de f (x) = x3 et g(x) = x+1
Une fonction est dite continue si son graphe peut être tracé sans discontinuités, i.e. sans
lever le crayon. Une fonction est croissante si son graphe “monte” (i.e. si à des valeurs
plus élevées de x correspondent des valeurs plus élevées de y, ou encore si sa pente est
positive) – c’est le cas des fonctions représentées ci-dessus. La décroissance d’une fonction
se définit de façon analogue.
Une fonction f continue et strictement monotone (i.e. strictement croissante ou décrois-
sante) possède un inverse f −1 , défini par f −1 (y) = x ssi y = f (x), ou encore f −1 (f (x)) = x
(pour tout x) ou bien f (f −1 (y)) = y (pour tout y) : à chaque valeur de x correspond une
seule valeur de y (et réciproquement), on dit que la fonction f est une bijection.
Un maximum (local) d’une fonction continue est un point a de l’axe des x tel que la
fonction soit croissante pour x ≤ a et décroissante pour x ≥ a, du moins dans un voisinage
de a, i.e. dans une région suffisamment petite contenant a. La notion de minimum se
définit de façon analogue.
Une fonction est dite convexe (respectivement concave) si sa courbure est orientée vers le
haut (respectivement vers le bas). Un fonction régulière est convexe dans le voisinage d’un
minimum, et concave dans le voisinage d’un maximum. Les points de transition convexe
↔ concave sont appelés points d’inflexion.
7. cette dernière locution, comme souvent avec le langage naturel, est ambigüe : l’ordre des transformations
n’est pas précisé, et deux interprétations sont possibles
9
4. Arithmétique, points, fonctions
y=x4 − x3 3 − 2x2 + x
Le graphe de la fonction f (x) = x4 − x3 /3 −
2
2x2 + x ci-contre illustre sa décroissance pour x ∈
(−∞, −1) et x ∈ (1/4, 1), et sa croissance pour
1
x ∈ (−1, 1/4) et x ∈ (1, ∞) (la section 5.1 rappelle
ces notations).
La fonction est localement minimale pour x = −1 x
0
et x = 1, avec valeurs f (−1) = −5/3 et f (1) = −1/3
-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
-1
La fonction est convexe pour x ∈ (−∞, −1/2) et
x ∈ (2/3, ∞). Elle est concave pour x ∈ (−∞, −1/2)
et x ∈ (2/3, ∞). Aux points x = −1/2 et x = 2/3,
-2
la fonction passe de convexe à concave, ou l’in-
verse : ce sont les points d’inflexion. Graphe de f (x) = x4 − x3 /3 − 2x2 + x
Les concepts précédents peuvent aussi être définis à l’aide de la notion de dérivée d’une
fonction : une fonction f (x) (suffisamment régulière) est croissante ssi sa dérivée première
(ou pente) satisfait f ′ (x) > 0, et décroissante ssi f ′ (x) < 0. Elle est convexe ssi sa dérivée
seconde satisfait f ′′ (x) > 0, et concave ssi f ′′ (x) < 0. Les extrema (=minima ou maxima)
satisfont à f ′ (x) = 0, et les points d’inflexion à f ′′ (x) = 0.
Bonne nouvelle pour les personnes qui ont souffert au baccalauréat de mathématiques : le
calcul des dérivées, et celui des intégrales (le célèbre calcul différentiel et intégral, appelé
calculus en anglais) n’est pas requis pour les utilisateurs des statistiques : en particulier, les
valeurs des intégrales les plus utilisées sont soit tabulées (ce sont les tables statistiques de
la loi normale, du t, du χ2 , du F ,...), soit calculées par un logiciel.
Cela étant, la compréhension de ces concepts est centrale dans l’appareil logico-formel des
méthodes quantitatives : typiquement, on verra que la probabilité d’un événement décrit
par une valeur continue s’exprimera comme une intégrale. Aussi, il faut distinguer entre
minimum local (les points x = −1 et x = 1 de la figure ci-avant) et minimum global (le point
x = −1, qui constitue le “minimum des minima”). Plutôt que d’écrire
où “arg min” désigne l’argument minimisant la fonction qui suit. Les mêmes considérations
et notations s’appliquent aux maxima, naturellement.
10
4. Arithmétique, points, fonctions
3
exemple f (x) = 2x − 1, il suffit de déterminer
deux points arbitraires et de tracer la droite. Dans
2
l’exemple, f (0) = −1 et f (1) = 1 : la droite
passe donc par les points (0, −1) et (1, 1), comme ⎛1⎞
⎜ ⎟
1
l’illustre le graphique ci-contre. ⎝1⎠
0
-2 -1 0 1 2 3
-1
⎝− 1⎠
réel x la valeur b. Le paramètre b donne l’ordonnée
à l’origine (intercept), qui est la distance verticale
-2
de la droite à l’origine : la droite passe au-dessus
de l’origine ssi b > 0. Lorsque b = 0, la droite passe Une droite est déterminée
par l’origine. Dans ce cas, les valeurs de y sont par deux points distincts
proportionnelles à celles de x.
Par exemple, le logarithme de 32 en base 2 est log2 32 = 5, car 25 = 32. Les bases les
plus utilisées sont les bases a = 2, a = 10 et a = e ∶= 2.71828.... Changer de base revient
à multiplier le logarithme par une constante (comme pour un changement d’unités en
physique) : logb (x) = logb (a) loga (x). Si le choix de la base est sous-entendu, ou si la
propriété dont il est question ne dépend pas de la base, on peut noter log x au lieu de
loga (x). L’écriture ln x réfère à loge (x) (logarithme népérien ou naturel).
y=loga(x)
3
0 2 a 4 6 8 10
1
soit sa base) est de transformer le produit en
-1
x
log( ) = log(x) − log(y)
-4
y
log(xy ) = y log(x) . Graphe du logarithme en base a
x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + . . . + xn (1.4)
11
4. Arithmétique, points, fonctions
De façon générale, ∑ni=k ai désigne la somme de tous les ai , en commençant par l’individu
numéro i = k et en terminant par le numéro i = n (on suppose que k ≤ n). Il est à noter
que l’expression ne dépend pas de la lettre utilisée comme indice, qui est pour cette raison
qualifiée d’indice muet : on a toujours ∑ni=k ai = ∑nj=k aj , quelles que soient les valeurs de
k, de n et de la série ak ,...,an .
Si ri désigne le revenu du i-ème individu, rj désigne évidemment le revenu du j-ème indi-
vidu (et poser la question “que désigne rj ?” montre que l’on a pas compris la convention).
Par contre, qi désigne bien une certaine valeur associée au i-ème individu, mais tant que
l’on a pas défini q (la taille ? l’âge ? le revenu ?) on ne peut rien dire de plus.
De même, la notation
n m
∑ ∑ aij ou encore plus simplement ∑ aij
i=1 j=1 ij
désigne la double somme sur toutes les n valeurs de i et les m valeurs de j. On peut
effectuer la somme dans n’importe quel ordre, pourvu que chaque aij soit comptabilisé
une et une seule fois.
La notation ∑i≠j aij peut être ambigüe (le contexte devrait permettre de lever l’ambiguı̈té) :
il peut s’agir d’une double somme sur i et j excluant les paires i = j, ou d’une somme simple
sur toutes les valeurs de i sauf celle pour laquelle i = j, le cas échéant, qui pourrait alors
s’écrire sans ambiguı̈té comme ∑i ∣ i≠j aij (voir section 5.2), le résultat dépendant alors de
la valeur de j, qui n’est pas muet dans ce cas.
De façon analogue, la notation ∏ni=k ai désigne le produit de tous les ai , en commençant
par le numéro i = k et en terminant par le numéro i = n, à savoir ak ak+1 ak+2 ...an−1 an .
dès que l’on a convenu de représenter l’âge du x-ème individu par ix (ou l’âge du ℵ-
ième individu par xℵ ou £ℵ ), parmi ⊘ = n individus. D’un point de vue strictement
formel (syntaxique), (1.6) n’est ni meilleur ni moins bon que (1.5). D’un point de vue
sémantique (traduction du langage naturel en langage mathématique et vice-versa), force
est de reconnaı̂tre que les identités de (1.6) sont bien plus difficiles à lire et appréhender
du premier coup que ne l’est (1.5) : les symboles ℵ, £ et ⊘ sont rarement utilisés en
mathématiques, et pratiquement jamais sous cette forme, alors que xi est le standard pour
désigner “la valeur du i-ème individu”.
L’usage rend ainsi certains symboles, en soi arbitraires et muets, plus faciles à lire que
d’autres, et la bonne lisibilité d’un texte mathématique dépend fortement de ces conven-
tions – lesquelles peuvent varier d’une discipline à l’autre, ce qui rend l’écriture mathé-
matique interdisciplinaire particulièrement délicate : certaines conventions doivent néces-
sairement être sacrifiées au profit d’autres (collusions de notations). De plus, l’expérience
montre que l’alphabet des 26 lettres latines (et des 23 lettres grecques), avec leurs va-
riantes majuscules et autres, se révèle vite limité pour exprimer élégamment et lisiblement
un propos un tant soit peu général, particulièrement en méthodes quantitatives.
12
5. Ensembles
n! ∶= n ⋅ (n − 1) ⋅ (n − 2) ⋅ ... ⋅ 3 ⋅ 2 ⋅ 1 (1.7)
On définit également 0! ∶= 1.
Par exemple, 4! = 4 ⋅ 3 ⋅ 2 = 24, 5! = 5 ⋅ 4 ⋅ 3 ⋅ 2 = 120, 1! = 1.
On définit d’autre part 0! ∶= 1. Par construction, (n + 1)! = (n + 1) ⋅ n! quel que soit l’entier
n ∈ N. La quantité n! constitue le nombre de permutations d’un ensemble de n individus :
il y a par exemple 6! = 720 façons d’attribuer 6 maisons distinctes à 6 individus, ou 5! = 120
ordres d’arrivée possibles sans ex-aequo lors d’une course de 5 concurrents.
n et k désignant deux entiers non négatifs avec n ≥ 0 et n ≥ k ≥ 0, on définit le coefficient
binomial (nk) comme (nk) ∶= (n−k)!k!
n!
.
L’équation (1.8) est un cas particulier de l’identité binomiale (dans le cas x = y = 1 ci-
après) : quels que soient n (entier), x et y (réels), on a :
n
n k n−k
∑( )x y = (x + y)n (1.9)
k=0 k
5 Ensembles
5.1 Ensembles fermés, ouverts, dénombrables, non dénombrables
On a déjà utilisé le concept d’ensemble, comme R pour celui des réels, et N pour celui des
entiers.
Formellement, un ensemble est une collection d’individus. Ces individus sont des objets
de même nature (quelconque), tels que des personnes, communes, livres, propositions,
13
5. Ensembles
constellations, nombres, etc... La notation de ces derniers est codifiée : {2, 3, 4} désigne
l’ensemble formé des trois nombres 2, 3 et 4, tandis que [2, 4] désigne l’intervalle de tous
les nombres réels compris entre 2 et 4 inclus (intervalle fermé), et (2, 4) (ou ]2, 4[) désigne
l’intervalle de tous les nombres réels compris entre 2 et 4 non inclus (intervalle ouvert).
Un ensemble A peut être fini (s’il contient un nombre fini d’éléments). La notation ♯ A ou
∣A∣ (cardinal de A) désigne le nombre de ses éléments. Lorsqu’un ensemble est infini, on a
vu qu’il peut être infini dénombrable lorsqu’il est possible de donner une énumération de
ses éléments telle que n’importe quel élément choisi d’avance apparaisse en en temps fini,
comme dans l’ensemble des entiers naturels N. Ou au contraire infini non dénombrable si
une telle énumération n’est pas possible, comme dans l’ensemble R des nombres réels.
Ici x désigne un élément quelconque, le signe “∈” (“appartient à”) désigne l’appartenance
à un ensemble (et ∉ la non-appartenance), et le signe “∣” se lit “tel que” ou “étant donné
que”.
A ∖ B désigne l’ensemble formé des éléments appartenant à A mais pas à B. La différence
symétrique de deux ensembles A et B (notée A∆B) est l’ensemble formé de tous les
éléments appartenant à A ou bien à B (mais pas les deux : il s’agit ici du “ou” exclusif) :
Dans une situation donnée, on appelle référentiel (souvent noté Ω) l’ensemble contenant
tous les éléments pertinents dans le contexte (par exemple : “tous les nombres réels”, “tous
les habitants de telle ville”, etc...). Une fois le référentiel fixé, il est possible de définir le
complémentaire d’un ensemble A, noté Ac ou encore Ā, constitué de tous les éléments
de Ω n’appartenant pas à A. Par construction, le complémentaire de Ω ne contient aucun
élément : on appelle cet ensemble (noté ∅) l’ensemble vide. Par construction, quel que soit
A ⊂ Ω, on a A ∪ Ā = Ω et A ∩ Ā = ∅. Deux ensembles A et B sont dits disjoints ou exclusifs
s’ils n’ont pas d’éléments en commun, i.e. si A ∩ B = ∅.
5.3 Partition
Une collection d’ensembles A ∶= {A1 , . . . , Am } constitue une partition de Ω ssi :
1) les {Aj } sont mutuellement exclusifs : Aj ∩ Ak = ∅ pour tous j ≠ k.
2) les {Aj } sont exhaustifs : A1 ∪ A2 ∪ ... ∪ Am = ∪m j=1 Aj = Ω.
Si A est une partition de Ω, chaque élément de Ω appartient à un et un seul ensemble Aj
de la partition. Par exemple,
● le territoire du canton de Vaud est, au premier janvier 2017, partitionné en m = 309
territoires communaux
● le texte d’un livre de 198 pages peut être partitionné en ... 198 pages
● les catégories (telles “très satisfait”, “assez satisfait”, “assez insatisfait”, “très insatis-
fait”) d’une question fermée forment (ou devrait toujours former) une partition de
l’ensemble des réponses possibles (quitte à rajouter une catégorie “autre : préciser”).
Une partition B est plus fine (anglais : “finer”) qu’une partition A ou, de façon équivalente,
la partition A est plus grossière (coarser) que B, ou encore B est emboı̂tée (nested) dans
14
5. Ensembles
A⪰A si B ⪰ A et C ⪰ B alors C ⪰ A .
A
D
E
C
B
Ω
F IGURE 1.2 – diagramme de Venn
15
6. Probabilités
En logique, la négation de la proposition A est notée “¬A”, plutôt que, de façon équivalente,
“A” ou “Ac ” en notation ensembliste. La règle dite du modus tollens “(A ⇒ B) ssi (¬B ⇒
¬A)” devient alors “(A ⊂ B) ssi (B̄ ⊂ Ā)” en langage ensembliste.
(il est faux que tout le monde a réussi son examen ss’il existe une personne qui a raté son
examen). De même, ¬(∃y D(y)) ssi ∀y ¬D(y) (il est faux qu’il existe une personne aimant
les méthodes quantitatives ssi personne n’aime les méthodes quantitatives) 9 .
6 Probabilités
La notion de vraisemblance d’un événement A, ou celle de sa propension à se produire,
sont modélisées par le concept de probabilité de l’événement A.
P (A∪B ∪C) = P (A)+P (B)+P (C)−P (A∩B)−P (A∩C)−P (B ∩C)+P (A∩B ∩C) (1.12)
16
6. Probabilités
où I(A) est la fonction indicatrice de l’événement A (section 5.5), prenant la valeur 1 si
A est réalisé, et 0 sinon, et où E(.) désigne la moyenne théorique ou espérance déterminée
par la théorie ; on y reviendra abondamment, en remarquant au passage que la définition
(1.14) fait de P (A) une quantité obéissant aux axiomes de probabilité ci-dessus.
Dans les cas les plus simples, le référentiel Ω et les événements A qu’il contient peuvent
tous deux être décomposés, partitionnés en une collection de sous-ensembles ou cas de
même nature, dont il est raisonnable de postuler qu’ils sont équiprobables. Le modèle est
alors dit uniforme, et les probabilités théoriques s’obtiennent simplement comme
nombre de cas favorables (où A se produit) n(A)
P (A) = = (1.15)
nombre de cas possibles n(Ω)
Par exemple, la probabilité de tirer un roi d’un jeu de 52 cartes est de P (roi) = 4/52 =
0.077 = 7.7%. L’équiprobabilité des cas est ici justifiée par des raisons de symétrie, du type
“il n’y a pas plus de chances de tirer un roi qu’une autre carte d’un jeu bien mélangé de 52
cartes”. Aussi naturelle soit cette affirmation, elle n’en constitue pas moins un modèle de
la réalité, modèle qui peut se révéler adéquat ou non.
Dans le cas du lancer d’une pièce de monnaie, il s’agit de bien faire la distinction entre
une probabilité théorique uniforme de P (pile) = 0.5, suggérée par des considérations de
symétrie évidente, et une fréquence empirique de par exemple f (pile) = 0.52, obtenue
dans le cas d’une expérience portant sur 1000 lancers dont 520 auraient donné “pile”.
10. et donc n(A) + n(Ā) = n(Ω) est le nombre total d’observations
11. dans ce contexte, ces termes sont largement synonymes
17
6. Probabilités
De même, il faut distinguer entre l’effectif empirique n(A) de (1.13) qui est un nombre
observé et l’effectif théorique n(A) de (1.15) qui est un nombre postulé ou attendu. Cette
distinction entre données et modèle, sur laquelle on reviendra constamment, constitue la
distinction de base en méthodes quantitatives, statistique et modélisation.
En l’absence de répétition observée, nécessaire au calcul (1.13) d’une fréquence empi-
rique, ou de modèle à disposition (correct ou non), permettant le calcul (1.14) (ou (1.15)
dans le cas uniforme) d’un probabilité théorique, il simplement impossible d’évaluer une
fréquence ou une probabilité.
Quelle est la probabilité de l’apparition de l’humanité à travers l’évolution ? Quelle est la
probabilité d’une fin du monde thermonucléaire ? On ne dispose ici d’aucune répétition
(une seule Histoire, une seule Terre à disposition), et les questions sont trop complexes
pour être résolues, du moins à l’heure actuelle, par des modèles suffisamment élaborés et
validés. En clair, on n’en sait rien.
Attention ! P (A∩B) = P (A)P (B) est une propriété très particulière, qui n’est généralement
pas réalisée : deux événements ne sont pas indépendants en général. Si P (A ∩ B) ≠
P (A)P (B), alors
● ou bien P (A∩B) > P (A)P (B), qui exprime que A et B se produisent simultanément
plus facilement qu’ils ne se produisent chacun séparément : les événements A et B
sont positivement associés, ou en attraction
● ou bien P (A ∩ B) < P (A)P (B) : les événements A et B sont négativement associés,
ou en répulsion.
Sous indépendance P (A ∩ B) = P (A)P (B), les événements A et B ne sont pas associés :
neutralité.
Exemple 2. Parler d’un dé équilibré implique deux choses, à savoir que i) le référentiel est
Ω = {1, 2, 3, 4, 5, 6}, et que ii) les six faces sont équiprobables, i.e. que P ({1}) = P ({2}) =
P ({3}) = P ({4}) = P ({5}) = P ({6}) = 1/6.
Considérons les événements A = {2, 4, 6}, B = {1, 2, 3}, et C = {1, 2}. Leur probabilité est
de P (A) = 63 = 12 , P (B) = 36 = 21 et P (C) = 26 = 31 . On a :
● P (A ∩ B) = P ({2}) = 16 < P (A)P (B) = 1
2
⋅ 1
2
= 1
4
: les événements A et B sont
dépendants, en répulsion.
● P (A ∩ C) = P ({2}) = 1
6
= P (A)P (C) = 1
2
⋅ 1
3
= 1
6
: les événements A et C sont
indépendants.
● P (B ∩ C) = P ({1, 2}) = 13 > P (B)P (C) = 1
2
⋅ 1
3
= 1
6
: les événements B et C sont
dépendants, en attraction.
18
6. Probabilités
P (B∣A) mesure la probabilité que l’événement B soit réalisé, sachant que l’événement A
est réalisé. La probabilité que A et B soient simultanément réalisés est égale à la probabi-
lité que A soit réalisé, multipliée par la probabilité que B soit réalisé sachant que A l’est,
soit P (B ∩ A) = P (A)P (B∣A) qui donne l’équation (1.16).
Les conséquences directes de la définition (1.16) sont nombreuses et considérables :
a) P (B∣Ω) = P (B) : toute probabilité “non conditionnelle” telle que P (B) peut s’ex-
primer comme la probabilité conditionnelle de B étant donné l’événement certain
Ω.
b) P (B∣A) = P (B) ssi A et B sont indépendants, i.e. ssi P (A ∩ B) = P (A)P (B) :
deux événements sont indépendants ssi la probabilité que l’un se produise n’est pas
affectée par la connaissance que l’autre se produise ou non. De même, P (B∣A) >
P (B) ssi A et B sont en attraction, et P (B∣A) < P (B) ssi A et B sont en répulsion.
c) P (B∣B) = 1 : la probabilité que B se réalise sachant qu’il se réalise est de 1.
L’évidence intuitive de ce résultat peut être moquée comme rhétorique stérile ; elle
peut aussi être saluée comme lieu d’harmonie entre un formalisme et notre intuition
– un accord plus rare qu’il n’y paraı̂t (cf. paradoxes, biais, et autres fallacies).
d) de même, P (B∣B̄) = 0 : la probabilité que B se réalise sachant qu’il ne se réalise pas
est de 0 .
e) P (B∣∅) = 00 = indéterminé : la probabilité que B se réalise sachant que l’“impossible
s’est produit” ne peut pas être déterminée. Là aussi, toute autre réponse que “indé-
terminé” aurait heurté notre intuition : si l’impossible s’est produit, il faut se taire
à jamais – ou réévaluer cet impossible comme finalement possible, et modifier en
conséquence les probabilités de toutes nos évaluations.
f) L’identité
P (B) = P (B∣A)P (A) + P (B∣Ā)P (Ā) (1.17)
peut être illustrée par le schéma en arbre de la figure (1.3).
g) Plus généralement, étant donnée une partition A = {Aj }m j=1 (section 5.3), l’identité
suivante, dite formule des probabilités totales, est toujours valide :
m
P (B) = ∑ P (Aj )P (B∣Aj ) . (1.18)
j=1
P (A)
P (A∣B) = P (B∣A) (1.19)
P (B)
19
6. Probabilités
F IGURE 1.3 – L’événement B peut être réalisé dans deux cas : lorsque l’événement A est
réalisé, ou lorsqu’il ne l’est pas. Ainsi, P (B) = P (A)P (B∣A) + P (Ā)P (B∣Ā) .
Posons A = “il fait beau temps” et B = “du beau temps est annoncé”. Les données
sont respectivement P (B∣A) = 0.8, P (B̄∣Ā) = 0.9 et P (Ā) = 0.9. On cherche P (A∣B),
(A)
égal à PP (B) P (B∣A) par (1.19). Dans cette dernière expression, seule la valeur P (B)
est momentanément inconnue ; l’équation (1.17) permet de la calculer comme P (B) =
P (B∣A)P (A) + P (B∣Ā)P (Ā) = 0.8 ⋅ (1 − 0.9) + (1 − 0.9) ⋅ 0.9 = 0.17 13 . Finalement, on trouve
P (A∣B) = P (B∣A)PP (B)
(A)
= 0.8⋅0.1
0.17
= 0.47 : même si les prévisions météo sont plutôt fiables, la
météo exécrable de la région fait qu’une annonce de beau temps n’a que 47% de chances
d’être réalisée.
13. on a utilisé P (A) = 1 − P (Ā) et P (B∣Ā) = 1 − P (B̄∣Ā). Attention ! en général, P (B∣Ā) ≠ 1 − P (B∣A)
20
2 Données
1 Généralités
Les données caractérisent un ensemble de n éléments, aussi appelés individus ou objets.
Ces individus sont de même nature, et forment l’échantillon à disposition. Un échantillon
peut consister en un ensemble de communes, d’un groupe de personnes, de plantes ou
d’animaux, de véhicules dans un parking, de livres contenus dans une bibliothèque, etc.
Aux individus sont associés une ou plusieurs caractéristiques (features) ou variables : par
exemple le prix des livres, la couleur de leur couverture, le genre littéraire ou documen-
taire, la langue utilisée, l’année d’édition, le nombre de pages, le poids, etc.
Ces données de base sont, en méthodes quantitatives et statistiques, systématiquement
mises sous forme tabulaire (tableau à deux entrées) : aux n lignes du tableau (éléments
horizontaux) correspondent les n individus, aux p colonnes du tableau (éléments verti-
caux) correspondent les p variables. Le tableau lui-même contient, à l’intersection de la
ligne i et de la colonne k, le score xik de l’individu i sur la k-ème variable (table 2.1).
x1 x2 x3 x y z
i=1 x11 x12 x13 i=1 x1 y1 z1
i=2 x21 x22 x23 i=2 x2 y2 z2
i=3 x31 x32 x33 i=3 x3 y3 z3
i=4 x41 x42 x43 i=4 x4 y4 z4
i=5 x51 x52 x53 i=5 x5 y5 z5
TABLE 2.1 – échantillon de n = 10 individus caractérisés par p = 3 variables, notées comme
x1 , x2 , x3 (à gauche) ou x, y, z (à droite) : les deux conventions d’écriture sont courantes et co-
existent. Attention : il s’agit de bien distinguer x2 , qui dénote l’ensemble des scores de la deuxième
variable, de x2 , le score du deuxième individu sur la variable x.
21
2. Types de variables, et échelles
22
2. Types de variables, et échelles
de la forme ax + b : la constante a a pour effet de dilater les valeurs d’un facteur a > 0
relativement à l’origine, et la constante b a pour effet de translater toutes les valeurs d’une
quantité constante b. En d’autres termes, le paramètre a fixe l’unité ou la graduation, et le
paramètre b fixe le zéro ou l’origine.
23
2. Types de variables, et échelles
24
2. Types de variables, et échelles
tout autre codage plus ou moins pratique, qui aurait été convenu d’avance (pour autant
évidemment que l’on se soit bien mis d’accord sur les modalités de codages, telles que
"masculin" ↔ 1). Ces scores ou codes, encore appelés modalités, sont de simples noms ou
catégories, d’où la qualification d’échelle nominale ou catégorielle que l’on utilise dans ces
cas 7 . Les scores nominaux sont donc définis à un recodage près, donné par transformation
biunivoque ou bijection x → f (x) (table 2.3), comme par exemple f ("féminin") = 1 et
f ("masculin") = 2.
Ceci fait de R une relation transitive (si aRb et bRc alors aRc) et réflexive (∀a, aRa), et
totale (∀ab, aRb ou bRa) : on parle d’une relation de préordre total 9 .
Si aRbRc, on pourrait alors quantifier arbitrairement les duretés minérales par xa = 5,
xb = 3 et xc = 1, ou bien par xa = 50, xb = 20 et xc = 10, ou encore par xa = 5.1, xb = 5
et xc = 4.9, etc... , pourvu que xa ≥ xb ≥ xc soit respectée. Autrement dit, si x → f (x)
7. on parle aussi de facteur pour une variable catégorielle, une notion qui n’a rien à voir avec la notion de
facteur en analyse factorielle (qui est une technique d’analyse multivariée plus avancée)
8. aussi appelée dummy variable
9. “préordre total” et non pas “ordre total” car la propriété d’antisymétrie (si aRb et bRa, alors a = b) n’est
pas vérifiée : si deux minéraux ont la même dureté, ils ne sont pas forcément identiques.
25
2. Types de variables, et échelles
est une transformation admissible des scores ordinaux x en d’autres scores ordinaux f (x)
équivalents, il faut que f (x) ≥ f (y) lorsque x ≥ y : les scores ordinaux ne sont donc définis
qu’à une transformation croissante f (x) près (table 2.3).
Les mêmes considérations s’appliquent à la quantification, a priori arbitraire, des scores
de fréquence temporelle associés à toujours, presque toujours, très souvent, souvent, etc...,
qui doit satisfaire
xtoujours > xpresque toujours > . . . > xsouvent > . . . > xrarement > . . . > xjamais
xupper class > xupper middle class > xlower middle class > xworking class
26
3. Une seule variable : visualisation et indicateurs
L’analyse statistique n’est pas immédiate et ne va pas de soi, car n = 50 individus donne-
ront en général 50 réponses différentes, qu’il s’agira alors de quantifier ou de catégoriser
au moyen d’une (ou de plusieurs) variable quantitative ou catégorielle, à définir : les
questions ouvertes sont plus complexes à traiter que les questions fermées – et sont donc
clairement à éviter sauf si l’on a de bonnes raisons (et compétences) de faire autrement.
Si les réponses à "Mes motivations pour suivre ce master" sont concises, on peut ty-
piquement tenter de les recoder (a priori, i.e. selon une grille d’analyse prédéfinie selon la
problématique de la recherche, ou a posteriori, i.e. en essayant de regrouper les réponses
selon les thèmes qui se trouvent avoir émergé) selon quelques catégories (associées à une
ou plusieurs variables) telles que "Intér^ et général pour la discipline", "Intér^ et
pour un aspect spécifique", "Débouchés attendus pour un futur travail", etc.
Même si l’exercice peut sembler simple, sa réalisation diffère le plus souvent d’un cher-
cheur à l’autre, dont les choix coı̈ncident rarement..
Si les réponses sont plus élaborées et longues, on a affaire à de véritable textes, qu’il s’agit
là aussi de catégoriser et/ou quantifier : une entreprise occupant depuis des décennies
de nombreux chercheurs en statistique textuelle, traitement automatique du langage natu-
rel (TALN ; en anglais : NLP : natural language processing) et intelligence artificielle, af-
faire toujours en cours à laquelle de nombreuses recherches et enseignements avancés et
contemporains (en analyse de données, en “data mining”, en “machine learning”, etc.)
sont dédiés...
Selon la formule consacrée, ces questions débordent largement le cadre de ce cours, dans
lequel le statut des variables numériques, catégorielles ou ordinales sera considéré comme
fixé, et leurs scores donnés. Ce qui ne devrait toutefois jamais interdire de questionner
l’origine, la pertinence, la validité et l’exactitudes de ces scores, qui ne tombent pas du
ciel : une personne (ou un groupe de personnes) a forcément dû décider de produire
telles données à partir des informations disponibles, et cette personne doit pouvoir nous
expliquer le comment et le pourquoi de ses choix et traitements : ce “certificat d’origine
contrôlée”, cette “traçabilité” est un ingrédient essentiel de l’objectivité et de la reproduc-
tibilité scientifiques.
27
3. Une seule variable : visualisation et indicateurs
80 80 80
60 60 60
effectif
effectif
effectif
40 40 40
20 20 20
0 0 0
20 30 40 50 60 70 80 20 30 40 50 60 70 80 20 30 40 50 60 70 80
x = âge des répondant.e.s x = âge des répondant.e.s x = âge des répondant.e.s
F IGURE 2.1 – Histogrammes des âges des répondant.e.s de l’exemple 5, avec des classes de la forme
]20, 21] etc. (à gauche), [20, 21[ etc. (au milieu), et ]20.5, 21.5] etc. (à droite). D’une spécification à
l’autre, la forme des trois histogrammes reste inchangée, avec décalage des classes d’une année ou
d’une demi-année.
forme ]aj , aj+1 ], ouvertes à gauche et fermées à droite 12 , où aj et aj+1 (avec aj < aj+1 sont
les limites de la j-ème classe, et e ∶= aj+1 − aj est son épaisseur ou largeur, généralement
constante.
Le nombre d’observations dans la j-ème classe ]aj , aj+1 ] est son effectif (count) nj . Par
définition,
n m
nj = ∑ I(aj < xi ≤ aj+1 ) et ∑ nj = n
i=1 j=1
i.e. la somme des effectifs de chaque classe est la taille de l’échantillon. L’histogramme
est le graphique obtenu par des rectangles dont les bases, en abscisse, sont les classes
elle-mêmes, et les hauteurs, en ordonnée, sont définies
● soit par les effectifs nj
● soit par les effectifs relatifs, fréquences ou proportions fj = nj /n. Par construction,
∑j=1 fj = 1 = 100%. Ce choix revient à contracter les ordonnées d’un facteur 1/n,
m
La plus petite valeur de l’échantillon est xmin = mini xi , et la plus grande xmax = maxi xi .
L’intervalle [xmin , xmax ] constitue l’empan de la distribution, et sa taille xmax − xmin en
12. ce que nous supposerons par la suite, sauf mention contraire ; le choix [aj , aj+1 [ est aussi possible, pourvu
qu’il soit spécifié. Dans le cas de scores entiers avec des classes délimitées par des entiers, comme dans le cas de
l’âge donné en années, passer d’une convention ]18, 19], ]19, 20], etc... à l’autre [18, 19[, [19, 20[, etc... revient
à translater tout l’histogramme d’une classe ; il est alors préférable d’utiliser des limites demi-entières telles que
]17.5, 18.5], ]18.5, 19.5], etc... ou [17.5, 18.5[, [18.5, 19.5[, etc... Cf. figure 2.1 .
28
3. Une seule variable : visualisation et indicateurs
50
60
40
effectif
effectif
40 30
20
20
10
0 0
0 1 2 3 4 5 6 1 2 3 4 5 6
x = note première épreuve x = note seconde épreuve
50 60
50
40
40
effectif
effectif
30
30
20
20
10
10
0 0
1 2 3 4 5 6 1 2 3 4 5 6
F IGURE 2.2 – Histogrammes des notes obtenues par les n = 215 aux étudiant.e.s aux quatre
épreuves (exemple 6), avec une largeur de classe (= précision) d’un demi-point
est l’étendue (range). La mise en classe doit couvrir tout l’empan de la distribution, d’où
m⋅e ≥ (xmax −xmin ), où e est la largeur de classe et m le nombre de classes. Plus e est grand
(et m petit), plus grande est la compression (= la perte d’information) des données brutes.
Inversement, le choix d’une largeur e trop petite aboutit à une série de “pics” et“déserts”
en apparence fortuits 13 (voir figure 2.3).
Le polygone de fréquences est la ligne obtenue en reliant les points du milieu des som-
mets de chaque rectangle d’un histogramme. Ce dernier est plus lisible que l’histogramme
lorsque deux groupes ou plus sont à représenter simultanément (figure 2.4 droite).
29
3. Une seule variable : visualisation et indicateurs
35
50
30
40 25
20
effectif
effectif
30
15
20
10
10
5
0 0
1 2 3 4 5 6 1 2 3 4 5 6
x = note troisième épreuve x = note troisième épreuve
14
8
12
10
6
8
effectif
effectif
6 4
4
2
0 0
1 2 3 4 5 6 1 2 3 4 5 6
F IGURE 2.3 – Histogrammes des notes obtenues par les n = 215 participants aux 3ème contrôle
continu de méthodes quantitatives I et II, année 2012-2013, au demi, quart, dixième et vingtième
de point
100 100
80 80
étudiant.e.s et doctorant.e.s
professeurs, post-docs, MA, MER
personnel administratif et technique; autres
60 60
effectif
effectif
40 40
20 20
0 0
20 30 40 50 60 70 80 20 30 40 50 60 70 80
x = âge des répondant.e.s x = âge des répondant.e.s
F IGURE 2.4 – Gauche : polygone de fréquences, obtenu en reliant les milieux des sommets des
rectangles d’un histogramme. Droite : polygone de fréquences multiples, permettant de superposer
les distributions d’une variable selon plusieurs groupes (exemple 5).
30
3. Une seule variable : visualisation et indicateurs
1.0
1.0
0.8
0.8
fonction de répartition F(x)
0.6
0.4
0.4
0.2
0.2
0.0
0.0
1 2 3 4 5 6 2 3 4 5 6
x = note première épreuve x = note seconde épreuve
1.0
1.0
0.8
0.8
fonction de répartition F(x)
0.6
0.4
0.4
0.2
0.2
0.0
0.0
2 3 4 5 6 2 3 4 5 6
F IGURE 2.5 – Fonctions de répartition empirique des notes obtenues par les n = 215 parti-
cipants aux 4 contrôles continus de méthodes quantitatives I et II, année 2012-2013.
31
3. Une seule variable : visualisation et indicateurs
Par exemple, la valeur x0.75 est le 75ème centile, ou encore le 3ème quartile, telle que
75% des individus de l’échantillon ont un score inférieur à x0.75 (et 25% des individus
ont un score supérieur à x0.75 ). De même, en considérant la variable x = “revenu”, le
20ème centile ou 2ème décile x0.20 sera le revenu non atteint par 20% des individus de
l’échantillon, et dépassé par 80% des individus.
L’idée fondant le concept de quantile est de découper l’échantillon en parties d’effectifs
égaux de 1/100 (centiles), 1/10 (déciles) ou encore 1/4 (quartiles) 14 ; ce découpage en-
traı̂ne en général la création de classes de largeur inégale : s’il y a bien 20% des individus
dans la classe ]x0.2 , x0.4 ] ou dans la classe ]x0.4 , x0.6 ], les largeurs x0.4 − x0.2 et x0.6 − x0.4
sont en général différentes. Si d’aventure ces classes étaient toutes de même largeur, cela
signifierait que la distribution des valeurs de x serait uniforme (ce concept sera formelle-
ment défini plus loin).
Les considérations ci-dessus présupposent qu’il existe une et une seule valeur xα parta-
geant la distribution en deux parties, de proportions α et 1 − α. C’est vrai si la fonction
de répartition F (x) est strictement croissante et continue dans l’étendue (i.e. bijective,
comme dans le cas limite d’un échantillon infini de valeurs continues évoqué ci-dessus),
mais problématique dans le cas d’un échantillon fini de valeurs brutes : si l’on dispose
par exemple de n = 8 valeurs distinctes, n’importe quelle valeur située dans l’intervalle
]x(2) , x(3) [ est un candidat au premier quartile x0.25 (car 2 valeurs observés sont plus pe-
tite, et 6 valeurs plus grandes), mais aucune valeur x0.01 ne peut prétendre, au sens strict,
séparer l’échantillon en deux parties de proportions respectives de 1% et 99% : dit simple-
ment, on ne peut pas découper un ensemble de 8 valeurs en 100 parties. La définition des
quantiles doit alors être adaptée.
Définition 4 (quantiles pour F (x) continue et strictement croissante). Pour α ∈]0, 1[, le
αème quantile est la valeur unique, notée xα , telle que F (xα ) = α.
Définition 5 (quantiles pour F (x) en escalier). Pour α ∈]0, 1[, la droite horizontale y = α
coupe F (x)
● soit le long d’un “mur” vertical correspondant à une observation x(i) , auquel cas le αème
quantile est défini comme xα = x(i)
● soit sur un “plateau” horizontal couvrant l’intervalle [x(i) , x(i+1) ], auquel cas le αème
x +x
quantile est défini comme le milieu du plateau xα = (i) 2 (i+1) .
32
3. Une seule variable : visualisation et indicateurs
5 1.00
0.95
0.90
0.85
4 0.80
0.55
0.50
0.45
2 0.40
0.35
0.30
0.25
1 0.20
0.15
0.10
0.05
0 0.00
0 1 2 3 4 5 -1 0 1 2 3 4 5 6
x = nombre d'enfants x = nombre d'enfants
0.55
0.50
0.45
40 0.4 0.40
0.35
0.30
0.25
20 0.2 0.20
0.15
0.10
0.05
0 0.0 0.00
1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
F IGURE 2.7 – Notes du 3ème contrôle continu, données en classes entières : construction de la
fonction de répartition empirique, et détermination graphique (définition 4) de la médiane x0.5 =
4.39, du troisième quartile x0.75 = 4.92 et du nonante-cinquième centile x0.95 = 5.48 .
Dans ce cas, en supposant les scores bruts répartis uniformément dans les intervalles, la
fonction de répartition F (x) peut être construite à partir de l’histogramme correspondant
en empilant dans la classe j tous les rectangles précédents, le j-ème y compris, puis en
remplaçant chaque dernier rectangle empilé par sa diagonale croissante, de façon à obte-
nir une ligne continue. Cette dernière est le graphe de F (x), qui est une fonction continue,
et strictement croissante pour autant qu’aucune classe ne soit vide. La définition 4 s’ap-
plique alors, et les quantiles xα peuvent être déterminés graphiquement 17 , comme sur la
figure 2.7.
3.1.3 Boxplots
Les boxplots ou “boı̂tes à moustache” constituent une autre représentation graphique de
la distribution d’une variable numérique x, particulièrement intéressante en présence de
17. la procédure revient à interpoler linéairement la valeur du quantile à l’intérieur de la classe dans laquelle
tombe le quantile : xβ étant le quantile de la limite inférieure de la classe et xγ celui de la limite supérieure
(figurés par des points dans la figure 2.7, milieu), l’interpolation fournit une valeur de xα égale à :
γ−α α−β
xα = xβ + xγ
γ−β γ−β
33
3. Une seule variable : visualisation et indicateurs
80
70
5
60
4
note
50
age
3
40
2
30
1
20
1ère épreuve 2ème épreuve 3ème épreuve 4ème épreuve Etu ProfMer PostDoc Ass PAT Autre
statut
F IGURE 2.8 – B OXPLOTS. Gauche : notes aux 4 épreuves de méthodes quantitatives (exemple 6).
Droite : âge des répondants selon leur statut (exemple 5).
plusieurs séries de valeurs (figure 2.8). Le trait à l’intérieur des boı̂tes indique la médiane
x0.5 , et leurs limites indiquent le premier quartile x0.25 et le troisième quartile x0.75 . La
région couverte par les “tiges” ou “moustaches” est censée délimiter l’étendue des autres
valeurs “modérément distantes” de la zone centrale, et les scores au-delà sont parfois
qualifiés d’extrêmes. La définition de la longueur des “tiges” ou “moustaches” varie d’un
logiciel à l’autre 18 .
1 n
x̄ = ∑ xi (2.3)
n i=1
● la médiane (median) x0.5 : par construction, une moitié des scores sont supérieurs
à la médiane, et l’autre moitié inférieurs
● le mode (mode), dans le cas données groupées en classe (histogrammes), défini
comme le milieu de la classe la plus peuplée, dite classe modale. Naturellement,
tout changement dans la mise en classe (origine et largeur des classes) entraı̂ne
généralement un changement du mode.
La médiane est plus robuste que la moyenne, c’est-à-dire moins sensible aux valeurs ex-
trêmes 19 d’un échantillon, lesquelles apparaissent en particulier dans le cas de distribu-
tions très asymétriques, comme dans le cas des revenus (beaucoup de petits revenus, de
rares très gros revenus, et de très rares très très gros revenus) : le revenu médian représente
18. sur la figure 2.8, cette longueur vaut une fois et demi l’intervalle interquartile x0.75 − x0.25 (section 3.2.2)
pour autant que les tiges ne dépassent pas xmax (en haut) ou xmin (en bas) ; dans d’autres conventions, c’est les
intervalles [x0.01 , x0.99 ] ou [x0.05 , x0.95 ] qui sont utilisés pour calibrer l’extrémité des tiges.
19. i.e. très distantes du reste des valeurs
34
3. Une seule variable : visualisation et indicateurs
bien mieux la valeur typique du revenu pour l’ensemble d’une population que ne l’est le
revenu moyen, lequel est en général étonnamment élevé, à cause des quelques très gros
revenus “tirant” la moyenne vers le haut.
Les valeurs extrêmes peuvent également résulter d’erreurs de mesure ou de saisie. On
préférera ainsi l’usage de la médiane à la moyenne lorsque la qualité des données est en
question 20 . Dans les autres cas (distributions à peu près symétriques ne comportant pas de
valeurs extrêmes), les indicateurs de tendance centrale que sont la médiane et la moyenne
ont des valeurs proches.
1 n 1 n 2
var(x) = ∑(xi − x̄) = ( ∑ xi ) − x̄
2 2
(2.4)
n i=1 n i=1
La première formule est plus parlante mathématiquement, tandis que la deuxième, qui lui
est équivalente, se prête souvent mieux (mais pas toujours) au calcul manuel. On note
aussi, symboliquement
var(x) = (x − x̄)2 = x2 − x̄2 (2.5)
ce qu’on peut lire par “variance = moyenne des carrés − carré de la moyenne”.
1 n n n
̂
var(x) = ŝ2 ∶= ∑(xi − x̄) =
2
var(x) = s2 (2.6)
n − 1 i=1 n−1 n−1
qui ne diffère notablement de la variance ordinaire var(x) = s2 que pour de petits échan-
tillons 21 .
Une autre mesure de dispersion est constituée par l’intervalle interquartile x0.75 − x0.25 ou
sa moitié, l’intervalle semi-interquartile x0.75 −x
2
0.25
. Mentionnons aussi l’étendue xmax −xmin ,
déjà rencontrée.
35
3. Une seule variable : visualisation et indicateurs
Comme les femmes sont deux fois plus nombreuses que les hommes, la taille moyenne de
ces dernières x̄f doit contribuer deux fois plus à x̄ que ne le fait x̄h . On doit donc poser
x̄ = 40×168+20×175
60
= 23 × 168 + 13 × 175 = 170.33 cm.
En général, si l’on a affaire à m groupes j = 1, ..., m, les nj individus du j-ème groupe
ayant tous obtenu le même score xj , la moyenne pondérée sera calculée comme
1 m m
x̄ = ∑ n j xj = ∑ fj xj (2.7)
n j=1 j=1
1 m m
var(x) = ∑ nj (xj − x̄) = ∑ fj (xj − x̄) = x2 − x̄
2 2 2
(2.8)
n j=1 j=1
Les mêmes formules s’appliquent lorsque les données sont regroupées en m classes de
fréquences relatives f1 , ..., fm : on calcule alors la moyenne et la variance de la variable x
comme si tous les résultats de la classe j étaient situés au milieu xj de celle-ci 22 .
En présence de n observations de valeurs x = {x1 , . . . , xn } de poids relatifs f = {f1 , . . . , fn },
le calcul de la fonction de répartition F (x) s’effectue de la même façon que dans la section
3.1.1 : on ordonne les valeurs de façon croissante x(1) ≤ x(2) ≤ . . . ≤ x(n) et on construit
la fonction en escalier avec les marches de hauteurs f(1) , f(2) , . . . , f(n) . En cas d’ex-aequo
x(i) = x(i+1) , la marche correspondante sera de hauteur f(i) + f(i+1) . Finalement, les quan-
tiles se calculent à partir de F (x) selon la définition 5.
36
3. Une seule variable : visualisation et indicateurs
standardisés
centrés
réduits
bruts
-2 0 2 4 6
valeurs des scores
F IGURE 2.9 – Troisième épreuve (exemple 6) : distribution des valeurs des scores bruts xi , des
scores réduits xri , des scores centrés xci , et des scores standardisés xsi . Ici x̄ = 4.33 et s = 0.78 .
0.5
700
700
600
0.4
600
500
500
proportion
0.3
effectif
400
effectif
400
300
0.2
300
200
200
0.1
100
100
0.0
0
0
Etu ProfMer PostDoc Ass PAT Etu ProfMer PostDoc Ass PAT Autre Etu ProfMer PostDoc Ass PAT Autre
Le diagramme circulaire ou camembert (pie chart ; figure 2.11) est une alternative possible
au diagramme en bâtonnets. Autant le camembert est populaire dans certains medias et
37
4. Deux variables : visualisation et table de contingence
Etu
Etu
Autre
Autre
ProfMer
ProfMer PostDoc
PAT
Ass
PostDoc
PAT
Ass
chez les amateurs de “joliesse”, autant il est dédaigné voire exécré par les puristes : il ne
permet pas de comparer directement l’importance relative de deux secteurs aux surfaces
proches, ni de relier précisément l’importance des secteurs aux effectifs ou aux propor-
tions. De surcroı̂t, il contient le plus souvent des éléments fantaisistes (couleurs, épaisseur,
inclinaison et perspective, “éclatement”, ombres) sans signification, et qui, loin d’améliorer
la lisibilité de la figure, produisent des biais perceptifs additionnels attestés.
Ici, le “joli” est certainement l’ennemi du “vrai” : sans améliorer la lisibilité des données,
ces fioritures sont incontestablement kitsch. Cela étant dit, trouver “joli” un diagramme
circulaire est en soi parfaitement légitime, et ne fait pas de vous une mauvaise personne.
Et mépriser les personnes qui trouvent “joli” les diagrammes circulaires ne fera pas de
vous une meilleure personne.
38
4. Deux variables : visualisation et table de contingence
6
5
5
note quatrième épreuve
note seconde épreuve
4
4
3
3
2
2
1
1
1 2 3 4 5 6 1 2 3 4 5 6
F IGURE 2.12 – Diagrammes de dispersion des résultats des n = 215 participants aux épreuves de
méthodes quantitatives (exemple 6)
L’indice j prend les valeurs possibles j = 1, . . . , m1 , et l’indice k prend les valeurs possibles
k = 1, . . . , m2 . L’ensemble des effectifs croisés constitue ainsi une table à m1 lignes et m2
colonnes (ou table m1 × m2 ), appelée table de contingence (contingency table ; table 2.4).
y → k=1 k=2 ⋯ k ⋯ k = m2 marge en ligne
x ↓
j=1 n11 n12 ⋯ n1k ⋯ n1m2 n1●
j=2 n21 n22 ⋯ n2k ⋯ n2m2 n2●
j=3 n31 n32 ⋯ n3k ⋯ n3m2 n3●
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
j nj1 nj2 ⋯ njk ⋯ njm2 nj●
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
j = m1 nm 1 1 nm1 2 ⋯ nm1 k ⋯ nm1 m2 nm 1 ●
marge en colonne n●1 n●2 ⋯ n●k ⋯ n●m2 n●● = n
TABLE 2.4 – Table de contingence m1 × m2 , contenant les effectifs croisés njk des modalités des
variables catégorielles x et y, ainsi que les marges en ligne nj● , les marges en colonne n●k , et le total
n●● = n
Le nombre d’individus dans la catégorie j de x, sans tenir compte de la catégorie k de y,
constitue le total marginal de la j-ème ligne ou marge en ligne de la table de contingence.
Elle est notée nj● , et s’obtient en sommant les modalités de k correspondantes :
m2
nj● ∶= nj1 + nj2 + ... + njm2 = ∑ njk
k=1
De même,
m1
n●k ∶= n1k + n2k + ... + nm1 k = ∑ njk
j=1
est le total marginal de la k-ème colonne, i.e. la somme de tous les individus dans la moda-
lité k de y (sans tenir compte des valeurs possibles de la variable x).
39
4. Deux variables : visualisation et table de contingence
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 15 81 140 207 72 102 111 0 0 0 728
ProfMer 4 16 47 25 8 14 21 0 0 0 135
PostDoc 1 2 12 15 2 14 7 0 0 1 54
Ass 4 27 31 36 7 23 29 0 0 0 157
PAT 4 16 22 29 20 43 16 126 30 10 316
Autre 1 4 4 7 1 2 3 0 19 4 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 2.5 – table de contingence "statut" × "faculté", avec les totaux marginaux
Un indice remplacé par le symbole “●” indique ainsi une sommation sur toutes les valeurs
possibles de l’indice remplacé. Selon cette convention,
m1 m2 m1 m2
n●● = ∑ nj● = ∑ n●k = ∑ ∑ njk = n = effectif total = taille de l’échantillon.
j=1 k=1 j=1 k=1
La table 2.5 donne la table de contigence associée, ainsi que ses marges.
200
Etu FTSR
ProfMer Droit
PostDoc Lettres
Ass SSP
PAT HEC
150
150
Autre FBM
GSE
SerC
IBGA
effectif
effectif
Autre
100
100
50
50
0
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre Etu ProfMer PostDoc Ass PAT Autre
40
4. Deux variables : visualisation et table de contingence
FTSR
Droit
Lettres
SSP
HEC
FBM
GSE
SerC
IBGA
Autre
300 Etu
ProfMer
PostDoc
Ass
250
PAT
Autre
200
Etu
effectif
statut
150
ProfMer
100
PostDoc
Ass
50
PAT
Autre
0
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre faculté
41
4. Deux variables : visualisation et table de contingence
1.0
1.0
quatrième épr.
Autre
0.8
0.8
PAT
troisième épr.
0.6
0.6
Ass
epreuve
statut
PostDoc
deuxième épr.
0.4
0.4
ProfMer
0.2
0.2
première épr.
Etu
0.0
0.0
1.5 3.5 4 4.5 5 5.5 6 15 20 25 30 35 40 45 50 60
note age
F IGURE 2.15 – Visualisation simultanée d’une variable numérique et d’une variable catégorielle :
"note" et "epreuve" (exemple 6) à gauche, "age" et "statut" (exemple 8) à droite. On y lit, par
exemple, que les notes entre 5.5 et 6 sont bien plus fréquentes lors de la première épreuve que lors
de la quatrième épreuve, alors que c’est le contraire pour les notes entre 3.5 et 4.
42
3 Liens entre deux variables
Cette définition évoque celle, similaire mais distincte, de l’indépendance entre deux événements :
pour rappel, deux événements A et B sont dits indépendants si P (A et B) = P (A)P (B).
La notion de “non-liaison” dans les observations est la traduction empirique de (3.1), où
les probabilités P () sont remplacées par les fréquences observées ; la section 2 illustre le
propos pour x et y catégoriels.
43
2. Liaison entre deux variables catégorielles : le coefficient du chi2
Ce qui suit est consacré à la question de comment définir et calculer des indices de liaisons
entre variables, selon leur type numérique ou catégoriel. La question de la généralisation
possible du constat de dépendance empirique à toute la population dont l’échantillon est
extrait sera abordé plus loin, dans les tests d’hypothèses.
y. Quant à pjk , ce sont les fréquences jointes (avec pjk ≥ 0 et ∑j,k pjk = 1). D’après (3.1), et
après simplification par n, il y a donc absence de liaison (empirique) entre x et y ssi
nj● n●k
njk = (3.3)
n
ce qui peut être (très exceptionnellement) le cas (généralement non), pour un échantillon
donné. La quantité de droite représente l’effectif attendu (anglais : “expected”) ou théorique
44
2. Liaison entre deux variables catégorielles : le coefficient du chi2
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 15 81 140 207 72 102 111 0 0 0 728
ProfMer 4 16 47 25 8 14 21 0 0 0 135
PostDoc 1 2 12 15 2 14 7 0 0 1 54
Ass 4 27 31 36 7 23 29 0 0 0 157
PAT 4 16 22 29 20 43 16 126 30 10 316
Autre 1 4 4 7 1 2 3 0 19 4 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.1 – effectifs observés njk "statut" × "faculté", avec les totaux marginaux
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 14.71 74.07 129.87 161.83 55.80 100.45 94.87 63.92 24.86 7.61 728
ProfMer 2.73 13.74 24.08 30.01 10.35 18.63 17.59 11.85 4.61 1.41 135
PostDoc 1.09 5.49 9.63 12.00 4.14 7.45 7.04 4.74 1.84 0.56 54
Ass 3.17 15.97 28.01 34.90 12.03 21.66 20.46 13.79 5.36 1.64 157
PAT 6.39 32.15 56.37 70.25 24.22 43.60 41.18 27.75 10.79 3.30 316
Autre 0.91 4.58 8.03 10.00 3.45 6.21 5.86 3.95 1.54 0.47 45
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.2 – effectifs théoriques nth
jk "statut" × "faculté", avec les totaux marginaux
nj● n●k
jk ∶=
nth (3.4)
n
Un chi2 élevé dénote ainsi une forte liaison entre les variables catégorielles x et y.
Exemple 10 ( “Chamberonne” (suite)).
Considérons à nouveau la table de contingence formée par les m1 = 6 modalités de la
variable catégorielle x = "statut" et les m2 = 10 modalités de la variable catégorielle y
= "faculté" des n = 1365 répondants du questionnaire “Chamberonne” (table 3.1).
Les effectifs théoriques correspondants sont donnés dans la table 3.2. On voit par exemple
qu’il y a davantage de répondants étudiants en SSP (207) que l’on aurait pu s’y attendre
(161.83) si "statut" et "faculté" n’étaient pas liés, i.e. si la proportion de répondants
étudiants était la même pour chaque faculté (soit fétudiants = 728/1365 = 50.7%) ; ou encore,
de façon équivalente, si la part des réponses émanant de la faculté des SSP était la même
quel que soit le statut (soit ρSSP = 319/1365 = 22.2%).
La valeur du chi-carré (3.5) est ici de chi2 = 917.73 : est-ce grand, est-ce petit ? On y
reviendra à la section (2.2). On peut toutefois noter que, si tous les effectifs de la table 3.1
avaient été multipliés par disons 10, la valeur du chi-carré aurait été également multipliée
par 10. Pour des fréquences relatives (3.2) f , ρ et p données, la valeur du chi-carré est
proportionnelle à l’effectif total n. Cela justifie l’introduction d’un indice relatif de liaison
entre les variables, le phi-carré simplement défini par
chi2
phi2 ∶= (3.6)
n
45
2. Liaison entre deux variables catégorielles : le coefficient du chi2
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu 1.02 1.09 1.08 1.28 1.29 1.02 1.17 0 0 0 1
ProfMer 1.47 1.16 1.95 0.83 0.77 0.75 1.19 0 0 0 1
PostDoc 0.92 0.36 1.25 1.25 0.48 1.88 0.99 0 0 1.77 1
Ass 1.26 1.69 1.11 1.03 0.58 1.06 1.42 0 0 0 1
PAT 0.63 0.50 0.39 0.41 0.83 0.99 0.39 4.54 2.78 3.03 1
Autre 1.10 0.87 0.50 0.70 0.29 0.32 0.51 0 12.37 8.50 1
1 1 1 1 1 1 1 1 1 1
TABLE 3.3 – quotients d’indépendance "statut" × "faculté", avec leurs moyennes pondérées en
marge
La table 3.3 associée est fort éclairante 1 : elle montre immédiatement que, par exemple,
les étudiants de SSP sont 1.28 fois plus nombreux qu’attendu sous l’hypothèse d’indé-
pendance entre "statut" et "faculté", et que ceux de HEC, 1.29 plus nombreux, sont
aussi, et même très légèrement plus, sur-représentés. A l’inverse, il y a deux fois moins de
personnes “PAT” en faculté de Droit qu’attendu sous indépendance (qPAT, Droit = 0.5).
Les quotients d’indépendance qjk sont non-négatifs, et leurs valeurs moyennes valent, tant
en ligne qu’en colonne, toujours 1. Plus précisément, on a toujours, par construction, que
Dans (3.8), les moyennes en question sont des moyennes pondérées (par le poids relatif fj
des lignes, respectivement le poids relatif ρk des colonnes) ; on y reviendra. Le coefficient
du chi-carré (3.5) s’écrit aussi sous la forme
chi2
chi2 = n phi2 phi2 = = ∑ fj ρk (qjk − 1)2 = (∑ fj ρk qjk
2
)−1 (3.9)
n jk jk
46
2. Liaison entre deux variables catégorielles : le coefficient du chi2
FTSR Droit Lettres SSP HEC FBM GSE SerC IBGA Autre
Etu - - 256 - 110 198 187 - - - 751
ProfMer - - - - - - - 126 - - 126
PostDoc - - - - - - - - 49 - 49
Ass - 146 - - - - - - - - 146
PAT - - - 319 - - - - - - 319
Autre 29 - - - - - - - - 15 44
29 146 256 319 110 198 187 126 49 15 1365
TABLE 3.4 – dépendence fonctionnelle de "statut" relativement à "faculté" : "faculté" est
plus fine que ou emboı̂tée dans "statut", ce qui revient à dire que la connaissance de "faculté"
entraı̂ne celle de "statut". Dans cette table, les marges en colonnes coı̈ncident exactement avec les
marges originales de la table 3.1, mais ce n’est pas le cas des marges en ligne – qu’on ne peut pas
faire coı̈ncider également avec les marges originales tout en conservant la propriété de dépendance
fonctionnelle.
(où le phi2 été défini en 3.6), qui montre que chi2 = 0 ssi qjk = 1 pour toutes les cases jk,
i.e. ssi njk = nth
jk , comme il se doit.
47
3. Liaison entre deux variables numériques : covariance et corrélation
X/Y A B C D
F 31 6 7 4 48
M 37 15 16 24 92
68 21 23 28 140
X/Y A B C D
F 0.22 0.04 0.05 0.03 0.34
M 0.26 0.11 0.11 0.17 0.66
0.49 0.15 0.16 0.20 1
TABLE 3.5 – Gauche : effectifs croisés njk . Droite : proportions correspondantes fjk = njk /n●● .
Les effectifs attendus, ainsi que les quotients d’indépendance, sont donnés par :
X/Y A B C D X/Y A B C D
F 23.31 7.2 7.89 9.6 48 F 0.75 1.20 1.13 2.40 1
M 44.69 13.8 15.11 18.4 92 M 1.21 0.92 0.94 0.77 1
68 21 23 28 140 1 1 1 1 1
TABLE 3.6 – Gauche : effectifs théoriques ou attendus nth
jk . Droite : quotients d’indépendance qjk =
njk /nth
jk , avec leurs moyennes pondérées en marge.
La sur-représentation la plus importante est celle des étudiantes dans le cours D (qF,D =
2.40). La sous-représentation la plus importante est celle des étudiantes dans le cours A
(qF,A = 0.75).
La valeur du chi2 s’obtient comme :
(31 − 23.31)2 (6 − 7.2)2 (7 − 7.89)2 (4 − 9.6)2 (37 − 44.69)2
chi2 = + + + + +
23.31 7.2 7.89 9.6 44.69
(15 − 13.8)2 (16 − 15.11)2 (24 − 18.4)2
+ + + = 9.28 .
13.8 15.11 18.4
individu 1 2 3 4 5 6 7 8 9 10
x = note de mathématiques 5.5 5.0 4.5 1.5 6.0 4.5 3.0 3.5 5.0 4.0
y = note de physique 5.5 3.5 4.0 3.0 6.0 5.0 2.0 2.5 5.0 5.5
Il apparaı̂t clairement sur le diagramme de dispersion (figure 3.1), qu’il existe une liaison
entre x et y : le score yi d’un individu i est, en moyenne, d’autant plus élevé que son score
xi est plus élevé, et vice-versa.
48
3. Liaison entre deux variables numériques : covariance et corrélation
6
5
5
y
note de physique ⎛x⎞
note de physique
⎜ ⎟
4 ⎝y⎠
4
3
3
2
2
1
1
1 2 3 4 5 6 1 2 3 4 5 6
Une mesure de la force de cette liaison est donnée par la covariance empirique entre x et
x, définie comme la moyenne du produit des écarts à la moyenne (selon x et y respective-
ment) 4 :
1 n
cov(x, y) ∶= ∑(xi − x̄)(yi − ȳ) (3.12)
n i=1
L’usage de la covariance comme mesure du lien entre deux variables quantitatives souffre
cependant d’un défaut : comme cov(ax, by) = ab cov(x, y), la covariance dépend du sytème
d’unités choisies : par exemple, la covariance entre "^ age" et "revenu" (quelle qu’elle soit)
deviendrait 12 fois plus grande si l’âge était mesuré en mois plutôt qu’en années, et chan-
gerait de façon analogue en changeant de monnaie. Pour palier à ce défaut, on divise le
résultat obtenu par le produit des écarts-types sx sy , ce qui revient à définir un nouveau
coefficient, le coefficient de corrélation, noté corr(x, y) ou rxy :
cov(x, y) cov(x, y)
corr(x, y) = rxy = =√
sx sy var(x)var(y)
(3.13)
∑i=1 (xi − x̄)(yi − ȳ)
1 n
∑i=1 (xi − x̄)(yi − ȳ)
n
=√ n
=√
∑i=1 (xi − x̄)2 ∑i=1 (yi − ȳ)2
n n
∑i=1 (xi − x̄)2 n1 ∑i=1 (yi − ȳ)2
1 n n
n
Par construction, corr(ax, by) = corr(x, y) : la corrélation entre deux variables ne dépend
pas des unités choisises. Plus généralement, corr(ax + c, by + d) = corr(x, y) : la corrélation
est invariante par translation et dilatation ; on peut s’en convaincre en réalisant que la
corrélation entre deux variables est la covariance entre les deux variables standardisées :
corr(x, y) = cov(xs , y s )
49
3. Liaison entre deux variables numériques : covariance et corrélation
12
12
10
10
8
8
6
6
y
y
4
4
2
2
0
0
-2
-2
-2 -1 0 1 2 0 1 2 3 4 5 6
x x2
F IGURE 3.2 – Gauche : relation non-linéaire entre x et y, avec droite de régression en traitillé : la
relation est très marquée, mais le coefficient de corrélation, très petit (corr(x, y) = −0.032), est inca-
pable de la saisir. Droite : la relation entre y et x2 (au lieu de x) est par contre approximativement
linéaire, avec une très forte corrélation (corr(x2 , y) = 0.95)
Notations : cov(x, y) est souvent noté comme sxy . Ainsi, sxx = cov(x, x) = var(x) = s2x .
corr(x, y) est souvent noté comme rxy ou simplement r.
Dans (3.14), f (x) est une fonction donnant l’allure générale (si elle existe) du nuage
de points, et le second terme ou résidu, purement aléatoire, rend compte de la présence
de déviations “inexpliquées” (en l’état) par rapport à cette tendance générale. L’idée est
que, si l’on collectait les valeurs d’un échantillon (x̃, ỹ) distinct de (x, y), mais également
représentatif d’une même Population 5 , alors on aurait
ỹi = f (x̃i ) + ẽi (3.15)
5. par exemple : (x, y) est la taille et le poids des élèves d’une classe de gymnase, et (x̃, ỹ) est la taille et le
poids des élèves d’une classe parallèle
50
3. Liaison entre deux variables numériques : covariance et corrélation
où la tendance f () serait la même que celle dans (3.14), mais les résidus ẽi seraient com-
plètement différents des résidus ei de (3.14) et sans liaison aucune avec ces derniers.
La forme la plus simple d’une relation entre x et y est donnée par la relation linéaire
f (x) = ax + b, i.e.
yi = axi + b + ei = yi∗ + ei (3.16)
´¹¹ ¹ ¹ ¸¹ ¹ ¹ ¹¶ ®
tendance résidu
ou valeur prédite yi∗
Dans (3.16), yi représente les valeurs observées, tandis que yi∗ = axi + b représente les va-
leurs prédites. Dans l’idéal, on aimerait que les valeurs prédites correspondent aux valeurs
observées, i.e. que l’on puisse déterminer une droite y = ax + b dont la pente a (slope) et
l’ordonnée à l’origine b (intercept) passe par tous les points du diagramme de dispersion.
En général, ce n’est évidemment pas possible : le nuage de points n’est pas strictement
aligné, et l’on demande alors à ce que la magnitude des résidus ei = yi − yi∗ soit, en
moyenne, aussi petite que possible. On déterminera ainsi les paramètres ajustables a et b
de façon à ce que la quantité
n n
h(a, b) ∶= ∑ e2i = ∑(yi − axi − b)2 (3.17)
i=1 i=1
soit soit minimum : c’est le critère dit des moindres carrés (least squares) 6 .
La minimisation de (3.17) fournit une solution unique (a, b), dont on peut montrer qu’elle
est donnée par
sxy sy
a= 2 =r b = ȳ − a x̄ (3.18)
sx sx
On peut également montrer (sans démonstration) que :
(i) La droite de régression y ∗ = ax + b passe par les moyennes (x̄, ȳ) (figure 3.1 droite)
(ii) La moyenne empirique des résidus est nulle : ē = 0
(iii) En écrivant yi − ȳ = (yi − yi∗ ) + (yi∗ − ȳ) = ei + (yi∗ − ȳ), la variance empirique var(y)
(dite aussi variance totale dans ce contexte) peut être exactement décomposée en
deux composantes, la variance expliquée et la variance résiduelle :
1 n 1 n 1 n
var(y) = ∑(yi − ȳ)2 = ∑(yi∗ − ȳ)2 + ∑(yi − yi∗ )2 =
´¹¹ ¹ ¹ ¸ ¹ ¹ ¹ ¶ n i=1 n i=1 n i=1
variance totale
(3.19)
= var(y ∗ ) + var(e) .
´¹¹ ¹ ¹ ¹ ¹ ¸¹ ¹ ¹ ¹ ¹ ¹¶ ´¹¹ ¹ ¹ ¸¹ ¹ ¹ ¶
variance expliquée variance résiduelle
La variance expliquée var(y ∗ ) tire son nom du fait que la variabilité de x entraı̂ne
celle de y ∗ , au vu de la relation y ∗ = ax + b. La variance résiduelle var(e) s’in-
terprète comme la partie de la variance empirique des y qui n’est pas expliquée par
la régression de y sur x : si la variance résiduelle var(e) était nulle, tous les résidus
ei seraient égaux à leur moyenne ē, qui est toujours nulle comme on l’a vu plus
haut. Autrement dit (cf. section 3.1) :
(iv) La relation var(e) = (1 − r2 ) var(y), toujours vraie, montre également que les
résidus sont nuls lorsque r = 1 ou r = −1 (ajustement parfait), et que
51
3. Liaison entre deux variables numériques : covariance et corrélation
Comme ∣r∣ ≤ 1, (3.21) montre que les scores standardisés prédits yis ∗ sont, en valeur
absolue, plus petits que les scores standardisés du prédicteur xsi : cela implique que
les scores bruts prédits yi∗ sont (relativement à l’écart-type sy ) plus proches de la
moyenne (ȳ) que ne le sont les scores bruts du prédicteur xi (relativement à l’écart-
type sx , et par rapport à la moyenne x̄) : c’est cette propriété, toujours vraie, qui a
conduit Francis Galton en 1886 à caractériser par le nom de régression la méthode
de prédiction par une relation linéaire étudiée ici.
L’exemple de Galton portait sur la relation entre x = "taille moyenne des deux
parents" et y = "taille des enfants" sur un échantillon de n = 928 individus
pour laquelle une corrélation d’environ r = 0.5 (plus précisément r = 0.46) avait
été observée 7 . Si la taille (moyenne) des parents était de deux écarts-types au
dessus de la moyenne (i.e. xs = 2), alors on s’attendrait que leurs enfants soient
aussi plus grands que la moyenne, mais seulement avec y s ∗ = 0.5 × 2 = 1 écart-type
au dessus de la moyenne. Inversement, si la taille d’un enfant était de un écart-
type au-dessus de la moyenne (i.e. y s = 1), alors on on s’attendrait, en inversant
le rôle de x et de y, à ce que la taille moyenne de ses parents soit seulement de
x∗ = r y s = 0.5 × 1 = 0.5 écart-type au dessus de la moyenne : comme r > 0, la taille
des enfants issus de parents plus grands que la moyenne tend à être également
plus grande (et vice-versa), mais (comme r < 1) dans une moindre mesure : d’où le
phénomène de régression vers la moyenne.
(vi) Les quantités cov(x, y) et corr(x, y) restent inchangées lorsque l’on échange x et
y. Cela étant la droite de régression x∗ = Ay + B n’est pas la même que la droite de
régression y ∗ = ax + b : c’est x qui est prédit en fonction de y dans le premier cas,
alors que c’est l’inverse dans le second cas. En inversant les rôles de x et y dans
(3.18), on obtient
sxy sx
A= 2
=r B = x̄ − A ȳ
sy sy
Les deux droites de régression se croisent en (x̄, ȳ) avec un angle θ d’autant plus
grand que r est petit 8 (figure 3.3 droite). En particulier, θ = 0 ssi r2 = 1 (ajustement
parfait) et θ = 90○ ssi r = 0 (aucune liaison entre x et y).
Exemple 13 (Notes de maths et de physique (suite)). En retournant à l’exemple avec
x=note de mathématiques et y="note de physique" de la figure 3.1, on trouve que
x̄ = 4.25, ȳ = 4.2, cov(x, y) = xy − x̄ȳ = 19.05 − 17.85 = 1.2, √var(x) = s2x = 1.5625,
var(y) = s2y = 1.76, et donc r = corr(x, y) = cov(x, y)/(sx sy ) = 1.2/ 1.5625 × 1.76 = 0.724 :
la positivité de ce dernier reflète la tendance croissante du nuage de points de la figure
3.1.
On tire également de (3.18) que a = 0.768 et b = 0.936. Si un onzième et nouvel élève ayant
x11 = 6 de mathématiques arrivait en classe, la prédiction linéaire de sa note de physique
∗
(supposée inconnue) serait de y11 = 0.768 × 6 + 0.936 = 5.544.
7. Galton, F. (1886) Regression Towards Mediocrity in Hereditary Stature, The Journal of the Anthropological
Institute of Great Britain and Ireland, vol. 15, pp. 246–263
sx sy 1−r 2
8. la comparaison des deux pentes permet d’établir que tan θ = s2 2
x +sy ∣r∣
52
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio
6
6
5
quatrième épreuve
deuxième épreuve
5
4
4
3
3
2
3.0 3.5 4.0 4.5 5.0 5.5 6.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
F IGURE 3.3 – Diagrammes de dispersion et, en traitillé (dashed), droites de régression linéaire de
la seconde épreuve en fonction de la première (gauche ; r = 0.49), et de la quatrième épreuve en
fonction de la troisième (droite ; r = 0.52 ; on y a rajouté en pointillé (dotted) la droite de régression
x∗ = Ay + B prédisant cette fois la troisième épreuve en fonction de la quatrième. L’intersection des
deux droites a lieu sur le point des valeurs moyennes (x̄, ȳ) avec un angle θ).
Les deux droites de la figure 3.3 de droite sont la droite de régression de la quatrième
épreuve en fonction de la troisième épreuve (en traitillé), respectivement celle de la
troisième épreuve en fonction de la quatrième épreuve (en pointillé). Leur intersection
a lieu au point moyen (x̄, ȳ) = (4.33, 4.54) sous un angle θ, qui se trouve être de 34.9○ , et
dont la non-nullité reflète l’imperfection de l’ajustement linéaire (r2 < 1).
53
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio
Le même calcul peut être effectué à l’intérieur de chacun des groupes : la moyenne et la
variance dans le groupe j sont :
1 nj 1 nj
x̄j ∶= ∑ xi s2j ≡ varj (x) ∶= ∑(xi − x̄j )
2
(3.23)
nj i=1 nj i=1
où les sommations ne portent plus que sur les nj individus du groupe j (quitte à re-
numéroter les individus de i = 1 à i = nj pour chaque groupe). La décomposition annoncée
est réalisée par l’identité suivante, toujours vraie :
où varB (x), appelée variance intergroupe (between) mesure la variance des moyennes
des groupes x̄j autour de la moyenne totale x̄, et varW (x), appelée variance intragroupe
(within) mesure la moyenne des variances s2j = varj (x) à l’intérieur de chaque groupe.
Les moyennes dont il est état ici sont des moyennes pondérées par l’effectif relatif nj /n de
chaque groupe :
1 m 1 m
varB (x) ∶= ∑ nj (x̄j − x̄)
2
varW (x) ∶= ∑ nj varj (x) (3.25)
n j=1 n j=1
Considérons le cas de groupes absolument homogènes, tels que tous les scores xi soient
identiques à l’intérieur du même groupe. Dans ce cas, s2j = 0 et donc varW (x) = 0 : la
variance totale s’exprime entièrement par varB (x).
Inversement, supposons que les groupes aient tous même distribution, et qu’en particulier
leurs moyennes x̄j coı̈ncident (et coı̈ncident donc avec la moyenne totale x̄). Dans ce cas,
varB (x) = 0, et la variance totale s’exprime entièrement par varW (x). Dans le premier cas,
les groupes sont tout-à-fait séparés (et le lien entre x et y est maximal), tandis que dans
le second, les groupes sont confondus (et le lien entre x et y est nul).
9. C’est précisément ce type de propriété qui rend la variance si commode à manipuler, et par là unique
parmi tous les indicateurs possibles de dispersion que l’on pourrait facilement imaginer et construire.
54
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio
La figure 3.4 exhibe deux situations intermédiaires, mais bien marquées cependant : les
groupes sont bien séparés dans la répartition du haut, avec un rapport varB (x)/varW (x)
grand.
Dans la répartition du bas, les groupes sont mal séparés, avec un rapport varB (x)/varW (x)
petit ; notons que, pour une fois, perception visuelle et indicateurs numériques s’accordent
assez bien : lorsque le rapport varB (x)/varW (x) est grand (petit), les groupes sont bien
(mal) séparés visuellement.
Le rapport varB (x)/varW (x) constitue donc une mesure adéquate du lien entre la variable
quantitative x et la variable catégorielle y, possédant également la propriété nécessaire de
ne pas dépendre du système d’unités choisi pour x. On lui préfère cependant (à des fins
de tests d’hypothèses qui seront abordés plus loin) le rapport F ou F -ratio défini par 10 :
varB (x)
F ∶= var
m−1
(3.26)
W (x)
n−m
L’indice F est non négatif. Sa valeur minimale de 0 est atteinte ssi varB (x) = 0, i.e. ssi les
moyennes des groupes x̄1 , ..., x̄m coı̈ncident (et donc coı̈ncident avec la moyenne totale
x̄) : dans ce cas, les groupes sont indistinguables les uns des autres.
Inversement, la valeur maximale de F vaut +∞, ce qui est le cas ssi varW (x) = 0, i.e.
ssi tous les scores de chaque groupe coı̈ncident (et coı̈ncident donc avec la moyenne du
groupe) : dans ce cas, les groupes sont complètement homogènes, et donc maximalement
distinguables les uns des autres. En termes de liaison entre variables, on a donc, à l’instar
du chi2 :
x et y non liés ⇐⇒ F = 0
institut a a a b b b c c c c
production individuelle 4 5 6 5 5 5 2 2 4 4
TABLE 3.7 – nombre de publications x de n = 10 chercheuses, selon leur institut y
Les nombres moyens d’articles publiés, au total et par institut, sont
1 1
x̄ = (4 + 5 + . . . + 4) = 4.2 x̄a = (4 + 5 + 6) = 5 x̄b = 5 x̄c = 3
10 2
La variance totale vaut
1 2
s2 = var(x) = (4 + 52 + 62 + 52 + 52 + 52 + 22 + 22 + 42 + 42 ) − 4.22 = 1.56
10
SSB )/( SSW ) = MSB , où
10. on trouve aussi, dans les sorties logicielles traditionnelles, la disposition F = ( m−1 n−m MSW
les sommes des carrés (SS = Sum of Squares) inter (SSB) et intra (SSW) représentent simplement les variances
correspondantes, mais non divisées par n, à savoir SSB = n varB (x) et SSW = n varW (x). Les quantités MSB ∶=
SSB/(m − 1), respectivement MSW ∶= SSW/(n − m), sont les carrés moyens inter, respectivement intra (MS =
Mean Squares).
55
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio
Est-ce grand ? petit ? Malheureusement, le F -ratio, à l’instar du chi2, ne possède pas d’in-
terprétation directe ; il faudra attendre la théorie des tests d’hypothèses, exposée plus loin,
pour apprécier pleinement l’utilité de l’indice F . Par contre, la quantité 11
56
4. Liaison entre une variable numérique et une variable catégorielle : le F-ratio
age × statut).
Exemple 17 (Questionnaire “Chamberonne” (suite) : ^
La table ci-dessous donne les âges moyens, ainsi que
leur dispersion, des n = 1365 répondants du question-
80
naire “Chamberonne”, selon les m = 6 statuts
70
statut effectif nj moyenne x̄j variance s2j écart-type sj
60
Etu 728 23.0 22.9 4.8
ProfMer 135 51.5 99.2 10.0
50
age
PostDoc 54 37.5 39.6 6.3
Ass 157 29.7 18.5 4.3
PAT 316 42.4 101.6 10.1
40
Autre 45 43.0 215.9 14.7
total 1365 31.8 159.9 12.6
30
Aussi,
20
106.4
varB (x) = 106.4, varW (x) = 53.6 et F = 6−1
53.6 = 539.6. Etu ProfMer PostDoc Ass PAT Autre
1365−6
statut
comme il se doit.
A l’inverse, si chaque groupe ne contient qu’une seule observation (n = m), il n’est pas
possible non plus d’évaluer la force de la liaison entre y et x : dans ce cas, la variance
intragroupe varW (x) est nulle, et le F-ratio (3.26) devient
varB (x)
F= m−1
0
= indéterminé (3.29)
0
57
5. Le cas des variables bimodales (*)
y
y = 1 (B) y = 0 (B c )
x x = 1 (A) n11 n10
x = 0 (Ac ) n01 n00
TABLE 3.8 – Table de contingence associée à deux variable bimodales x et y
Comme les variables indicatrices sont numériques, on peut calculer leur covariance cov(x, y) =
xy − x̄ȳ = n11 /n − (n11 + n10 )(n11 + n01 )/n2 , où n = n11 + n10 + n01 + n00 est la taille de
l’échantillon. Procédant de même, on obtient après simplification
n11 n00 − n10 n01
r = corr(z, w) = √ (3.30)
(n11 + n10 )(n01 + n00 )(n11 + n01 )(n10 + n00 )
Cette expression , ne dépend pas (au signe près) du codage utilisé pour x et y, en vertu
de la propriété d’invariance d’échelle de la corrélation corr(ax + b, cy + d) = ± corr(x, y).
Revenant à la nature catégorielle des variables x et y, le calcul du chi2 (d’indépendance)
sur la table de contingence 3.8 aboutit à l’expression très simple
chi2 = n r2 (3.31)
r2
F = (n − 1) . (3.32)
1 − r2
58
6. Variables liées et prédiction : l’apprentissage automatique (machine learning)(*)
partie II
présent absent total
présent 544 461 1005
partie I absent 476 765 1241
total 1024 1226 2246
TABLE 3.9 – Co-occurrences de substantifs dans les deux parties de ”Pilgrim’s Progress” de John
Bunyan
complète de John Bunyan) dans deux parties d’une oeuvre de John Bunyan,“Pilgrim’s
Progress”, parties I (1678) et II (1684). Parmi ces substantifs, 544 sont apparus dans les
deux parties, 461 dans la partie 1 uniquement, etc... (table 3.9).
Le coefficient d’association vaut Q = (544 ⋅ 765 − 476 ⋅ 461)/(544 ⋅ 765 + 476 ⋅ 461) = 0.31 > 0,
indiquant un vocabulaire plus similaire entre les parties I et II de “Pilgrim’s Progress” qu’il
ne l’est entre deux parties choisies au hasard dans l’oeuvre complète de Bunyan (d’où
avait été extraite la liste des 2246 substantifs). Si la liste des substantifs retenus avait été
plus étendue (par exemple établie à partir de tout le vocabulaire littéraire de l’époque), la
valeur de l’indice d’association Q aurait été sensiblement plus grande, en toute probabilité.
59
4 Modèles
1 Introduction
Un modèle est une idée de la réalité, ou plutôt une formalisation de cette idée. Cette for-
malisation doit pouvoir être suffisamment souple pour accommoder des idées élaborées,
et en même temps suffisamment ferme et précise pour être confrontée avec la réalité,
justement.
Les modèles probabilistes répondent précisément à cette double exigence, et leur usage
s’est imposé de façon universelle, en sciences naturelles comme en sciences humaines et
sociales. Le formalisme associé, et son empreinte massive sur toute la recherche scien-
tifique, n’a pas, jusqu’à preuve du contraire, de concurrents sérieux. Cette suprématie,
de nature conceptuelle, résulte de son efficacité à servir les besoins de la science ; elle
ne découle pas d’un choix idéologique ou culturel imposé par un cénacle de personnes
influentes 1 .
Un modèle probabiliste dit que telle chose, tel état du monde, telle configuration, se pro-
duit avec telle probabilité. Lorsqu’une seule configuration est possible, le modèle est dit
déterministe. Sinon, le modèle exprime une tendance (trame, motif, pattern) coexistant
avec une composante purement aléatoire.
Quant au contenu des idées elles-mêmes, il peut être révolutionnaire, séduisant, généreux,
ou bien conventionnel, possiblement dérangeant voire déprimant pour la sensibilité du
chercheur – peu importe ici : ces considérations sont parfaitement étrangères aux pré-
occupations de la modélisation quantitative, pour laquelle seul compte ici l’adéquation (ou
non) des modèles aux données, dans une perspective résolument et purement scientifique.
1. On parle ici de l’efficacité épistémologique des modèles probabilistes, et non pas des conditions de leur
application concrète dans la vie des chercheurs (instituts universitaires, laboratoires, départements R&D, admi-
nistration publique, think-tanks...)
60
2. Variables aléatoires et distributions
Une distribution D discrète de probabilité est spécifiée en fixant les valeurs des probabilités
p1 , p2 ,...,pm (avec m fini ou infini) que la variable X prenne respectivement les valeurs
x1 , x2 ,...,xm . On dit que “X est distribuée selon D”, que l’on note simplement “X ∼ D”, où
D est déterminée par les valeurs (p, x) = (p1 , . . . , pm , x1 , . . . , xm ).
Les probabilités en jeu sont des nombres devant toujours satisfaire :
m
pj ≥ 0 ∑ pj = 1 (4.2)
j=1
2. ce qui suppose une précision infinie de la taille – une fiction commode, systématiquement utilisée pour les
variables continues
3. tels les niveaux d’énergie d’un électron selon qu’il est lié ou non à un noyau atomique
4. telles des sensations visuelles, auditive, olfactives
5. tel qu’un texte, un paysage, un réseau, un groupe mathématique...
61
2. Variables aléatoires et distributions
0.20
densité de probabilité f(x)
0.15
0.10
0.05
a b c
0.00
-10 -5 0 5
F IGURE 4.1 – l’expression ∫ab f (x) dx représente un nombre, en l’occurrence la surface de la zone
c
en gris foncé. De même, ∫b f (x) dx est égal à la surface de la zone en gris clair. Ces nombres sont
les probabilités que X ∈ [a, b], respectivement X ∈ [b, c]. Par construction, ∫R f (x) dx = 1.
Par exemple (dé), p1 = 0.5, p2 = 0, p3 = 0.1 etc. définit un dé théorique où la face apparaı̂t
la moitié du temps, la face
jamais, la face une fois sur dix, etc.
Si la variable discrète X, distribuée selon D, est numérique, alors sa moyenne théorique ou
espérance vaut
m
E(X) ∶= ∑ pj xj . (4.3)
j=1
Le signe intégrale “∫ ” ne devrait pas inquiéter le lecteur plus que cela : toutes les intégrales
associées aux distributions courantes en statistique sont disponibles sous forme de tables,
ou plus directement dans un logiciel scientifique de base (librairies R, Matlab, Python,
etc...). La seule définition dont on aura besoin est la suivante :
b
Définition : la quantité ∫a f (x) dx (“intégrale de f (x) de a à b”) est la surface délimitée
par l’axe des x, le graphe de f (x) ≥ 0, et les droites x = a et x = b (figure 4.1).
6. ou encore dite absolument continue, ce que nous supposerons par la suite ; il n’y a alors pas lieu de dis-
tinguer entre les valeurs de P (X ∈ [a, b]) (intervalle fermé) et de P (X ∈ (a, b)) (intervalle ouvert), car la
probabilité que X prenne exactement la valeur X = a ou X = b est nulle ; plus généralement, la probabilité
P (X = a) de n’importe quelle valeur a est nulle si la distribution de X est régulière : par exemple, la probabilité
qu’une pomme d’une espèce donnée pèse entre 100 et 150 grammes est a priori non nulle, mais la probabilité
pour que cette dernière pèse exactement disons 152.000 . . . grammes (avec une précision infinie) est nulle. Toutes
les distributions continues abordées ici seront régulières, à l’exception de la distribution de Dirac (section 4.3),
concentrée en un point, justement.
62
2. Variables aléatoires et distributions
La loi d’addition des aires sur la figure 4.1 correspond simplement à la loi d’addition des
probabilités d’événements disjoints :
b c c
P (X ∈ [a, b]) + P (X ∈ [b, c]) = ∫ f (x) dx + ∫ f (x) dx = ∫ f (x) dx = P (X ∈ [a, c])
a b a
(4.5)
Intuitivement, plus f (x) est élevé, plus grande est la probabilité que la variable X prenne
des valeurs proches de x. On peut obtenir f (x) comme la limite d’un histogramme de
résolution parfaite (i.e. infinie) d’un tirage aléatoire (section 5.5) de n valeurs distribuées
selon f (x) (figure 4.11).
Comme la valeur de X doit se trouver quelque part dans l’intervalle (−∞, ∞), on doit
avoir P (X ∈ (−∞, ∞)) = P (X ∈ R) = 1, et donc, en utilisant (4.4) :
+∞
f (x) ≥ 0 ∫ f (x) dx = 1 (4.6)
−∞
qui est à comparer avec (4.2) : on constate que le signe intégrale“∫ ” joue pour les distri-
butions continues le même rôle que le signe somme “∑” pour les distributions discrètes.
La moyenne théorique ou espérance d’une variable continue X ∼ D vaut
Par construction, F (x) est une fonction non décroissante , avec limx→−∞ F (x) = 0,
et limx→∞ F (x) = 1 : ses valeurs sont donc toutes comprises dans l’intervalle [0, 1]. La
fonction de répartition d’une variable aléatoire est l’analogue théorique de la fréquence
empirique cumulée.
1.0
densité de probabilité f(x)
0.6
0.10
0.4
0.05
0.2
a b c a b c
0.00
0.0
-10 -5 0 5 -10 -5 0 5
x x
F IGURE 4.2 – Densité de probabilité f (x) (gauche) et distribution cumulée F (x) correspondante
(droite). Par construction, la dérivée de F (x) vaut F ′ (x) = f (x) : plus f (x) est grande, plus pentue
est F (x). On lit que a = −4 = x0.13 , b = −1 = x0.35 et c = 4 = x0.95 ; aussi, la médiane théorique vaut
ici x0.5 = 0.
63
2. Variables aléatoires et distributions
1.0
fonction de répartition théorique F(x)
fonction de distribution théorique pj
0.20
0.8
0.15
0.6
0.10
0.4
0.05
0.2
0.0
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 0 5 10
xj = j x
F IGURE 4.3 – Gauche : distribution pj d’une variable numérique X discrète (ici, une distribution
de Poisson P(λ) de paramètre λ = 3.5 voir section 3.3). Droite : fonction de répartition théorique
F (x) correspondante.
Il s’agit d’une fonction continue. Elle est de plus strictement croissante (et inversible) si
f (x) > 0. Dans ce cas, le α-ième quantile théorique, qui est la valeur xα définie par
où F −1 (.) dénote la fonction inverse de la fonction F (.). En complète analogie avec les
quantiles empiriques, on note la médiane théorique par x0.5 (ou par X0.5 ), le premier
quartile théorique par x0.25 , etc... (figure 4.2).
i.e.
m
Var(X) = ∑ pj (xj −E(X))2 (cas discret) Var(X) = ∫ f (x)(x−E(X))2 dx (cas continu)
j=1 R
(4.12)
On utilise aussi la notation
● µX ou µ pour la moyenne théorique E(X)
7. pourquoi avoir passé de f (x) dx à f (t) dt ? Simplement parce que le symbole x est “déjà pris” dans le
membre de gauche F (x) de (4.9), et qu’il faut donc un autre symbole (muet), ici t, pour exprimer l’intégration
de −∞ à x dans le membre de droite.
64
2. Variables aléatoires et distributions
● σX
2
ou σ 2 pour la variance théorique
√
● σX ou σ pour l’écart-type théorique Var(X) .
Toute variable quantitative X de moyenne µ et de variance σ 2 peut être centrée par sous-
traction de la moyenne, réduite par division par l’écart type, et standardisée par centration
puis réduction. On peut noter par X c , X r et X s les nouvelles variables ainsi obtenues :
X X −µ
Xc = X − µ Xr = Xs = (4.13)
σ σ
De nouveau, la moyenne (ici théorique) d’une variable aléatoire joue le rôle d’une ori-
gine naturelle, et son écart-type théorique celui d’une unité naturelle (au sens d’une
unité physique). Standardiser une variable revient alors à exprimer son score ou sa va-
leur numérique dans un repère d’origine 0 et d’unité 1. Une fois standardisée, la variable
X s ne dépend plus de l’unité ou de l’origine initiales.
Les identités suivantes, faciles à démontrer, sont complètement analogues aux identités
empiriques correspondantes : X étant une variable quantitative, et a et b des constantes
de signe quelconque, on a
Lorsque les valeurs d’une variable quantitative (discrète ou continue) X sont non-négatives
(c’est typiquement le cas des échelles absolues et de quotient), on utilise parfois le coeffi-
cient de variation théorique (respectivement empirique) défini par CV(X) = 100 σX /E(X)
(respectivement cv(X) = 100 sx /x̄), dont l’avantage principal est de fournir une mesure
de dispersion réduite, c’est-à-dire indépendante de l’unité choisie. Par exemple, dire que
le coefficient de variation de X =“ taille” vaut CV(X) = 8.8 signifie que l’écart-type de la
taille σ vaut 0.088 fois la taille moyenne µ, quelle que soit l’unité de taille choisie.
2. dans le cas discret : par la probabilité pjk ≥ 0 que (X, Y ) prenne les m1 × m2 valeurs
possibles (xj , yk ), avec
m1 m2
P (X = xj et Y = yk ) = pjk avec ∑ ∑ pjk = 1 .
j=1 k=1
De nouveau,
3. dans le cas mixte, où X est continue et Y discrète : par la quantité πj fj (x) telle que
m
P (X ∈ A et Y = yj ) = πj ∫ fj (x) dx avec ∫ fj (x) dx = 1 et ∑ πj = 1 .
A R j=1
65
2. Variables aléatoires et distributions
0.015
0.010
0.010
f(x,y)
f(x,y)
0.005
0.005
5 5
0.000 0.000
0 0
-5 -5
0
5
-5
y 0
5
-5
y
x 10
-10
x 10
15
-10
F IGURE 4.4 – Deux densités de probabilité bivariées f (x, y) donnant la distribution jointe des
variables continues (X, Y )
On a alors
m
P (Y = yj ) = πj ∫ fj (x) dx = πj et f (x) = ∑ πj fj (x) (4.15)
R j=1
8. à titre d’exemple, c’est ainsi qu’a été construite la densité f (x) de la figure 4.2 ; quant à la figure 4.4
droite, elle a été construite par le mélange de deux distributions elles-mêmes bivariées.
66
3. Lois discrètes
1.0
1.0
1.0
0.8
0.8
0.8
probabilité pj
probabilité pj
probabilité pj
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0.0
0.0
0.0
1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6
face du dé xj (j=1,...,6) face du dé xj (j=1,...,6) face du dé xj (j=1,...,6)
F IGURE 4.5 – Trois distributions de probabilité pour le lancer d’un dé à m = 6 faces : distribution
“quelconque” (gauche), uniforme (milieu) et concentrée en j ⋆ = 5 (droite)
Comme dans le cas empirique, le coefficient de corrélation théorique n’est pas affecté par
un changement d’échelle ou d’origine : Corr(aX +b, cY +d) = ±Corr(X, Y ) quels que soient
a, b, c et d, où le signe ± est “+1” ssi a et c sont de même signe, et “−1” sinon.
Par contre, la covariance (et la variance) est affectée par les changements d’échelle (mais
pas d’origine) : Cov((aX + b)(cY + d)) = a c Cov(X, Y ).
Enfin, quels que soient X et Y , −1 ≤ Corr(X, Y ) ≤ +1. Les valeurs extrêmes +1 et -1
impliquent une dépendance fonctionnelle linéaire entre X et Y :
● Corr(X, Y ) = +1 ssi Y = aX + b avec a > 0
● Corr(X, Y ) = −1 ssi Y = aX + b avec a < 0.
3 Lois discrètes
3.1 Les distributions uniforme et concentrée
Parmi toutes les distributions discrètes à m modalités (où m ≥ 2 est fini), deux cas parti-
culiers émergent :
● la distribution uniforme, pour laquelle chaque valeur possible de X a la même chance
d’être réalisée (figure 4.5 milieu) :
1
p1 = p2 = ... = pm = (4.18)
m
● la distribution concentrée en une modalité particulière, disons j ⋆ , pour laquelle (fi-
gure 4.5 droite)
⎧
⎪1 si j = j ⋆
⎪
pj = ⎨
⎪
⎪ 0 sinon .
⎩
Parmi toutes les distributions à m modalités, la distribution uniforme est la plus aléatoire,
et la distribution concentrée la moins aléatoire : l’incertitude sur la catégorie est maximale
dans le premier cas, et minimale (et nulle) dans le second 9 , pour lequel tout caractère
9. La Théorie de l’Information permet de quantifier précisément ce concept d’incertitude
67
3. Lois discrètes
0.30
0.15
0.30
B(6,0.5)
0.25
B(40,0.2)
fonction de distribution pj
fonction de distribution pj
fonction de distribution pj
B(15,0.9)
0.25
0.20
0.10
0.20
0.15
0.15
0.10
0.05
0.10
0.05
0.05
0.00
0.00
0.00
0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 2 4 6 8 11 14 17 20 23 26 29 32 35 38
xj = j xj = j xj = j
comme
n
pk = P (X = k) = ( ) pk (1 − p)n−k . (4.19)
k
La formule précédente découle du fait que, pour obtenir k “pile” en n lancers, il faut que
l’événement “pile” se produise k fois, et ne se produise donc pas n−k fois, ce qui correspond
à une probabilité de pk q n−k = pk (1 − p)n−k ; d’autre part, il existe (nk) = (n−k)!k!
n!
séquences
distinctes (par l’ordre d’apparition des “pile”) de longueur n pour lesquelles l’événement
“pile” se produit exactement k fois.
Les valeurs de n et p définissent entièrement une distribution binomiale particulière : ce
sont les paramètres de la distribution, notée B(n, p).
A l’aide du développement binomial (voir chapitre “Rappels mathématiques”), on peut
montrer que ∑nk=0 pk = 1, comme il se doit, et ce quelles que soient les valeurs des pa-
ramètres n et p. La figure 4.6 donne l’allure de B(n, p) pour différentes valeurs de n et p.
La moyenne et la variance de X sont
Cette dernière est nulle pour p = 0 ou p = 1 : dans ce dernier cas, seul l’événement “face”
ou “pile” est possible, i.e. la distribution pk est concentrée en k = 0 ou k = n : c’est le cas
déterministe.
D’autre part, la variance Var(X) est maximale pour p = 1/2 : les événements “pile” et “face”
sont alors équiprobables, et la dispersion de X autour de sa moyenne n/2 est maximale, ce
68
3. Lois discrètes
qui revient à dire que le lancer d’une pièce est maximalement imprédictible lorsque cette
dernière est équilibrée.
Définition 11. Une variable de Poisson est une variable discrète X prenant toutes les valeurs
entières non-négatives k = 0, 1, 2, 3, . . . avec les probabilités
λk
pk = P (X = k) = exp(−λ) k = 0, 1, 2, .... (4.21)
k!
où λ > 0 est un paramètre positif.
Par exemple, si λ = 2, on a
20 1
P (X = 0) = exp(−2) = = 0.135 = 13.5%
0! e2
1
2 2
P (X = 1) = exp(−2) = 2 = 0.271 = 27.1%
1! e
22 2
P (X = 2) = exp(−2) = 2 = 0.271 = 27.1%
2! e
23 8 1
P (X = 3) = exp(−2) = = 0.180 = 18%
3! 6 e2
P (X ≥ 4) = 1−P (X=0)−P (X=1)−P (X=2)−P (X=3) = 0.143 = 14.3%
Il s’agit d’une relation tout-à-fait particulière, caractéristique de la loi de Poisson, qui est
rendue possible par le fait que la loi de Poisson ne s’applique qu’à des variables X qui
sont des nombres purs (i.e. des effectifs), donc sans dimension 10 . La loi de Poisson peut
modéliser la distribution de X = "nombre d’événements" dans des cas comme :
● X = "nombre de personnes connues rencontrées dans une foule" : le nombre
n d’individus dans une foule est grand, et la probabilité p qu’une personne prise au
hasard dans la foule soit connue est faible
● X = "nombre d’accidents routiers quotidiens en Suisse" : un grand nombre
n de véhicules est en circulation, et la probabilité p pour qu’un véhicule particulier
soit impliqué dans un accident est faible
● X = "nombre d’appels téléphoniques reçus un jour de semaine" (grand nom-
bre n de personnes susceptibles d’appeler ; faible chance p pour qu’une personne
donnée appelle).
La distribution de Poisson ne dépend que d’un seul paramètre, à savoir λ. Lorsque ce
dernier est inconnu, on peut l’estimer par la valeur λ̂ donnée par la moyenne empirique
x̄ de la variable X en question 11 : par exemple, si Madame K. rencontre en moyenne
10. si la variable X possédait une dimension, le paramètre λ en hériterait (puisque E(X) = λ) ; d’autre part,
Var(X) = λ implique que les unités de λ devraient aussi s’exprimer par le carré de cette dimension, ce qui serait
contradictoire.
11. ce procédé est justifié par la propriété E(X) = λ, et plus généralement par le principe du maximum de
vraisemblance abordé plus loin
69
4. Lois continues
3.5 personnes connues chaque fois qu’elle se rend dans son établissement public favori
(figure 4.3), la probabilité qu’elle n’en rencontre aucune est, toutes choses étant égales
par ailleurs, de l’ordre de P (X = 0) = exp(−3.5)3.50 /0! = exp(−3.5) ≅ 3%.
De façon générale, la distribution de Poisson pk est maximale autour de k = λ. Contraire-
ment à la loi binomiale, pour laquelle la valeur maximale n de X est finie, une variable
distribuée selon la loi de Poisson peut en principe prendre une valeur k arbitrairement
élevée.
Cela étant, la probabilité associée à une valeur élevée tend très rapidement (exponentiel-
lement) vers zéro : il n’est pas possible que 3 ampoules claquent le même jour dans un
appartement par simple “usure naturelle” ; et si cela advenait quand même, le recours à
la notion d’usure aléatoire et indépendante d’une ampoule à l’autre, justifiant l’apparition
de la loi de Poisson, deviendrait alors indéfendable.
alors de
n!
P (n1 , n2 , . . . , nm ) = pn1 pn2 . . . pnmm (4.23)
n1 ! n2 ! . . . n m ! 1 2
4 Lois continues
4.1 Loi uniforme U(a, b)
Une variable suivant une distribution uniforme sur [a, b], notée U(a, b), possède une den-
sité de probabilité f (x) constante à l’intérieur de l’intervalle [a, b], et nulle à l’extérieur.
Pour que la surface totale soit de 1, il faut fixer la constante à 1/(b−a) (figure 4.7 gauche).
La moyenne et la variance de X sont
a+b (b − a)2
E(X) = Var(X) = . (4.25)
2 12
Par exemple, la croyance que “Claude arrivera entre 20h00 et 20h30” pourrait être modé-
lisée comme X ∼ U (20, 20.5), où X = "heure d’arrivée de Claude" (figure 4.7 droite).
12. si m = 2, en posant n1 =∶ k, n2 = n − k, p1 =∶ p et p2 = 1 − p =∶ q, l’expression précédente devient
pk = P (k, n − k) = k! (n−k)!
n!
pk q n−k , qui n’est autre que la loi binomiale (4.19).
13. on fait ici l’hypothèse hasardeuse que les lieux de résidence sont également accessibles, sans égard à
la nationalité, et que la tendance à occuper préférentiellement des lieux occupés par des personnes de même
nationalité est négligeable, etc... Cela étant, (4.24) a le grande mérite de proposer une estimation quantifiée,
et d’ancrer la discussion vers une amélioration argumentée de cette estimation – plutôt que d’en rester à la
constatation désolée et impuissante de l’existence de biais dans (4.24) : certes, ces biais sont bien là, mais peut-
on les quantifier ? Peut-on améliorer, de façon raisonnée et critique, ce 11.8% ? Devrait-il être deux fois, dix fois
plus petit ? Pourquoi ?
70
4. Lois continues
1 (b − a )
2.0
0.30
1.5
0.20
1.0
0.15
0.10
0.5
0.05
a b
0.0
0.00
1 (x − µ)2
f (x) = √ exp(− ) (4.26)
2π σ 2 σ2
L’équation (4.26) (que la majorité des quantitativistes n’utilise jamais sous cette forme
directe) dit que la distribution normale N (µ, σ 2 ) dépend de deux paramètres µ et σ 2 , qui
se trouvent être la moyenne et la variance 14 de X :
La forme (4.26) entraı̂ne aussi que la densité f (x) ne s’annule jamais, mais tend très
rapidement (exponentiellement) vers zéro lorsque x diffère de la moyenne µ par plus
de quelques écarts-types σ. La (célèbre) courbe de cette densité a l’allure d’une cloche
symétrique centrée (et maximale) en µ, et possède la particularité que l’écart-type σ est
égal à la distance horizontale entre la moyenne µ et l’un des deux points d’inflexion 15 de
f (x) (figure 4.8 gauche).
La distribution des valeurs de X est centrée autour de la moyenne de la manière suivante
(figure 4.8 droite) : environ
● 50% des valeurs sont dans l’intervalle (µ − 32 σ, µ + 32 σ)
● 68% des valeurs sont dans l’intervalle (µ − σ, µ + σ)
● 95% des valeurs sont dans l’intervalle (µ − 2σ, µ + 2σ)
● 99,7% des valeurs sont dans l’intervalle (µ − 3σ, µ + 3σ).
La loi normale dépendant de deux paramètres (à savoir µ et σ 2 ), on pourrait imaginer que
les tables donnant sa fonction de répartition F (x) = P (X ≤ x) seraient à triple entrée (à
savoir x, µ, σ). En fait, il suffit de disposer de la table de la variable standardisée X s =
(X − µ)/σ, appelée ici variable normale centrée réduite. Par construction, cette dernière
est de moyenne nulle et d’écart-type unité. Par changement de variable dans (4.26), on
14. attention : une paramétrisation tout aussi répandue, aussi notée X ∼ N (µ, σ), indique la valeur de l’écart-
type σ plutôt que de la variance σ 2 .
15. i.e. le point x où f (x) passe de concave à convexe, i.e. tel que sa courbure s’annule (f ′′ (x) = 0).
71
4. Lois continues
0.4
µ=2 σ=1
0.683
σ=2
0.954
σ=3
0.3
0.3
σ=1
0.2
0.2
0.1
0.1
µ=0
0.0
0.0
-10 -5 0 5 10 -5 -4 -3 -2 -1 0 1 2 3 4 5
x u
F IGURE 4.8 – Gauche : trois densités normales N (µ, σ 2 ) de même moyenne et de variances dis-
tinctes ; la surface sous chaque courbe vaut 1. Droite : probabilités que X ∈ [µ − zσ, µ + zσ], pour
z = 2/3, z = 1, z = 2 et z = 3.
densité de probabilité normale standard f(u)
0.4
1.0
distribution cumulée normale standard Φ(u)
1−α
0.8
0.3
0.6
0.2
0.4
0.1
0.2
1−α α
0.0
0.0
u1−α u1−α
-5 -4 -3 -2 -1 0 1 2 3 4 5 -4 -2 0 2 4
u u
F IGURE 4.9 – (1−α)-ème quantile u1−α de la loi normale standard (gauche) et fonction de répartition
correspondante (4.28) (droite)
trouve que X s suit une loi N (0, 1), appelée loi normal standard. Pour cette dernière, on
utilise souvent la notation
Φ(u) ∶= P (X s ≤ u) (4.28)
(plutôt que F (x)) pour la fonction de répartition correspondante (figure 4.9 droite). La
possibilité de recourir exclusivement à la fonction Φ(u) découle de la propriété
72
5. Loi des grands nombres et théorème central limite
(d) On cherche la probabilité pour que X dépasse 10, sachant qu’il vaut au moins 8.
Les valeurs standardisées sont xs1 = 10−5
2
= 2.5 et xs2 = 8−5
2
= 1.5, et donc, par Bayes
Remarque : comme pour toutes les distributions continues régulières, il n’y a aucune
différence entre, disons, P (X ≥ 8) et P (X > 8) : la “différence” P (X = 8) vaut zéro.
où g(x) représente n’importe quelle fonction suffisamment régulière (“smooth enough”),
positive ou négative. En particulier, ∫R δa (x) dx = 1.
Naturellement, on a que µ = E(X) = a et σ 2 = Var(X) = 0 : la distribution concentrée de
Dirac est entièrement déterministe, sans aucun caractère aléatoire. La valeur de X ∼ δa
vaut forcément a. Ici, P (X = a) = 1 et P (X ≠ a) = 0.
La même limite s’obtient depuis d’autres distributions continues, telle la loi normale dans
la limite σ → 0 (figure 4.8 gauche), au sens où, en tant que distributions,
lim N (µ, σ 2 ) = δµ .
σ→0
73
5. Loi des grands nombres et théorème central limite
Que valent leur moyenne et leur variance ? On peut facilement généraliser à n variables le
résultat suivant, facile à démontrer pour deux variables X et Y quelconques :
La première égalité est assez évidente ; quant à la seconde, elle indique que la covariance
intervient comme facteur de correction dans le calcul de la variance d’une somme (ou
d’une différence).
Lorsque les variables X et Y sont indépendantes, on a Cov(X, Y ) = 0, et, sous cette condi-
tion seulement, l’identité “variance d’une somme = somme des variances” est valide.
En généralisant (4.31) au cas i.i.d., on démontre facilement que
σ2
E(Sn ) = n µ E(X̄n ) = µ Var(Sn ) = n σ 2 Var(X̄n ) = . (4.32)
n
5.2 La précision d’une moyenne est supérieure à celle de ses composantes individuelles
La dernière identité de (4.32) dit que la variance de la moyenne est n fois plus petite
que la variance σ 2 de chaque observation. Ou, de √façon équivalente, que l’écart-type de
la moyenne (standard error of mean ou SEM) est n fois plus petite que l’écart-type de
chaque observation. Par exemple :
● si, pour un thermomètre donné, la précision d’une seule mesure de la température
d’une pièce (dont la température est supposée constante) est disons de 1○ C, le fait
de mesurer n = 100 fois cette même température √ et de prendre la moyenne des
mesures permet d’améliorer la précision à 1○ C/ 100 = 0.1○ C.
● si, dans un sondage d’opinion portant sur n = 100 personnes, la précision de l’es-
timation d’une proportion (telle que la proportion de personnes favorables à un
certain changement législatif au niveau national) est de 10%, alors l’extension du
√ à n = 1000 personnes
sondage √ devrait permettre de réduire cette marge d’erreur à
10%/ 1000/100 = 10%/ 10 = 3.2%.
En d’autres termes, (4.32) montre que l’incertitude (mesurée√par l’écart-type) d’une moy-
enne diminue avec la taille n de l’échantillon, mais comme 1/ n seulement : il faut quatre
fois plus d’observations pour être deux fois plus précis : l’augmentation de la précision est
possible, mais se paye au prix fort, littéralement, comme le savent bien les instituts de
sondage.
74
5. Loi des grands nombres et théorème central limite
1.0
3.5
2
0.8
3.0
0
0.6
2.5
-2
Xn
Xn
Xn
0.4
2.0
-4
0.2
1.5
-6
0.0
0 100 200 300 400 500 0 100 200 300 400 500 0 100 200 300 400 500
n n n
F IGURE 4.10 – Convergence (on non) de la moyenne empirique X̄n vers la moyenne théorique
µ = E(X). Chaque figure décrit trois simulations. Gauche : loi de Bernoulli X ∼ B(1, p) avec p = 0.4.
Milieu : loi de normale X ∼ N (µ, σ 2 ) avec µ = 0.4 et σ = 1. Droite : loi de Cauchy X ∼ t[1], pour
laquelle σ 2 = ∞, ce qui ruine la loi des grands nombres, valide pour les deux cas précédents : le
graphique montre que la plupart des valeurs générées par t[1] sont “modérées”, conduisant à un
rapprochement de X̄n vers 0, mais que quelques rares valeurs “extrêmes” jaillissent de temps en
temps, faisant “exploser” la valeur de X̄n , laquelle ne converge jamais.
Dans ces exemples, autant les caractéristiques individuelles sont pratiquement impossibles
à prédire, autant leur incidence globale moyenne est pour ainsi dire déterminée à l’avance.
5.4 Loi des grands nombres : la moyenne empirique tend vers la moyenne théorique.
Dans la limite n → ∞, on a Var(X̄n ) → 0, ce qui implique que la distribution de X̄n devient
concentrée sur une seule valeur, laquelle ne peut être que µ au vu de E(X̄n ) = µ.
Ainsi, pour n → ∞, la moyenne empirique X̄n converge nécessairement vers la moyenne
théorique µ = E(X).
Cet énoncé constitue la loi des grands nombres. Il justifie, par exemple, le fait d’estimer
la valeur de la probabilité théorique p qu’une pièce de monnaie produise “pile” par la
proportion empirique fn de “pile” en n lancers, lorsque n devient grand.
Plus généralement, on peut concevoir toute distribution théorique (ou Modèle, ou Popu-
lation de valeurs), inobservable, comme la limite de la distribution empirique lorsque la
taille n de l’échantillon tend vers l’infini (figure 4.11).
75
5. Loi des grands nombres et théorème central limite
15000
35000
30000
6000
25000
10000
20000
effectif
effectif
effectif
4000
15000
5000
10000
2000
5000
0
0
-10 -5 0 5 -10 -5 0 5 -10 -5 0 5
x x x
F IGURE 4.11 – Histogrammes résultant du tirage de n = 400′ 000 valeurs distribuées selon la dis-
tribution de probabilité continue f (x) de la figure 4.1, pour des largeurs de classe e décroissantes.
Dans la limite n → ∞ suivie de e → 0, les effectifs relatifs de l’histogramme tendent vers f (x).
De même, les n = 400′ 000 valeurs de la figure 4.11 ont été tirées selon la densité de
mélange (4.15) f (x) = π1 f1 (x) + π2 f2 (x) + π3 f3 (x), avec π1 = 0.5, π2 = π3 = 0.25, et où
les trois densités fj (x) sont respectivement celles de t[3], N (3, 1) et N (−4, 1) (c’est ainsi
que f (x) a été construite en figure 4.2).
Pour la simulation de n valeurs d’un processus discret gouverné par une distribution D
déterminée par les valeurs (p1 , . . . , pm , x1 , . . . , xm ), disons p = (0.4, 0.3, 0.2, 0.1) et x=(a,
b, c, d), on peut utiliser
p=c(0.4,0.3,0.2,0.1)
x=c("a","b","c","d")
sample(x=x, size=30, replace = TRUE, prob = p)
qui génère par exemple la séquence de longueur n = 30
b a a c a a a d c a b b b a a c b b a b c a a a b c c b a d
On parle ici de tirage avec remise : le processus est équivalent au tirage de n = 30 billes
d’urne contenant des billes étiquettées a, b, c et d, en proportions p. Chaque bille tirée est
replacée dans l’urne, ou, de façon équivalente, l’urne contient un nombre infini de billes :
les tirages sont indépendants. Par contraste, dans le tirage sans remise, les billes tirées ne
sont pas remplacées, ce qui fait qu’au plus m valeurs peuvent être tirées, et que les tirages
ne sont plus indépendants. Par exemple, la simulation de 5 tirages sans remise de 3 billes
chaque fois peut être effectuée en répétant 5 fois
sample(x=x, size=3, replace = FALSE, prob = p)
qui génère par exemple les 5 séquences
a b c; b a c; d b a; a b c; b c a .
76
5. Loi des grands nombres et théorème central limite
0.30
n=1 n=2 n=3
0.30
0.30
0.25
0.25
0.25
effectifs normalisés
effectifs normalisés
effectifs normalisés
0.20
0.20
0.20
0.15
0.15
0.15
0.10
0.10
0.10
0.05
0.05
0.05
0.00
0.00
0.00
-2 0 2 4 6 -2 0 2 4 6 -2 0 2 4 6
xn xn xn
0.6
n=6 n=10 n=20
0.4
0.5
0.3
effectifs normalisés
effectifs normalisés
effectifs normalisés
0.3
0.4
0.2
0.3
0.2
0.2
0.1
0.1
0.1
0.0
0.0
0.0
-4 -2 0 2 4 -4 -2 0 2 4 -3 -2 -1 0 1 2 3
xn xn xn
L’échelle verticale des effectifs normalisés donne, pour chaque classe j de l’histogramme, l’effectif nj
divisé par N e, où e est la largeur constante de classe, de sorte que la surface totale grisée soit égale
à 1, comme pour une densité de probabilité.
Plus précisément,
σ2
pour n → ∞, X̄n ∼ N (µ, ) , où µ = E(X) et σ 2 = Var(X) . (4.33)
n
Dans la pratique, un échantillon de taille n ≥ 20 ou même n ≥ 10 (figure 4.12) peut être
déjà suffisamment grand pour que (4.33) soit approximativement valide avec une bonne
précision. Le résultat (4.33), appelé théorème central limite, est étonnant : toute moyenne
d’un nombre suffisant de variables i.i.d. de variance finie suit une loi normale ou de Laplace-
Gauss, d’où son omniprésence en modélisation.
Exemple 20 (Mélange de deux lois uniformes).
On considère une distribution continue X ∼ D générée par le mélange, en proportions π1 =
2/3, respectivement π2 = 1/3, de deux lois uniformes U[−3, −1], respectivement U[2, 6].
Ainsi, une valeur x tirée de D est, avec probabilité 2/3, générée selon U[−3, −1], et, avec
probabilité 1/3, générée selon U[2, 6] : c’est une distribution de mélange (cf. section 2.5),
ce que l’on peut noter symboliquement par
2 1
D= U[−3, −1] + U[2, 6] . (4.34)
3 3
La moyenne théorique de D vaut µ = 23 ⋅ (−2) + 31 ⋅ 4 = 0. Quant à sa variance théorique 17 ,
elle est de σ 2 = 26/3 = 8.667. Cette distribution est bien sûr loin d’être normale : le premier
histogramme de la figure 4.12 est constitué de N = 3 ⋅ 106 valeurs tirées de D.
17. on la détermine facilement par σ 2 = σB
2 + σ 2 , où la variance intergroupe (i.e. entre les moyennes des
W
deux composantes de D) est σB 2 = 2 ⋅ (−2 − 0)2 + 1 ⋅ (4 − 0)2 = 24 , et la variance intragroupe est σ 2 =
3 3 3 W
2 2
2 (−1−(−3))
3 12
+ 1 (6−2)
3 12
= 2
3
77
5. Loi des grands nombres et théorème central limite
Si l’on considère toutefois le tirage de N valeurs moyennes xn = n1 ∑ni=1 xi , où chaque xi est
tiré indépendamment selon D, on constate sur la figure 4.12 que, pour n croissant, ces va-
leurs moyennes xn sont distribuées d’une manière qui est de mieux en mieux approximée
par la loi normale N (µ, σ 2 /n) : c’est précisément ce que dit le théorème central limite.
Visuellement, l’approximation est déjà excellente pour n = 20, voire même en dessous.
dont l’évaluation par calculette est pour le moins pénible... Une alternative bienvenue à
cette approche directe est d’utiliser le théorème central limite, en définissant d’abord la
variable indicatrice
⎧
⎪
⎪1 si pile au j-ème lancer
Xj = ⎨
⎪
⎪0 sinon.
⎩
Par construction, X̄100 est la proportion de pile en 100 lancers. Il s’agit alors d’évaluer
P (X̄100 ≥ 0.65). Comme X̄100 suit une loi normale par (4.33), il s’agit de la standardiser.
La moyenne µ de Xj (et de X̄100 ) est de 0.5 (pièce équilibrée). La variance
√ σ 2 de Xj est de
0.25, donc Var(X̄100 ) = 0.25/100 = 1/400, et l’écart type de X̄100 vaut 1/400 = 1/20 = 0.05.
Ainsi
X̄100 − 0.5 0.65 − 0.5
P = P (X̄100 ≥ 0.65) = P ( ≥ ) = P (X̄100
s
≥ 3) = 1 − Φ(3) = 0.00135
0.05 0.05
(4.36)
que l’on peut comparer avec la valeur exacte 18 (4.35) qui est P = 0.00176.
L’approximation fournit le bon ordre de magnitude, à défaut d’être excellente. En fait, on
a ici approximé la distribution d’une variable discrète (le nombre de pile en n lancers)
par une variable continue (une moyenne suivant une loi normale). Or, dans le problème
original discret, P (X̄100 ≥ 0.65) = P (X̄100 > 0.64), ce qui fait que le seuil 0.64 apparaı̂t
tout aussi légitime que le seuil 0.65 utilisé dans (4.36).
Un (bon) compromis entre ces deux candidats est de prendre leur valeur moyenne, à savoir
le seuil 0.645 : cette façon de faire est connue sous le nom de correction de continuité. Elle
aboutit ici à l’approximation normale
78
5. Loi des grands nombres et théorème central limite
0.5
2.0
df1=1 df2=1
f(x) = densité de probabilité du χ2[df] df=1 df=1
df1=100 df2=3
df=6 df=100
1.5
0.3
df=10
0.3
1.0
0.2
0.2
0.5
0.1
0.1
0.0
0.0
0.0
0 5 10 15 20 25 -4 -2 0 2 4 0 1 2 3 4 5
x x x
F IGURE 4.13 – Gauche : distribution du chi2 χ2 [df] pour différents degrés de liberté df.
(1) Soient X1 ∼ N (µ1 , σ12 ), X2 ∼ N (µ2 , σ22 ),... Xq ∼ N (µq , σq2 ) un ensemble de q
variables gaussiennes indépendantes, de moyennes et de variances quelconques.
Alors la variable somme X ∶= X1 + X2 + ... + Xq suit également une loi normale
N (µ, σ 2 ), de moyenne µ = µ1 + µ2 + ... + µq et de variance σ 2 = σ12 + σ22 + ... + σq2 .
79
5. Loi des grands nombres et théorème central limite
X̄n = 1
n
n
∑j=1 Xj .
Toute densité de probabilité f (x) doit tendre vers zéro lorsque ∣x∣ → ∞ (sans quoi l’intégrale
sous la densité serait infinie), mais il est tout-à-fait possible, mathématiquement parlant,
que cette décroissance ne soit pas suffisamment rapide pour assurer la finitude de Var(X)
dans (4.12). Tel est par exemple le cas de
1 exp(− 1 )
f (x) = (Loi de Cauchy) et f (x) = √ x3 (pour x ≥ 0 ; Loi de Lévy)
π(1 + x2 ) π x2
(4.37)
dont les variances sont infinies (figure 4.13 milieu pour df=1 ; et figure 4.14 gauche).
Pour de telles distributions, la loi des grands nombres et le théorème central limite sont
invalides, ainsi que le démontre la figure 4.10 droite, où les valeurs Xj sont tirées selon
une loi de Cauchy (qui est la distribution du t à 1 degré de liberté) : le caractère infini de
la variance fait que, lors de tirages successifs de valeurs issues de telles distributions, des
valeurs extrêmement élevés peuvent soudainement apparaı̂tre dans une série de valeurs
qui s’étaient auparavant comportées de façon tout à fait “modérée”.
L’observateur ne peut être que frappé par le caractère imprédictible et violent de l’ap-
parition de ces valeurs rares mais extrêmes : Mandelbrot 19 parle à cet égard de hasard
sauvage, par contraste avec le “hasard bénin” ou “sage” qui se laisse domestiquer (loi des
grands nombres, théorème central limite) dans le cas des variances finies. Taleb 20 , repre-
nant Mandelbrot, qualifie de cygnes noirs l’apparition soudaine de ces valeurs extrêmes,
pour en souligner le caractère imprévisible et souvent lourd de conséquences (catastrophes
naturelles, risques financiers), et notre difficulté à les intégrer dans notre conception du
monde.
On a recours aux distributions de variance infinie dans la modélisation
● d’événements naturels extrêmes tels crues subites, tremblements de terre
● de fluctuations boursières extrêmes, de crash financiers
● d’extrême inégalité dans la répartition des revenus, comme attestée dans la “loi de
Pareto” gouvernant les revenus très élevés
et de bien d’autres phénomènes encore, en particulier les phénomènes dits self-similaires,
pour lesquels le “tout” est identique (ou en relation simple) à chacune des parties qui le
constituent ; les objects fractals, étudiés et popularisés par Mandelbrot (op.cit.) en sont
l’incarnation emblématique (figure 4.14).
Un objet self-similaire n’a pour ainsi dire pas d’échelle caractéristique, et on ne sera pas
surpris que l’écart-type, qui constitue la mesure naturelle de l’extension ou unité naturelle
d’une variable aléatoire X, soit ici infini. Les distributions associées se comportent typi-
quement, pour les grandes valeurs x de X, comme des distributions du puissance (power
laws) décroissant comme x−a (avec a > 0), pouvant modéliser la distribution des grands
revenus (loi de Pareto), du nombre de “followers” dans les réseaux sociaux, du nombre
de délits reprochés à un accusé, de la sévérité et violence des conflits armés, du prix des
oeuvres d’art, de la taille des tourbillons de sable dans l’air sec et instable, etc.
Pour illustrer la propriété de self-similarité et d’invariance d’échelle, on peut considérer n
variables i.i.d. centrées Xj , qui sont des répliques indépendantes√ de X ∼ N (0, σ 2 ). Leur
moyenne X̄n = n ∑j Xj suit alors une loi N (0, σ /n), et donc nX̄n ∼ N (0, σ ), qui est la
1 2 2
même distribution que celle de X, ce que l’on note par n 2 X̄n ∼ X ou X̄n ∼ n− 2 X.
1 1
Si l’on était parti de la loi de Cauchy X ∼ t[1], on pourrait alors montrer que la distribution
de la moyenne X̄n est la même que celle de chacune des variables qui la constituent, i.e.
que X̄n ∼ X : le “tout” est alors aussi imprédictible que chacune de ses parties !
Pour générer des valeurs suivant une distribution de Cauchy, on peut générer une distribu-
19. Benoı̂t Mandelbrot (1975) Les objets fractals : forme, hasard et dimension, Flammarion
20. Nassim Nicholas Taleb (2007) The Black Swan : the impact of the highly improbable, Penguin
80
6. Estimations ponctuelles et intervalles de confiance
0 5 10 15 20 25
F IGURE 4.14 – Gauche : distribution standard de Lévy (4.37). Milieu et droite : objects fractals :
tapis de Sierpiński et chou romanesco.
tion uniforme continue dans [−π/2, π/2], puis lui appliquer la transformation “tangente”
(en radians) 21 :
ce qui montre incidemment que l’inverse d’une variable de Cauchy est aussi une variable
de Cauchy :
si Y ∼ t[1] alors X ∶= Y1 ∼ t[1] .
Enfin, en considérant une loi de Lévy, on aurait que X̄n ∼ nX : le tout est davantage
imprédictible que chacune des parties qui le constituent ! C’est dur à imaginer, l’intuition
nous fait ici défaut...
Ces trois distributions sont des membres de la famille dite α-stable, pour laquelle
X̄n ∼ n α −1 X
1
α ∈ (0, 2]
81
6. Estimations ponctuelles et intervalles de confiance
Tel est le cas de la moyenne empirique µ̂(x) ∶= x̄n pour l’estimateur de la moyenne
théorique µ. En effet,
1 n 1 n
E(µ̂(x)) = ∑ E(Xi ) = ∑ µ = µ
n i=1 n i=1
comme il se doit. Pour les même raisons, la proportion empirique p̂j (x) ∶= fj d’une
catégorie j est un estimateur sans biais de la proportion théorique correspondante pj .
Par contre, la variance empirique s2 = var(x) n’est pas un estimateur sans biais de la
variance théorique σ 2 : on peut prouver que
n−1 2
E(s2 ) = E(var(x)) = σ
n
ce qui démontre que var(x) sous-estime systématiquement la valeur de la “vraie variance”
σ 2 , et ce d’autant plus que n est petit : la sous-estimation est de 10% pour n = 10, de
1% pour n = 100, etc. Pour cette raison, on introduit une version modifiée de la variance
̂
empirique dite sans biais (unbiased sample variance), notée ŝ2 ou var(x) et définie comme
1 n n 2 n
̂
ŝ2 = var(x) ∶= ∑(xi − x̄) =
2
s = var(x) telle que E(ŝ2 ) = σ 2 (4.38)
n − 1 i=1 n−1 n−1
comme il se doit 22 .
Comme exemple emblématique, on a toujours, pour n = 1, que s2 = 0, qui ne saurait bien
sûr constituer une estimation raisonnable de la variance théorique σ 2 , puisque l’on ne
dispose que d’une seule observation. Par contraste, (4.38) donne ŝ2 = 0/0 = indéterminé,
qui est la seule estimation de la variance théorique qui fasse sens pour n = 1.
Plus petit est α, plus grande devra être la demi-largeur ε(α) de l’intervalle. On s’attend à
ce que
● limα→0 ε(α) = ∞, i.e. on est certain de trouver la valeur de µ quelque part dans R :
un sage constat, qui n’apporte toutefois guère d’information sur µ.
● limα→1 ε(α) = 0, i.e. la probabilité que µ = x̄n exactement est nulle. Dans cette limite,
l’intervalle de confiance se réduit à l’estimation ponctuelle µ̂ = x̄n de la section 6.1.
̂
22. c’est cette variance sans biais var(x) que nombre de logiciels tels R ou SPSS indiquent comme “variance”
par défaut
82
6. Estimations ponctuelles et intervalles de confiance
0.0
uα2 = − u1−α2 u1−α2
-5 -4 -3 -2 -1 0 1 2 3 4 5
F IGURE 4.15 – Pour une distribution normale standard, l’intervalle [−u1− α2 , u1− α2 ] délimite une
zone de probabilité 1 − α
x̄n − µ √
x̄sn ∶= n ∼ N (0, 1)
σ
et ainsi (figure 4.15)
Mais l’énoncé (4.40), qui fournit un intervalle de confiance pour la moyenne empirique
centré sur la moyenne théorique, est exactement équivalent à
qui donne l’intervalle de confiance pour la moyenne théorique, centré sur la moyenne
empirique, lequel est précisément de la forme (4.39) recherchée.
P (x̄n − ε(α) ≤ µ ≤ x̄n + ε(α)) = 1 − α avec ε(α) = √s t α [n−1] = √ŝ t1− α [n−1] (4.42)
n−1 1− 2 n 2
où t1− α2 [n−1] est le (1− α2 )-ème quantile de la loi du t à n − 1 degrés de liberté. L’identité
(4.42) est exacte, même pour n petit, si la distribution des observations individuelles est
elle-même normale (ce qui est l’exception plutôt que la règle) ; elle devient toutefois exacte
dans le cas général pour n grand, en vertu du théorème central limite.
La plus grande dispersion de la distribution du t[n−1] par rapport à la distribution normale
standard, d’autant plus marquée que n est petit, fait que les intervalles de confiance (4.42)
83
6. Estimations ponctuelles et intervalles de confiance
sont plus grands que ceux basés sur (4.41) (lorsque σ 2 et ŝ2 sont identiques) : par exemple,
pour n = 10 et n = 100, et pour α = 5% (intervalles de confiance à 95%), on a
84
5 Introduction à l’inférence et aux tests
statistiques
85
1. Modèles et données : modèles probabilistes et déterministes
où la somme porte sur toutes les observations D possibles. En particulier, le support de
la distribution, défini comme l’ensemble des observations D possibles selon le modèle, i.e.
telles que P (D∣H) > 0, peut être très étendu, auquel cas les prédictions du modèle H
auront un caractère très incertain ou très aléatoire 1 ; à l’inverse, le support peut être
concentré sur une seule observation D0 , qui est alors certaine (et les autres impossibles), et
l’on a ici affaire à un modèle déterministe.
On attend d’un bon modèle H
(a) qu’il soit valide, i.e. qu’il décrive correctement, dans le cas d’un modèle probabi-
liste, la distribution empirique des observations D, ou dans le cas d’un modèle
déterministe, l’exacte et unique prédiction empirique D0
(b) qu’il soit concis, i.e. que son expression mathématique soit raisonnablement simple,
et qu’il contienne peu de paramètres ajustables (voir section 4)
(c) qu’il soit aussi universel que possible, i.e. qu’il décrive un ensemble de données
aussi grand que possible (quitte à augmenter le nombre de paramètres, mais pas
trop) 2 .
Ainsi, un bon modèle permet de restreindre, de compresser l’apparente infinité des obser-
vations possibles par une règle ou Loi (déterministe ou probabiliste) beaucoup plus stricte,
régentant leur apparition.
Exemple 24 (Gravitation universelle 3 ).
Exemple 25 (Dé à m faces). En lançant n fois un certain dé à m faces, peut-être irrégulier,
après l’avoir secoué dans un gobelet (pour neutraliser le mouvement du lanceur et casser
toute dépendance entre lancers successifs), on obtient nj fois la face j = 1, . . . , m.
1. au lieu que par la taille du support, l’incertitude des prédictions est, dans le cas quantitatif univarié,
généralement mesurée par la variance des observations, ou plus généralement par l’entropie de la distribution,
définie dans le cadre de la Théorie de l’Information.
2. toutes choses étant égales par ailleurs, un modèle valide de répartition des revenus en Europe dans les
années 2020 est plus général qu’un modèle valide de répartition des revenus dans le seul district d’Echallens
dans les années 2020 , mais moins général qu’un modèle valide de répartition des revenus dans tous les lieux et
à toutes les époques – même si ce dernier contiendra, vraisemblablement, davantage de paramètres (section 4)
associés aux lieux, aux époques ou à la structure socio-économique dominantes.
3. Newton, I. (1687) Principia mathematica philosophiae naturalis, Halley, E. (ed.), Londres
86
2. Induction et déduction
2 Induction et déduction
2.1 Réfutabilité déterministe
Le mouvement partant de données D particulières pour aller vers des modèles H généraux
s’appelle induction, et le mouvement inverse déduction.
S’il est possible de déduire rigoureusement d’une théorie tenue pour vraie un certain
nombre de faits, à la manière du mathématicien prouvant des théorèmes à partir d’un
système d’axiomes, l’opération d’induction quant à elle ne possède pas le même caractère
de rigueur : on peut induire à partir de l’expérience quotidienne que “le soleil se lèvera
demain” 4 ; rien cependant n’empêcherait logiquement le soleil de ne pas se lever demain,
contredisant ainsi la théorie.
La dissymétrie entre induction et déduction reflète celle de l’implication logique “⇒” :
supposons que H soit une théorie déterministe que l’on tienne pour vraie ; on peut alors
constituer une liste de prédictions empiriques D entraı̂nées par H, c’est-à-dire pratiquer
la déduction en prouvant que H ⇒ D : ceci constitue une occupation qui peut s’avérer
passionnante, même si H est fausse, comme en témoigne le physicien mathématicien cal-
culant à quoi ressemblerait la matière dans un monde à 2 ou à 26 dimensions.
Dans ce contexte, faire de l’induction consisterait à remonter à H à partir de D. Or, si
les événements “H ⇒ D” et “D” sont tous deux vrais, il n’est pas possible de conclure
que H le soit également. Par contre, si “H ⇒ D” est vraie, mais que “D” soit fausse (i.e.
que les prédictions empiriques D ne soient pas observées), alors on peut conclure que
H est fausse : une théorie ne peut jamais être prouvée, mais seulement éventuellement
contredite par des faits, comme l’ont argumenté Karl Popper et l’école de pensée dite
du Réalisme Critique 5 . Plus précisément, s’il est possible d’imaginer des faits D contre-
4. Hume, D. (1738) A Treatise of Human Nature, Noon, J. (ed.), Londres
5. voir par exemple Chalmers, A.F. (1990) Qu’est-ce que la science ? Récents développements en philosophie des
sciences : Popper, Kuhn, Lakatos, Feyerabend, Ed. La Découverte, Paris
87
2. Induction et déduction
disant une théorie H, cette théorie sera dite réfutable. Toute théorie scientifique devrait
être réfutable. La Mécanique Classique (Galilée, Newton) et la Mécanique Relativiste (Ein-
stein), sont réfutables (la première a d’ailleurs été réfutée, la seconde pas (encore)). L’As-
trologie, la Psychanalyse, la doctrine du Matérialisme Dialectique ou celle du Libéralisme
Economique ne sont pas réfutables, car trop imprécises, trop “molles” dans leurs prédictions
pour pouvoir être contredites (on a par exemple beaucoup de peine à imaginer une
expérience dont l’issue pourrait faire conclure à la fausseté des mécanismes symboliques
du rêve tels que décrits par Freud) : ces théories ne sont pas scientifiques à l’aune de la
réfutabilité, sans que cela ne préjuge en soi de leur valeur esthétique ou heuristique.
Il existe un moyen direct, presque automatique, de sauver la plus grande partie d’un
modèle qui se trouverait falsifié par de nouvelles données : il s’agit simplement d’en res-
treindre le domaine de validité. Par exemple, lorsque les données concernant la trajectoire
d’Uranus se trouvèrent en désaccord avec celles prédites par le modèle Newtonien de la
gravitation (H0 ), on aurait pu “sauver” l’essentiel de ce dernier en le remplaçant par H1 :
“la théorie de la gravitation universelle s’applique à tous les corps sauf Uranus”. Il s’agit
là d’un exemple type d’un aménagement dit ad hoc du modèle, ne débouchant sur aucune
nouvelle prédiction, et laissant en particulier complètement dans l’ombre la raison de l’ex-
ception uranienne : bien qu’irréprochable d’un point de vue logique, ce type de pratique
serait difficilement qualifiable de scientifique.
Dans cet exemple, il était naturel d’explorer les conséquences du remplacement de H0
par une théorie non ad hoc, à savoir H2 : “la théorie de la gravitation universelle est
correcte, mais on n’a pas tenu compte de l’influence éventuelle sur Uranus d’un corps
céleste inconnu”. Comme on le sait, le modèle H2 a conduit, moyennant observations et
calculs, à la découverte de Neptune (U. Le Verrier, et J.C. Adams, 1846).
88
2. Induction et déduction
de solution purement logique générale au problème de l’induction, des progrès ont pu ce-
pendant être obtenus dans des cas particuliers, en faisant intervenir à un moment ou à un
autre la règle de Bayes
P (D∣H) P (H)
P (H∣D) = . (5.3)
P (D)
Exemple 26 (un coup de mou). Une personne se sent fatiguée et sans énergie depuis
quelques jours (D), sans cause apparente. Est-ce là le signe d’une maladie cachée (H) ?
On a :
P (fatigue∣maladie) P (maladie)
P (maladie∣fatigue) = (5.4)
P (fatigue)
En d’autres termes, cette personne, suite au constat de son état de fatigue, a d’autant plus
de raisons de soupçonner l’existence d’une maladie qu’elle estime que
● une maladie pourrait entraı̂ner de la fatigue (P (fatigue∣maladie)).
● une maladie est possible (P (maladie)).
● la fatigue est un événement rare (1/P (fatigue)) : si la personne est fréquemment
fatiguée, elle n’a en effet pas de raison particulière de soupçonner l’existence d’une
maladie, à moins bien sûr que ses états de fatigue précédents n’aient été associés
avec des états de maladie ; mais cette circonstance est déjà décrite par le terme
P (fatigue∣maladie).
Exemple 27 (concurrence entre deux hypothèses). Admettons que l’on ait des raisons
de croire (par exemple suite à une longue expérience en fouilles archéologiques) que, à
propos d’une urne scellée contenant de (très nombreuses) billes, l’une seulement des deux
hypothèses suivantes soit vraie, à savoir
1. H1 : “toutes les billes sont noires”
2. H2 : “la moitié des billes sont blanches, et l’autre noire”.
Le modèle H1 est déterministe. Par contraste, H2 est équivalent à “la probabilité qu’une
bille soit noire est de 0.5” : c’est un modèle probabiliste.
Supposons que l’on extraie n billes de l’urne, et que l’observe D : “n billes noires consécu-
tives”. Comme :
● P (H1 ) + P (H2 ) = 1 (car seules les hypothèses H1 et H2 sont considérées comme
possibles)
● P (D) = P (D∣H1 ) P (H1 ) + P (D∣H2 ) P (H2 ) (schéma “en arbre” toujours vrai)
● P (D∣H1 ) = 1 (hypothèse déterministe)
● P (D∣H2 ) = ( 21 )n (loi binomiale)
on déduit de (5.3) que
P (D∣H1 )P (H1 ) P (H1 )
P (H1 ∣D) = = (5.5)
P (D∣H1 ) P (H1 ) + P (D∣H2 ) P (H2 ) P (H1 ) + ( 12 )n (1 − P (H1 ))
( 12 )n P (H2 ) P (H2 )
P (H2 ∣D) = 1 − P (H1 ∣D) = = (5.6)
P (H1 ) + ( 12 )n P (H2 ) 2n (1 − P (H2 )) + P (H2 )
89
3. Le sondage : population, échantillon et représentativité (*)
1.0
1.0
1.0
1.0
P(H1|D) P(H1|D) P(H1|D)
0.8
0.8
0.8
0.8
0.6
0.6
0.6
0.6
P(H1)=0.5 P(H1)=0.8 P(H1)=0.1 P(H1)=0
0.4
0.4
0.4
0.4
0.2
0.2
0.2
0.2
P(H1|D)
n n n n
0.0
0.0
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
F IGURE 5.1 – Exemple 27 : évolution de la probabilité a posteriori ou posterior P (H1 ∣D) (trait
plein) et P (H2 ∣D) = 1 − P (H1 ∣D) (traitillé) en fonction du nombre n (ici étendu à un nombre réel
plutôt qu’entier) de billes noires observées, et en fonction de la probabilité a priori ou prior P (H1 ).
La limite limn→∞ P (H1 ∣D) = 1 dit que l’hypothèse que toutes les billes sont noires devient certaine
au bout d’un nombre infini d’observations, pour autant que P (H1 ) > 0.
Cela est vrai quels que soient les priors P (H1 ) et P (H2 ), à condition qu’ils soient différents
de 0 ou 1 : si l’on pose en effet par exemple P (H) = 0 pour une certaine hypothèse H,
alors on aura toujours P (H∣D) = 0, quelles que soient les données observées (D). Au-
trement dit, si quelqu’un n’accorde au départ aucun crédit à une théorie, alors aucun fait
ultérieur ne pourra le faire changer d’avis ; une anomalie similaire se produit dans le cas
P (H) = 1 : la règle de Bayes (5.3) permet ainsi de décrire aussi bien le phénomène de per-
suasion raisonnée (pour 0 < P (H) < 1) que le phénomène de dogmatisme ou “fanatisme
épistémologique” (pour P (H) = 0 ou P (H) = 1).
Si l’on avait observé D̃ : “il y a au moins une bille blanche parmi les n billes consécutives”,
alors on aurait déjà P (H1 ∣D̃) = 0 et P (H2 ∣D̃) = 1 en un nombre fini de coups, puisque
l’observation d’une seule bille blanche D̃ suffit à réfuter le modèle déterministe H1 , et
donc à ne laisser survivre que son unique concurrent H2 .
En résumé, un modèle déterministe peut être réfuté par une seule contre-observation, tan-
dis qu’un modèle complètement probabiliste (i.e. n’interdisant aucune observation) n’est
réfutable au sens strict que par une infinité d’observations. Un ensemble fini d’observa-
tions ne peut donc que réduire (parfois astronomiquement) la confiance a priori P (H)
que l’on peut mettre en un modèle probabiliste H, sans l’annuler complètement toutefois.
90
3. Le sondage : population, échantillon et représentativité (*)
̂P = ∑ p(y) x̄y
x̄ (5.7)
y
où x̄y est la valeur de la caractéristique moyenne dans la strate y. Cette identité s’applique
quel que soit le taux de sondage ng /Ng > 0 dans chacune des strates, qui peut varier pour
toutes sortes de raisons (petit échantillon, strates peu accessibles) malgré le souhait du
chercheur. Cela étant dit, il est souhaitable de sur-échantillonner les strates y les moins ho-
mogènes (varY (X) grand), afin d’améliorer la précision de l’estimateur x̄ ̂P , typiquement
en leur appliquant un taux de sondage proportionnel à vary (x).
Quantité d’innovations ont été proposées et pratiquées (sondages à plusieurs degrés, son-
dages par grappes, par boule-de-neige, etc.) par les instituts de sondage publics ou privés.
Le sujet, qui n’est pas développé ici, est très vaste : l’étude et la pratique des sondages
relève de la science (rigueur et rationalité des principes d’inférence), mais aussi de l’art
(les instituts de sondage gardant volontiers leurs petits secrets censés améliorer leurs esti-
mations).
La question centrale est celle de la représentativité de l’échantillon (ou plutôt la repré-
sentativité du processus d’échantillonnage), définie ici ainsi : selon la méthode utilisée,
chaque échantillon possible D ⊂ P possède une certaine probabilité PP (D) d’être consti-
tué. En notant par x̄P la moyenne ou la proportion que l’on cherche à connaı̂tre dans la po-
pulation (par exemple : proportion de personnes votant “oui” à un certain objet politique
soumis en votation), et en notant par x̄D la même quantité mesurée dans l’échantillon D,
on dira que l’échantillon (ou plutôt le processus d’échantillonnage) est représentatif si
x̄P = ∑ PP (D) x̄D (5.8)
D
91
4. Inférence pour les modèles paramétriques
Par exemple :
92
4. Inférence pour les modèles paramétriques
2σ 2
) : loi normale N (µ, σ 2 ) donnant la densité de probabi-
2πσ
lité d’occurence de la valeur x : paramètres θ = (µ, σ 2 ) .
Dans (5.11), la forme du prior P (H(θ)) (qui dit que certaines valeurs de θ sont a priori,
i.e. avant d’observer D, plus probables que d’autres), est simplement exprimée par une
une densité de probabilité a priori π(θ).
Ainsi, le principe du maximum de vraisemblance (5.10) est un cas particulier du principe
du maximum a posteriori (5.11), obtenu lorsque π(θ) est constant (distribution uniforme),
i.e. lorsque toutes les valeurs de θ sont jugées a priori équiprobables.
Exemple 28 (prior non informatif et variance échantillonnale). On a vu (section 4.1)
qu’avec un prior uniforme π(σ) =constante pour l’écart type σ d’une loi normale N (µ, σ 2 ),
̂2 = var(x), i.e. la variance empirique, qui est baisée. En pre-
l’estimation du MAP était σ
nant au contraire le prior dit non informatif 8 π(σ) = 1/σ on trouve que l’estimateur MAP
7. il s’agit d’une estimation de θ dite ponctuelle, i.e. par une seule valeur, plutôt qu’une estimation par un
intervalle de confiance comme on l’a rencontré précédemment
8. Jeffreys, H. (1961) Theory of Probability 3rd Edition, Clarendon Press. L’expression π(σ) = 1/σ implique
entre autres que, a priori, il est aussi vraisemblable que σ soit compris entre disons 1 et 10 que entre 10 et 100.
93
5. Détection, reconnaissance, confusion et inférence
de la variance est
̂2 = n 1 n
σ var(x) = ̂
∑(xi − x̄) = var(x)
n−1 n − 1 i=1
La matrice de confusion N = (njk ) de la table 5.1 compte le nombre de fois que le stimulus
ou classe j (ici une des m = 5 émotions) a été identifié comme k (la réponse, i.e. l’émotion
estimée par la machine). Il s’agit d’un problème dit d’apprentissage supervisé ou de clas-
sification : la tâche pour le “classificateur” (sujet humain, animal, dispositif mécanique,
algorithme) consiste à inférer la modalité k à laquelle appartient un stimulus dont le “vrai
type” est j. Les éléments diagonaux njj comptent le nombre d’objets correctement classés
dans la classe j. La proportion d’accord P accord mesure le taux (global) de classification
correcte, à savoir
m m
∑j=1 njj ∑j=1 njj 445
P accord ∶= m = (= = 63.6%) (5.12)
∑j,k=1 njk n●● 700
On peut aussi calculer le taux de classification correcte pour chaque stimulus j comme
njj /nj● , avec le résultat
94
5. Détection, reconnaissance, confusion et inférence
qui montre que l’émotion “afraid” était la plus difficile à reconnaı̂tre comme telle. La
mesure d’accord (5.12) donne une estimation un peu optimiste des performances du clas-
sificateur, dans la mesure où une attribution correcte peut être le simple fruit du hasard :
nj● n●k
jk = n●● (qui dénote une
en remplaçant njk par sa valeur attendue sous indépendance ntheo
réponse fournie indépendamment du stimulus), la proportion P hasard d’objets correctement
classés par hasard est 11
m
∑j=1 nj● n●j 98000
P hasard ∶= (= = 20.0%) (5.13)
n2●● 7002
95
5. Détection, reconnaissance, confusion et inférence
TABLE 5.2 – Table de confusion pour la décision/détection/perception binaire, où n = n●● = n00 +
n01 +n10 +n11 est la taille de l’échantillon. Dans la littérature scientifique, la disposition et/ou l’ordre
des lignes et des colonnes est souvent inversée.
y = “décision”
0 = nom commun 1= nom propre
x = “nature 0 = nom commun 6351 125
du nom” 1 = nom propre 102 454
13. quitte à nommer arbitrairement les deux possibilités, comme dans l’exemple de la réussite ou de l’échec à
un examen
14. Srikanth, P. et Murthy, K.N. (2008) Named entity recognition for Telugu. In Proceedings of the Workshop
on Named Entity Recognition for South and South East Asian Languages (IJCNLP’08) pp. 41–50
96
5. Détection, reconnaissance, confusion et inférence
L’erreur de première espèce consiste ici à prendre un nom commun pour un nom propre
(fausse alarme). Sa probabilité, notée α, peut être estimée par
n01 faux positifs 125
α= = = P (y = 1∣x = 0) (= = 19.3%) (5.15)
n00 + n01 vrais négatifs + faux positifs 6351 + 125
L’erreur de seconde espèce consiste ici à prendre un nom propre pour un nom commun
(détection manquée). Sa probabilité, notée β, peut être estimée par
n10 faux négatifs 102
β= = = P (x = 0∣y = 1) (= = 18.3%) (5.16)
n10 + n11 vrais positifs + faux négatifs 102 + 454
Exemple 31 (Recherche documentaire).
La probabilité qu’un document non pertinent soit malgré tout retourné par le moteur de
recherche (erreur de première espèce) est de α = 150/2300 = 6.5%, et la probabilité qu’un
document pertinent ne le soit pas (erreur de seconde espèce) est de β = 10/50 = 20%.
97
6. Introduction aux test statistiques
de la précision qui est une probabilité conditionnelle étant donnée la colonne y (la décision
découlant de l’inférence).
De même que les “erreurs α et β” sont de nature (et de conséquences pratiques) très diffé-
rentes (section 6.4.1), la précision et le rappel mesurent deux aspects bien distincts des
compétences d’un classificateur. En général, plus grande est la précision, plus petit est le
rappel et inversement : dans l’exemple 31, on peut imaginer le cas limite d’un moteur de
recherche retournant l’entièreté des 2500 documents de la collection, avec une précision
de 50/2500 = 2% et un rappel de 50/50 = 100%. A l’opposé, en retournant un seul document
pertinent, la précision serait de 1/1 = 100% et le rappel de 1/50 = 2%.
On a pu malgré tout tenter de définir un indice unique de performance du système (une
idée assez discutable), combinant les deux aspects mesurés par la précision et le rappel,
tel le F -score F (ou sa version pondérée Fγ ) 15 défini comme
98
6. Introduction aux test statistiques
n’y a pas d’ex-aequos) de tenir pour fausses toutes les autres : c’est la règle du maximum a
posteriori (MAP). D’autres règles de décision sont possibles, mais elles aboutissent toujours
à la forme suivante :
on accepte Hj ssi D ⊂ Aj (5.21)
où Aj est la zone d’acceptation de Hj . Les zones d’acceptation des diverses hypothèses
concurrentes sont mutuellement exclusives et exhaustives, i.e. elles forment une parti-
tion de l’ensemble des données D possibles.
La probabilité d’accepter Hk alors que Hj est vraie est donnée par
pjk ∶= P (accepter Hk ∣ Hj vraie) = P (D ⊂ Ak ∣ Hj ) (5.22)
Les éléments pjk forment la matrice des probabilités de confusion. Comme en section 5.1,
les éléments diagonaux pjj donnent les probabilités d’une décision correcte (i.e. accepter
Hj qui est effectivement la vraie hypothèse), tandis que les éléments hors diagonale pjk
pour k ≠ j donnent les probabilités d’une décision incorrecte (i.e. accepter Hk alors que
c’est Hj qui est vraie).
Dans le cas où chaque erreur a le même coût (disons 1), et que le coût d’une décision
correcte est nulle, le coût moyen (5.23) devient la probabilité totale d’erreur
P erreur ∶= ∑ P (Hj ) pjk = ∑ P (Hj ) P (D ⊂ Ak ∣ Hj ) (5.24)
j≠k j≠k
Ainsi, la règle de décision optimale correspond à la partition {Aj }m j=1 minimisant (5.23)
ou (5.24). Ce problème peut être mathématiquement ardu mais il est désormais bien
défini, grâce à l’introduction de ces coûts existentiels cjk , dont la nature est toutefois extra-
statistique.
Il est à noter que, dans ce contexte, le terme “risque” peut signifier deux choses :
17. la pratique est courante pour des situations n’impliquant que des risques financiers (par exemple assu-
rances sur les biens), mais (encore) taboue dans la sphère des droits humains (libertés individuelles, droit à
l’éducation, à la sécurité...) ou dans le domaine bio-médical (traitements, expériences, début et fin de vie...)
99
6. Introduction aux test statistiques
● soit la probabilité de commettre une erreur, comme dans “risque de première espèce”
désignant simplement α (5.15), ou “risque de seconde espèce” désignant β (5.16)
(ou pjk pour j ≠ k en général)
● soit (risques financiers, risques naturels) le dommage attendu ou la perte attendue :
ici, le terme “risque” prend en compte l’ampleur des dégâts possibles ou probables,
et pas seulement la probabilité que des dégâts surviennent.
Ceci est parfois exprimé symboliquement comme “risque = alea × vulnérabilité”
qui correspond ici (dans la situation “Hj vraie et Hk acceptée”) à la quantification
“risque = P (Hj ) pjk × cjk ”.
Exemple 32 (Concentration de zinc dans les harengs). Une étude s’intéresse à la pol-
lution par les métaux dans une pisciculture de Caroline du Sud. Il se trouve que deux
études antérieures ont proposé des valeurs différentes pour la concentration de zinc (en
microgrammes par gramme de matière sèche) dans les harengs, à savoir 85 et 105 ; dans
les deux cas, l’écart-type de la concentration était estimé à environ 24 microgrammes par
gramme 18 .
On va supposer que l’une ou l’autre des valeurs proposées (à l’exclusion de toute autre) est
la vraie valeur – un présupposé extrêmement fort qui va permettre de mettre en oeuvre
le test de comparaison de deux moyennes, dans sa version la plus simple (et quelque peu
artificielle) où les deux variances théoriques sont égales et connues. Ce test oppose deux
hypothèses, désignées par convention par H0 et H1 , et respectivement appelées hypothèse
nulle et hypothèse alternative 19
H ∶ µ = µ0
{ 0
H1 ∶ µ = µ1
avec µ0 = 85, µ1 = 105 et σ = 24. Pour trancher entre les deux théories, on va récolter
un nouvel échantillon D = {x1 , . . . , xn } composé des mesures de concentrations dans n
harengs, dont on calculera la moyenne x̄. Plus x̄ est élevé (respectivement bas), plus la
plausibilité de H1 (resp. H0 ) sera renforcée par les observations.
Concrètement, on adopte la stratégie ou règle de décision suivante : on fixe un seuil cri-
tique xc tel que
● si x̄ > xc , on rejette H0 (et accepte H1 )
● si x̄ ≤ xc , on accepte H0 (et rejette H1 ).
Comme la règle de décision ne dépend ici que de x̄, et non pas des autres détails de
l’échantillon D (tels sa variance, ou son empan, etc.), on dit que x̄ constitue la variable de
décision du test, notée d(D).
L’intervalle W ∶= (xc , ∞) est la zone de rejet (de H0 ), tandis que son complémentaire
W c = [0, xc ] est la zone d’acceptation (de H0 ) 20 .
Si la procédure conduit à accepter H0 alors que H0 est vrai, tout va bien. De même si la
procédure conduit à rejeter H0 (i.e. rejeter H1 ) alors que H0 est fausse (i.e. que H1 est
vraie). Les choses se gâtent (table 5.3)
● si l’on rejette H0 à tort : on parle d’erreur de première espèce
● ou si l’on accepte H0 à tort : on parle d’erreur de seconde espèce.
18. l’exemple est inspiré de Giesy J.P. et Wiener J.G. (1977) Frequency distributions of trace metal concentra-
tions in five freshwater fishes Transactions of the American Fisheries Society vol. 106, no 4, pp. 393–403
19. dans cet exemple, les deux hypothèses en jeu jouent un rôle entièrement symétrique, et la notation H0
pour l’une et H1 pour l’autre est arbitraire. Il n’en sera pas de même dans l’approche courante dite de Fisher
(section 6.5) où H0 représentera une hypothèse simple associée à du bruit, et H1 une hypothèse composite
associée à du signal.
20. dans les notations de la section 6.1, on a W = A1 et W c = A0
100
6. Introduction aux test statistiques
Plus le seuil critique xc est élevé, plus la probabilité d’erreur de première espèce, notée α,
est petite, et plus grande est la probabilité d’erreur de seconde espèce, notée β, est grande
(figure 5.2). Il se trouve que ces quantités peuvent être calculées exactement en fonction
du seuil critique :
X̄ − µ0 xc − µ0
α = P (d(D) ∈ W ∣H0 vrai) = P (X̄ > xc ∣µ = µ0 ) = P ( > )=
√σ √σ
n n
(a) xc − µ0 √ (b) xc − µ0 √
= P (X̄ s > n) = 1 − Φ( n) (5.25)
σ σ
où l’on a utilisé que (a) la moyenne de la variable X̄ vaut µ, et son écart-type √σn , et
que (b), pour n grand, la variable standardisée correspondante X̄ s suit une loi normale
standard N (0, 1). De même,
X̄ − µ1 xc − µ1
β = P (d(D) ∈ W c ∣H1 vrai) = P (X̄ ≤ xc ∣µ = µ1 ) = P ( ≤ )=
√σ √σ
n n
xc − µ1 √ xc − µ1 √
= P (X̄ s ≤ n) = Φ( n) (5.26)
σ σ
En faisant varier xc dans un intervalle suffisamment grand (disons [40, 150] pour cet
exemple), les fonctions α(xc ) et β(xc ) parcourent pratiquement l’entièreté des valeurs
dans l’intervalle unité [0, 1] : les courbes de la figure 5.3, donnant la valeur de 1 − β(xc )
(en ordonnée) en fonction de α(xc ) (en abscisse) selon le seuil critique xc (et selon n),
sont appelée caractéristiques opérationnelles du récepteur (receiver operating charac-
teristic, ou “courbe ROC”).
La quantité α est aussi appelée risque de première espèce ou niveau de signification. Plutôt
que de déterminer α (ou β) en fonction de xc , l’usage consiste à fixer le niveau de signifi-
cation (à, par exemple α = 5% ou α = 1%), et d’en déduire le seuil critique xc . L’équation
(5.25) donne
xc − µ0 √ xc − µ0 √ σ
1 − α = Φ( n) i.e. u1−α = n i.e. xc = µ0 + √ u1−α
σ σ n
101
6. Introduction aux test statistiques
0.05
0.05
H0 H1 H0 H1
0.04
0.04
densité de probabilité
densité de probabilité
0.03
0.03
0.02
0.02
0.01
0.01
xc=100 xc=92
0.00
60 70 80 90 100 110 120 130 60 70 80 90 100 110 120 130
x x
F IGURE 5.2 – Test de comparaison de deux moyennes µ0 et µ1 données (exemple 32). La zone de
rejet W de H0 est donnée par x̄ > xc . La surface gris foncé vaut α, et la surface gris claire vaut β.
On a toujours α + β ≤ 1.
1.0
0.8
0.6
1−β
0.4
n=1
n=4
n=9
0.2
n=16
0.0
F IGURE 5.3 – Courbes ROC : comportement de 1 − β(xc ) (en ordonnée) en fonction de α(xc ) (en
abscisse), en faisant varier le seuil critique xc , pour différentes valeurs du nombre n d’observations.
Plus n est grand, plus la courbe se rapproche du point idéal α = β = 0 exempt d’erreurs de première
et de seconde espèce. Inversement, la bissectrice d’équation 1 − β = α, i.e. α + β = 1 correspond à la
situation la plus précaire où, en l’absence de toute donnée, on ne pourrait que choisir au hasard (ou
décider a priori) l’hypothèse H0 ou H1 retenue ; voir exemple 34.
102
6. Introduction aux test statistiques
d’un stimulus pour qu’il soit perçu par un sujet donné (expérience de détection), ou quelle
devait être la différence d’intensité minimale ou JND (just noticeable difference) entre
deux stimuli pour qu’ils puissent être distingués par un sujet donné (expérience de discri-
mination).
Par exemple, la fréquence sonore minimale audible était
typiquement déterminée comme la fréquence du son cor-
rectement identifié comme tel dans le 50% des cas pour un
sujet donné, au cours d’expériences répétées comportant
des stimuli de fréquence variable. Ou bien, la différence
perceptible minimale de salinité entre deux solutions était
déterminée comme la différence produisant une discrimi-
nation effective dans 50% des cas, etc.
C’est dans ce contexte que Weber (1834) a proposé sa fameuse loi, énonçant que, sur une
grande gamme d’intensité, le rapport entre la différence d’intensité minimale ∆I (ou JND)
et l’intensité I du stimulus de référence était constante pour un type de stimulus donné.
En d’autres termes, la loi (approximativement valide pour un grand nombre de types de
stimulus) s’écrit ∆I/I = k, où la constante k ne dépend que du type de stimulus (par
exemple sonore, olfactif, kinesthésique, etc...) : s’il faut une différence minimale de 10
grammes pour qu’un poids soit reconnu comme plus lourd qu’un poids de référence de
100 grammes, alors on peut s’attendre qu’une différence de 2 kilogrammes soit requise
pour discriminer un poids d’un poids de 20 kilogrammes.
Si l’intensité subjective du stimulus est naturellement déterminante dans une expérience
de détection ou de discrimination, d’autres facteurs influencent la réponse du sujet : ses
attentes (par exemple conditionnées par un expérimentateur déclarant que le signal sera
rarement ou fréquemment émis), la consigne (les consignes “ne déclarez avoir perçu un
signal que si vous en être vraiment sûr” ou “surtout, efforcez-vous de ne manquer aucun
signal” produisent des effets opposés) le type d’environnement (le seuil de détection d’un
bruit pendant le sommeil, élevé dans un environnement protégé, peut s’abaisser dans
une situation perçue comme dangereuse), ou la personnalité du sujet (les “enthousiastes”
tendant à reconnaı̂tre la présence du signal beaucoup plus souvent que les “sceptiques”).
Il se trouve que la faiblesse principale de l’approche psychométrique classique, que l’on
vient d’esquisser, réside en son incapacité à séparer ces deux sources de variation, à savoir
le facteur sensoriel (intensité du stimulus), et le facteur non-sensoriel (attitude du sujet) ;
c’est là qu’entrent en jeu les deux paramètres mentionnés ci-dessus.
La théorie de la détection du signal modélise toute situation de détection au moyen d’une
variable X représentant l’intensité de la sensation du sujet. Même dans des conditions
expérimentales contrôlées, les fluctuations de l’environnement et de l’état interne du sujet
rendent les valeurs de X fluctuantes : ces dernières seront alors décrites par une distribu-
tion de probabilité, plutôt qu’une seule valeur.
Dans le formalisme le plus répandu en détection du signal, on postule alors que
● en condition N de (vrai) bruit (noise), X est distribué selon une loi normale de
moyenne µN et de variance σ 2
● en condition SN de (vrai) signal+bruit (signal+noise), X est distribué selon une loi
normale de moyenne µSN et de même variance σ 2 , avec µSN > µN .
Finalement, le sujet “choisit” un seuil critique xc au-delà duquel sa décision sera SN, et N
en deçà, exactement comme en figure 5.2 où la distribution selon H0 (resp. H1 ) corres-
pondrait à celle de X selon la condition N (resp. SN), avec µN = µ0 et µSN = µ1 .
La différence standardisée d′ ∶= (µSN − µN )/σ est d’autant plus grande que le signal est
net : d′ , contrôlé par l’expérimentateur, mesure le facteur sensoriel pur (intensité ou dis-
criminabilité du signal), tandis que xc , ou de façon équivalente c ∶= [xc − 12 (µN + µS )]/σ,
contrôlé par le sujet, mesure le facteur non-sensoriel (attitude ou critère adopté par le
sujet) : c est nul lorsque xc est à mi-distance entre µN et µSN (attitude “neutre”) ; c est
103
6. Introduction aux test statistiques
positif lorsque xc est plus proche de µSN que de µN (attitude “conservatrice”, entraı̂nant
un faible nombre de détections correctes et de fausses alarmes) ; enfin, c est négatif dans
le cas opposé “réactif” (grand nombre de détections correctes et de fausses alarmes).
Pour estimer la discriminabilité d′ et le critère c, on commence par calculer
uSN ∶= (xc − µSN )/σ et uN ∶= (xc − µN )/σ à l’aide des équations suivantes :
X − µSN xc − µSN
P (détection correcte) = P (X ≥ xc ∣µ = µSN ) = P ( ≥ ) = 1 − Φ(uSN ) (5.28)
σ σ
X − µN xc − µN
P (fausse alarme) = P (X ≥ xc ∣µ = µN ) = P ( ≥ ) = 1 − Φ(uN ) (5.29)
σ σ
On obtient alors les valeurs recherchées par
1
d′ = uN − uSN c = (uN + uSN ) (5.30)
2
En termes d’erreurs de première et de seconde espèce, il est facile de montrer que, de
façon équivalente
1
d′ = Φ−1 (1 − α) − Φ−1 (β) c = (Φ−1 (1 − α) + Φ−1 (β)) (5.31)
2
où Φ−1 (γ) = uγ est la fonction inverse de Φ(u), associant à une probabilité γ le quantile
uγ correspondant.
Exemple 33 (Expérience de reconnaissance visuelle). Lors d’une expérience de reconnais-
sance visuelle, une série de 90 photographies distinctes est présentée séquentiellement à
un sujet, à intervalles réguliers. On présente ensuite, dans un ordre aléatoire, une seconde
série de 100 photographies distinctes, contenant 60 photographies de la première série et
40 photographies nouvelles. A chaque fois, le sujet doit déterminer si la photographie lui
a déjà été présentée ou non.
Supposons que le sujet ait produit 40 détections correctes et 20 fausses alarmes. On a
donc P (détection correcte) = 40/60 = 0.66. La table de la loi normale montre que la solution
à Φ(uSN ) = 1 − 0.66 = 0.33 est uSN = −0.41 (en notant que Φ(0.41) = 0.66). De même, on
trouve que Φ(uN ) = 1 − 20/40 = 0.5, et donc uN = 0. On en déduit alors d′ = 0 − (−0.41) =
0.41 et c = 21 (0 + (−0.41)) = −0.205.
Supposons qu’un autre sujet ait obtenu, dans les mêmes conditions, 35 détections correctes
et 15 fausses alarmes. On obtient alors, de la même façon, uSN = −0.21 et uN = 0.32. En
conséquence, on a d′ = 0.53 et c = 0.055 : le second sujet reconnaı̂t mieux les photographies
que le premier (sa discriminabilité d′ est supérieure), tout en étant plus “conservateur”, i.e.
prudent dans l’affirmation “j’ai déjà vu cette photographie” (son critère c est supérieur).
6.4.1 Test entre deux hypothèses simples : quel seuil choisir ? Coûts associés aux risques (*)
On aimerait naturellement minimiser chacun des risques α et β, mais toute modification
du seuil critique xc entraı̂nera forcément une augmentation de l’un des deux risques (et la
diminution de l’autre). La seule façon de diminuer à la fois α et β consiste
√ à augmenter la
taille n de l’échantillon, ce qui a pour effet de diminuer l’écart-type σ/ n des gaussiennes
de la figure 5.2 et de les recentrer autour de leurs moyennes.
Pour n fixé, on pourrait décider de minimiser la probabilité totale d’erreur P erreur (de
première ou de seconde espèce) (5.24), donnée ici par
P (H0 )P (d(D) ∈ W ∣H0 ) + P (H1 )P (d(D) ∈ W c ∣H1 ) = P (H0 ) α(xc )+P (H1 ) β(xc ) (5.32)
Si les priors étaient égaux (i.e. P (H0 ) = P (H1 ) = 0.5), minimiser (5.32) reviendrait alors
à minimiser la somme α + β, ce qui aboutirait ici (figure 5.4 gauche) à choisir le seuil
104
6. Introduction aux test statistiques
1.0
3.0
2.5
0.8
2.0
0.6
α + 3β
α+β
1.5
0.4
1.0
0.2
0.5
0.0
0.0
60 70 80 90 100 110 120 130 60 70 80 90 100 110 120 130
xc xc
F IGURE 5.4 – probabilité totale d’erreur (5.32) en fonction du seuil xc , lorsque P (H0 ) = P (H1 ) =
0.5 (gauche), et lorsque P (H0 ) = 0.25 et P (H1 ) = 0.75 (droite)
xc = 12 (µ0 + µ1 ) = 95 situé à mi-distance entre les deux moyennes. Si H1 était jugé a priori
trois fois plus plausible que H0 (i.e. P (H0 ) = 0.25 et P (H1 ) = 0.75), alors on serait conduit
à minimiser l’expression α + 3β, ce qui aboutirait ici (figure 5.4 droite) à choisir le seuil
xc = 91.46, plus proche de µ0 que de µ1 .
De façon plus générale, en notant par c0 (resp. c1 ) le coût de l’erreur de première (resp.
seconde) espèce, avec un coût nul pour les décisions correctes, le coût moyen (5.23) à
minimiser s’écrit ici
P (H0 ) α(xc ) c0 + P (H1 ) β(xc ) c1 .
Exemple 34 (inférence au hasard). Le cas de la décision au hasard est fort instructif :
Monsieur B, prof. de maths, a malheureusement égaré dans le train des copies d’examen :
les données D ont disparu. Qu’à cela ne tienne, il décide d’attribuer à chaque élève un
résultat “réussite” avec probabilité p, et par conséquent d’attribuer le résultat “échec” avec
probabilité 1 − p. En fixant (arbitrairement, ici) H0 = “réussite” et H1 = “échec”, la pro-
babilité α de rejeter H0 à tort est celle de faire échouer un élève qui aurait dû réussir,
événement qui se produit ici (quelle qu’ait été la performance réelle de l’élève) avec la
probabilité 1 − p. Ainsi, α = 1 − p, et par un raisonnement similaire, β = p. On peut noter
que, quelle que soit la valeur de p, on a que α + β = (1 − p) + p = 1 : il s’agit de la bissectrice
du premier quadrant de la figure 5.3, qui est parcourue en faisant varier p.
Exemple 35 (Concentration de zinc dans les harengs, suite). Supposons que, dans le
cadre de l’exemple 32, les deux hypothèses en concurrence soient
H0 ∶ µ = µ0
{
H1 ∶ µ > µ0
avec µ0 = 85 et σ = 24. En se référant à la figure 5.2, H0 serait toujours bien définie par
la gaussienne correspondante, tandis que H1 serait représentée par l’ensemble de toutes les
gaussiennes de même forme (puisque σ ne change pas) situées à droite de H0 : autrement
dit, on pourrait toujours calculer α à partir de xc par (5.25), mais on ne pourrait plus
calculer β puisque µ1 est inconnu : tout ce que l’on sait est que µ1 > µ0 .
Dans ce nouvel exemple, H0 est une hypothèse dite simple, i.e. correspondant à une
seule distribution théorique, contrairement à H1 , qui est alors dit composite. On peut
considérer une hypothèse composite comme un agrégat, un collectif ou une famille d’hy-
pothèses simples. Par exemple :
105
6. Introduction aux test statistiques
H0 ∶ θ = θ0
{
H1 ∶ θ = θ1
et donc à tester entre deux hypothèses simples. Par contraste, l’exemple 35 relève de
l’approche dite de Fisher teste entre une hypothèse simple H0 et une hypothèse composite
H1 , et il en existe en général trois variantes :
unilatérale H ∶ θ = θ0 unilatérale H ∶ θ = θ0 H0 ∶ θ = θ0
{ 0 { 0 bilatérale : {
“à droite” : H1 ∶ θ > θ0 “à gauche” : H1 ∶ θ < θ0 H1 ∶ θ ≠ θ0
La règle de décision de la première variante (unilatérale “à droite”) est (comparer avec
(5.27)) :
“ on rejette H0 au niveau α si d(D) > x1−α ” (5.33)
où d(D) est la variable de décision et x1−α le (1−α)-ème quantile de la distribution sta-
tistique à utiliser dans le test (voir figure 5.5). Tant d(D) que x1−α sont spécifiés, pour
chaque test usuel, dans les formulaires statistiques, auxquels l’utilisateur doit simplement
√ H0 ∶ µ = µ0 contre H1 ∶ µ > µ0 , on a vu
se référer. Par exemple, pour le test de la moyenne
en (5.27) que l’on devait prendre d(D) = x̄−µ σ
0
n et x1−α = u1−α , le (1−α)-ème quantile de
la distribution normale standard.
La règle de décision de la seconde variante (unilatérale “à gauche”) est (figure 5.5) :
“ on rejette H0 au niveau α si d(D) < −x1−α ” ou, de façon équivalente “ si −d(D) > x1−α ” (5.34)
106
6. Introduction aux test statistiques
H0 H0 H0
0.3
0.3
0.3
densité de probabilité
densité de probabilité
densité de probabilité
0.2
0.2
0.2
0.1
0.1
0.1
α α
α=0.10 = 0.05 = 0.05 α=0.10
2 2
0.0
0.0
0.0
-6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6
d (D ) d (D ) d (D )
F IGURE 5.5 – Procédure générale pour le test d’une hypothèse simple H0 , lorsque la distribution
de la variable de décision d(D) sous H0 est symétrique et centrée autour de zéro : test unilatéral à
droite, test bilatéral, et test unilatéral à gauche. On a pris ici α = 10% et une variable de décision
d(D) suivant sous H0 une distribution de Student à 3 degrés de liberté.
Ces trois variantes sont présentes lorsque la variable de décision d(D) peut prendre des
valeurs tant positives que négatives, et que la distribution de d(D) sous H0 ∶ θ = θ0 est
symétrique, comme dans la figure 5.5, et centrée autour de zéro, la dernière condition
pouvant être imposée en redéfinissant au besoin la variable de décision.
Lorsqu’un chercheur cherche à rejeter H0 , il doit généralement appliquer la version bi-
latérale du test : dans ce cas l’hypothèse alternative H1 ∶ θ ≠ θ0 couvre en effet tous les
cas complémentaires à H0 , alors que dans les versions uni-latérales une des possibilités (à
savoir θ < θ0 dans la version à droite, et θ < θ0 dans la version à gauche) est simplement
exclue dès le départ, et ne pourra ainsi jamais être identifiée si d’aventure elle était vraie 21 .
L’inconvénient du choix bilatéral réside dans le fait que le seuil critique sera alors plus
difficile à dépasser que dans la version unilatérale (car x1− α2 > x1−α ) : on peut facilement
donner des exemples où, pour une valeur de α donnée, d(D) est significative (i.e. conduit
au rejet de H0 ) dans l’une des versions unilatérales, mais pas dans la version bilatérale.
Ce n’est que si l’on a de bonnes raisons de croire que l’une des deux alternatives θ > θ0
ou θ < θ0 peut être a priori écartée qu’il est légitime d’utiliser un test unilatéral. Cela sera
par exemple le cas du test de la différence de salaire moyen entre hommes et femmes en
Suisse au début du XXIème siècle : cette différence pourra être nulle (pas de différence :
c’est H0 ), positive (salaires masculins supérieurs aux salaires féminins : c’est H1 dans
sa version unilatérale à droite), mais non pas négative (les nombreuses études passées
n’ayant semble-t-il jamais documenté un tel cas).
107
6. Introduction aux test statistiques
H0
0.20
densité de probabilité
0.15
0.10
0.05
0.00
0 5 10 15 20
d (D )
F IGURE 5.6 – Procédure générale pour le test d’une hypothèse simple H0 , lorsque la distribution
de la variable de décision d(D) sous H0 est asymétrique et restreinte à d(D) ≥ 0, des valeurs trop
élevées de d(D) conduisant au rejet de H0 . Le début des zones grisées correspond au quantiles
x0.90 (α = 10%, zone gris clair), x0.95 (α = 5%, zone gris foncé) et x0.99 (α = 1%, zone noire). La
distribution choisie ici est celle du χ2 à 3 degrés de liberté.
L’équivalence entre (5.33) et (5.38) est facile à établir : comme d(D) = x1−p(D) par
définition, et que la quantité x1−α est décroissante en α, on a résultat que d(D) > x1−α ssi
p(D) < α (rejet de H0 ), et d(D) < x1−α ssi p(D) > α (non rejet de H0 ).
Autrement dit, la valeur p est le niveau de signification minimal auquel on puisse encore
rejeter H0 . Si p = 2% par exemple, on peut rejeter H0 à α = 5% mais non à α = 1%.
22. i.e. avant d’observer les données, c’est évidemment crucial
23. comme par exemple les valeurs courantes, mais parfaitement arbitraires α = 5% ou α = 1%, ou bien
d’autres valeurs
108
6. Introduction aux test statistiques
La valeur α, fixée par le chercheur, fixe a priori le risque maximal de commettre une erreur
de première espèce (i.e. rejeter H0 à tort), tandis que la valeur p(D) calculée par le logiciel
ou lue sur une table détaillée, donne le risque exact de commettre une erreur de première
espèce en présence de l’échantillon particulier D plutôt qu’un autre. Pour cette raison,
la valeur p est aussi appelée niveau de signification a posteriori, tandis que α serait par
contraste le niveau de signification a priori.
Finalement, on peut considérer le niveau de signification α comme la probabilité a priori
de commettre une erreur de première espèce, i.e. après avoir défini une règle de décision,
mais avant d’avoir constitué un échantillon D. Par contraste, la valeur p est, dans le cas de
rejet de H0 (i.e. lorsque p(D) < α), la probabilité a posteriori de commettre une erreur de
première espèce, i.e. après avoir obtenu l’échantillon particulier D plutôt qu’un autre.
24. coût proche de zéro, avouons-le, dans le cadre d’un travail purement méthodologique de BA ou de MA.
Pour une publication purement académique ne débouchant sur aucune action directe dans le monde, le seul coût
(qui peut être par ailleurs considérable) est celui associé à la réputation du chercheur.
109
6 Exercices corrigés
Série 1
Exercice 1.1
Donner les coordonnées de l’intersection des fonctions f1 (x) = 3x − 2 et f2 (x) = 2x − 2.
Exercice 1.2
Soient x = 2 et y = 4. Calculer 1 :
1. log2 (x) et log2 (y) ;
2. log2 (xy), log2 ( xy ) et log2 ( xy ) ;
3. log2 (xy ) et log2 (y x ) ;
y x
4. log2 ( xyx xy y ).
Exercice 1.3
Soient x1 = 2, x2 = 6, x3 = −1, x4 = 1 et x5 = −2. Calculer :
1. ∑5i=1 xi
2. ∑5i=1 2xi
3. ∑5i=1 xi
2
4. ∑5i=1 log2 (xi )
5. ∑5i=2 i⋅ xi
Exercice 1.4
1. Combien y a-t-il de classements possibles (i.e. de permutations) de 10 artistes dans
un Top 10 ?
2. Combien y a-t-il de manières de classer 6 femmes et 4 hommes dans un Top 10 (sans
distinguer les individus) ?
Exercice 1.5
Représenter chacun des ensembles suivants par un diagramme de Venn :
1. A ∪ (B ∩ C)
2. (A ∪ B) ∩ C
3. (A ∪ B) ∩ C c
4. (A ∪ B)c /C c
1. Rappel : log2 (x) = ln(x)/ ln(2).
110
5. (A/(B ∩ C))c
6. ((A △ B) △ C)c
Exercice 1.6
Soit un jeu de 36 cartes mélangé. Calculer la probabilité de tirer :
1. le 7 de carreau ;
2. un 7 ;
3. un carreau ;
4. le 7 de carreau ou le valet de trèfle ;
5. un 7 ou un valet ;
6. un carreau ou un trèfle.
Exercice 1.7
D’après les résultats de l’exercice précédent,
1. montrer que les événements “tirer un 7” et “tirer un carreau” sont indépendants ;
2. sachant qu’on a tiré un carreau, calculer la probabilité conditionnelle qu’il s’agisse
d’un 7 ;
3. sachant qu’on a tiré un 7, calculer la probabilité conditionnelle qu’il s’agisse d’un
carreau.
Exercice 1.8
Un athlète tente un salto arrière (saut périlleux), mais y échoue malheureusement, et
chute lourdement au sol. Calculer la probabilité que cet accident indique que l’athlète
n’était pas entraı̂né au salto (arrière), sachant que :
● la probabilité qu’un athlète échoue au salto est de 1/3
● la probabilité qu’un athlète ne soit pas entraı̂né au salto est de 1/3
● la probabilité qu’un salto échoue lorsque l’athlète n’y est pas entraı̂né est de 3/4.
Exercice 1.9
Sur une population donnée, nous connaissons l’étendue d’une maladie et la fiabilité d’un
test de dépistage de cette maladie. Soient les événements suivants :
A : “ le test est positif”
M : “l’individu testé est malade”
On sait que P (M ) = 20 1
, P (A∣M ) = 20
19
et P (Ac ∣M c ) = 100
99
.
1. Décrire en français les événements dont les probabilités sont données ci-dessus.
2. Quelle est la probabilité qu’un individu choisi au hasard soit malade sachant qu’il a
réagi positivement au test ?
Exercice 1.11
Etant donné x1 = 2, x2 = −1, x3 = −1, x4 = 4, x5 = 1 calculer :
(a) ∑5i=1 xi (b) ∑4i=0 xi+1 (c) ∑5i=1 x2i
(d) ∑5i=1 (xi + 1) (e) ∑4i=1 xxi+1
i
(f) 15 ∑5i=1 x3i
Exercice 1.12
1. Calculer : (a) 4! (b) (43) (c) (53)
2. Montrer que 25 (43) = (53)
111
(n+1) n
3. Montrer que ( )
(n+1−k) k
= (n+1
k
)
Exercice 1.13
Vrai ou faux ?
(a) {x ∣ x =/ x} = ∅.
(b) Si A = {x ∣ x est un entier impair} et B = {x ∣ (x − 3)(x − 5) = 0} alors B ⊂ A.
(c) Si A = {x ∣ x2 = 4, x > 9} et B = {x ∣ x ≥ 1}, alors A ⊂ B
Exercice 1.14
On tire au hasard une carte dans un paquet de 52 cartes à jouer.
1. Décrire l’univers Ω lié à cette expérience aléatoire.
2. Considérons les événements A et B correspondants respectivement au tirage d’un
roi et au tirage d’un trèfle. Décrire en français les événements suivants : A ∩ B ,
A ∪ B , A ∩ B c , Ac ∩ B c , A ∖ B , (A ∩ B) ∪ (A ∩ B c ).
3. Calculer les probabilités liées aux 8 événements définis ci-dessus.
4. Les événements A et B sont-ils indépendants ? Vérifiez votre réponse par le calcul.
Exercice 1.15
Les trois informations suivantes sur les événements A et B sont-elles simultanément com-
patibles ? Justifier votre réponse.
1. P (A) = 13 et P (B) = 14 .
2. A et B sont disjoints.
3. A et B sont indépendants.
Exercice 1.16
Trois événements A, B et C sont dits indépendants s’ils satisfont les quatre conditions sui-
vantes :
P (A ∩ B) = P (A) ⋅ P (B)
P (A ∩ C) = P (A) ⋅ P (C)
P (B ∩ C) = P (B) ⋅ P (C)
P (A ∩ B ∩ C) = P (A) ⋅ P (B) ⋅ P (C)
On va montrer sur l’exemple suivant que les trois premières relations peuvent être sa-
tisfaites sans que la quatrième le soit, ce qui signifie que l’indépendance deux à deux
n’implique pas l’indépendance de trois événements :
Considérons l’expérience aléatoire consistant à lancer deux pièces équilibrées distinguables
ainsi que les événements suivants :
A : “la première pièce présente le côté face.
B : “la deuxième pièce présente le côté pile”.
C : “les deux pièces présentent soit les deux le côté face, soit les deux le côté pile”.
Montrer que les événements A, B et C sont indépendants deux à deux, mais ne sont pas
indépendants.
Exercice 1.17
Une urne contient 2 boules marquées d’un “A”, une boule marquée d’un “B” et une boule
marquée d’un “C”. Les 4 boules sont tirées successivement au hasard et sans remise.
Quelles sont les probabilités liées aux événements suivants :
La suite des lettres commence par : i) “A” ; ii) “B” ; iii) “C” ; iv) “AA” ; v) “AB” vi) “ABA”
Corrigé de la série 1
Exercice 1.1
Les coordonnées de l’intersection sont (0, −2).
112
Exercice 1.2
Avec x = 2 et y = 4, on trouve :
1. log2 (x) = 1 et log2 (y) = 2
2. log2 (xy) = 3, log2 ( xy ) = −1 et log2 ( xy ) = 1
3. log2 (xy ) = 4 et log2 (y x ) = 4
y x
4. log2 ( xyx xy y ) = log2 (1) = 0
Exercice 1.3
Avec x1 = 2, x2 = 6, x3 = −1, x4 = 1 et x5 = −2, on trouve :
1. ∑5i=1 xi = 6
2. ∑5i=1 2xi = 12
3. ∑5i=1 xi
2
=3
∑i=1 log2 (xi ) n’est pas défini, car log2 (xi ) n’est pas défini pour les arguments négatifs
5
4.
x3 et x5
5. ∑5i=2 i⋅ xi = 3
Exercice 1.4
1. 10! = 3′ 628′ 800
2. (10
6
)= 10!
4!6!
= 10⋅9⋅8⋅7
4!
= 210
Exercice 1.5
Exercice 1.4
1. 2.
A B A B
C C
3. 4.
A B A B
C C
5. 6.
A B A B
C C
Exercice 1.6
En tirant une carte dans un jeu de 36 cartes mélangé,
1. P ( 7 ∩ carreau ) = 1/36
2. P ( 7 ) = 1/9
3. P ( carreau ) = 1/4
4. P ( (7 ∩ carreau) ∪ (valet ∩ trèfle) ) = 1/18
5. P ( 7 ∪ valet ) = 2/9
6. P ( carreau ∪ trèfle ) = 1/2
113
Exercice 1.7
D’après les résultats de l’exercice précédent,
1. les événements 7 et carreau sont indépendants car on a P (7 ∩ carreau) = 1/36,
P (7) = 1/9 et P (carreau) = 1/4, et donc P (7 ∩ carreau) = P (7) ⋅ P (carreau)
2. P (7∣carreau) = P (P7(carreau
∩ carreau)
)
= 1/36
1/4
= 1/9. Plus simplement encore, en tenant
compte de l’indépendance : P (7∣carreau) = P (7) = 1/9.
3. P (carreau∣7) = P (carreau) = 1/4.
Exercice 1.8
On pose :
● A = “échouer au salto” ;
● B = “ne pas être entraı̂né au salto”.
On sait que P (A) = 1/3, P (B) = 1/3 et P (A∣B) = 3/4. Par la règle de Bayes, on trouve la
solution recherchée P (B∣A) = P (A∣B)P
P (A)
(B)
= (3/4)⋅(1/3)
1/3
= 3/4.
Exercice 1.9
1. A ∣ M : “un individu qui est malade réagit positivement au test”
Ac ∣ M c : “un individu qui n’est pas malade réagit négativement au test”.
P (A) dénote la proportion de malades dans la population, P (A∣M ) la propor-
tion d’individus positifs parmi les malades, et P (Ac ∣M c ) la proportion d’individus
négatifs parmi les non malades.
2. Par la formule de la probabilité totale,
19 1 1 19 57
P (A) = P (A ∣ M ) ⋅ P (M ) + P (A ∣ M c ) ⋅ P (M c ) = + =
20 20 100 20 1000
et ainsi
19 1
P (M ∩ A) P (A ∣ M ) ⋅ P (M ) 5
P (M ∣ A) = = = 20 20
= = 0.83
P (A) P (A) 57
1000
6
114
f) L’identité P (B) = P (B∣A)P (A)+P (B∣Ā)P (Ā), facile à démonter, est toujours vérifiée,
quels que soient A et B. Elle peut être illustrée par le schéma en arbre de la figure
(1.3).
g) Plus généralement, étant donnée une partition A = {Aj }m
j=1 (définition 5.3), on a
toujours
m
P (B) = ∑ P (Aj )P (B∣Aj )
j=1
car la réalisation de B a lieu en même temps que la réalisation de l’un (et l’un seul)
des Aj (propriété d’exhaustivité et d’exclusivité), ce que l’on illustre facilement par
un schéma en arbre.
h)
P (A ∩ B) P (A ∩ B) P (A) P (A)
P (A∣B) = = = P (B∣A)
P (B) P (A) P (B) P (B)
Exercice 1.11
5
(a) ∑ xi = x1 + x2 + x3 + x4 + x5 = 2 + (−1) + (−1) + 4 + 1 = 5
i=1
4
(b) ∑ xi+1 = x0+1 + x1+1 + x2+1 + x3+1 + x4+1 = x1 + x2 + x3 + x4 + x5 = 5
i=0
5
∑ xi = x1 + x2 + x3 + x4 + x5 = 4 + 1 + 1 + 16 + 1 = 23
2 2 2 2 2 2
(c)
i=1
5
(d) ∑(xi + 1) = 3 + 0 + 0 + 5 + 2 = 10
i=1
4
xi x1 x2 x3 x4 2 −1 −1 4
(e) ∑ = + + + = + + + = −2 + 1 − 0.25 + 4 = 2.75
i=1 xi+1 x2 x3 x4 x5 −1 −1 4 1
1 5 3 1 1
(f) ∑ x = (8 − 1 − 1 + 64 + 1) = × 71 = 14.2
5 i=1 i 5 5
Exercice 1.12
En utilisant la formule (n + 1)! = (n + 1) × n! et (n − k + 1)! = (n − k + 1) × (n − k)! on obtient
les résultats suivants :
1. (a) 4! = 4 × 3 × 2 × 1 = 2 (b) (43) = 4!
3!×1!
= 4×3×2×1
3×2×1
=4
(c) (3) = 3!×2!
5 5!
= (3×2×1)×(2×1)
5×4×3×2×1
= 10
2. ( ) = 25 × 3!×1!
5 4
2 3
4!
= 3!×2!
5!
= (53)
(n+1) n (n+1) (n+1)!
3. ( ) = (n+1−k)
(n+1−k) k
× (n−k)!×k!
n!
= (n−k+1)!×k!
= (n+1
k
)
Exercice 1.13
(a) Vrai.
(b) Vrai, car A = {1, 3, 5, 7, . . .} et B = {3, 5} ; ainsi B ⊂ A.
(c) Vrai, car A = ∅ et B = {1, 2, 3, 4, . . .} ; ainsi A ⊂ B.
Exercice 1.14
1. En affectant respectivement aux rangs coeur, pique, carreau, trèfle les numéros 1,
2, 3, 4 et aux cartes de chaque rang, de l’as au roi, les numéros 1 à 13, on obtient
l’univers Ω = {(1, 1), (1, 2), ⋯, (1, 13), ⋯, (4, 13)}, avec ∣Ω∣ = 52.
2. a) A ∩ B : “roi de trèfle”
b) A ∪ B : “roi ou trèfle (ou les deux)”
c) A ∩ B c : “roi et non-trèfle”
d) Ac ∩ B c : “ni roi ni trèfle”
115
e) A ∖ B : “roi, sauf celui de trèfle”
f) (A ∩ B) ∪ (A ∩ B c ) : “roi de trèfle ou de non-trèfle”, i.e. “roi”.
3. A = {(1, 13), (2, 13), (3, 13), (4, 13)} donc P (A) = 524
= 13
1
A ∖ B = A ∩ B donc P (A ∖ B) = 52
c 3
(A ∩ B) ∪ (A ∩ B c ) = A donc P ( (A ∩ B) ∪ (A ∩ B c ) ) = 13 1
Exercice 1.15
Elles ne sont pas simultanément compatibles, car, comme A et B sont disjoints, P (A ∩ B) =
P (∅) = 0 ; mais si A et B sont indépendants, P (A ∩ B) = P (A) ⋅ P (B) = 13 ⋅ 41 = 12
1
=/ 0 , d’où
contradiction.
Exercice 1.16
Un calcul simple donne : P (A) = P (B) = P (C) = 12
P (A ∩ B) = P (B ∩ C) = P (A ∩ C) = 41
P (A ∩ B ∩ C) = 0
Les trois premières relations de la définition sont donc vérifiées sans que la quatrième ne
le soit.
Exercice 1.17
L’univers associé au tirage sans remise est constitué de 12 événements (de même proba-
bilité), à savoir
Ω = {AABC, AACB, ABAC, ACAB, ABCA, ACBA, BAAC, CAAB, BACA, CABA, BCAA, CBAA}
En notant par {A...} l’événement “la suite des lettres commence par “A”, etc., on a ainsi
P ({A...}) = 12 , P ({B...}) = 14 , P ({C...}) = 14 , P ({AA..}) = 16 , P ({AB..}) = 16 ,
P ({ABA.}) = 121
Une autre méthode (plus directe) consiste à examiner le schéma en arbre généré par les
tirages, le premier embranchement correspondant au tirage de la première boule, etc...
Par exemple, P (AB) = P (première = A)P (seconde = B∣première = A) = 12 31 = 16 .
116
Série 2
Série 2
Exercice 2.1
Un score est la valeur prise par une variable sur un individu. Pour chacun des scores sui-
vants, donner (parmi de nombreuses solutions en général) le type de la variable, des va-
leurs possibles de scores, et un échantillon (= ensemble d’individus) possible.
Par exemple : “La couleur d’un véhicule” est un score de type catégoriel ; les scores pos-
sibles sont “rouge”, “blanc”, “vert”, etc. Ils réfèrent à un échantillon de véhicules tel que
“véhicules circulant entre le 1.9.2014 et le 1.10.2014 dans le canton de Vaud”, “véhicules
hybrides danois mis en circulation en 2010”, etc. Hi
1. La commune de domicile,
2. Le nombre de passagers d’un train,
3. La durée d’un voyage en train Genève-Berne,
4. Les numéros postaux des localités suisses,
5. Le nombre de pattes des animaux domestiques d’un appartement,
6. La corpulence des passagers d’un ferry
7. La saveur des bonbons d’un kiosque,
8. Le maximum annuel, en Suisse, depuis 1830, des températures journalières moyennes,
9. Les millésimes des bouteilles d’une cave de restaurant
10. La qualité de l’équipe de football nationale.
Exercice 2.2
Lors d’un sondage concernant l’élection de 3 candidats (A, B et C), 20 personnes ont
été interrogées. Le tableau des données ci-après contient les scores des variables x =
“intention de vote”, y = “sexe”, z= “âge”, w = “revenu annuel” (en milliers de francs).
1. Décrire le type des variables en jeu et leurs scores possibles.
2. Faire un diagramme en bâtonnets pour x.
3. Faire un histogramme pour z (avec une largeur de classe de 10 ans).
4. Faire un diagramme de dispersion z (en abscisse) et w (en ordonnée)
5. Faire une table de contingence pour y (en lignes) fois x (en colonnes).
117
Série 2
x y z w
1 A F 20 17
2 B H 35 49
3 B H 27 55
4 B F 39 18
5 B F 29 32
6 A F 45 69
7 C H 31 45
8 A F 45 97
9 B H 47 81
10 C F 50 30
11 B F 20 30
12 C F 32 48
13 C F 50 110
14 C H 27 72
15 B F 63 83
16 A H 60 57
17 C H 76 73
18 B F 29 86
19 B F 43 80
20 A H 83 50
Exercice 2.3
Voici les meilleurs temps (données brutes, format [min: sec]) effectués aux 29 courses
internationales d’escargot de 1997 à 2003 (règlement de la course et palmarès obtenus en
2004 du site http ://www.schnecken.ch – aujourd’hui disparu).
15 ∶ 23 20 ∶ 47 20 ∶ 20 21 ∶ 30 > 30 > 30 15 ∶ 35 9 ∶ 11 8 ∶ 17 9 ∶ 16
11 ∶ 15 16 ∶ 05 10 ∶ 06 7 ∶ 38 4 ∶ 03 5 ∶ 54 14 ∶ 18 8 ∶ 07 5 ∶ 11 5 ∶ 40
5 ∶ 39 7 ∶ 05 5 ∶ 36 6 ∶ 55 8 ∶ 12 6 ∶ 16 5 ∶ 27 10 ∶ 00 4 ∶ 32
Exercice 2.4
Voici le temps en minutes (données mises en classes) consacré quotidiennement à la
révision d’une matière par 100 personnes :
118
Série 2
Exercice 2.5
12 étudiants ont obtenu les résultats suivants à deux examens :
EXAMEN 1 : 72 ; 75 ; 75 ; 97 ; 54 ; 72 ; 86 ; 72 ; 63 ; 78 ; 82 ; 91.
EXAMEN 2 : 78 ; 42 ; 72 ; 88 ; 86 ; 97 ; 91 ; 79 ; 82 ; 86 ; 91 ; 74.
Exercice 2.6
La conversion x = “température en degrés Celsius” ↔ y = “température en degrés Fah-
renheit” est donnée par (2.1). L’enregistrement hebdomadaire de température sur une
certaine station donne une moyenne et un écart-type de 20, respectivement 15 Celsius.
Que valent la température moyenne, son écart type et sa variance, en degrés Fahrenheit ?
Exercice 2.7
Un individu peut posséder ou non une propriété A, ce qui définit une variable bimodale
z A , qui prend les valeurs 0 ou 1. Pour chaque individu i dans un échantillon (constitué de
n individus i = 1, . . . , n), on convient que son score ziA vaut 1 s’il possède la propriété A
(ou s’il appartient à l’ensemble A), et vaut 0 sinon : ziA = 1 ssi i ∈ A, et ziA = 0 ssi i ∉ A.
Une telle variable est appelée fonction indicatrice ou fonction caractéristique de A.
2
Pour rappel, z̄ A = n1 ∑ni=1 ziA , et var(z A ) = (z A ) − (z A )2 (comme pour n’importe quelle
variable numérique). Déterminer si chacun des énoncés suivants est vrai ou faux :
1. Le score ziA de chaque individu de l’échantillon est égal à son carré :(ziA )2 = ziA pour
tout i = 1, . . . , n.
2. Le nombre nA d’individus de l’échantillon appartenant à A est égal à la somme des
scores ziA sur tous les individus : nA = ∑ni=1 ziA .
3. La proportion d’individus de l’échantillon appartenant à A est égale à la moyenne
de z A dans l’échantillon : fA = z̄ A .
4. La variance de z A dans l’échantillon est égale à la proportion d’individus appartenant
à A, multipliée par la proportion d’individus n’appartenant pas à A : c’est à dire
var(z A ) = fA (1 − fA ).
5. Le score ziA d’un individu i est supérieur ou égal à son score ziB ssi appartenir à A
implique d’appartenir à B (p.ex. si A est l’ensemble des saxophonistes et B celui des
musiciens) : ziA ≥ ziB pour tout i = 1, . . . , n ssi A ⊂ B.
6. Le produit des scores ziA et ziB d’un individu i est égal à 1 ssi appartenir à A implique
de ne pas appartenir à B (p.ex. si A est l’ensemble des végétaux et B celui des
minéraux) : ziA ziB = 1 ssi A et B sont disjoints.
7. Les ensembles A, B et C forment une partition de Ω ssi chaque individu de l’échan-
tillon appartient à un et un seul de ces ensembles : ziA + ziB + ziC = 1 pour tout
i = 1, . . . , n.
119
Série 2
Exercice 2.9
Standardiser les scores de la variable x ci-dessous, et calculer la moyenne et la variance
de la variable standardisée.
x 2 6 5 9 7 6
Exercice 2.10
Soit la variable catégorielle x = “région linguistique suisse”, à m = 3 modalités (à savoir
“romande”, “alémanique” et “italophone”). Effectuer une dichotomisation de x, i.e. une
décomposition de x en variables bimodales codées comme 1 ou 0.
Exercice 2.11
Soient 3 variables catégorielles bimodales x, y et z :
x = “sexe” (“femme” codé i = 1 et “homme” codé i = 2)
y = “attitude tabac” (“fumeur” codé j = 1 et “non fumeur” codé j = 2)
z = “latéralité” (“droitier” codé k = 1 et “gaucher” codé k = 2).
En utilisant la notation nijk = “nombre de personnes dans la modalité i de x, j de y et k
de z”, montrer que, dans une population quelconque, le nombre de femmes qui fument est
plus petit ou égal au nombre des personnes qui sont droitières et qui fument, additionné
du nombre de femmes qui sont gauchères.
Corrigé de la série 2
Exercice 2.1
1. La commune de domicile : catégoriel (Lausanne, Ecublens, . . . ) ; échantillon = ha-
bitants du canton de VD (par exemple).
2. Le nombre de passagers d’un train : numérique (0, 1, 2, 3, . . . ) ; échantillon =
ensemble des trains circulant sur le territoire jurassien en 2013.
3. La durée d’un voyage en train Genève-Berne : numérique (1h20m, 3h28m, . . . ) ;
échantillon = tous les voyages Genève-Berne d’une personne donnée entre 2010 et
2020.
4. Les numéros postaux des localités suisses : catégorielle (1000, 1012, . . . ) ; échantillon
= les domiciles des étudiants inscrits à l’UNIL au SP 2020.
5. Le nombre de pattes des animaux d’un appartement : numérique : 0, 2, 4, 6, 8 (en
excluant les animaux estropiés et les mille-pattes), échantillon = ensemble d’appar-
tements d’un quartier de la Chaux-de-Fonds.
6. La corpulence des passagers d’un ferry : ordinale (p.ex. faible, moyenne, forte), ou
numérique (tous les nombres réels non-négatifs mesurant p.ex. le tour de taille) ;
échantillon = tous passagers d’un certain ferry - ou ceux que l’observateur a pu
croiser.
7. La saveur des bonbons : catégorielle (p.ex. fraise, ananas, . . . ou doux, acidulé,
fruité, . . . ) ; échantillon = marchandise exposée dans ce kiosque le 15.9.2014.
8. Le maximum annuel des températures journalières moyennes : numérique (26.3○ C,
32.7○ C, . . . ) ; échantillon = les années 1830 à 2014.
9. Les millésimes des bouteilles : numérique (2013, 2020, 2006. . . ) ; échantillon = les
bouteilles de la cave.
120
Série 2
Exercice 2.2
100
5
8
80
4
w = revenu
effectif
6
effectif
60
4
40
1
2
20
0
20 30 40 50 60 70 80 90 20 30 40 50 60 70 80
0
A B C âge z = âge
y / x A B C
5. Table de contingence : F 3 6 3
H 2 3 3
Exercice 2.3
Un peu de réflexion montre que le premier quartile ne dépend clairement pas de la valeur
exacte des deux observations supérieures à une demi-heure.
La construction d’un histogramme contenant aussi la classe infinie [30, ∞) serait problé-
matique : la surface du rectangle correspondant devrait correspondre à 2/29 du total,
mais, au vu de sa base infinie, la hauteur de cette classe devrait être nulle (surface = base
× hauteur).
121
Série 2
12
0.30
10
0.25
8
effectif
Fn(x)
6
0.20
4
0.15
2
0.10
0
temps
Exercice 2.4
1. Fonction de répartition F (t) du temps t en minute consacré quotidiennement à la
révision de la matière (à partir de données mises en classes) :
1.0
0.8
0.6
F(t)
0.4
0.2
0.0
0 10 20 30 40
122
Série 2
1.0
0.8
0.6
F(x)
0.4
0.2
0.0
50 60 70 80 90 100
x = EXAMEN 1
2. EXAMEN 1 :
1 n 1 12
Médiane : x0.5 = 75. Moyenne : x̄ = ∑ xi = ∑ xi =
n i=1 12 i=1
1
× (54 + 63 + 72 + 72 + 72 + 75 + 75 + 78 + 82 + 86 + 91 + 97) = 76.4
12
2 2
1 n 1 n 1 917
Variance : var(x) = ∑ x2i − ( ∑ xi ) = × 71581 − ( ) = 125.6
n i=1 n i=1 12 12
EXAMEN 2 :
1 n 1 12
Médiane : x0.5 = 84. Moyenne : x̄ = ∑ xi = ∑ xi =
n i=1 12 i=1
1
× (42 + 72 + 74 + 78 + 79 + 82 + 86 + 86 + 88 + 91 + 91 + 97) = 80.5
12
2
1 n 1 n 1 966 2
Variance : var(x) = ∑ x2i − ( ∑ xi ) = × 79980 − ( ) = 184.8
n i=1 n i=1 12 12
123
Série 2
Exercice 2.6
Moyenne : ȳ = 95 x̄ + 32 = 59 20 + 32 = 68 degrés Fahrenheit
Ecart-type : sy = 95 ȳ = 95 15 = 27 degrés Fahrenheit
Variance : var(y) = s2y = 272 = 729 [degrés Fahrenheit au carré] .
Exercice 2.7
1. Vrai
2. Vrai
3. Vrai, car z̄ A = 1
n ∑i=1 ziA =
n nA
n
= fA
2
4. Vrai : var(z A ) = (z A )
− (z A )2 = z A − (z A )2 d’après la première proposition de cet
exercice. Or z − (z ) = fA − fA2 = fA (1 − fA ).
A A 2
Exercice 2.9
x̄ = 5.83, sx = 2.12 xs -1.81 0.08 -0.39 1.50 0.55 0.08 x¯s = 0, var(xs ) = 1
Exercice 2.10
Par exemple, on définit les événements A = “région latine” (i.e. romande ou italophone),
et B = “région romande”, avec les variables indicatrices (=fonctions caractéristiques)
associées, i.e. z ∶= I(A) et w ∶= I(B).
Un romand (x = 1) sera alors codé par (z = 1, w = 1) ; de même, un alémanique (x = 2)
sera codé par (z = 0, w = 0), et un italophone (x = 3) par (z = 1, w = 0). Les m − 1 = 2
variables bimodales z et w constituent alors une dichotomisation possible de la variable
catégorielle x à m = 3 modalités. En général, une variable catégorielle à m modalités peut
être décomposée en (et reconstruite par) m − 1 variables bimodales.
Naturellement, d’autres solutions existent. On peut noter que le profil (z = 0, w = 1), qui
caractériserait un non-latin romand, n’apparaı̂t pas.
Exercice 2.11
Nombre de femmes qui fument = n111 + n112 = n11●
Nombre de personnes droitières qui fument = n111 + n211 = n●11
Nombre de femmes gauchères = n112 + n122 = n1●2
Il s’agit de montrer que n11● ≤ n●11 + n1●2 , ou, de façon équivalente, que n111 + n112 ≤
n111 + n211 + n112 + n122 . Comme n211 et n122 sont non-négatifs, l’inégalité en découle
immédiatement.
124
Série 3
Série 3
Pour les exercices 3.1 et 3.2 ci-dessous, on considère les deux variables numériques
suivantes :
x 3 9 6 9 0 4 5 1 9 1
y 7 0 2 4 9 9 5 9 10 0
Exercice 3.1
1. Tracer la fonction de répartition F (x).
2. D’après votre graphique, quelle proportion des valeurs de x sont strictement inférieures
à 7 ? strictement supérieures à 2 ?
2
3. Dessiner le boxplot de x.
4. Calculer la moyenne, la médiane, l’écart-type et l’intervalle semi-interquartile de x
(défini par 12 (x0.75 − x0.25 )) et comparer les différents résultats obtenus.
Exercice 3.2
1. Calculer var(x), var(y) et cov(x, y).
2. Que vaut corr(x, y) ?
3. Comparer var(xs ), var(y s ), cov(xs , y s ) et corr(xs , y s ) avec les valeurs obtenues aux
deux questions précédentes. Que constatez-vous ?
Exercice 3.3
On considère un échantillon de 180 étudiant.e.s de sexe x (j = 1 : femmes ; j = 2 : hommes)
et de type d’étude y (k = 1 : type A ; k = 2 : type B ; k = 3 : type C) distincts.
1. Trouver les valeurs de la table de contingence njk sachant qu’il y a autant d’étudiantes
de type A que d’étudiants de type B, qu’il n’y a pas d’étudiants de type A, que la pro-
portion hommes/femmes est la même dans les types B et C, que le type C est deux
fois plus nombreux que le type B, et qu’il y a autant d’étudiantes que d’étudiants
dans tout l’échantillon.
2. Que valent n12 et n21 ?
3. Que valent n1● et n●1 ?
4. Vérifier que ∑j nj● = ∑k n●k = n.
nj● n●k
jk une nouvelle table de contingence définie par njk ∶=
5. Soit ntheo theo
n
; trouver les
valeurs de la table de contingence ntheo
jk .
6. Quelle est la probabilité pour qu’une étudiante de l’échantillon suive des études de
type B ?
7. Quelle est la probabilité pour qu’une personne suivant des études de type B soit un
homme ?
Exercice 3.4
Soit la table de contingence njk suivante, qui croise deux variables à m1 = 2 et m2 = 3
modalités (n = 100 individus) :
2. Rappel : un boxplot est une représentation schématique de la répartition des valeurs d’un échantillon ; on
indique la médiane, les premier et troisième quartiles (“boı̂te”) ainsi que, en général, les premier et neuvième
déciles (“moustaches”).
125
Corrigé de la série 3
10 20 10
30 10 20
nj● n●k
jk ∶=
1. Calculer les scores théoriques sous l’hypothèse d’indépendance nth n
.
m2 (njk −njk )
th 2
2. Calculer le chi2 ∶= m1
∑j=1 ∑k=1 th
njk
associé à la table njk .
3. Que vaudrait le chi2 associé cette fois non pas à la table observée njk mais à la table
théorique nth
jk calculée en 3.4.1 ?
Exercice 3.5
On a relevé la taille x (en [cm]) de n = 8 individus répartis dans m = 3 groupes de tailles
n1 = 3, n2 = 2 et n3 = 3 :
Exercice 3.6
On a relevé les scores des variables x = “note de dessin” et y = “note de chant” dans une
classe. Les moyennes, les écarts-types et la corrélation empiriques valent : x̄ = 4, ȳ = 5,
sx = 1, sy = 1.5 et r = 2/3.
1. Quel pourcentage de la variance de y est expliqué par x ?
2. Quelle est la note de chant prédite si un élève obtient un 4.5 en dessin ? Rappel : les
valeurs prédites par régression linéaire sont données par y ∗ = ax + b.
3. Même question en utilisant les scores standardisés et la formule y s∗ = rxs .
4. Quelle est la note de dessin prédite si un élève obtient un 5.5 en chant ? (utiliser
x∗ = Ay + B avec les valeurs convenables de A et B)
5. Même question en utilisant les scores standardisés (xs∗ = ry s ).
Corrigé de la série 3
Exercice 3.1
1. et 3. Fonction de répartition de x (à gauche) et boxplot de x (à droite).
10
8
6
4
2
0
. 126
Corrigé de la série 3
Exercice 3.2
1. var(x) = 11.01, var(y) = 13.45 et cov(x, y) = −2.95.
2. corr(x, y) = −0.24.
3. Par construction, var(xs ) = 1, var(y s ) = 1. Egalement, cov(xs , y s ) = corr(xs , y s ) =
corr(x, y).
Exercice 3.3
njk A B C tot. ntheo
jk A B C tot.
femme 30 20 40 90 femme 15 25 50 90
1. et 5.
homme 0 30 60 90 homme 15 25 50 90
tot. 30 50 100 180 tot. 30 50 100 180
2. n12 = 20, n21 = 0.
3. n1● = 90, n●1 = 30.
6. P (Y = B∣X = femme) = 20
90
= 0.22.
7. P (X = homme∣Y = B) = 30
50
= 0.6.
Exercice 3.4
11 ∶= = = 16, nth
12 ∶= = = 12, etc. La table des effectifs
n1● n●1 40⋅40 n1● n●2 40⋅30
1. nth n 100 n 100
16 12 12
théoriques nth
jk est :
24 18 18
16 12 18
= 13.19
3. On obtiendrait un chi2 nul, puisque les variables sont indépendantes par construc-
tion dans la table nth jk . Une autre façon de le dire est que le calcul des effectifs
théoriques à partir de nth jk (plutôt qu’à partir des effectifs observés njk ) donne en-
core et toujours nthjk , et donc que le chi2 associé (3.5) vaut zéro.
Exercice 3.5
1. x̄ = 172, x̄1 = 171, x̄2 = 181, x̄3 = 167.
2. var1 (x) = 68.67, var2 (x) = 16, var3 (x) = 234.
3(171−172)2 +2(181−172)2 +3(167−172)2
3. varB (x) = 8
= 30.
4. varW (x) = 3⋅68.67+2⋅16+3⋅234
8
= 117.5.
5. F = 2 / 5 = 0.64.
30 117.5
Exercice 3.6
(y ∗ )
1. var
var(y) = r = ( 3 ) =
2 2 2 4
9
= 44%
ȳ − ax̄ = 5 − 1 ⋅ 4 = 1, y ∗ = 1 ⋅ 4.5 + 1 = 5.5
s
2. a = r sxy = 23 1.5
1
= 1, b =
3. x = 1 = 0.5, y s∗
s 4.5−4
= 23 ⋅ 0.5 = 13 = 0.33 (on peut vérifier que y ∗ = ȳ + sy ⋅ y s∗ =
5 + 1.5 ⋅ 0.33 = 5.5, cf. question 2)
4. A = r ssxy = 23 1.5
1
= 49 , B = x̄ − Aȳ = 4 − 94 ⋅ 5 = 16
9
, x∗ = 94 ⋅ 5.5 + 16
9
= 4.22
5. y s = 5.5−5
1.5
= 13 , xs∗ = 21
33
= 2
9
= 0.22 (vérification : x∗ = x̄ + sx ⋅ xs∗ = 4 + 1 ⋅ 0.22 = 4.22,
cf. question 4).
127
Série 4
Série 4
Exercice 4.1
Le graphe suivant représente la fonction de répartition F (x) d’une loi de probabilité conti-
nue (rappel : F (x) = P (X ≤ x)).
1
0.95
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
F(x)
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
Exercice 4.2
On considère la loi de probabilité discrète p suivante, donnant les probabilités pi des va-
leurs numériques possibles xi d’une variable X :
128
Série 4
x p
0 0.4
1 0.3
2 0.2
5 0.1
Exercice 4.3
Les Suisses ont lu la trilogie “La vie rêvée d’Anselme” avec une probabilité p = 0.2. On
interroge 12 personnes tirées au hasard dans la population suisse.
1. Quelle est la probabilité que 5 personnes aient lu la trilogie ?
2. Quelle est la probabilité qu’au moins 1 personne l’ait lue ?
Exercice 4.4
Monsieur K. se promène au hasard dans les rues de Lausanne et compte le nombre X
de personnes ayant lu la trilogie “La vie rêvée d’Anselme” qu’il croise en une heure. Les
expériences d’un institut de sondage ont montré que ce nombre vaut en moyenne 20.
1. Quelle est la distribution suivie par la variable X ?
2. Quelle est la probabilité que Monsieur K. croise en une heure 15 personnes ayant lu
la trilogie ?
3. Quelle est la probabilité qu’au moins 1 personne l’ait lue ?
Exercice 4.5
Au SA2012, la Faculté des GSE comptait 792 étudiant-e-s (tous programmes confondus),
dont 350 Vaudois, 318 Confédérés (= autres Suisses), et 124 Etrangers (catégorisés ainsi
selon le lieu de domicile légal au moment de l’obtention de la maturité).
Evaluer la probabilité que, autour d’une table partagée par quatre étudiants de GSE, on
compte 1 Vaudois et 3 étrangers. Quelle hypothèse implicite permet de justifier cette esti-
mation ?
Exercice 4.6
La distribution de la taille des Kurlandaises est une loi normale de moyenne µ = 175 cm et
d’écart-type σ = 15 cm.
1. Quelle est la probabilité qu’une Kurlandaise soit plus grande que 2 m ?
2. Quelle est la probabilité que la taille d’une Kurlandaise soit comprise entre 150 cm
et 170 cm ?
3. Quelle est la probabilité qu’une Kurlandaise soit plus grand que 150 cm sachant
qu’elle est plus petite que 170 cm ?
Exercice 4.7
Vrai ou faux ?
1. Déclarer que X ∼ B(1, p) équivaut à déclarer que X prend les deux valeurs 1 et 0,
avec P (X = 1) = p et P (X = 0) = 1 − p.
2. Si X ∼ B(1, p) alors E(X) = p et Var(X) = p(1 − p).
3. Le 6-ème décile de la loi N (0, 1) est x0.6 = 0.25.
4. L’intervalle interquartile de la loi N (µ, σ 2 ) est 2σ.
5. Chaque jour, Anselme joue au loto et perd 5 francs en moyenne, avec un écart-type
de 20 francs. Alors, au bout de n jours (n grand), la variable X = “perte journalière
moyenne” sera distribuée comme N (5, 400 n
).
129
Série 4
6. Pour mesurer une moyenne avec une précision 10 fois plus grande, il faut 10 fois
plus d’observations.
Exercice 4.8
Soit un dé ordinaire équilibré. On définit les variables Y = “valeur du chiffre tiré” et X =
“variable indicatrice de l’événement chiffre pair tiré”.
1. Calculer Corr(X, Y ).
2. Quelle est, par régression linéaire, la valeur attendue Y ∗ du chiffre tiré si X = 0 ?
3. Idem si X = 1 ?
4. Aurait-on pu trouver ces valeurs par une méthode plus simple ?
Exercice 4.9
Soit un questionnaire à choix multiples comprenant 6 questions avec 4 choix possibles à
chaque fois. Quelle est la probabilité de donner au moins 5 réponses correctes dans les
deux cas suivants :
1. l’étudiant est préparé et trouve la bonne réponse, pour chaque question, avec une
probabilité de 0.9.
2. l’étudiant n’est pas préparé et devine la bonne réponse, pour chaque question, avec
une probabilité de 14 = 0.25.
Exercice 4.10
L’express de 14 heures part tous les jours entre 14h02 et 14h14 ; on fait l’hypothèse que
l’heure X de départ du train suit une loi uniforme dans cet intervalle. Soit la variable X̄ :=
“heure moyenne de départ du train”, où la moyenne est calculée sur n = 81 jours.
1. En utilisant le théorème central limite, calculer la probabilité que X̄ ≤ 14h10 (rap-
et Var(X) = (b−a)
2
pel : si X ∼ U (a, b), alors E(X) = a+b
2 12
).
2. Sur un échantillon de n = 81 jours, on
√ observe que X̄ vaut 14h09. Sachant que
l’écart-type théorique de X vaut σ = 12, donner l’intervalle de confiance à 95%
pour µ = E(X̄).
Exercice 4.11
Vrai ou faux ?
1. La covariance entre deux variables X et Y dépend du système d’unité de ces variables.
2. Sur un échantillon, si la médiane d’une variable X est très différente de sa moyenne
alors sa variance sera élevée.
3. L’intervalle interquartile d’une variable X se calcule comme x0.75 − x0.25 .
4. le calcul du coefficient du chi-carré peut s’appliquer indifféremment à des variables
discrètes ou continues.
5. a) Le F-ratio est défini lorsque le nombre m de groupes est égal au nombre n d’indi-
vidus.
b) Le F-ratio est défini lorsque le nombre m de groupes est égal à 1.
6. Une variable centrée-réduite a par construction un écart-type de 1.
7. Une variable centrée-réduite suit par construction une loi normale standard N (0, 1).
130
Série 4
2. Est toujours compris entre 0 et 1 : i) une fonction de distribution ; ii) une fonction
de répartition ; iii) un centile.
3. Une moitié des individus est située : i) au dessus de la moyenne ; ii) en dessous de
la médiane ; iii) dans l’intervalle interquartile.
4. Une variable standardisée possède : i) une moyenne nulle ; ii) une fonction de dis-
tribution symétrique ; iii) une variance nulle.
5. On compare les variables x et y = ax, où a est une constante : i) ȳ = ax̄ ; ii) var(y) =
a2 var(x) ; iii) y s = xs .
Exercice 4.13
Soit l’expérience consistant au lancer d’un dé à 6 faces. On définit deux variables aléatoires :
X qui associe à un lancer la valeur de la face sortie, et Y qui associe, elle, le nombre 1 si
le chiffre sorti est pair et −1 sinon.
Calculer les moyennes E(X) et E(Y ), ainsi que les écarts-types σX et σY des deux va-
riables aléatoires sous les deux distributions suivantes :
1. la distribution de probabilité sur les 6 faces est uniforme (dé équilibré)
2. la distribution de probabilité est concentrée sur l’événement “la face sortie porte le
chiffre 5” (i.e. dé pipé ne faisant que des cinq).
Exercice 4.14
1. Donnez une distribution de probabilité uniforme pour une variable aléatoire discrète
X prenant prenant toutes les valeurs entières entre -2 et 5.
2. Faites de même pour une distribution de probabilité non uniforme.
3. Calculez pour les deux cas (a) P (X ≤ 3), (b) P (−1 ≤ X ≤ 2) et (c) P (X ≥ 3).
4. Peut-on construire une distribution de probabilité uniforme pour une variable aléatoire
discrète X prenant toutes les valeurs entières X = 0, 1, 2, ... ?
Exercice 4.15
1. Calculer pour une variable aléatoire X, dont la distribution de probabilité est une
loi normale standard, les valeurs suivantes : P (X ≤ 1), P (X ≤ 2.58), P (X > 2.58),
P (−2 < X < 2.4), P (−3 < X ≤ 3), x0.5 , x0.7 , x0.2 .
2. Même question si X est une variable N (1, 41 ) .
Exercice 4.16
Donner la distribution de probabilité de la variable aléatoire X représentant le nombre de
garçons dans une famille de cinq enfants, en supposant P (garçon) = 0.51.
Exercice 4.17
1. Quelle est la probabilité qu’une variable normale soit supérieure à la moyenne aug-
mentée de l’écart-type ? à la moyenne augmentée de deux écarts-type ?
2. Soit X ∼ N (50, 10). Que vaut le 99-ème centile de la distribution ?
Exercice 4.18
1. En 1989, 99812 vols de véhicules ont été dénoncés en Suisse, ce qui correspond à
une moyenne horaire de 11.38 véhicules volés.
Evaluer les probabilités d’avoir respectivement 0, 5 et 10 véhicules volés durant une
heure donnée.
2. La probabilité de décrocher le jack-pot d’une machine à sous est de un millionnième.
En jouant 10 fois par semaine pendant cinquante ans, quelle est la probabilité qu’un
individu décroche deux fois le jack-pot ? Que devient cette probabilité si l’approxi-
mation de Poisson est utilisée ?
131
Série 4
Exercice 4.19
Lors d’un examen, une classe obtient une moyenne de 72 points avec un écart-type de
15. En supposant que la variable ”nombre de points obtenus par un étudiant“ suit une loi
normale, calculer :
1. la proportion d’étudiants ayant 90 points ou plus,
2. la proportion d’étudiants ayant 40 points ou moins,
3. la proportion d’étudiants dont le nombre de points diffère de la moyenne de plus de
la moitié de l’écart-type.
Exercice 4.20
Dans ce qui suit, X et Y sont deux variables aléatoires ; X suit une loi binomiale B(n, p)
et Y suit une loi normale N (µ, σ 2 ).
A. Tester la validité des affirmations ci-dessous en justifiant à chaque fois la réponse :
1. n peut prendre n’importe quelle valeur positive.
2. p peut prendre n’importe quelle valeur positive.
3. µ peut prendre n’importe quelle valeur positive.
4. σ peut prendre n’importe quelle valeur positive.
5. Y s ∼ N (0, 1).
6. X s = √
X−np
.
np(1−p)
Exercice 4.21
Dans une certaine profession, le revenu annuel moyen croı̂t avec l’âge des travailleurs,
selon une loi de la forme w = c ⋅ z α , où w est le revenu annuel brut moyen (en Kchf), z
est l’âge (en années), et c et α des constantes positives à déterminer.
A partir des données fictives
âge z revenu w
20 42
30 55
40 63
50 70
60 78
déterminer la valeur des constantes c et α, ainsi que le revenu attendu pour un travailleur
de 65 ans.
Indication : pour résoudre le problème par régression linéaire, il faut d’abord transformer
l’équation non linéaire w = c ⋅ z α en équation linéaire de la forme y = ax + b, où y = y(w) et
x = x(z) sont des transformations appropriées des variables w et z, qu’il d’agit de deviner
au préalable en s’aidant de ses souvenirs mathématiques.
132
Corrigé de la série 4
Corrigé de la série 4
Exercice 4.1
1. x0.5 = 2 (médiane), x0.25 ≈ 1.3 et x0.75 ≈ 2.7 donc x0.75 − x0.25 = 1.4
2. F (3) = P (X ≤ 3) ≈ 0.84. P (X ≥ 3) = 1 − P (X ≤ 3) = 0.16
F (0) ≈ 0.02, F (2) ≈ 0.5. D’où P (0 ≤ X ≤ 2) = F (2) − F (0) = 0.48
3. F (1) ≈ 0.16. P (1 ≤ X ≤ a) = F (a) − F (1) = 0.5. Donc F (a) = F (1) + 0.5 = 0.66 et
a ≈ 2.4
Exercice 4.2
1. E(X) = 0.4 ⋅ 0 + 0.3 ⋅ 1 + 0.2 ⋅ 2 + 0.1 ⋅ 5 = 1.2
Var(X) = E(X 2 ) − E 2 (X) = 0.4 ⋅ 02 + 0.3 ⋅ 12 + 0.2 ⋅ 22 + 0.1 ⋅ 52 − 1.22 = 2.16
2.
1.0
0.8
0.6
F(x)
0.4
0.2
0.0
0 1 2 3 4 5
Exercice 4.3
La probabilité que k personnes aient lu la trilogie suit une loi binomiale
B(n = 12, p = 0.2).
12
1. P (X = 5) = ( ) 0.25 ⋅ 0.812−5 = 0.053
5
12
2. P (X ≥ 1) = 1 − P (X = 0) = 1 − ( ) 0.20 ⋅ 0.812 = 0.93
0
Exercice 4.4
1. X suit une loi de Poisson de paramètre λ = 20
15
2. P (X = 15) = exp(−20) 20
15!
= 0.052
0
3. P (X ≥ 1) = 1 − P (X = 0) = 1 − exp(−20) 20
0!
= 1 − exp(−20) ≈ 1
Exercice 4.5
Les proportions d’étudiants Vaudois, Confédérés et Etrangers sont respectivement de 350/792 =
0.442, 350/792 = 0.402, et 350/792 = 0.157. Par la loi multinomiale, la probabilité de la
configuration en question est de
4!
0.4421 ⋅ 0.4020 ⋅ 0.1573 = 4 ⋅ 0.442 ⋅ 1 ⋅ 0.00387 = 0.0068 .
1! 0! 3!
L’hypothèse implicite (et sans doute questionnable ici) justifiant cette estimation est que
les réunions spontanées d’étudiants de GSE ne sont pas soumises à des préférences inter-
individuelles impliquant l’origine ou l’âge (dont dépendent les proportions ci-dessus).
133
Corrigé de la série 4
Exercice 4.6
1. P (X > 200) = P (X s > 200−175
15
) = P (X s > 1.67) = 1 − P (X s ≤ 1.67) = 1 − Φ(1.67) =
1 − 0.953 = 0.047
2. P (150 ≤ X ≤ 170) = P ( 150−175
15
≤ X s ≤ 170−175
15
) = P (−1.67 ≤ X s ≤ −0.33) = Φ(−0.33)−
Φ(−1.67) = (1 − Φ(0.33)) − (1 − Φ(1.67)) = Φ(1.67) − Φ(0.33) = 0.953 − 0.629 = 0.324
P (150≤X≤170)
3. P (150 ≤ X ∣ X ≤ 170) = P (X≤170)
= 0.324
P (X s ≤−0.33)
= 0.324
1−0.629
= 0.873 .
Exercice 4.7
1. vrai : on rappelle que la loi binomiale B(n, p) est la distribution de X = “nombre de
pile en n lancers”, avec p ∶= P (“pile”). Si n = 1 (un seul lancer), les valeurs possibles
de X sont en effet 1 et 0, avec P (X = 1) = p et P (X = 0) = 1 − p.
2. vrai : c’est un cas particulier de E(X) = np et Var(X) = np(1 − p) pour n = 1. On peut
aussi le retrouver par un calcul direct, tel que Var(X) = E(X 2 ) − E(X)2 = p − p2 =
p(1 − p) (on a, dans ce cas particulier, utilisé E(X 2 ) = E(X) = p, puisque X 2 = X
lorsque X = 1 ou 0, comme c’est le cas ici).
3. vrai : il faut trouver dans la table la valeur u telle que Φ(u) = 0.6
4. faux : soit X ∼ N (µ, σ 2 ), et donc X s ∶= X−µ
σ
∼ N (0, 1). En particulier, Xαs = Xασ−µ et
donc Xα = µ+Xα σ. On a X0.75 = µ+X0.75 σ = µ+0.68σ (car Φ(0.68) = 0.75). On trouve
s s
aussi (par calcul complet ou simplement par symétrie) que X0.25 = µ + X0.25 s
σ =
µ − 0.68 σ. Ainsi, l’intervalle interquartile est X0.75 − X0.25 = 2 ⋅ 0.68 σ = 1.36 σ.
σ2 202
5. vrai : c’est précisément le contenu du théorème central limite, avec µ = 5 et n
= n
=
400
n
.
6. faux : l’imprécision sur une moyenne X̄ de n observations peut être représentée par
son écart-type σX̄ = √σX
, où σX est l’imprécision sur une observation. Pour que σX̄
n
√
soit diminué d’un facteur 10, il faut que n soit augmenté d’un facteur 10, i.e. que
n soit augmenté d’un facteur 100. Notons qu’il est naturel d’utiliser l’écart-type plutôt
que la variance dans ce contexte, puisqu’il est exprimé dans la même unité que la
variable considérée (comme dans p.ex. : “une taille moyenne de 170 cm ± 2 cm”).
Exercice 4.8
Soit un dé ordinaire équilibré. On définit les variables Y = “valeur du chiffre tiré” et X =
“variable indicatrice de l’événement chiffre pair tiré”.
1. Calculer Corr(X, Y ).
2. Quelle est, par régression linéaire, la valeur attendue Y ∗ du chiffre tiré si X = 0 ?
3. Idem si X = 1 ?
4. Aurait-on pu trouver ces valeurs par une méthode plus simple ?
Exercice 4.9
1. Le nombre X de réponses correctes sur 6 questions avec P (réponse correcte) = p
6
suit une loi binomiale : X ∼ B(6, p). Pour p = 0.9, on a donc P (X ≥ 5) = ( ) 0.95 ⋅
5
6
0.11 + ( ) 0.96 ⋅ 0.10 = 0.88.
6
6 6
2. Avec p = 0.25, on a P (X ≥ 5) = ( ) 0.255 ⋅ 0.751 + ( ) 0.256 ⋅ 0.750 = 0.005.
5 6
Exercice 4.10
L’heure restant constante, on peut ne considérer que les minutes après 14h.
134
Corrigé de la série 4
Exercice 4.11
1. Vrai. C’est d’ailleurs la raison pour laquelle le coefficient de corrélation, indépendant
du système d’unité, est préféré pour décrire le lien entre deux variables numériques.
2. Vrai. Cela signifie qu’au moins une valeur est très éloignée de la médiane, ce qui
augmente fortement la variance sur un échantillon.
3. Vrai. L’intervalle semi-interquartile, également utilisé, étant cette somme divisée par
deux.
4. Faux. Le coefficient du chi-carré ne se calcule que dans le cadre de variables catégorielles
qui sont, par nature, discrètes.
varB (x)
5. Faux, dans les deux cas. Rappel : F = varm−1
W (x)
n−m
W (x)
Dans le point a) varn−m = 00 car il y autant de groupe que de d’individus (donc un
seul individu par groupe et pas de variance dans les groupes) et que m = n. Au final,
le dénominateur de F est indéterminé.
B (x)
Dans le point b) var
m−1
, m = 1. Comme il n’y a qu’un seul groupe, la variance entre
les groupe est nulle et m − 1 = 0. Le numérateur est de type 00 , indéterminé.
6. Vrai.
7. Faux. X s n’est normal que si X est normal également.
Exercice 4.13
1. E(X) = 16 (1 + 2 + 3 + 4 + 5 + 6) = 3.5
E(Y ) = 61 (−1 + 1 − 1 + 1 − 1 + 1) = 0
2
σX = E((X − E(X))2 ) = E(X 2 ) − E 2 (X) = 61 (1 + 4 + 9 + 16 + 25 + 36) − (3.5)2 ≅ 2.916
135
Corrigé de la série 4
d’où σX ≅ 1.708
σY2 = E(Y 2 ) − E 2 (Y ) = 61 (1 + 1 + 1 + 1 + 1 + 1) − 0 = 1, d’où σY = 1.
136
Corrigé de la série 4
Exercice 4.16
Loi binomiale : à chaque “tirage”, P (garçon)= p, P (fille)= q = 1 − p.
Ainsi, P (k garçons et 5 − k filles) = P (X = k) = (k5)pk q 5−k .
Ici, p = 0.51, q = 0.49, d’où P (X = 0) = 0!5!
5!
(0.49)5 = 0.03, P (X = 1) = 4!1!
5!
(0.49)4 (0.51) =
0.15, P (X = 2) = 3!2! (0.49) (0.51) = 0.31, P (X = 3) = 2!3! (0.49) (0.51) = 0.32, P (X =
5! 3 2 5! 2 3
4) = 1!4!
5!
(0.49)(0.51)4 = 0.17 et P (X = 5) = 0!5!
5!
(0.51)5 = 0.03.
Exercice 4.17
1. X est une variable normale ssi X ∼ N (µ, σ 2 ). Pour connaı̂tre la probabilité de
l’événement X > µ + σ, il faut d’abord (utilisation des tables) standardiser l’énoncé :
P (X > µ+σ) = P (X −µ > σ) = P ( X−µ σ
> 1) = P (X s > 1) = 1−P (X s < 1) = 1−0.8413 =
0.1587. De même, P (X > µ + 2σ) = 1 − P (X s < 2) = 0.0228.
2. Le 99-ème centile
√ de la distribution standard est (tables) xs0.99 = 2.33. Donc x0.99 =
σx0.99 + µ = 10 2.33 + 50 = 57.37.
s
Exercice 4.18
1. Au vu de l’importance du parc automobile n et la faible probabilité p du vol d’une
voiture spécifique, le processus est modélisable par une loi de Poisson P (λ) de pa-
ramètre λ = 11.38. Si X dénote le nombre horaire de voitures volées, on a :
P (X = 0) = exp(−11.38) (11.38)
0
0!
= 0.000011
P (X = 5) = exp(−11.38) (11.38)
5
5!
= 0.018
P (X = 10) = exp(−11.38) (11.38)
10
10!
= 0.11 .
2. Le processus peut être modélisé par une loi binomiale B(n, p) avec p = 1000000 1
et
(365.25)(50)(10)
n= 7
≈ 26089.
Alors P (X = 2) = 26087!2!
26089!
(10−6 )2 (0.999999)26087 = 21 (26089)(26088)(10−12 )(0.974) =
0.000331.
Dans l’approximation de Poisson, λ = 26089 × 10−6 = 0.026 et la probabilité cherchée
vaut exp(−0.026) (0.026)
2
2!
= 0.000329 (soit une valeur très proche, comme il se doit).
Exercice 4.19
Comme X ∼ N (72, 225), la variable standardisée X s = X−72
15
suit une loi N (0, 1). Ainsi :
1. P (X ≥ 90) = P (X ≥ s 90−72
15
) = P (X ≥ 1.2) = 1 − Φ(1.2) = 1 − 0.8849 = 0.1151
s
2. P (X ≤ 40) = P (X s ≤ 40−72
15
) = P (X s ≤ −2.133) = 1 − Φ(2.133) = 1 − 0.983 = 0.017,
3. P (∣X − 72∣ > 15
2
) = P (X < 64.5 ou X > 79.5) = P (X s < − 12 ou X s > 12 ) = 2(1 − Φ( 21 )) =
2(1 − 0.6915) = 0.617.
Exercice 4.20
A. 1. faux : n ne peut prendre qu’une valeur entière positive.
2. faux : p ne peut prendre qu’une valeur dans [0, 1].
3. faux : µ peut prendre n’importe quelle valeur positive ou négative.
4. vrai.
5. vrai : la variable standardisée d’une variable normale suit une loi N (0, 1).
6. vrai : E(X) = np et Var(X) = np(1 − p).
7. vrai.
B. 1. Plus p est proche de 0.5, plus Var(X) est grande.
2. Plus p est grand, plus E(X) est grande.
3. L’intervalle interquartile y0.75 − y0.25 vaut toujours 1.35 fois l’écart-type σY : en
considérant la variable standardisée Y s , on a σY s = 1, y s 0.75 = 0.675, y s 0.25 =
137
Corrigé de la série 4
−y s 0.75 = −0.675 et ainsi y s 0.75 − ŷ0.25 = 1.35 = 1.35 σY s . Si l’on revient à la variable
non standardisée Y , l’intervalle interquartile et la variance seront chacun multipliés
par σY , d’où y s 0.75 − y s 0.25 = 1.35 σY .
4. La distribution de X est symétrique si et seulement si p = 0 .5 . Dans ce cas seulement,
il y a égalité entre les distributions de X = “nombre de pile en n lancers d’une pièce
dont la probabilité d’obtenir pile est p” et de Z = n − X = “nombre de face en n
lancers”.
Exercice 4.21
Pour transformer la relation non-linéaire w = c ⋅ z α en relation linéaire (entre des va-
riables transformées à déterminer), on prend le logarithme naturel ln des deux termes de
l’équation w = c ⋅ z α , ce qui donne
ln w = α ln z + ln c i.e. y = ax + b avec y ∶= ln w, x ∶= ln z, a ∶= α, b ∶= ln c
z w x = ln z y = ln w
20 42 3.00 3.74
30 55 3.40 4.01
40 63 3.69 4.14
50 70 3.91 4.25
60 78 4.09 4.36
ce qui donne x̄ = 3.62, ȳ = 4.10, sx = 0.366, sy = 0.214, cov(x, y) = 0.074, rxy = 0.945, et
donc
138
Série 5
Série 5
Exercice 5.1
Un salon de jeux clandestin utilise deux types de pièces : des pièces équilibrées, formant
80% du stock, et des pièces truquées, formant 20% du stock, pour lesquelles P (face) =
0.8. Les deux sortes de pièces ne pas sont distinguables par leur aspect ou leur poids, et
elles sont mélangées dans un stock commun.
(a) trois lancers d’une pièce produisent trois pile. Quelle est la probabilité qu’il s’agisse
d’une pièce truquée ?
(b) trois lancers d’une pièce produisent trois face. Quelle est la probabilité qu’il s’agisse
d’une pièce truquée ?
Exercice 5.2
Un algorithme anti-pourriel du siècle passé, basé sur les caractéristiques textuelles et
les méta-données (adresse de l’expéditeur, moment de l’envoi, etc.) de 2593 courriels
préalablement classés comme légitimes ou pourriel (spam) (échantillon d’apprentissage),
a été testé sur 222 nouveaux messages (échantillon de test), avec les résultats suivants 3 :
Exercice 5.3
(a) Supposons que les données des prévisions météo de l’exemple 3 du chapitre 1 aient
été obtenues sur n = 100 jours. Donner la table de confusion X = “météo réelle” ×
Y = “prévision météo” correspondante.
(b) Procéder de même avec l’exercice 1.9 (test de dépistage d’une maladie), en considérant
un effectif total de n = 2000 personnes.
Exercice 5.4
Un chercheur désire tester H0 contre H1 . Pour cela, il récolte un échantillon D auquel
correspond une valeur d(D) de la variable de décision d. Admettons que les valeurs élevées
de d(D) correspondent au rejet de H0 et notons dc (α) le seuil critique de rejet de H0 au
niveau de signification α.
3. Sahami, M., Dumais, S., Heckerman, D., & Horvitz, E. (1998) A Bayesian approach to filtering junk e-mail
In Learning for Text Categorization : Papers from the 1998 Workshop. vol. 62, pp. 98–105
139
Série 5
Exercice 5.5
Un enseignant fait passer un test consistant en 10 questions binaires auxquelles il faut
répondre par “oui” ou par “non”. Il estime que sa classe comporte des étudiants préparés
qui répondent juste à chaque question avec une probabilité égale 0.8, et d’autres étudiants
non préparés qui répondent à chaque question au hasard.
L’enseignant décide de valider le test d’un étudiant (i.e. de considérer l’étudiant comme
préparé) si le nombre d de réponses correctes vaut 8 ou plus, et de ne pas le valider
(i.e. de considérer l’étudiant comme non préparé) sinon. Calculer les risques d’erreur de
première espèce α et de deuxième espèce β de la procédure. Cette dernière vous semble-
t-elle équitable ?
Exercice 5.6
Vrai ou faux ? Tester la validité des affirmations ci-dessous en justifiant la réponse.
1. Le niveau de signification α correspond à la probabilité de commettre une erreur de
première espèce
2. Plus grande est la région de rejet W (de H0 ), plus grand sera le niveau de significa-
tion α
3. Si la région de rejet est vide (W = ∅), alors α = 0 et β = 1
4. La variable de décision d(D) est une variable aléatoire
5. Les hypothèses H0 et H1 sont des énoncés portant sur l’échantillon
6. A deux échantillons différents correspondent :
a) des valeurs différentes de la variable de décision
b) des régions de rejet différentes
c) des hypothèses différentes
7. Pour une région de rejet W fixée, α et β diminuent avec la taille de l’échantillon
8. Un niveau de signification α = 2% signifie, qu’en moyenne, 1 chercheur sur 50 rejet-
tera à tort l’hypothèse H0 alors qu’elle est vraie
Exercice 5.7
Les auteurs d’un test de QI (= quotient intellectuel) affirment avoir calibré leur instru-
ment de sorte à fournir un QI moyen de 100 avec un écart-type de 15 dans une po-
pulation adulte. Vous suspectez que ce test est volontairement biaisé de façon à flatter
l’ego des répondants, qui obtiendraient (selon vous) un score de QI supérieur à 100
(en moyenne). Pour cela, vous faites passer le test à 9 personnes (que l’on admettra
sélectionnées aléatoirement dans la population) pour lesquelles vous observez un score
moyen de x̄ = 107.5.
140
Série 5
Exercice 5.8
Lors d’un examen, on pose 4 questions à choix multiples (à 2 choix chacunes), et l’on
déclare l’examen réussi si le nombre de bonnes réponses est supérieur ou égal à dc . On
admettra que si un étudiant n’est pas préparé, la probabilité qu’il réponde juste à l’une des
questions vaut 0.5, tandis que cette probabilité vaut 0.8 s’il est préparé.
1. Soient les hypothèses H0 : “l’étudiant est préparé” et H1 : “l’étudiant n’est pas
préparé”. À quoi correspondent (en français) les erreurs de première et de seconde
espèce ?
2. Calculer les probabilités α et β des erreurs correspondantes pour dc = 4, 3, 2, 1, 0.
3. Construire la courbe ROC (“receiver operating characteristic”) correspondante. Cette
courbe donne les valeurs de α en abcisse et de 1 − β en ordonnée que l’on obtient en
faisant varier le seuil critique dc .
4. Vérifier que la courbe ROC passe au-dessus de la droite d’équation 1 − β = α (i.e.
α + β = 1), qui représente la courbe ROC que l’on obtiendrait si l’on déterminait la
réussite de l’étudiant par tirage au sort (indépendamment du résultat obtenu par
l’étudiant).
Exercice 5.10
(*) Que vaut la discriminabilité d′ lors d’une inférence faite au hasard, comme dans
l’exemple 34 ?
Exercice 5.11
Deux espèces très proches d’oiseaux migrateurs, se différencient par la date de leur mi-
gration en une région donnée : l’espèce A passe entre l’équinoxe de printemps et 20 jours
après, tandis que l’espèce B passe entre 10 et 40 jours après l’équinoxe de printemps.
Lorsque le temps d’observation t est entre 10 et 20 jours, il y a donc confusion possible sur
l’espèce observée (de loin), et une règle de décision pourrait être
⎧
⎪
⎪A, si t ≤ tc
“ décider que l’espèce est ⎨
⎪
⎪B, si t > tc ”.
⎩
141
Corrigé de la série 5
où tc ∈ [10, 20] est le seuil critique de décision. Tracer la courbe ROC correspondant à cette
règle de décision.
Exercice 5.12
(*) Dans une expérience d’acuité visuelle, on demande à un sujet d’indiquer s’il a perçu
ou non un signal, consistant en un cercle de lumière projeté ou non, de façon répétée,
sur un écran lumineux pendant 1/100 de seconde. Le sujet produit ainsi durant 400 es-
sais un taux de 78% de détections correctes et de 19% de fausses alarmes. Calculer la
discriminabilité d′ du signal ainsi que le critère c adopté par le sujet.
Corrigé de la série 5
Exercice 5.1
On pose H0 = “pièce équilibrée” et H1 = “pièce truquée”. Les priors sont P (H0 ) = 0.8 et
P (H1 ) = 0.2.
(a) on pose Da = “trois pile”. Par la loi binomiale, on a P (Da ∣H0 ) = (33) 213 = 0.125 et
P (Da ∣H1 ) = (33)0.23 = 0.008. La probabilité qu’il s’agisse d’une pièce truquée vaut
(b) on pose Db = “trois face”. On a P (Db ∣H0 ) = (30) 213 = 0.125 et P (Db ∣H1 ) = (30)0.83 =
0.512, et la probabilité qu’il s’agisse d’une pièce truquée vaut
P (H1 )P (Db ∣H1 ) 0.2 × 0.512
P (H1 ∣Db ) = = = 0.506
P (H0 )P (Db ∣H0 ) + P (H1 )P (Db ∣H1 ) 0.8 × 0.125 + 0.2 × 0.512
On peut noter que P (H1 ∣Da ) < P (H1 ) < P (H1 ∣Db ), comme attendu.
Exercice 5.2
(a) α = probabilité de commettre une erreur de première espèce = probabilité de
fausse alarme = 3/177=0.017
β = probabilité de commettre une erreur de seconde espèce = probabilité de
détection manquée = 9/45=0.2
(b) Le taux de classification correcte vaut P accord = (174 + 36)/222 = 0.946
Le calcul des effectifs théoriques de la table de contingence sous indépendance
145.91 31.09
N theo donne N theo = ( ), avec un taux de classification par hasard de
37.09 7.91
P hasard = 145.91+7.91
222
= 0.693. Finalement, κ = 0.946−0.693 1−0.693
= 0.82.
(c) (*) Précision = nombre de pourriels détectés = 3+36
nombre de vrais pourriels détectés 36
= 0.92.
Rappel = nombre de vrais pourriels détectés
nombre de vrais pourriels
= 9+36
36
= 0.8. F -score= 2×0.92×0.8
0.92+0.8
= 0.86.
(d) (*) On tire de (5.28) que Φ(uSN ) = 1 − P (détection pourriel correcte) = 1 − 36/45 = 0.2, d’où
(tables) uSN = −0.84. De même, on tire de (5.29) que Φ(uN ) = 1 − P (fausse alarme) =
1 − 3/177 = 0.983, et donc uN = 2.12. Ainsi, par (5.30) la discriminabilité vaut d′ =
2.12−(−0.84) = 2.96 (une valeur élevée témoignant de l’efficacité du classificateur),
et le critère vaut c = 12 (2.12+(−0.8)) = 0.64 (une valeur positive reflétant le caractère
“conservateur” du détecteur, qui “préfère” déclarer légitime un vrai pourriel que
l’inverse). Ces mêmes valeurs auraient pu être plus directement obtenues de (5.31).
Exercice 5.3
(a) Après avoir nommé lignes et colonnes, on remplit la table comme suit :
(i) l’effectif total vaut 100
(ii) les marges en ligne valent 10 et 90 (au vu de P (A) = 0.1 et P (Ā) = 0.9)
(ii) les effectifs de la première ligne valent 10 et 90 (au vu de P (B∣A) = 0.8 et donc
P (B̄∣A) = 0.2)
142
Corrigé de la série 5
(iv) de même, les effectifs de la seconde ligne valent 9 et 81 (au vu de P (B̄∣Ā) = 0.9
et donc P (B∣Ā) = 0.1)
(v) et finalement, on complète par les marges en colonne 17 et 83.
Y = prévision météo → B = beau temps B̄ = mauvais temps total
X = météo réelle ↓
A = beau temps 8 2 10
Ā = mauvais temps 9 81 90
total 17 83 100
Exercice 5.4
1. a) Un seuil de signification de α = 0.05 signifie que le risque de première espèce
(rejeter H0 à tort sur la base des données D) ne doit pas dépasser α.
b) Déclarer “d(D) significatif” revient à dire que, “si H0 était vraie, la probabilité
p que d(D) ait une valeur aussi grande (ou davantage) serait faible”, ce qui
revient à dire que, “si H0 était vraie, il serait peu vraisemblable que d(D) ait une
valeur aussi grande”, ce qui conduit à rejeter H0 (pour autant que p < α, où la
valeur du niveau de signification α, le risque maximal admissible de commettre
une erreur de première espèce, est sous-entendu).
c) Un modèle composite est un agrégat de modèles simples, et par là plus général :
les modèles composites accommodent davantage les données, et sont donc plus
difficiles à réfuter que les modèles simples.
2. a) Vrai, puisque p = 1% ≤ α = 2% : voir la règle de décision (5.38)
b) Faux : si p = 0, alors le risque de rejeter H0 à tort est nul
c) Vrai : par définition, 5% des résultats seront déclarés à tort significatifs
d) Vrai par définition
e) Vrai par définition
f) Vrai par définition
Exercice 5.5
La décision entre les deux hypothèses
● H0 : l’étudiant ayant rendu cette copie est non préparé
● H1 : l’étudiant ayant rendu cette copie est préparé
est basée sur la variable de décision d (le nombre de bonnes réponses) : l’enseignant
accepte H1 si d ≥ 8, et accepte H0 sinon.
Sous H0 , la variable de décision d suit une loi binomiale B(10, 0.5). Ainsi
α = P (d ≥ 8 ∣ H0 ) = (10
8
)0.510 + (10
9
)0.510 + (10
10
)0.510 = 5.5%.
Sous H1 , d suit une loi binomiale B(10, 0.8). Ainsi
β = P (d ≤ 7 ∣ H1 ) = 1 − P (d ≥ 8 ∣ H1 ) = 1 − {(10
8
)0.88 0.22 + (10
9
)0.89 0.2 + (10
10
)0.810 } = 32.2%.
En conclusion, il n’y a qu’une probabilité de 5.5% qu’un étudiant mal préparé soit considéré
comme préparé, alors que la probabilité qu’un étudiant préparé soit considéré comme mal
préparé est de 32.2%. La procédure est donc sévère pour l’étudiant.
143
Corrigé de la série 5
Exercice 5.6
1. vrai par définition.
2. vrai, car α = Prob(d ∈ W ∣ H0 ) .
3. vrai, puisque α = Prob(d ∈ W ∣H0 ) = Prob(d ∈ ∅ ∣ H0 ) = 0 et
β = Prob(d ∈ W C ∣ H1 ) = Prob(d quelconque ∣ H1 ) = 1
4. vrai, car d est une fonction des scores D = {x1 , . . . , xn } . A deux échantillons différents
D et D′ correspondent des scores différents. d(D) est donc une variable aléatoire
sur l’ensemble des échantillons D de taille n.
5. faux, H0 et H1 sont des modèles, i.e. des énoncés portant sur la population.
6. a) vrai, si on se réfère à la définition de d(D) rappelée ci-dessus
b) faux, car W est fixée préalablement à la constitution de l’échantillon
c) faux, les hypothèses H0 et H1 à tester sont énoncées indépendamment des
données D
7. oui, si le test est bien conçu.
8. vrai, puisque α = Prob(rejeter H0 ∣H0 vraie)
Exercice 5.7
1. Il s’agit d’un test unilatéral où l’on oppose :
● H0 ∶ µ = 100
● H1 ∶ µ > 100 √
Suivant (5.27), on rejette H0 au niveau α si x̄−µ 0
n > u1−α . Pour α = 5%, on a
√ σ
107.5−100
15
9 = 1.5 < u0.95 = 1.65 et donc on ne rejette pas H0 . Il s’ensuit qu’on ne
la rejette pas non plus au niveau α = 1% puisque u0.99 = 2.33 > u0.95 = 1.65. En
suivant (5.37) et en cherchant dans la table, on trouve que Φ(1.5) = 0.933, donc
p = 1 − 0.933 = 0.067.
2. Dans le cas d’un test bilatéral (i.e. si l’on admet que le test pourrait être biaisé tant
négativement que positivement), on oppose :
● H0 ∶ µ = 100
● H1 ∶ µ ≠ 100 √
On rejette H0 au niveau α si∣ x̄−µ
σ
0
n∣ > u1−α/2 . Pour α = 5%, on a 1.5 < u0.975 = 1.96,
et pour α = 1%, 1.5 < u0.995 = 2.58. Dans ce cas, p = [1 − Φ(1.5)] ⋅ 2 = 0.067 ⋅ 2 = 0.134.
√
3. Avec n = 1, on rejette l’hypothèse nulle au niveau α = 5% puisque 130−100 15
1=2>
u0.95 = 1.65, mais pas au niveau α = 1% puisque 2 < u0.99 = 2.33 (p = 1 − Φ(2) =
1 − 0.977 = 0.023).
On a ici admis implicitement que la distribution du QI dans la population suit une
loi normale, sans quoi l’usage de la loi normale ne serait pas justifié ; par contraste,
l’usage de la loi normale dans les points 1 et 2 ci-dessus est automatiquement justifié
par le théorème central limite pour n → ∞ (même si n = 9 n’est en l’occurrence pas
si grand).
Exercice 5.8
1. L’erreur de première espèce consiste à rejeter H0 à tort, i.e. à faire échouer un
étudiant préparé. L’erreur de seconde espèce consiste à accepter H0 à tort, i.e. à
faire réussir un étudiant non préparé.
2. Soit X le nombre de réponses correctes. X suit la loi binomiale B(4, 0.8) sous H0 ,
et suit la loi binomiale B(4, 0.5) sous H1 . Par construction, α = P (X < dc ∣H0 ) et
β = P (X ≥ dc ∣H1 ), qu’il est parfois plus pratique de calculer de façon équivalente
comme α = 1 − P (X ≥ dc ∣H0 ) et β = 1 − P (X < dc ∣H1 ).
a) pour dc = 4 : α = 1 − P (X ≥ 4∣H0 ) = 1 − 0.84 = 0.59 et β = P (X ≥ 4∣H1 ) = 0.54 =
0.06
144
Corrigé de la série 5
4
b) pour dc = 3 : α = 1 − P (X ≥ 3∣H0 ) = 1 − 0.84 − ( ) 0.83 × 0.2 = 0.18 et β = P (X ≥
3
4
3∣H1 ) = 0.54 + ( ) 0.54 = 0.31
3
4 4
c) pour dc = 2 : α = 1 − 0.84 − ( ) 0.83 × 0.2 − ( ) 0.82 × 0.22 = 0.027 et β = 0.54 +
3 2
4 4
( ) 0.54 + ( ) 0.54 = 0.69
3 2
d) pour dc = 1 : α = 0.24 = 0.0016 et β = 1 − 0.54 = 0.94
e) pour dc = 0 : α = 0 et β = 1
1.0
0.8
0.6
1−β
0.4
0.2
0.0
Exercice 5.10
(*) Lorsque la décision est aléatoire, la discriminabilité d′ (qui mesure la capacité du
classificateur à discriminer entre H0 et H1 ) vaut zéro, comme il se doit. Pour le montrer,
rappelons que, dans une inférence aléatoire, α = 1 − p et β = p pour un certain p ∈ [0, 1]
quelconque, lequel dénote la probabilité de choisir H0 (cf. exemple 34). Et ainsi, par
(5.31),
d′ = Φ−1 (1 − α) − Φ−1 (β) = Φ−1 (1 − (1 − p)) − Φ−1 (p) = Φ−1 (p) − Φ−1 (p) = 0 .
Exercice 5.11
Le temps de passage T des oiseaux peut être modélisé par une loi uniforme, à savoir
145
Corrigé de la série 5
T ∼ U (0, 20) pour l’espèce A, et T ∼ U (10, 40) pour l’espèce B. Appelons H0 la première
hypothèse (espèce A) et H1 la seconde hypothèse (espèce B). Pour un seuil donné tc ∈
[10, 20], disons tc = 13, α est alors donné par la surface sombre et β par la surface claire
de la figure du milieu ci-dessous (cf. figure 5.2 du chapitre 5) :
1.0
0.05
0.05
H0 H0
0.8
densités de probabilité uniforme
0.04
0.6
H1 H1
0.03
0.03
1−β
0.4
0.02
0.02
0.2
0.01
0.01
tc=13
0.00
0.00
0.0
-10 0 10 20 30 40 50 -10 0 10 20 30 40 50 0.0 0.2 0.4 0.6 0.8 1.0
t t α
Exercice 5.12
(*) On détermine d’abord les valeurs uSN et uN par Φ(uSN ) = 1 − 0.78, d’où uSN =
−0.77, et Φ(uN ) = 1 − 0.19, d’où uN = 0.88. On calcule ensuite d′ = 0.88 − (−0.77) = 1.65
et c = 12 (0.88 + (−0.77)) = 0.055 ; la discriminabilité est élevée (seules 5% des valeurs
d’une distribution normale standard étant supérieures à 1.65), et le sujet adopte un critère
neutre, i.e. sans biais (c étant proche de 0).
146
Formulaire et tables
(x−x)3 (x−x)4
coefficient d’asymétrie : a3 = s3x
coefficient d’aplatissement : a4 = s4x
n 2 (n−1)r 2 −1
Estimateurs : estimer µ par x̄, p par f , σ 2 par n−1
s , ρ2 par n−2
(y ∗ )
Régression de Y sur X : y ∗ = ax + b = var
s
a = rxy sxy b = ȳ − ax̄ 2
rxy var(y)
var(y) = var(y ∗ ) + var(e)
f
Entropie : H(X) ≡ H(f ) = − ∑m
j=1 fj log fj Entropie relative : K(f ∣∣g) = ∑m j
j=1 fj log gj
Probabilités conditionnelles
P (A ∩ B) P (A)
P (A∣B) = = P (B∣A) P (B) = P (B∣A)P (A) + P (B∣Ac )P (Ac )
P (B) P (B)
n n n!
P (X = k) = ( ) pk (1 − p)n−k k = 0, 1, ..., n avec ( )=
k k (n − k)!k!
147
Tests statistique pour le cours méthodes quantitatives I
λk
P (X = k) = e−λ k = 0, 1, ..., ∞ E(X) = λ Var(X) = λ
k!
Intervalles de confiance
σ σ
P (x̄ − √ u1− α2 ≤ µ ≤ x̄ + √ u1− α2 ) = 1 − α
n n
s s
P (x̄ − √ t1− α2 [n − 1] ≤ µ ≤ x̄ + √ t1− α2 [n − 1]) = 1 − α
n−1 n−1
√ √
f (1 − f ) f (1 − f )
P (f − u1− α2 ≤ p ≤ f + u1− α2 ) = 1 − α
n n
de la moyenne H0 : µ = µ0 on rejette
√ H0 au niveau α si (3)
pour σ inconnu H1 : µ > µ0 (2) x̄−µ0
s
n − 1 > t1−α [n−1]
Remarques :
(1) d(D) est la variable de décision, dépendante des données D. x1−α est le seuil cri-
tique associé, tabulé.
α est le niveau de signification (a priori). p(D) est la valeur p (ou niveau de
signification a posteriori).
(2) pour un test bilatéral, remplacer d(D) par ∣d(D)∣ et α par α2 .
(3) l’échantillon doit être suffisamment grand (typiquement n ≥ 10 ou n ≥ 20) pour
que l’utilisation de la loi normale puisse être justifiée.
148
Table de la loi normale
Rappel :
● Φ(uα ) = α et Φ(u1−α ) = 1 − α
● P (X s ≤ −u) = Φ(−u) = 1 − Φ(u)
● P (u1 ≤ X s ≤ u2 ) = Φ(u2 ) − Φ(u1 )
● P (−u ≤ X s ≤ u) = 2Φ(u) − 1
149
Table de la loi normale
Table du t
Pour ν grand, on peut approximer t1−α [ν] par u1−α , le quantile correspondant de la loi normale
standard N (0, 1)..
150