Académique Documents
Professionnel Documents
Culture Documents
Je soussignée Kim Nora Schalbar déclare par la présente avoir réalisé ce travail
de candidature par mes propres moyens.
La loi normale
Ettelbruck 2016
Résumé
Le comportement de bon nombre de phénomènes réels — propriétés anato-
miques de l’homme, quotient intellectuel, les points obtenus lors d’un devoir en
classe — peut être décrit à l’aide d’une célèbre courbe, la courbe de Gauss. Que
nous apprend cette courbe en cloche ? Elle révèle que, si on prend plusieurs ob-
servations d’un même phénomène, alors la grande majorité de ces observations
seront concentrées autour d’un point central, la moyenne, et qu’il y a très peu
d’observations loin du centre. Cette forme très intuitive et simple est liée à un
concept-clé en mathématiques, à savoir la loi normale ou loi de Gauss. Elle sti-
pule que le hasard sous-jacent à une expérience aléatoire suit cette courbe en
cloche.
Qu’est-ce qui rend cette loi si populaire, si spéciale par rapport à d’autres lois
probabilistes ? Voilà la question qui est à la base du présent travail. Je vais y étu-
dier en détail la loi normale, en commençant par retracer ses origines historiques
ainsi que son développement au cours des deux derniers siècles. Cette excursion
aux temps passés permet de mieux comprendre le rôle qu’occupe actuellement la
loi normale. Puis je vais m’atteler à la description de ses principales propriétés
probabilistes et statistiques (en particulier, je vais exposer les tests statistiques
qui sont basés sur l’hypothèse de normalité des données). Ce sont notamment
ces propriétés qui confèrent un rôle prépondérant à la loi normale. Enfin, je vais
analyser quelques données afin de voir si elles suivent bien une loi normale ou
non.
Finalement, je vais décrire comment j’ai fait découvrir à mes élèves de 11e CM
la courbe de Gauss de façon ludique.
Table des matières
1 Introduction 13
5
3.4 Le Théorème Central Limite . . . . . . . . . . . . . . . . . . . . . 55
3.5 L’entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Génération de variables aléatoires normales via la méthode de
Box-Muller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.6.1 L’algorithme de Box-Muller . . . . . . . . . . . . . . . . . 64
3.6.2 Génération de données normales en implémentant l’algo-
rithme de Box-Muller dans R . . . . . . . . . . . . . . . . 66
6
Table des matières
C Code R 129
7
8
Liste des tableaux
Les valeurs dans le tableau correspondent à Φ(x), et les valeurs en gras sur le
9
10
Table des figures
11
3.5 Histogrammes de X . . . . . . . . . . . . . . . . . . . . . . . . . . 67
12
Chapitre 1
Introduction
13
Chapitre 1
0.4
0.3
0.2
0.1
0.0
-4 -2 0 2 4
les tailles dans une population ou encore les notes obtenues au sein d’une classe.
Il n’est donc pas non plus étonnant qu’on puisse retrouver cette célèbre forme
sur un billet de 10 « Deutsche Mark » introduit en 1991 1 comme on peut le voir
1. Le portrait de Gauss est celui fait par A. Jensen en 1840. Les bâtiments sont des
bâtiments importants pour la ville de Göttingen en Allemagne, notamment l’université et
l’observatoire, en lien direct avec les spécialités de Gauss, les mathématiques et l’astronomie.
http://www.history.didaktik.mathematik.uni-wuerzburg.de/ausstell/gauss/
geldschein.html
14
à la Figure 1.2 2 .
1 (x−µ)2
f x; µ, σ 2 = √ e− 2σ2 .
(1.0.1)
σ 2π
15
Chapitre 1
dans mes cours de probabilité et de statistique (elle a même joué un rôle fonda-
mental dans des cours plus appliqués où on a souvent supposé que les données
suivent une loi normale). C’est pour ces raisons que j’ai opté pour la loi normale
comme sujet pour mon Travail de Candidature. Je commence au Chapitre 2 par
raconter l’histoire de la loi normale, de sa genèse jusqu’au moment où elle a été
repérée comme « la » loi naturelle à utiliser en beaucoup de circonstances. Puis,
au Chapitre 3, je vais décrire en détails les diverses propriétés de la loi normale,
pour ensuite décrire au Chapitre 4 des procédures statistiques liées à la loi nor-
male. Puis je vais brièvement décrire au Chapitre 5 comment j’ai fait découvrir à
mes élèves la courbe de Gauss de façon ludique. Finalement, je donne en appen-
dice des définitions de notions probabilistes et statistiques de base, des courbes
liées aux travaux de mes élèves ainsi que les codes informatiques utilisés dans les
chapitres précédents.
16
En guise d’illustration, nous terminons cette introduction par une description
de la loi normale écrite en forme d’une courbe en cloche par le statisticien William
Youden :
The
normal
law of error
stands out in the
experience of mankind
as one of the broadest
generalizations of natural
philosophy. It serves as the
guiding instrument in researches
in the physical and social sciences and
in medecine agriculture and engineering.
It is an indispensable tool for the analysis and the
interpretation of the basic data obtained by observation and experiment.
17
Chapitre 1
18
Chapitre 2
19
Chapitre 2
20
Laplace et le Théorème Central Limite
(a) n = 5 (b) n = 10
n=5 n=10
0.25
0.4
0.20
0.3
0.15
fréquence
fréquence
0.2
0.10
0.1
0.05
0.00
0.0
0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10
nombre de fois qu'on obtient Pile nombre de fois qu'on obtient Pile
(c) n = 20 (d) n = 50
n=20 n=50
0.20
0.12
0.10
0.15
0.08
fréquence
fréquence
0.10
0.06
0.04
0.05
0.02
0.00
0.00
0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 0 3 6 9 12 16 20 24 28 32 36 40 44 48
nombre de fois qu'on obtient Pile nombre de fois qu'on obtient Pile
21
Chapitre 2
et de variance nσ 2 . »
On peut reconnaître le style d’écriture ancien au fait que l’on parle de « fonction
de fréquence » au lieu de densité.
22
Gauss et le maximum de vraisemblance
23
Chapitre 2
Dans ce qui suit nous allons suivre Hald (1998), Stigler (1986) et Samueli
(2010).
Selon le statisticien-historien Stephen Stigler, la méthode des moindres
carrés est le thème dominant - le leitmotiv - du 19e siècle en statistique. La
méthode est apparue en écrit pour la première fois en 1805 dans l’ouvrage de
Adrien-Marie Legendre (1752-1833) intitulé « Nouvelles méthodes pour la déter-
mination des orbites des comètes ». Dans l’appendice de cet ouvrage il publie
un document de neuf pages portant le titre Sur la méthode des moindres carrés,
où il décrit la méthode des moindres carrés comme une méthode algébrique (et
non probabiliste). Selon Stigler, ce document figure parmi les documents les
plus clairs et les plus élégants introduisant une nouvelle méthode en statistique
dans l’histoire de la Statistique.
La méthode des moindres carrés peut être résumée comme suit. On cherche
la valeur la plus probable d’une quantité (inconnue) dont n observations indé-
pendantes ont donné n approximations, et on définit l’erreur comme étant la
différence entre les observations et cette valeur la plus probable. Le but consiste
évidemment à minimiser l’erreur. Comme les erreurs peuvent être soit positives
soit négatives, on prend les erreurs au carré et la valeur la plus probable sera
alors celle qui minimise la somme des carrés des erreurs, d’où la terminologie.
Legendre décrit la solution de la façon suivante :
« Of all the principles that can be proposed for this purpose, I think
there is none more general, more exact, or easier to apply, than that
which we have used in this work ; it consists of making the sum of
the squares of the errors a minimum. By this method, a kind of
24
Gauss et le maximum de vraisemblance
Pour nos besoins ici nous pouvons nous contenter de la version la plus simple
de la méthode des moindres carrés (estimer un paramètre de position), ce qui
donne comme estimateur µ
b = x̄, la moyenne empirique. En effet, on cherche à
minimiser l’expression
n
X
S= (xi − µ)2 .
i=1
n
dS X
= 0 ⇐⇒ 2 (xi − µ) = 0
dµ i=1
n
X
⇐⇒ xi − nµ = 0
i=1
n
P
xi
i=1
⇐⇒ µ =
n
⇐⇒ µ = x̄.
25
Chapitre 2
Dans ce qui suit nous allons suivre Hald (1998), Fuchs (1995) et Samueli
(2010).
Le mathématicien, astronome et physicien allemand Carl Friedrich Gauss
(1777-1855) a découvert la loi normale d’une manière bien différente de celle
de Laplace. Travaillant en astronomie, il s’est intéressé aux erreurs de mesure,
et comme Legendre il a cherché une méthode pour minimiser ces erreurs. Dans
son livre « Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem
Ambientium » il écrit qu’il a utilisé le principe des moindres carrés déjà depuis
1795, donc bien avant la publication de cette méthode par Legendre en 1805.
Cette affirmation irritait Legendre et ils échangeaient des lettres sur ce sujet.
Concernant les erreurs de mesure, Gauss s’est posé la question s’il existe une
loi de probabilité des erreurs ei qui nous mène vers la moyenne arithmétique
comme estimateur du maximum de vraisemblance. Gauss a publié sa solution
dans « Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Am-
bientium » (« La théorie du mouvement des corps célestes tournant autour du
soleil ambiant en sections coniques ») en 1809.
Nous considérons les erreurs sur une quantité µ inconnue pour laquelle on dis-
pose de n mesures x1 , . . . , xn . Les erreurs y associées sont définies par ei = xi − µ
pour i = 1, . . . , n. Nous pouvons dire que ces erreurs sont n variables aléatoires
indépendantes suivant une même loi de densité f , dépendant de µ. Gauss fait les
hypothèses suivantes sur f :
– f est une fonction continûment dérivable ;
– f est une fonction paire, car il existe autant d’erreurs positives que d’erreurs
négatives ;
– f tend vers 0 lorsque |x| → ∞, car on fait moins souvent de grandes erreurs
26
Gauss et le maximum de vraisemblance
Il s’agit donc de chercher les densités f tel que la fonction L(µ) prenne sa
valeur maximale au point µ = µ
b = x̄. Aujourd’hui on appelle la fonction L(µ)
fonction de vraisemblance. Gauss a montré que les seules densités qui satisfont
ces différentes conditions sont les densités « normales ».
Gauss décrit son approche de la façon suivante :
d log L(µ)
= 0. (2.2.1)
dµ
27
Chapitre 2
L’équation (2.2.1) doit être satisfaite pour µ = x̄. Pour la suite nous posons
g = log f , alors en remplaçant µ par x̄ nous obtenons pour (2.2.1) :
Pour résoudre cette équation Gauss a pris une configuration spéciale pour l’échan-
tillon, à savoir
x2 = x3 = . . . = xn = x1 − nδ, n = 3, 4, . . . ,
x1 + . . . + xn
x̄ =
n
x1 + (n − 1)(x1 − nδ)
=
n
= x1 − nδ + δ
= x1 − δ(n − 1)
Comme f est une fonction paire nous avons g 0 (−δ) = −g 0 (δ), d’où
28
Gauss et le maximum de vraisemblance
autrement
g 0 [(n − 1)δ] g 0 (δ)
= .
(n − 1)δ δ
Comme cette égalité est vraie pour toute valeur de δ ainsi que pour tout multiple
g 0 (δ)
(n − 1)δ avec n naturel, il s’ensuit que forcément la fonction δ 7→ doit être
δ
une constante, que nous notons k. (voir la remarque en fin de section)
2
Ainsi g 0 (δ) = kδ et log f (δ) = g(δ) = k δ2 + c. Finalement la densité sera
1 2
f (δ) = Ce 2 kδ . Pour que f (0) soit un maximum il faut que la constante k soit
R∞ 2 √
négative. Grâce à un théorème de Laplace qui dit que 0 e−t dt = 21 π, Gauss
a finalement écrit la loi des erreurs sous la forme
h 2 2
f (δ) = √ e−h δ , avec −∞ < δ < ∞,
π
forme que nous connaissons bien de nos jours sous le nom de densité normale !
Remarque : Nous esquissons une brève preuve du fait que, si f (x) = f (nx)
pour tout naturel n > 0 et tout réel x avec f paire et continue, alors f est
forcément constante (nous avons utilisé ce résultat dans la preuve ci-dessus, où
f (x) = g 0 (x)/x est paire et continue). En posant x = 1, on trouve facilement
que f (n) = f (1) pour tout naturel n > 0. Pour x = m/n avec m > 0 naturel
on trouve f (m/n) = f (m) = f (1), donc nous savons que f (q) = f (1) pour tout
rationnel positif q. Comme Q+ est dense dans R+ et que f est continue, il suit
que f (x) = f (1) pour tout réel positif x. Le même raisonnement peut s’opérer
sur R− et donne f (x) = f (−1). La parité de f implique alors f (x) = f (−x) = c
une constante.
29
Chapitre 2
30
Loi normale en statistique
groß sind, und von denen jeder einzelne eben so leicht positiv, wie
negativ sein kann. » (Hagen 1837, p. 34)
Cette idée d’erreurs élémentaires a été appréciée d’un point de vue théorique,
mais a eu du mal à convaincre les chercheurs d’autres domaines. De même, la loi
normale n’a pas été utilisée ailleurs qu’en astronomie et probabilités.
Dans ce qui suit nous allons suivre Hald (1998), Stigler (1986) et Bischof
et al. (2011).
Lambert Adolphe Jacques Quetelet (1796-1874), un astronome, mathémati-
cien, naturaliste et statisticien belge a « exporté » la loi normale vers d’autres
domaines. En re-pensant l’hypothèse des erreurs élémentaires, il a postulé que
tous les phénomènes naturels mesurables devaient suivre une loi normale. Pour
comprendre son idée nous allons expliquer un de ses exemples plus en détail.
Quetelet a utilisé des données de tour de poitrine de 5738 soldats écossais, qu’il
a obtenues par le « Edinburgh Medical and Surgical Journal (1817) ». (Ces don-
nées étaient parmi les plus souvent utilisées dans la littérature statistique du 19e
siècle.) Il a dessiné un histogramme de ces données auquel il a superposé une loi
normale (en ayant recours à l’approximation normale d’une loi binomiale, voir
Section 2.1). Ceci peut se voir sur la Figure 2.2.
Il a constaté qu’il existe peu de soldats avec un tour de poitrine étroit ou
large et que la plupart des soldats ont un tour de poitrine moyen. Ces variations
sont, selon Quetelet, dues à des « causes aléatoires coopératives » : ces causes
qui coopèrent sont sa retranscription de l’hypothèse des erreurs élémentaires, et
sa justification de l’utilisation de la loi normale pour décrire le tour de poitrine
31
Chapitre 2
Figure 2.2 – Approxiamtion de la loi binomiale par la loi normale d’après Que-
telet (Quetelet, 1846, p. 396, cité par (Stigler 1986, p. 209))
32
Loi normale en statistique
Dans ce qui suit nous allons suivre Droesbeke et al. (2006) et Hald (1998).
Après Quetelet, un autre grand scientifique, à savoir Sir Francis Galton (1822-
1911), a cru en l’omniprésence de la loi normale. Il s’est intéressé à l’étude de
l’homme moyen de Quetelet. Galton était impressionné par le livre de son cousin
Charles Darwin, « L’origine des espèces au moyen de la sélection naturelle ou de
la lutte pour l’existence dans la nature ». Il s’est ainsi intéressé à l’hérédité. Il
voulait établir une échelle de mesure des aptitudes humaines.
Pendant que Quetelet s’est intéressé aux variations autour de la moyenne,
Galton s’est intéressé aux écarts à la moyenne. Il ne voulait pas éliminer les
écarts comme les astronomes, mais les interpréter. Galton a tellement cru en la
loi des possibilités de Quetelet qu’il l’a considérée comme « normal ». Dans son
livre « Natural Inheritance », publié en 1889, il écrit :
33
Chapitre 2
Dans la Section 2.3.2 nous avons parlé du fait que Quetelet a eu recours à
l’approximation normale de la loi binomiale pour représenter graphiquement à
quel point la loi normale s’accorde bien aux données. Galton a approfondi cette
approche. Il a imaginé et créé un instrument, « la quinconce », pour montrer
ce résultat visuellement. Il a aussi utilisé cet instrument pour étudier plus en
détail l’hérédité. La quinconce est une planche sur laquelle sont fixés des clous
disposés en quinconce. Du haut de la planche on fait tomber un nombre élevé de
billes. À chaque clou la bille a deux possibilités, soit elle est déviée à droite, soit
elle est déviée à gauche, ceci avec même probabilité 12 . On peut alors dire qu’à
chaque clou a lieu une épreuve de Bernoulli. Comme toutes les épreuves sont
indépendantes, la somme de toutes ces n épreuves suit donc une loi binomiale
B n, 21 qui, pour n grand, s’apparente à une densité normale. Sur la Figure 2.3
Figure 2.3 – Les trois quinconces de Galton (1889a, p. 63, cité par (Hald 1998,
p. 605))
34
Loi normale en statistique
xgfedcbaABCDEFGX,
35
Chapitre 2
exemple, outre l’observation immédiate que la moitié des gens ont un QI au-
dessus et en-dessous de 100 points, que 84.1% des gens ont un QI inférieur à 115
points, et que seulement 2.2% de personnes disposent d’un QI au-delà de 130
points.
Table 2.1 – Répartition par classes d’intelligence (Galton (1869, p. 30), cité par
Droesbeke et al. (2006, p. 7))
36
Un peu de nomenclature
37
Chapitre 2
38
Chapitre 3
3.1 Définitions
Commençons d’abord par donner une définition formelle de la densité d’une
loi normale.
39
Chapitre 3
1 (x−µ)2
φ x; µ, σ 2 = √ e− 2σ2 .
σ 2π
Afin de donner une idée de l’effet de chaque paramètre, nous donnons dans les
Figures 3.1 et 3.2 quelques courbes de la densité normale pour diverses valeurs
de µ et σ. La Figure 3.1 montre bien le rôle de σ comme paramètre d’échelle, qui
rend la densité soit plus aplatie soit plus pointue. En revanche, des variations
de µ n’affectent pas la forme de la courbe mais uniquement son emplacement,
comme le montre la Figure 3.2 ; d’où le nom de paramètre de position pour µ.
40
Définitions
0.3
0.2
0.1
0.0
-6 -4 -2 0 2 4 6
41
Chapitre 3
0.2
0.1
0.0
-6 -4 -2 0 2 4 6
42
Définitions
-6 -4 -2 0 2 4 6
43
Chapitre 3
-6 -4 -2 0 2 4 6
La loi normale est surtout connue sous sa forme dite centrée réduite dont la
densité de probabilité est donnée par
1 z2
φ(z) = √ e− 2 ,
2π
44
Propriétés et caractéristiques
X −µ
normale centrée réduite est donc définie comme Z = . Sa moyenne est
σ
égale à 0 et sa variance est égale à 1. On note Z ∼ N (0, 1). Remarquons que la
notation φ(z) et Φ(z) nous évite la notation superflue φ(z; 0, 1) et Φ(z; 0, 1).
Posons z = x − µ, alors x = z + µ, et
+∞ Z +∞
z2 z2
Z
1 1
E[X] = z √ exp − 2 dz + µ √ exp − 2 dx
−∞ σ 2π 2σ −∞ σ 2π 2σ
| {z }
=1
+∞
z2
1 2
= − √ σ exp − 2 +µ
σ 2π 2σ −∞
=0+µ
= µ.
45
Chapitre 3
Var[X] = E (X − E[X])2
= E[X 2 ] − (E[X])2
Z +∞
= x2 · φ(x; µ, σ 2 )dx − µ2
−∞
Z +∞
(x − µ)2
2 1
= x √ exp − 2
dx − µ2 .
−∞ σ 2π 2σ
Posons z = x − µ, alors x = z + µ, et
+∞
z2
Z
1
Var[X] = 2
(z + µ) √ exp − 2 dz − µ2
−∞ σ 2π 2σ
Z +∞ 2 Z +∞
z2
2 1 z 1
= z √ exp − 2 dz + 2µz √ exp − 2 dz
−∞ σ 2π 2σ −∞ σ 2π 2σ
Z +∞ 2
1 z
+ µ2 √ exp − 2 dz − µ2
−∞ σ 2π 2σ
Z +∞ 2 Z +∞
z2
2 1 z 1
= z √ exp − 2 dz + 2µ z √ exp − 2 dz
−∞ σ 2π 2σ −∞ σ 2π 2σ
| {z }
=0
Z +∞
z2
2 1
+µ √ exp − 2 dz −µ2
σ 2π 2σ
| −∞ {z }
=1
Z +∞
z2
2 1
= z √ exp − 2 dz.
−∞ σ 2π 2σ
46
Propriétés et caractéristiques
t2 σ 2
MN (µ,σ2 ) (t) = etµ e 2 .
Comme les deux preuves se ressemblent fortement, nous allons nous contenter
ici d’établir l’expression de MN (µ,σ2 ) (t).
47
Chapitre 3
nous obtenons
Posons z = x − µ, alors
+∞
z2
Z
1
MN (µ,σ2 ) (t) = exp (tµ) √ exp − 2 + tz dz
−∞ σ 2π 2σ
Z +∞
1 1 2 2 2 2
2 2
= exp (tµ) √ exp − 2 z − 2tσ z + tσ − tσ dz
−∞ σ 2π 2σ
Z +∞
1 2 2
1 1 2 2
= exp (tµ) exp tσ √ exp − 2 z − tσ dz
2σ 2 −∞ σ 2π 2σ
| {z }
=1
2 2
tσ
= exp (tµ) exp .
2
La fonction génératrice des moments ne sert pas uniquement à calculer les mo-
ments d’une variable aléatoire, mais également à la définir. En effet, deux va-
riables aléatoires sont égales en distribution si et seulement si leurs fonctions
génératrices des moments sont égales en tout point. Dans ce qui suit, nous allons
justement avoir recours à cette propriété clé pour prouver diverses propriétés
48
Propriétés et caractéristiques
t2 2 2 2
= et(µ1 +µ2 +...+µn ) e 2 (σ1 +σ2 +...+σn ) .
pX ∼ N pµ, p2 σ 2 .
49
Chapitre 3
nous obtenons
= E e(tp)X
t2 p2 2
= e(tp)µ e 2
σ
t2 2 2
= et(pµ) e 2 p σ
.
Définition 3.2.2. Le moment centré d’ordre n ∈ N, s’il existe, est donné par
µn = E [(X − E[X])n ]
Dans ce qui suit nous allons nous concentrer sur les moments d’ordre 1, 2, 3
et 4.
Le moment d’ordre 1 est l’espérance de la variable aléatoire X, c’est-à-dire la
50
Propriétés et caractéristiques
+∞
(x − µ)2
Z
1
E (X − µ)3 = 3
(x − µ) √ exp − dx.
−∞ σ 2π 2σ 2
E (X − µ)3 = 0.
⇐⇒ 0 = E X 3 − 3µ µ2 + σ 2 + 3µ3 − µ3
⇐⇒ E X 3 = 3µσ 2 + µ3 .
+∞
(x − µ)2
Z
1
E (X − µ)4 = 4
(x − µ) √ exp − dx.
−∞ σ 2π 2σ 2
51
Chapitre 3
+∞
z2
Z
1
E (X − µ)4 = 4
z √ exp − 2 dz.
−∞ σ 2π 2σ
En résolvant cette intégrale par une intégration par parties nous obtenons
+∞ +∞
z2 z2
Z
4
1 2 3 2 2 1
E (X − µ) = − √ σ z exp − 2 + 3σ z √ exp − 2 dz
σ 2π 2σ σ 2π 2σ
−∞
| −∞ {z }
=σ 2
= 0 + 3σ 4
= 3σ 4 .
⇐⇒ E X 4 = 3σ 4 + 6µ2 σ 2 + µ4 .
3.3 Quantile
Les quantiles sont des mesures de position, ils décrivent une position parti-
culière. Nous connaissons déjà un quantile particulier, la médiane, qui divise un
ensemble d’observations en deux parties. En d’autres mots, on peut dire qu’un
quantile est une valeur séparante, une certaine partie des valeurs étant plus pe-
tites, une autre partie plus grande qu’un quantile.
De manière plus formelle, nous définissons de la manière suivante le quantile
52
Quantile
S’il n’y a pas de sauts de discontinuité dans F , alors qαF = F −1 (α) est bien
défini. La médiane correspond donc à F −1 (1/2) ; si X est symétrique sur R, alors
F −1 (1/2) = 0 comme c’est le cas de la loi normale centrée réduite. Les quantiles
de cette loi sont particulièrement bien étudiés, et sont repris dans la Table 3.1.
Rappelons que sa fonction de répartition se note Φ(x). A l’aide de ce tableau, on
peut facilement calculer les quantiles de la loi normale centrée réduite, que nous
noterons zα = qαΦ , ainsi que des quantités comme la probabilité qu’une N (0, 1) se
situe entre, disons, 1 et 1, 2. Il suffit pour cela d’aller voir la probabilité associée
aux points 1 et 1,2 (0,8413 et 0,8849, respectivement), et de calculer la différence
(0,0436). Le quantile d’ordre 0,6 s’obtient en allant chercher sur le tableau quelle
valeur de Φ(x) correspond à 0,6 (c’est une valeur entre 0,25 et 0,26). La Table 3.1
ne contient que les quantiles, donc les valeurs de Φ(x), variant entre 0, 5 et 1 ;
les valeurs négatives s’en déduisent aisément via la relation Φ(x) + Φ(−x) = 1
(propriété de symétrie de la loi normale ; elle implique aussi que zα = −z1−α ).
Les quantiles, pas seulement de la loi normale, sont des outils précieux en sta-
tistique. D’un côté, parce qu’ils sont utilisés comme valeurs limites dans les tests
d’hypothèse (voir Section 4.4) ; d’un autre côté, pour construire des intervalles de
confiance (voir Section 4.3). Il existe aussi des outils comme le QQ-plot pour faire
de l’inférence statistique comme par exemple pour tester visuellement si l’hypo-
thèse de normalité est correcte dans une situation donnée, voir Section 4.5.
53
Chapitre 3
Φ(x) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
Table 3.1 – Table de valeurs de la fonction de répartition de la loi normale centrée réduite.
Les valeurs dans le tableau correspondent à Φ(x), et les valeurs en gras sur le côté déterminent
les valeurs de x correspondantes. A gauche se trouvent les premières décimales, en haut les
deuxièmes décimales. (Dodge 2007, p. 624)
54
Le Théorème Central Limite
d
− signifie convergence en distribution ou en loi 1 .
où →
55
Chapitre 3
ment suivant :
connaître M (0), M 0 (0) et M 00 (0), quantités que nous pouvons facilement calculer :
M (0) = 1, M 0 (0) = 0 et M 00 (0) = 1. Ceci nous donne :
n
t2 00
t 0 1
MZn (t) = M (0) + √ M (0) + M (0) + R t √
n1! n2! n
où R t √1n désigne le reste du développement, avec limn→∞ nR t √1n = 0.
Pour simplifier l’écriture, notons rn = R t √1n et en remplaçant M (0), M 0 (0)
56
Le Théorème Central Limite
= 1 + n
.
t2
2
+nrn
1 x
Comme lim 1 + x
→ e, nous avons :
x→∞
t2
n
· +nrn
t2 +nr 2
n
1 2
MZn (t) = 1 + n
t2
2
+nrn
2
t
n→∞
−→ e1
2
car nrn → 0
t2
=e . 2
Finalement on voit que MZn (t) tend vers la fonction génératrice des moments
d’une variable aléatoire suivant la loi N (0, 1) dont on peut conclure que
Pn Xi −µ d
√1 →
− N (0, 1).
n i=1 σ
Remarquons que dans cette preuve nous avons fait une hypothèse en plus :
que la fonction génératrice des moments des variables X1 , . . . , Xn existe. Quand
tel n’est pas le cas, nous pouvons faire la même preuve avec la fonction carac-
téristique (qui existe toujours) ; ici, nous avons opté pour le premier choix par
souci de simplicité, afin d’éviter des nombres complexes.
57
Chapitre 3
n
1 X
E |Xi − µi |2+δ = 0,
lim 2+δ (3.4.1)
n→∞ sn
i=1
alors, pour n → ∞,
n
1 X d
(Xi − µi ) →
− N (0, 1) .
sn i=1
n
1 X
E (Xi − µi )2 1{|Xi −µi |>sn } = 0,
lim 2 (3.4.2)
n→∞ sn
i=1
58
Le Théorème Central Limite
n
1 X d
(Xi − µi ) →
− N (0, 1) .
sn i=1
n
1 X
√ (Xi − µ) ≈ N (0, 1),
nσ i=1
et il suffit alors d’aller consulter la table de la loi normale (voir Table 3.1) pour
trouver par exemple la probabilité que la somme nSn se trouve entre deux valeurs
a et b. De tels calculs sont extrêmement utiles quand, par exemple, on dispose de
500 appareils électriques indépendants dont on sait que chacun tombe en panne
avec une probabilité de 25%, et qu’on aimerait connaître la probabilité que moins
de 100 appareils tombent en panne. Grâce au TCL, des questions de ce genre
se résolvent presque immédiatement. D’autre part, le TCL est beaucoup utilisé
en statistique où la plupart des expressions statistiques comportent des sommes.
Grâce au TCL, les statisticiens peuvent en déterminer la loi probabiliste, et ainsi
construire leurs procédures. C’est donc la simplicité ainsi que le grand éventail
d’utilisations potentielles qui rendent le TCL tellement populaire.
59
Chapitre 3
3.5 L’entropie
Tout comme en thermodynamique, le concept d’entropie a été introduit en
probabilités pour mesurer le degré de désordre, chaos, incertitude d’une variable
aléatoire. La définition est comme suit.
∞
X
H(X) = − P [X = i] log(P [X = i]).
i=1
Notons que les deux notations, H(f ) et H(X), sont admises. Le concept d’en-
tropie a été introduit par Claude Elwood Shannon (1916-2001), un ingénieur en
génie électrique et mathématicien américain. Il est considéré comme le père de
la théorie de l’information, une théorie mathématique de la transmission de si-
gnal. Pour illustrer la définition précédente, considérons un exemple très simple,
à savoir de nouveau le jeu pile ou face. Si la pièce de monnaie est truquée de telle
sorte que Pile apparaît avec probabilité p = 1, alors H(Bern(p)) = 0. Si, par
contre, la pièce est parfaitement équilibrée, son entropie H(Bern(p)) = log(2)
est maximale car elle correspond à l’état le plus incertain.
La loi normale occupe aussi un rôle particulier en ce qui concerne l’entropie,
comme le montre le Théorème 3.5.1 ci-dessous. Avant cela, nous calculons d’abord
l’entropie de la loi normale.
60
L’entropie
log(2πσ 2 e)
H(φ(·; µ, σ 2 )) =
2
Démonstration.
Z+∞
H(φ(·; µ, σ 2 )) = − φ(x; µ, σ 2 ) log φ(x; µ, σ 2 )dx
−∞
Z+∞
1 −
(x−µ)2 1 −
(x−µ)2
=− √ e 2σ log √ e 2σ
2 2
dx
σ 2π σ 2π
−∞
Z+∞
(x − µ)2
1 −
(x−µ)2 1
=− √ e 2σ 2
log √ − dx
σ 2π σ 2π 2σ 2
−∞
Z+∞ Z+∞
(x − µ)2 1
1 1 −
(x−µ)2
−
(x−µ)2
=− log √ √ e 2σ2 dx + √ e 2σ 2 dx
σ 2π σ 2π 2σ 2 σ 2π
−∞ −∞
Z+∞ Z+∞
1 1 −
(x−µ)2 1 1 (x−µ)2
= − log √ √ e 2σ2 dx + 2 (x − µ)2 √ e− 2σ2 dx
σ 2π σ 2π 2σ σ 2π
−∞ −∞
| {z } | {z }
=1 =σ 2
h 1
1 i
2 2
= log 2πσ +
2
1 1
= log 2πσ 2 + log e1
2 2
2
log (2πσ e)
=
2
61
Chapitre 3
1
La dérivée de la fonction log(x) − x + 1 est égale à x
− 1 et la fonction est ainsi
croissante sur l’intervalle ]0; 1] et décroissante sur l’intervalle ]1; +∞[. Comme
son maximum en 1 vaut 0, log(x) − x + 1 ≤ 0 et l’inégalité (3.5.3) est vérifiée.
g(x)
En remplaçant dans cette inégalité x par f (x)
, avec f (x) > 0 et g(x) > 0, nous
obtenons
g(x) g(x)
log ≤ − 1.
f (x) f (x)
Ainsi nous pouvons écrire que
Z+∞ Z+∞
g(x) g(x)
f (x) log dx ≤ f (x) − 1 dx
f (x) f (x)
−∞ −∞
Z+∞
= (g(x) − f (x)) dx
−∞
Z+∞ Z+∞
= g(x)dx − f (x)dx, car f et g sont des densités
−∞ −∞
| {z } | {z }
=1 =1
= 0.
Ainsi
Z+∞
g(x)
f (x) log dx ≤ 0. (3.5.4)
f (x)
−∞
62
L’entropie
Z+∞
g(x)
f (x) log dx ≤ 0
f (x)
−∞
+∞
Z+∞ Z
⇐⇒ f (x) log g(x)dx + − f (x) log f (x)dx ≤ 0
−∞ −∞
| {z }
H(f )
Z+∞
⇐⇒ H(f ) ≤ − f (x) log g(x)dx.
−∞
Z+∞
1 −
(x−µ)2
H(f ) ≤ − f (x) log √ e 2σ2 dx
σ 2π
−∞
Z+∞ Z+∞
(x − µ)2
1
=− f (x) log √ dx + f (x) dx
σ 2π 2σ 2
−∞ −∞
Z+∞ Z+∞
1 1
= − log √ f (x)dx + 2 (x − µ)2 f (x)dx
σ 2π 2σ
−∞ −∞
| {z } | {z }
=1 =σ 2
h 1 i
2 2 1
= log 2πσ +
2
log (2πσ 2 e)
=
2
= H(φ(·; µ, σ 2 )).
63
Chapitre 3
est de loi normale ; même plus fort, le vecteur (X, Y )0 suit en fait une loi normale
en dimension deux (voir Section 4.5.1). Cette manière de générer des variables
aléatoires normales, en commençant par des uniformes U et V et en y appliquant
les transformations ci-dessus, est la méthode dite Box-Muller. Cette méthode a
été introduite par le statisticien britannique George Edward Pelham Box et par
64
Génération de variables aléatoires normales via la méthode de Box-Muller
Mervin Edgar Muller en 1958. Nous n’allons pas donner ici une preuve rigoureuse
du fait que X et Y soient de loi normale, mais nous allons plutôt donner un
argument heuristique.
Deux résultats connus sur un vecteur normal bivarié sont les suivants : X 2 +Y 2
suit une loi khi-deux de degré de liberté 2, et arctan(Y /X), soit l’angle formé par
le vecteur (X, Y )0 , est de loi uniforme sur [0, 2π]. La construction de Box-Muller
permet de retrouver ces propriétés. En effet
√
sin(2πU ) −2 log V
arctan(Y /X) = arctan √ = arctan (tan(2πU )) = 2πU,
cos(2πU ) −2 log V
et comme U est uniforme sur [0, 1], 2πU est uniforme sur [0, 2π]. Par ailleurs
= P (V ≥ exp(−x/2))
= 1 − P (V ≤ exp(−x/2))
65
Chapitre 3
66
Génération de variables aléatoires normales via la méthode de Box-Muller
40
20
30
15
fréquence
fréquence
20
10
10
5
0
0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
X X
200
80
150
60
fréquence
fréquence
100
40
50
20
0
-4 -3 -2 -1 0 1 2 3 -4 -2 0 2 4
X X
67
Chapitre 3
68
Chapitre 4
Comme la loi normale est souvent utilisée pour modéliser divers phénomènes
réels, il est essentiel de savoir estimer les paramètres de position et d’échelle
de cette loi. Nous allons décrire deux méthodes d’estimation, la méthode par
le maximum de vraisemblance et la méthode des moments. Fortement lié à la
thématique estimation est le théorème de caractérisation de Gauss vu à la Sec-
tion 2.2. Nous en donnerons ici une version moderne. Puis nous passerons aux
intervalles de confiance et aux tests d’hypothèse portant sur soit la position
soit l’échelle et expliquer quand et pourquoi on rejette une hypothèse donnée.
Ces tests et intervalles ne sont valides qu’à condition que les données observées
suivent une loi normale, mais bien sûr rien ne garantit a priori que tous les jeux
de données suivent bel et bien cette courbe. Nous allons par conséquent décrire
des tests qui valident ou invalident l’hypothèse de normalité. En cas d’invalida-
tion, il faut s’en tenir à des lois non-normales ; je termine donc le chapitre par
un bref aperçu sur de telles lois.
69
Chapitre 4
1 (xi −µ)2
fXi xi ; µ, σ 2 = √ e− 2σ2 .
∀i = 1, . . . , n :
σ 2π
n
Y
Lµ,σ2 (x1 , . . . , xn ) = fXi (xi ; µ, σ 2 )
i=1
n
Y 1 1 2
= √ e− 2σ2 (xi −µ)
i=1
σ 2π
n
1 1 Pn 2
= √ e− 2σ2 i=1 (xi −µ)
σ 2π
n n2
1 1 − 12
Pn 2
i=1 (xi −µ) .
= √ e 2σ (4.1.1)
2π σ2
n
√ n 2 1 X
log Lµ,σ2 (x1 , . . . , xn ) = −n log( 2π) − log(σ ) − 2 (xi − µ)2 . (4.1.2)
2 2σ i=1
70
Estimation des différents paramètres
n
∂ 1 X
log Lµ,σ2 (x1 , . . . , xn ) = 2 2(xi − µ)
∂µ 2σ i=1
n
1 X
= 2 (xi − µ),
σ i=1
n
∂ 1 X
log Lµ,σ2 (x1 , . . . , xn ) = 0 ⇐⇒ 2 (xi − µ) = 0
∂µ σ i=1
n
X
⇐⇒ xi − nµ = 0
i=1
⇐⇒ n(x̄ − µ) = 0
⇐⇒ µ = x̄.
Il s’ensuit que µ
bMLE = x̄.
Pour trouver l’estimateur MLE de σ 2 , nous faisons le même raisonnement en
dérivant l’expression (4.1.2) par rapport à σ 2 :
n
∂ n 1 1 X
log Lµ,σ 2 (x 1 , . . . , x n ) = − + (xi − µ)2 .
∂σ 2 2 σ 2 2 (σ 2 )2 i=1
71
Chapitre 4
n
∂ n 1 X
2
log Lµ,σ2 (x1 , . . . , xn ) = 0 ⇐⇒ − 2 + 2 (xi − µ)2 = 0
∂σ 2σ 2
2 (σ ) i=1
Xn
⇐⇒ −nσ 2 + (xi − µ)2 = 0
i=1
n
2 1X
⇐⇒ σ = (xi − µ)2 .
n i=1
1
Pn
bMLE = x̄, nous obtenons finalement σb2 MLE =
Comme µ n i=1 (xi − x̄)2 .
Il nous reste à vérifier que les valeurs obtenues correspondent bien à des
maxima ; pour que ce soit le cas il faut que la matrice hessienne soit définie
négative. Calculons donc les différents coefficients de la matrice hessienne :
∂2 n
2
log Lµ,σ2 (x1 , . . . , xn ) = − 2
(∂µ) σ
n
∂ ∂ 1 X
log L µ,σ 2 (x1 , . . . , xn ) = − 2 (xi − µ)
2
∂µ ∂σ 2 2 (σ 2 ) i=1
n
1 X
=− (xi − µ)
(σ 2 )2 i=1
n
∂ ∂ 1 X
log Lµ,σ2 (x1 , . . . , xn ) = − (xi − µ)
∂σ 2 ∂µ (σ 2 )2 i=1
72
Estimation des différents paramètres
n
∂2 n 2σ 2 X
log Lµ,σ 2 (x 1 , . . . , x n ) = 2 − 2 (xi − µ)2
(∂σ 2 )2 2
2 (σ ) 2
2 (σ )2
i=1
n
n 1 X
= 2 − 3 (xi − µ)2 .
2
2 (σ ) 2
(σ ) i=1
Comme µ
bMLE = x̄, les éléments diagonaux s’annulent, donnant lieu à la simpli-
fication
n
− c2 0
σ MLE
H= .
n 1
Pn 2
0 2 − 3
i=1 (xi − x̄)
2
2 σ MLE
c c2
σ MLE
Comme H est une matrice diagonale il suffit de vérifier que les éléments diago-
naux sont tous négatifs :
n
− <0
σb2 MLE
73
Chapitre 4
et
n n
n 1 X
2 n
2
1 X
2
2 − (xi − x̄) = 3 σ MLE − 2 (xi − x̄)
b
3
n i=1
2 σb2 MLE σb2 MLE i=1 2 σb2 MLE
| {z }
c2
σ MLE
n
=− 2
2 σb2 MLE
< 0.
L’estimation des paramètres via la méthode des moments a été utilisée pour
la première fois par Karl Pearson. Cette méthode repose sur l’idée d’égaliser les
k premiers moments de la distribution en question avec les moments empiriques
correspondants. Il faut alors résoudre un sytème de k équations, avec k le nombre
de paramètres inconnus dans la distribution. Ainsi pour l’estimation des para-
mètres µ et σ 2 il faut résoudre le système suivant (voir Section 3.2.1 pour les
moments théoriques)
m =µ
1
m = σ 2 + µ2 , avec mi (i = 1, 2) les moments empiriques.
2
74
Estimation des différents paramètres
n n
1X 1X 2
m1 = xi et m2 = x (4.1.3)
n i=1 n i=1 i
i=1
x̄ = µ
⇒ n
n1 x2i − µ2 = σ 2
P
i=1
x̄ = µ
⇒ n
n1 x2i − x̄2 = σ 2
P
i=1
x̄ = µ
⇒ n
n1 x2i − 2x̄2 + x̄2 = σ 2
P
i=1
x̄ = µ
⇒ n n n
n1 x2i − 2 n1 xi x̄ + n1 x̄2 = σ 2
P P P
i=1 i=1 i=1
x̄ = µ
⇒ n
n1 (xi − x̄)2 = σ 2
P
i=1
n
1X
µ
bM M = x̄ et σb2 M M = (xi − x̄)2 .
n i=1
Nous voyons donc que les estimateurs par la méthode des moments corres-
75
Chapitre 4
76
Version moderne du théorème de caractérisation de la loi normale selon Gauss
Alors f (x) est la fonction de densité d’une loi N (0, σ 2 ) pour un certain σ 2 > 0.
n
X d
log (f (xi − µ)) = 0. (4.2.4)
i=1
dµ
d
En posant g(x) = dx
log (f (x)), nous obtenons pour (4.2.4)
n
X
g(xi − µ) = 0.
i=1
n
X
g(xi − x̄) = 0 (4.2.5)
i=1
77
Chapitre 4
Ainsi
g(0) = 0.
Ceci implique que g(−u) = −g(u), c’est-à-dire que g est une fonction impaire.
Prenons ensuite un troisième et dernier échantillon, u, v, −(u + v), 0, . . . , 0, avec
u et v deux réels donnés, où la moyenne empirique µ
b vaut 0. Nous obtenons alors
pour l’équation (4.2.5)
78
Version moderne du théorème de caractérisation de la loi normale selon Gauss
= ...
= ng(1).
Ainsi
g(n) = ng(1) ∀n ∈ N.
Comme g est une fonction impaire g(−n) = −g(n) = −ng(1), et nous pouvons
étendre ce résultat aux entiers pour avoir
g(z) = zg(1) ∀z ∈ Z.
il suit que
r
1 g(1) 1 g(1)
g(q) = g = rg =r , car g =
s s s s s
= qg(1).
79
Chapitre 4
Donc
Comme Q est dense dans R et g est une fonction continue (car f 0 est une fonction
continue), la relation (4.2.7) s’étend aux réels et donc
g(x) = xg(1) ∀x ∈ R.
Donc la solution de l’équation (4.2.6) est de la forme g(x) = g(1)x = cx, avec
c ∈ R une constante. Pour simplifier les notations dans la suite nous écrivons
d
g(x) = −cx, avec c ∈ R une constante. Ainsi comme g(x) = dx
log (f (x)) nous
avons
1
log f (x) = d − cx2
2
et finalement
x2
f (x) = De−c 2 ∀x ∈ R,
avec D et c des constantes réelles. Comme f doit être intégrable sur R, il faut
que c > 0. Après avoir choisi la constante D de telle façon que l’intégrale de f
x2
soit égale à 1, nous obtenons, en posant 1
= σ 2 , que f (x) = √ 1 e− 2σ2 , qui est
c 2πσ
80
Intervalles de confiance
81
Chapitre 4
X̄ − µ
√ ∼ N (0, 1). (4.3.8)
σ/ n
Notons que cet intervalle-ci est le plus petit intervalle contenant une masse de
probabilité de 1 − α pour la loi normale standard (dû au fait que l’intervalle est
centré sur l’origine), il est donc naturel de le choisir vu que nous voulons avoir
un intervalle de confiance pour µ qui soit le plus petit, et donc le plus précis,
possible. Développons à présent (4.3.9) afin de le centrer sur µ :
X̄ − µ
−z1−α/2 ≤ √ ≤ z1−α/2
σ/ n
σ σ
⇐⇒ −z1−α/2 √ ≤ X̄ − µ ≤ z1−α/2 √
n n
σ σ
⇐⇒ X̄ − z1−α/2 √ ≤ µ ≤ X̄ + z1−α/2 √ .
n n
82
Intervalles de confiance
On voit bien ici la valeur ajoutée par rapport aux estimateurs de la section
précédente : ici, on retrouve l’estimateur X̄, mais en plus nous avons un intervalle
centré sur X̄ qui contient la vraie valeur de paramètre µ avec probabilité 1 − α.
Maintenant, il est clair que les situations où σ est connu d’avance sont plutôt
rares, et il est donc surtout important de construire un intervalle de confiance
pour µ quand le paramètre d’échelle est inconnu et doit être estimé. Nous allons
l’estimer en modifiant quelque peu l’estimateur σb2 MLE de la section précédente :
1
Pn n b2
nous utilisons ici s2n = n−1 2
i=1 (Xi − X̄) = n−1 σ MLE . D’un point de vue
statistique, cet estimateur jouit de la propriété d’être sans biais pour l’estimation
n−1 2
de σ 2 , ce qui veut dire que E[s2n ] = σ 2 , contrairement à E[σb2 ] = n
σ .
Montrons que s2n est sans biais :
" n
#
1 X
E s2n = E (Xi − X̄)2
n − 1 i=1
" n #
1 X
= E Xi2 − nX̄ 2
n−1
" i=1
n
#
1 X n
Xi2 − E X̄ 2
= E
n−1 i=1
n−1
n
E X12 − Var X̄ + E2 X̄
=
n−1
n
Var[X1 ] + E2 [X1 ] − Var[X̄] − E2 [X̄]
=
n−1
σ2
n 2 2 2
= σ +µ − −µ
n−1 n
n n−1 2
= · σ
n−1 n
= σ2.
83
Chapitre 4
1
Pn
– En notant s2n = n−1 2
i=1 (Xi − X̄) la variance empirique, il suit que
Ce lemme précieux nous procure toutes les informations dont nous avons
besoin (bien que le premier point nous soit déjà connu). En effet, en combinant
√
(X̄ − µ)/(σ/ n) ∼ N (0, 1), (n − 1)s2n /σ 2 ∼ χ2n−1 et l’indépendance entre X̄ et
84
Intervalles de confiance
sn , nous avons
√X̄−µ
X̄ − µ σ/ n
√ = √ ∼ tn−1 , (4.3.10)
sn / n (n−1)s2n /σ 2
√
(n−1)
X̄ − µ
√ ∼ tn−1 ,
sn / n
X̄ − µ
−tn−1;1−α/2 ≤ √ ≤ tn−1;1−α/2
sn / n
sn sn
⇐⇒ −tn−1;1−α/2 √ ≤ X̄ − µ ≤ tn−1;1−α/2 √
n n
sn sn
⇐⇒ X̄ − tn−1;1−α/2 √ ≤ µ ≤ X̄ + tn−1;1−α/2 √ .
n n
85
Chapitre 4
(n − 1)s2n
2 2
P χn−1;α/2 ≤ ≤ χn−1;1−α/2 = 1 − α. (4.3.12)
σ2
(n − 1)s2n
χ2n−1;α/2 ≤ ≤ χ2n−1;1−α/2
σ2
1 σ2 1
⇐⇒ ≤ ≤
χ2n−1;1−α/2 (n − 1)s2n 2
χn−1;α/2
(n − 1)s2n (n − 1)s2n
⇐⇒ ≤ σ2 ≤ .
χ2n−1;1−α/2 χ2n−1;α/2
86
Tests d’hypothèse sur les paramètres d’une loi normale
87
Chapitre 4
loi normale. Comme nous le verrons, les statistiques sur lesquelles les règles de
décision (rejet ou non-rejet d’une hypothèse) se basent sont très semblables aux
statistiques utilisées pour construire les intervalles de confiance dans la section
précédente.
Dans ce qui suit nous allons suivre Mendenhall et al. (2002). Avant de
commencer par décrire différents tests, nous allons d’abord définir ce qu’est un
test d’hypothèse. Selon Dodge (2007, p. 525) :
88
Tests d’hypothèse sur les paramètres d’une loi normale
89
Chapitre 4
suite.
Comme pour les intervalles de confiance, nous commençons par supposer que
la variance de la population est connue. L’échantillon suit alors une loi normale
N (µ, σ 2 ), et on cherche à tester
H0 : µ = µ0 contre H1 : µ 6= µ0 ,
pour une quelconque valeur µ0 ∈ R. Le test formulé comme ci-dessus est dit
bilatéral ; des tests unilatéraux auraient comme alternatives H1;> : µ > µ0 et
H1;< : µ < µ0 .
Fixons le niveau de signification à α ∈ (0, 0.5). Par (4.3.8) nous savons que,
sous H0 ,
X̄ − µ0
√ ∼ N (0, 1),
σ/ n
dont nous pouvons directement déduire qu’un test sur µ rejette l’hypothèse nulle
H0 au niveau α si
X̄ − µ0
Z := √ ∈ / [−z1−α/2 ; z1−α/2 ],
σ/ n
où nous gardons les mêmes notations de quantiles qu’aux sections précédentes.
Intuitivement, on rejette l’hypothèse nulle si l’écart entre X̄ et µ0 devient trop
grand, et comme nous connaissons la loi de Z sous H0 , nous savons exprimer en
termes mathématiques « l’écart est trop grand » : ceci est le cas si |Z| dépasse les
quantiles d’ordre α/2 ou 1−α/2. On voit donc aussi directement le lien fort entre
domaines de rejet/non-rejet d’une hypothèse nulle et les intervalles de confiances.
90
Tests d’hypothèse sur les paramètres d’une loi normale
91
Chapitre 4
n
1 X 2
s2n = Xi − X̄ .
n − 1 i=1
X̄ − µ0
T = √ ,
sn / n
Maintenant T ne suit plus une loi normale, mais d’après la Section 4.3.2, la sta-
tistique de test T suit une loi de Student à (n−1) degrés de liberté. La procédure
pour déterminer la région de rejet est la même que pour le test précédent, sauf
qu’on utilise la table de la loi de Student. On rejette alors l’hypothèse nulle si
T < tn−1;α/2 ou si T > tn−1;1−α/2 .
Dans le cas de tests unilatéraux, on rejette H0
– en faveur de H1;> si T > tn−1;1−α ;
92
Tests d’hypothèse sur les paramètres d’une loi normale
Test de la variance
n 2
(n − 1)s2n X
Xi − µ0
T = = .
σ02 i=1
σ0
Elle suit une loi khi-deux à n degrés de libertés sous l’hypothèse nulle. Pour un
risque α, on a alors
(n − 1)s2n
2 2
P χn;α/2 ≤ ≤ χn;1−α/2 = 1 − α.
σ02
n 2
(n − 1)s2n X
Xi − X̄
T = = .
σ02 i=1
σ0
93
Chapitre 4
Elle suit une loi khi-deux à (n − 1) degrés de libertés sous l’hypothèse nulle. Pour
un risque α, on a alors
(n − 1)s2n
2 2
P χn−1;α/2 ≤ ≤ χn−1;1−α/2 = 1 − α.
σ02
94
Tests de normalité
Pour cette section nous allons suivre Gel and Gastwirth (2008) et D’Agostino
and Pearson (1973).
Karl Pearson (1857-1936), un mathématicien et statisticien britannique,
était le premier à observer que des déviations de la distribution normale peuvent
être déterminées par des différences dans les moments d’ordre 3 et 4 entre les
moments empiriques, calculés à partir des données, et les moments théoriques
de la loi normale. Son fils Egon Sharpe Pearson, qui était aussi statisticien, a
écrit en 1935 :
« In the case of testing the hypothesis that a sample has been drawn
from a normality distributed population, it seems likely that for
late samples and when only small departures from normality are in
question, the most efficient criteria will be based on the moment
coefficients of the sample [...]. » (cité par (Thode 2002, p. 41))
95
Chapitre 4
Le test de Jarque-Bera, introduit par Carlos Jarque et Anil Bera en 1980, est
justement basé sur ces coefficients d’asymétrie et d’aplatissement. Comme nous
l’avons vu dans la Section 3.2.1 la loi normale a pour coefficient d’asymétrie 0
et pour coefficient d’aplatissement 3. Il s’agit donc de comparer ces valeurs aux
coefficients empiriques obtenus grâce aux données qu’on veut analyser.
Les estimateurs pour les coefficients d’asymétrie et d’aplatissement sont don-
nés par
n
1
(xi − x̄)3
P
µ
b3 n
b1 = 3
= i=1 32
σ
b n
2
1
P
n
(xi − x̄)
i=1
et n
(xi − x̄)4
1
P
µ
b4 n
b2 = 4 = i=1 2 ,
σ
b 1
n
P 2
n
(xi − x̄)
i=1
96
Tests de normalité
de la Section 2.2.1, est d(a, b) = (a − b)2 , ce qui donnerait une statistique du type
α1 b21 + α2 (b2 − 3)2 , avec α1 et α2 des constantes. Le choix de ces constantes est
guidé par la loi sous l’hypothèse nulle de normalité des deux coefficients b1 et b2 .
Sous l’hypothèse nulle, on peut montrer que ces estimateurs pour les coefficients
√
d’asymétrie et d’aplatissement sont tels que le vecteur n bb12 converge vers la
loi
0 6 0
N2 , (4.5.13)
3 0 24
n 2 n
JB = b1 + (b2 − 3)2 .
6 24
n 2
Sous l’hypothèse nulle, la loi asymptotique (4.5.13) nous dit donc que b
6 1
suit
n
une (N (0, 1))2 , et de même pour (b − 3)2 .
24 2
Comme de plus b1 et b2 sont asymp-
totiquement indépendants, il en découle que JB suit asymptotiquement une loi
khi-deux à 2 degrés de liberté. Le test Jarque-Bera, qui rejette l’hypothèse nulle
97
Chapitre 4
Pour cette section nous allons suivre Razali and Wah (2011).
Le test de Jarque-Bera se base sur les moments de la loi normale. Les tests
de Kolmogorov-Smirnov et de Lilliefors, par contre, sont basés sur la fonction
de répartition de la loi normale. En bref, ils comparent la distribution normale
théorique à la distribution empirique des données, et rejettent la normalité pour
une trop grande distance entre ces quantités. Le test de Kolmogorov-Smirnov
suppose connues la moyenne et la variance, tandis que le test de Lilliefors ne fait
pas cette hypothèse.
La statistique de test de Kolmogorov-Smirnov est donnée par
98
Tests de normalité
b, σb2 ) − Fn (x) ,
LF = sup Φ(x; µ
x
Après avoir vu les tests de normalité en théorie, nous allons mettre en pratique
ces tests sur des jeux de données réelles.
Pour ce faire, nous allons utiliser une base de donnée faite par l’« Australian
Institute of Sport ». Ces données contiennent des informations sur 102 athlètes
masculins et 100 athlètes féminines. Les informations données sont le sexe, la
taille, le poids, le BMI (body-mass index), etc (au total il y a 13 types de données
distinctes). Elles sont enregistrées dans le package « sn » du logiciel R.
Nous allons tester la normalité des variables taille, poids et BMI. Pour cela nous
allons utiliser le logiciel R où beaucoup de tests sont déjà définis, et nous allons
donc consulter la librairie « nortest » et la librairie « tseries ».
Commençons par la taille, où les données sont fournies en cm. En appliquant
les deux tests de normalité nous obtenons comme résultats :
99
Chapitre 4
data: ais$Ht
X-squared = 3.6848, df = 2, p-value = 0.1584
data: ais$Ht
D = 0.045569, p-value = 0.3874
En regardant les p-valeurs pour les deux tests, nous constatons qu’au niveau
5% on ne rejette pas l’hypothèse nulle, car la p-valeur est supérieure à 0, 05 et
ainsi nous pouvons dire que la taille des athlètes suit une loi normale (en toute
théorie, il faudrait dire que nous ne disposons pas d’éléments contredisant la
normalité, mais en pratique la plupart du temps on dit alors que la variable suit
bien une loi normale).
Passons à la variable poids, dont les données sont fournies en kg.
data: ais$Wt
X-squared = 3.1997, df = 2, p-value = 0.2019
data: ais$Wt
D = 0.057308, p-value = 0.1086
En regardant les p-valeurs pour les deux tests, nous constatons qu’au niveau 5%
on ne rejette pas l’hypothèse nulle, car la p-valeur est supérieure à 0, 05 et ainsi
nous pouvons dire que le poids des athlètes suit une loi normale.
100
Au-delà de la loi normale : les lois Student et skew-normale
Passons à la variable BMI, défini comme étant le quotient du poids (en kg) divisé
par le carré de la taille (en cm).
data: ais$BMI
X-squared = 70.289, df = 2, p-value = 5.551e-16
data: ais$BMI
D = 0.072934, p-value = 0.01091
En regardant les p-valeurs pour les deux tests, nous constatons qu’au niveau
5% on rejette l’hypothèse nulle, car la p-valeur est inférieure à 0, 05. Le test est
même rejeté au niveau 2%. Ainsi le BMI ne suit pas une loi normale, fait que
nous expliquerions dans la Section 4.6.
101
Chapitre 4
très peu de probabilité aux points éloignés du centre ; de ce fait, elle est
incapable de modéliser des phénomènes où des valeurs plus extrêmes sont
davantage probables de survenir.
– la symétrie : la loi normale est symétrique autour de son centre µ, et ne
peut donc pas représenter des phénomènes asymétriques
Notons que ces deux restrictions sont à la fois les caractéristiques de la loi normale
sur lesquelles est basé le test Jarque-Bera. Il existe deux types de données où il
est très aisé de remarquer que la loi normale ne convient pas à la modélisation :
les données financières ainsi que les données biomédicales. En effet, les retours
journaliers sur une action donnée, si on fait abstraction des effets temporels 1 ,
sont mieux décrits par des lois de probabilité dites à queues lourdes afin de tenir
compte des événements extrêmes qui peuvent surgir. La loi normale ne permet
de prédire de tels événements extrêmes qu’avec une probabilité si mince qu’on
considérerait de tels événements comme hautement improbables voire impos-
sibles. Quant aux données biomédicales, revenons sur l’exemple du BMI étudié
à la section précédente. Nous y avons rejeté l’hypothèse nulle d’une loi normale,
et cela peut s’expliquer de la manière suivante. Il existe tout naturellement une
sorte de limite inférieure au BMI d’une personne : en-dessous d’une certaine li-
mite, la personne sera tellement maigre qu’elle frôle un danger de mort, et donc
un certain seuil de BMI minimal ne sera jamais franchi. De l’autre côté, il est
plus probable d’avoir un BMI élevé, étant donné qu’il existe différents niveaux
de sur-poids avant que la situation devienne alarmante. Ces raisons naturelles
impliquent donc qu’un jeu de données BMI sera forcément asymétrique (vers la
1. Afin de tenir compte du trend dans les données financières (et donc de la corrélation
temporelle entre les valeurs d’une action), Robert Engle a en 1982 proposé le modèle ARCH
(AutoRegressive Conditional Heteroscedasticity) pour lequel il a été primé du prix Nobel d’éco-
nomie en 2003.
102
Au-delà de la loi normale : les lois Student et skew-normale
droite) autour de son centre. Comme pareil phénomène a déjà pu être remarqué
sur des données de sportifs qui ne sont pas enclins à avoir du sur-poids, il est
évident que l’asymétrie sera encore plus marquée sur un échantillon de personnes
non nécessairement sportives de haut niveau.
Ces deux exemples soulignent donc la nécessité de disposer des lois probabi-
listes autres que la loi normale, lois qui permettent de modéliser des données à
queues lourdes ou/et asymétriques. Nous allons à présent décrire trois lois très
populaires qui ont ces caractéristiques.
−(ν+1)/2
1 Γ ν+1
2 (x − µ)2
√ 1+ (4.6.14)
σ νπΓ ν2 σ2ν
R +∞
où Γ(t) = 0
exp(−s)st−1 ds est la fonction Gamma, µ ∈ R et σ ∈ R+
0 sont
103
Chapitre 4
0.2
0.1
0.0
-6 -4 -2 0 2 4 6
104
Au-delà de la loi normale : les lois Student et skew-normale
-6 -4 -2 0 2 4 6
Nous terminons cette sous-section sur une note historique. Le nom « loi de
Student » est dû à William Sealy Gosset, statisticien qui a travaillé dans une
brasserie au début du 20e siècle et qui a publié en 1908 un article qui a rendu
célèbre la densité (4.6.14). Or, il n’a pas voulu signer l’article de son nom, par
peur de problèmes éventuels de la part de son employeur, et a donc signé l’article
par STUDENT. C’est de là qu’est née la terminologie.
105
Chapitre 4
Pour cette section nous allons suivre Azzalini and Capitanio (2014).
L’article Azzalini (1985) propose comme extension de la loi normale la loi skew-
normale de densité
2 x−µ x−µ
φ Φ α· (4.6.15)
σ σ σ
où µ ∈ R et σ ∈ R+
0 sont des paramètres de position et d’échelle et où α est
106
Au-delà de la loi normale : les lois Student et skew-normale
0.2
0.0
-6 -4 -2 0 2 4 6
107
Chapitre 4
0.2
0.0
-6 -4 -2 0 2 4 6
La loi skew-normale est beaucoup utilisée pour modéliser des données biomé-
triques, environnementales, ou météorologiques.
Nous terminons également cette sous-section-ci sur une note historique. Se-
lon Azzalini and Regoli (2012), l’origine de la construction de la densité skew-
normale (4.6.15) remonte au statisticien Fernando de Helguero en 1908. D’autres
chercheurs ont par la suite re-découvert la construction, mais ce n’est qu’avec
108
Au-delà de la loi normale : les lois Student et skew-normale
l’article Azzalini (1985) que la loi skew-normale a réellement connu son succès.
Pour cette section nous allons suivre Azzalini and Capitanio (2014).
Nous terminons ce chapitre sur une brève note. Nous venons de voir que la loi
de Student est une loi à queues lourdes et que la loi skew-normale est une loi
asymétrique. Afin d’avoir à disposition une loi qui soit à la fois à queues lourdes
et asymétrique, Azzalini and Capitanio (2003) ont proposé la loi skew-Student
qui combine ces deux effets.
La densité de probabilité d’une loi skew-Student s’écrit de la manière sui-
vante : r !
ν+1
2t(x; ν)T αx ;ν + 1 , (4.6.16)
ν + x2
109
Chapitre 4
0.2
0.0
-6 -4 -2 0 2 4 6
110
Chapitre 5
111
Chapitre 5
des données ; cela me permettait donc aussi de faire un lien direct avec le cours
d’informatique. J’ai donc décidé de faire travailler les élèves sur des données
qu’ils collectent eux-mêmes au sein du lycée, comme par exemple des données
anatomiques. Après discussion avec les élèves de ma classe, nous nous sommes
mis d’accord pour collecter les données suivantes : taille, poids (en toute rigueur
il s’agit de la masse) et pointure. Comme les élèves interrogés proviennent des
classes entre la 8e et la 12e , j’ai demandé à mes élèves de récolter aussi les années
de naissance afin de pouvoir regrouper les données par tranches d’âge. Ceci est
bien sûr nécessaire étant donné que les élèves sont en état de croissance, où une
différence de 4 ans donne lieu à des différences significatives, alors que tel n’est
pas le cas si on avait récolté les mêmes données auprès de personnes adultes.
Cette étude était bien sûr sur base volontaire et anonyme.
En ce qui concerne le déroulement de l’étude, les élèves sont allés dans cer-
taines classes pour collecter ces données ; pour des raisons d’organisation et de
disponibilité de quelques classes, j’ai donné le questionnaire à certains profes-
seurs afin qu’ils le distribuent à leurs élèves. Tous les élèves étaient d’accord
pour y participer. Avant que mes élèves aient travaillé avec ces données récol-
tées, j’ai d’abord survolé les réponses pour exclure éventuellement des feuilles
d’élèves qui n’ont pas pris au sérieux l’étude (et ont par conséquent indiqué des
réponses invraisemblables). Il y avait au total trois feuilles que j’ai dû exclure à
cause de données impossibles, par exemple une taille de 250 cm ou un poids de
200 kg. Après cette première analyse, les élèves ont classé les données par année
de naissance, de 1992 jusqu’à 2002. Comme les élèves des classes inférieures n’ont
pas encore atteint leur taille maximale j’ai décidé de faire deux groupes, l’une
regroupant les élèves nés entre 1992 et 1998 et l’autre ceux nés entre 1999 et
2002. Le premier groupe est constitué de 153 élèves tandis que dans le deuxième
112
il y a 173 élèves. Je me suis restreinte à deux groupes (et non pas plus) afin
d’avoir suffisamment de données par groupe pour faire l’étude. J’ai réparti mes
14 élèves de la 11CM en quatre groupes de travail, deux de trois élèves et deux
de quatre élèves. J’ai demandé aux élèves de faire les différents histogrammes et
diagrammes en bâtons avec le programme Excel, que les élèves connaissent et
ont déjà utilisé dans d’autres branches.
D’abord les élèves ont entré les données dans Excel. Comme la leçon d’avant
j’avais montré aux élèves comment dessiner un histogramme dans Excel, ils pou-
vaient faire les différents histogrammes eux-mêmes. Ils devaient aussi choisir eux-
mêmes le nombre et l’amplitude des classes (dans l’histogramme) pour les don-
nées taille et poids, la variable pointure donnant lieu à un diagramme en bâtons.
Les élèves se sont décidé pour des classes d’intervalles 5 (p.ex., ]145; 150]).
Voici les histogrammes que les élèves ont faits dans Excel. Par souci de com-
plétude, je donne également, dans l’Annexe B.2, des histogrammes portant sur
toutes les données (malgré les soucis de différences d’âges mentionnés ci-dessus).
113
Chapitre 5
114
Figure 5.2 – Histogramme du poids des élèves
Pour la variable poids, les élèves ont de nouveau dit qu’il y a peu d’élèves avec
un poids faible, ainsi que peu d’élèves avec un poids plus élevé. Mais ils ont aussi
constaté que la plupart des élèves ont un poids se trouvant dans la première partie
115
Chapitre 5
116
Après l’interprétation des histogrammes resp. des diagrammes en bâtons, j’ai
profité de l’occasion pour faire une remarque sur la courbe de Gauss.
J’ai demandé aux élèves de trouver des similitudes entre la répartition des
tailles et des pointures. Certains élèves ont vite remarqué que la forme des his-
togrammes est la même et ont dessiné une courbe en forme de cloche. Ceci était
bien sûr le moment idéal pour leur parler de la courbe de Gauss, et du fait que
beaucoup de données dans la nature suivent une telle courbe. Je leur ai aussi
montré d’autres exemples, entre autres que les notes obtenues dans un devoir en
classe suivent souvent une telle courbe.
Ceci termine mon introduction de la courbe de Gauss à mes élèves de 11CM.
Pour vérifier d’une manière plus exacte l’hypothèse de normalité des différentes
variables, je vais appliquer, dans le cadre de ce travail, le test de Jarque-Bera
aux différentes données.
– Pour la variable taille : pour le groupe 1992–1998, on obtient une p-valeur
de 0, 2488, pour le groupe 1999–2002, une p-valeur de 0, 6966. On ne rejette
donc pas l’hypothèse de normalité au niveau 5%.
– Pour la variable poids : pour le groupe 1992–1998, on obtient une p-valeur
de 0, 02685, pour le groupe 1999–2002, une p-valeur de 6, 447 · 10−6 . On
rejette donc l’hypothèse de normalité au niveau 5%.
– Pour la variable pointure : pour le groupe 1992–1998, on obtient une p-
valeur de 0, 2857, pour le groupe 1999–2002, une p-valeur de 0, 4467. On
ne rejette donc pas l’hypothèse de normalité au niveau 5%.
Nous constatons donc que la taille et la pointure suivent une loi normale, tandis
que le poids ne suit pas une loi normale. Ceci est tout à fait cohérent avec les
conclusions visuelles que nous avons pu tirer des histogrammes respectivement
des diagrammes en bâtons. Une raison pour cette différence entre taille-pointure
117
Chapitre 5
et poids est la suivante. Taille et pointure sont des données plus « naturelles »,
sur lesquelles les humains n’ont pas (ou presque pas) d’influence. Par contre le
poids est fortement lié aux habitudes alimentaires et échappe donc partiellement
au contrôle de la nature.
La motivation de mes élèves par rapport à cette expérience en classe m’incite
à la ré-éditer dans les années à venir, et à songer à la manière d’introduire la
loi normale dans des classes plus spécialisées en mathématique. Les élèves sont
réceptifs par rapport à une matière, bien que compliquée, si elle est expliquée en
termes simples et s’ils voient son utilité dans la vie de tous les jours.
118
Annexe A
Définitions et propriétés
élémentaires
119
Chapitre A
discrète est une fonction qui associe à chaque valeur de cette variable aléatoire
sa probabilité.
La fonction P(b) = P(X = b) où b varie selon les valeurs possibles de la variable
aléatoire discrète X est appelée fonction de probabilité de X.
Zb
P(a ≤ X ≤ b) = f (x)dx
a
F (x) = P(X ≤ x)
Zx
F (x) = P(X ≤ x) = f (x)dx.
−∞
120
La fonction de répartition (discrète ou continue) a les propriétés suivantes :
X
E[X] = iP(X = i).
i∈D
X
Var[X] = E[(X − µ)2 ] = (i − µ)2 P(X = i),
i∈D
121
Chapitre A
MX (t) = E[etX ]
avec t ∈ R.
– La fonction caractéristique d’une variable aléatoire X est définie par
φX (t) = E[eitX ]
avec t ∈ R.
Ces deux quantités permettent de calculer plus aisément les moments d’une
distribution, mais également de définir les caractéristiques d’une variable aléa-
toire X. En effet,d eux variables aléatoires sont égales en loi si et seulement si
leurs fonctions génératrices des moments et leurs fonctions caractéristiques sont
les mêmes. La fonction caractéristique est souvent préférée car elle existe tou-
jours (|φX (t)| = E|eitX | = E[1] = 1) contrairement à la fonction génératrice des
moments qui peut devenir infinie.
122
Nous allons définir maintenant plusieurs exemples de variables aléatoires
discrètes et continues qui sont utilisées tout au long de ce travail.
Définition A.0.10. Une variable aléatoire X suit une loi de Bernoulli de para-
mètre p si sa fonction de probabilité est de la forme :
P(X = x) = px (1 − p)1−x , x = 0, 1,
Un autre exemple d’une loi discrète est la loi binomiale, qui est la somme de
plusieurs variables aléatoires indépendantes de type Bernoulli.
Définition A.0.11. Une variable aléatoire X suit une loi binomiale de para-
mètres n et p si sa fonction de probabilité est de la forme :
n x
P(X = x) = p (1 − p)n−x , x = 0, 1, 2, . . . , n,
x
123
Chapitre A
Définition A.0.13. Une loi khi-deux est définie à partir de la loi normale. Soient
X1 , . . . , Xn n variables aléatoires indépendantes et identiquement distribuées sui-
vant une loi normale centrée réduite. La somme de leurs carrés
n
X
Z= X12 + ... + Xn2 = Xi2
i=1
est une variable aléatoire distribuée selon une loi khi-deux avec n degrés de liberté.
Sa densité correspond à
1
2n/2 Γ(n/2)
xn/2−1 e−x/2 si x ≥ 0
fZ (x) =
0 sinon.
124
Annexe B
Étude statistique
Pour le cours de mathématiques nous avons besoin de votre aide afin de collecter
des données. Ces informations resteront bien sûr anonymes. Nous aurons besoin
des données suivantes :
– Année de naissance : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
– Pointure : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La classe 11CM2
125
Chapitre B
126
Histogrammes portant sur toutes les données
127
Chapitre B
128
Annexe C
Code R
set.seed(654321)
n=500;
X=array(0,dim=c(n,1));
Y=array(0,dim=c(n,1));
for(i in 1:n){
U=runif(1);
V=runif(1);
X[i]=cos(2*pi*U)*sqrt(-2*log(V));
Y[i]=sin(2*pi*U)*sqrt(-2*log(V));
}
hist(X);
hist(Y);
129
130
Bibliographie
131
A. Bischof, M. Schulze, and H. Steffen. Die Flucht ins Normale publié dans
Mythos Mitte. VS Verlag, 2011.
R. D’Agostino and E.S. Pearson. Tests for departure from normality. empirical
results for the distributions of b2 and b1. Biometrika, 60(3) :613–622, 1973.
D. Foata and A. Fuchs. Calcul des probabilités. Dunod, Paris, 2 edition, 2003.
A. Fuchs. Plaidoyer pour la loi normale publié dans pour la science. URL :
http://www-irma.u-strasbg.fr/~foata/fuchs/FuchsNormale.pdf, 1995.
132
Bibliographie
J.K. Patel and C.B. Read. Handbook of the normal distribution. CRC Press,
New York, 2 edition, 1996.
H. C. Thode. Testing for normality. Marcel Dekker, inc, New York, Basel, 2002.
133