Vous êtes sur la page 1sur 133

La loi normale

Je soussignée Kim Nora Schalbar déclare par la présente avoir réalisé ce travail
de candidature par mes propres moyens.

Ingeldorf, le 29 janvier 2016 Kim Nora Schalbar


Kim Nora SCHALBAR
Candidate-professeure de sciences au Lycée technique d’Ettelbruck

La loi normale

Ettelbruck 2016
Résumé
Le comportement de bon nombre de phénomènes réels — propriétés anato-
miques de l’homme, quotient intellectuel, les points obtenus lors d’un devoir en
classe — peut être décrit à l’aide d’une célèbre courbe, la courbe de Gauss. Que
nous apprend cette courbe en cloche ? Elle révèle que, si on prend plusieurs ob-
servations d’un même phénomène, alors la grande majorité de ces observations
seront concentrées autour d’un point central, la moyenne, et qu’il y a très peu
d’observations loin du centre. Cette forme très intuitive et simple est liée à un
concept-clé en mathématiques, à savoir la loi normale ou loi de Gauss. Elle sti-
pule que le hasard sous-jacent à une expérience aléatoire suit cette courbe en
cloche.
Qu’est-ce qui rend cette loi si populaire, si spéciale par rapport à d’autres lois
probabilistes ? Voilà la question qui est à la base du présent travail. Je vais y étu-
dier en détail la loi normale, en commençant par retracer ses origines historiques
ainsi que son développement au cours des deux derniers siècles. Cette excursion
aux temps passés permet de mieux comprendre le rôle qu’occupe actuellement la
loi normale. Puis je vais m’atteler à la description de ses principales propriétés
probabilistes et statistiques (en particulier, je vais exposer les tests statistiques
qui sont basés sur l’hypothèse de normalité des données). Ce sont notamment
ces propriétés qui confèrent un rôle prépondérant à la loi normale. Enfin, je vais
analyser quelques données afin de voir si elles suivent bien une loi normale ou
non.
Finalement, je vais décrire comment j’ai fait découvrir à mes élèves de 11e CM
la courbe de Gauss de façon ludique.
Table des matières

1 Introduction 13

2 La naissance de la loi normale 19


2.1 Laplace et le Théorème Central Limite . . . . . . . . . . . . . . . 19
2.2 Gauss et le maximum de vraisemblance . . . . . . . . . . . . . . . 23
2.2.1 La méthode des moindres carrés . . . . . . . . . . . . . . . 24
2.2.2 L’approche de Gauss . . . . . . . . . . . . . . . . . . . . . 26
2.3 Loi normale en statistique . . . . . . . . . . . . . . . . . . . . . . 30
2.3.1 Hypothèses des erreurs élémentaires . . . . . . . . . . . . . 30
2.3.2 Quetelet et la loi normale . . . . . . . . . . . . . . . . . . 31
2.3.3 Galton et l’hérédité . . . . . . . . . . . . . . . . . . . . . . 33
2.3.4 Galton et les classes d’intelligence . . . . . . . . . . . . . . 35
2.4 Un peu de nomenclature . . . . . . . . . . . . . . . . . . . . . . . 37

3 Description de la loi normale 39


3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Propriétés et caractéristiques . . . . . . . . . . . . . . . . . . . . . 45
3.2.1 Moments d’ordre n . . . . . . . . . . . . . . . . . . . . . . 50
3.3 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5
3.4 Le Théorème Central Limite . . . . . . . . . . . . . . . . . . . . . 55
3.5 L’entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.6 Génération de variables aléatoires normales via la méthode de
Box-Muller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.6.1 L’algorithme de Box-Muller . . . . . . . . . . . . . . . . . 64
3.6.2 Génération de données normales en implémentant l’algo-
rithme de Box-Muller dans R . . . . . . . . . . . . . . . . 66

4 Inférence statistique basée sur la loi normale 69


4.1 Estimation des différents paramètres . . . . . . . . . . . . . . . . 70
4.1.1 Méthode du maximum de vraisemblance . . . . . . . . . . 70
4.1.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . 74
4.2 Version moderne du théorème de caractérisation de la loi normale
selon Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.3 Intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . 81
4.3.1 Intervalle pour µ quand σ est connu . . . . . . . . . . . . . 81
4.3.2 Intervalle pour µ quand σ est inconnu . . . . . . . . . . . 83
4.3.3 Intervalle pour σ . . . . . . . . . . . . . . . . . . . . . . . 86
4.4 Tests d’hypothèse sur les paramètres d’une loi normale . . . . . . 87
4.4.1 Bref aperçu général de tests d’hypothèse . . . . . . . . . . 88
4.4.2 Tests de la moyenne et de la variance . . . . . . . . . . . . 89
4.5 Tests de normalité . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.5.1 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . 95
4.5.2 Tests de Kolmogorov-Smirnov et de Lilliefors . . . . . . . . 98
4.5.3 Application dans R des tests de normalité sur des données
réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

6
Table des matières

4.6 Au-delà de la loi normale : les lois Student et skew-normale . . . . 101


4.6.1 La loi de Student . . . . . . . . . . . . . . . . . . . . . . . 103
4.6.2 La loi skew-normale . . . . . . . . . . . . . . . . . . . . . . 106
4.6.3 La loi skew-Student . . . . . . . . . . . . . . . . . . . . . . 109

5 La courbe de Gauss au lycée 111

A Définitions et propriétés élémentaires 119

B La courbe de Gauss au lycée 125


B.1 Questionnaire distribuée aux élèves . . . . . . . . . . . . . . . . . 125
B.2 Histogrammes portant sur toutes les données . . . . . . . . . . . . 126

C Code R 129

7
8
Liste des tableaux

2.1 Répartition par classes d’intelligence (Galton (1869, p. 30), cité


par Droesbeke et al. (2006, p. 7)) . . . . . . . . . . . . . . . . . . 36

3.1 Table de valeurs de la fonction de répartition de la loi normale centrée réduite.

Les valeurs dans le tableau correspondent à Φ(x), et les valeurs en gras sur le

côté déterminent les valeurs de x correspondantes. A gauche se trouvent les

premières décimales, en haut les deuxièmes décimales. (Dodge 2007, p. 624) . 54

9
10
Table des figures

1.1 Fonction de densité d’une loi normale : µ = 0, σ = 1 . . . . . . . . 14


1.2 Billet de 10 « Deutsche Mark » . . . . . . . . . . . . . . . . . . . 15

2.1 Histogrammes de la loi binomiale avec p = 0.5 . . . . . . . . . . . 21


2.2 Approxiamtion de la loi binomiale par la loi normale d’après Que-
telet (Quetelet, 1846, p. 396, cité par (Stigler 1986, p. 209)) . . . 32
2.3 Les trois quinconces de Galton (1889a, p. 63, cité par (Hald 1998,
p. 605)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4 Répartition du quotient intellectuel selon une loi normale de
moyenne 100 et d’écart-type 15 . . . . . . . . . . . . . . . . . . . 36

3.1 Fonction de densité d’une loi normale : µ = 0, σ = 0.7 (bleu) ;


µ = 0, σ = 1 (rouge) ; µ = 0, σ = 2 (vert) . . . . . . . . . . . . . . 41
3.2 Fonction de densité d’une loi normale : µ = −2, σ = 1 (vert) ;
µ = 0, σ = 1 (rouge) ; µ = 2, σ = 1 (bleu) . . . . . . . . . . . . . . 42
3.3 Fonction de répartition d’une loi normale : µ = 0, σ = 0.7 (bleu) ;
µ = 0, σ = 1 (rouge) ; µ = 0, σ = 2 (vert) . . . . . . . . . . . . . . 43
3.4 Fonction de répartition d’une loi normale : ; µ = −2, σ = 1 (vert) ;
µ = 0, σ = 1 (rouge) ; µ = 2, σ = 1 (bleu) . . . . . . . . . . . . . . 44

11
3.5 Histogrammes de X . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.1 Cas bilatéral : H0 : µ = µ0 contre H1 : µ 6= µ0 . . . . . . . . . . . 91


4.2 Cas unilatéral : H0 : µ = µ0 contre H1;> : µ > µ0 . . . . . . . . . . 91
4.3 Cas unilatéral : H0 : µ = µ0 contre H1;< : µ < µ0 . . . . . . . . . . 92
4.4 Fonction de densité d’une loi de Student : ν = 1 (violet) ; ν = 5
(bleu) ; ν = 20 (vert) et ν = ∞ (rouge) . . . . . . . . . . . . . . . 104
4.5 Fonction de répartition d’une loi de Student : ν = 1 (violet) ; ν = 5
(bleu) ; ν = 20 (vert) et ν = ∞ (rouge) . . . . . . . . . . . . . . . 105
4.6 Fonction de densité d’une loi skew-normale : α = 0 (rouge) ; α = 1
(bleu) ; α = 3 (violet) ; α = 6 (vert) . . . . . . . . . . . . . . . . . 107
4.7 Fonction de densité d’une loi skew-normale : α = 0 (rouge) ; α =
−1 (bleu) ; α = −3 (violet) ; α = −6 (vert) . . . . . . . . . . . . . 108
4.8 Fonction de densité d’une loi skew-Student pour α = −10 : ν = 10
(violet) ; α = −2 : ν = 1 (vert) ; α = 1 : ν = 0.5 (bleu) ; α = 3 :
ν = 5 (rouge) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.1 Histogramme de la taille des élèves . . . . . . . . . . . . . . . . . 114


5.2 Histogramme du poids des élèves . . . . . . . . . . . . . . . . . . 115
5.3 Diagramme en bâtons de la pointure des élèves . . . . . . . . . . . 116

B.1 Histogramme de la taille des élèves . . . . . . . . . . . . . . . . . 126


B.2 Histogramme du poids des élèves . . . . . . . . . . . . . . . . . . 127
B.3 Diagramme en bâtons de la pointure des élèves . . . . . . . . . . . 127

12
Chapitre 1

Introduction

La probabilité et les statistiques sont les branches des sciences mathématiques


qui parlent du hasard, de l’incertitude. Elles permettent de donner une forme
concrète au hasard. La forme la plus connue est la forme dite « normale » : elle
attribue beaucoup de probabilité aux événements aléatoires proches d’un certain
centre de la distribution et très peu de masse de probabilités aux événements ex-
trêmes par rapport à ce centre. De plus, par rapport au centre, il y a une parfaite
symétrie, ce qui veut dire qu’un événement se situant à droite du centre est tout
aussi probable que l’événement à gauche obtenu par symétrie orthogonale. Cette
forme du hasard est très connue parmi les mathématiciens et autres scientifiques,
et même par bon nombre de non-scientifiques. En effet, qui n’a pas au moins une
fois dans sa vie entendu parler de la cloche de Gauss ? En guise d’illustration,
je donne l’allure d’une telle courbe en cloche (encore appelée courbe normale,
gaussienne, ou de Gauss) à la Figure 1.1. On y voit bien les caractéristiques pré-
citées : une grande masse de probabilité près du centre, et peu de masse dans
les extrémités, ainsi qu’une symétrie par rapport au centre. Cette courbe est très
connue du grand public parce qu’elle est typiquement utilisée pour représenter

13
Chapitre 1

0.4
0.3
0.2
0.1
0.0

-4 -2 0 2 4

Figure 1.1 – Fonction de densité d’une loi normale : µ = 0, σ = 1

les tailles dans une population ou encore les notes obtenues au sein d’une classe.
Il n’est donc pas non plus étonnant qu’on puisse retrouver cette célèbre forme
sur un billet de 10 « Deutsche Mark » introduit en 1991 1 comme on peut le voir
1. Le portrait de Gauss est celui fait par A. Jensen en 1840. Les bâtiments sont des
bâtiments importants pour la ville de Göttingen en Allemagne, notamment l’université et
l’observatoire, en lien direct avec les spécialités de Gauss, les mathématiques et l’astronomie.
http://www.history.didaktik.mathematik.uni-wuerzburg.de/ausstell/gauss/
geldschein.html

14
à la Figure 1.2 2 .

Figure 1.2 – Billet de 10 « Deutsche Mark »

Ce qu’on a tendance à oublier en parlant de cette figure, c’est qu’elle repré-


sente un événement aléatoire, dont le centre correspond à la moyenne et dont la
courbe est définie grâce à une fonction mathématique donnée par

1 (x−µ)2
f x; µ, σ 2 = √ e− 2σ2 .

(1.0.1)
σ 2π

Cette fonction désigne ce qu’on appelle la fonction de densité de la loi normale,


qu’on note N (µ, σ 2 ), avec µ un paramètre réel qui détermine le centre de la loi
et σ 2 un paramètre réel positif qui détermine la variabilité de la loi autour de µ.
Sur la Figure 1.1, nous avions choisi µ = 0 et σ 2 = 1.
Comment une fonction aussi simple que (1.0.1) peut-elle permettre de mo-
déliser tant de phénomènes de la vie de tous les jours ? Quelle histoire se cache
derrière cette loi ? Voilà des questions que je me suis déjà posée lorsque j’étais
étudiante à l’université et que j’ai constamment entendu parler de la loi normale
2. https://en.wikipedia.org/wiki/Deutsche_Mark

15
Chapitre 1

dans mes cours de probabilité et de statistique (elle a même joué un rôle fonda-
mental dans des cours plus appliqués où on a souvent supposé que les données
suivent une loi normale). C’est pour ces raisons que j’ai opté pour la loi normale
comme sujet pour mon Travail de Candidature. Je commence au Chapitre 2 par
raconter l’histoire de la loi normale, de sa genèse jusqu’au moment où elle a été
repérée comme « la » loi naturelle à utiliser en beaucoup de circonstances. Puis,
au Chapitre 3, je vais décrire en détails les diverses propriétés de la loi normale,
pour ensuite décrire au Chapitre 4 des procédures statistiques liées à la loi nor-
male. Puis je vais brièvement décrire au Chapitre 5 comment j’ai fait découvrir à
mes élèves la courbe de Gauss de façon ludique. Finalement, je donne en appen-
dice des définitions de notions probabilistes et statistiques de base, des courbes
liées aux travaux de mes élèves ainsi que les codes informatiques utilisés dans les
chapitres précédents.

16
En guise d’illustration, nous terminons cette introduction par une description
de la loi normale écrite en forme d’une courbe en cloche par le statisticien William
Youden :

The
normal
law of error
stands out in the
experience of mankind
as one of the broadest
generalizations of natural
philosophy. It serves as the
guiding instrument in researches
in the physical and social sciences and
in medecine agriculture and engineering.
It is an indispensable tool for the analysis and the
interpretation of the basic data obtained by observation and experiment.

(cité par (Stigler 1999, p. 415))

17
Chapitre 1

18
Chapitre 2

La naissance de la loi normale

Plusieurs illustres scientifiques ont contribué à la naissance de ce qu’on ap-


pelle de nos jours la loi normale. Les premières apparitions de cette loi peuvent
être retracées aux années 1730, mais on dit couramment que la loi normale a été
introduite au début du 19e siècle indépendamment par deux mathématiciens, un
mathématicien français, Pierre-Simon de Laplace et un mathématicien allemand,
Carl Friedrich Gauss. Le premier a utilisé une approche plutôt probabiliste, pen-
dant que Gauss a eu recours à une approche statistique. Dans ce qui suit nous
allons décrire en détails ces deux approches tout à fait différentes. Après cette
description nous allons aussi parler de la première utilisation en statistique de la
loi normale.

2.1 Laplace et le Théorème Central Limite


Dans ce qui suit nous allons suivre Hald (1998), Fuchs (1995) et Guionnet
(2011).
Avant d’en venir à la contribution de Laplace, il faut remonter jusqu’au

19
Chapitre 2

mathématicien français Abraham de Moivre. En 1733 il a fait apparaître la


loi normale comme approximation continue d’une loi discrète, à savoir la loi
binomiale (qui est la loi d’une somme de variables prenant comme valeurs 0
ou 1, et dites de type Bernoulli). Pour visualiser ce résultat nous considérons
une suite de parties de « Pile » ou « Face » en utilisant une pièce de monnaie
parfaitement équilibrée. La probabilité d’obtenir « Pile » (qu’on peut désigner
par 0 ou 1) sera donc 21 . Soit X le nombre de « Pile » obtenues en n parties ;
X suit une loi binomiale, notée B n, 12 . La probabilité pour que X prenne une

 n
certaine valeur k ∈ [0, n] est égale à nk 12 , où nk = k!(n−k)!
n!

est le coefficient
binomial. On peut représenter cette loi par un histogramme, ce que nous avons
fait pour n = 5, 10, 20, 50 dans la Figure 2.1. Afin d’illustrer l’approximation
normale susmentionnée, nous avons superposé sur chaque histogramme la loi
normale correspondante.

20
Laplace et le Théorème Central Limite

(a) n = 5 (b) n = 10
n=5 n=10

0.25
0.4

0.20
0.3

0.15
fréquence

fréquence
0.2

0.10
0.1

0.05
0.00
0.0

0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 10

nombre de fois qu'on obtient Pile nombre de fois qu'on obtient Pile

(c) n = 20 (d) n = 50
n=20 n=50
0.20

0.12
0.10
0.15

0.08
fréquence

fréquence
0.10

0.06
0.04
0.05

0.02
0.00

0.00

0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 0 3 6 9 12 16 20 24 28 32 36 40 44 48

nombre de fois qu'on obtient Pile nombre de fois qu'on obtient Pile

Figure 2.1 – Histogrammes de la loi binomiale avec p = 0.5

On constate que si n devient de plus en plus grand, ces diagrammes ressemblent


de plus en plus à une courbe en cloche. De Moivre a formellement prouvé cette
convergence d’une loi B n, 12 vers la loi normale, la découvrant ainsi.


21
Chapitre 2

En 1777 Laplace généralise ce résultat de de Moivre au cas d’une loi binomiale


quelconque, où la probabilité p d’obtenir « Pile » est égale à un nombre compris
strictement entre 0 et 1. Poursuivant son effort de généralisation, Laplace a
publié entre 1810 et 1812 un livre et deux mémoires, dans lesquels il a démontré
ce résultat pour des variables aléatoires suivant une loi probabiliste quelconque.
Aujourd’hui ce résultat est connu sous le nom de « Théorème Central Limite »,
terminologie proposée et établie en 1920 par le mathématicien américain d’ori-
gine hongroise George Pólya (1887-1985) dans son article « Über den zentralen
Grenzwertsatz der Wahrscheinlichkeitsrechnung und das Momentenproblem ».
Nous allons énoncer le « TCL » (abbréviation couramment utilisée de nos
jours) et en donner une preuve dans la Section 3.4, où nous verrons également
d’autres formulations du TCL (sous d’autres conditions) qui ont surgi au fil du
temps. Pour cette section-ci, nous allons nous borner de traduire en français la
formulation du TCL selon Laplace comme elle est écrite dans Hald (1998, p. 307) :

« Soient X1 , . . . , Xn des variables aléatoires indépendantes et iden-


tiquement distribuées de fonction de fréquence f (x), moyenne µ, et
variance σ 2 , 0 < σ 2 < ∞. Le Théorème Central Limite de Laplace
dit que sn = ni=1 Xi est asymptotiquement normal de moyenne nµ
P

et de variance nσ 2 . »

On peut reconnaître le style d’écriture ancien au fait que l’on parle de « fonction
de fréquence » au lieu de densité.

22
Gauss et le maximum de vraisemblance

2.2 Gauss et le maximum de vraisemblance


Dans ce qui suit nous allons suivre Hald (1998).
Au 16e siècle, le célèbre astronome Galileo Galilei a soutenu qu’en astronomie
des erreurs de mesure étaient inévitables. Selon lui, ces erreurs suivent certaines
caractéristiques : elles peuvent être aussi bien positives que négatives, et des
petites erreurs surviennent beaucoup plus souvent que des grandes erreurs. Cette
description de Galilei nous est assez familière : si on était amené à mettre une
distribution de probabilité sur les erreurs de mesure, cette distribution serait
symétrique par rapport à l’origine et aurait une forte masse de probabilité près
de l’origine et peu loin de l’origine. Il n’est donc pas étonnant que cette voie-ci
ait pu mener, elle aussi, à la découverte de la loi normale...
En effet, vers la fin du 18e siècle, les mathématiciens-astronomes étaient pré-
occupés par la gestion de ces erreurs de mesure. Supposons que l’on s’intéresse
à une vraie valeur µ ∈ R, qui peut indiquer par exemple la position d’une étoile.
Différentes mesures indépendantes vont mener à différentes valeurs x1 , . . . , xn , et
il s’agit d’en déduire la meilleure approximation possible pour µ, « meilleure »
dans le sens que l’on cherche à minimiser l’erreur de mesure par rapport à la
« vraie » valeur (inconnue). En notant les erreurs ei = xi − µ, on cherche donc
à minimiser une certaine fonction/combinaison des ei . Deux célèbres méthodes
ont été proposées à l’époque pour résoudre ce problème, à savoir la méthode des
moindres carrés (voir la section suivante) ainsi que la méthode du maximum de
vraisemblance (voir Chapitre 4 Section 4.1). Comme nous allons le décrire dans
ce qui suit, la combinaison de ces deux méthodes, plus précisément l’utilisation
de l’estimation des moindres carrés comme maximum de vraisemblance, a permis
à Gauss de trouver la densité de la loi normale.

23
Chapitre 2

2.2.1 La méthode des moindres carrés

Dans ce qui suit nous allons suivre Hald (1998), Stigler (1986) et Samueli
(2010).
Selon le statisticien-historien Stephen Stigler, la méthode des moindres
carrés est le thème dominant - le leitmotiv - du 19e siècle en statistique. La
méthode est apparue en écrit pour la première fois en 1805 dans l’ouvrage de
Adrien-Marie Legendre (1752-1833) intitulé « Nouvelles méthodes pour la déter-
mination des orbites des comètes ». Dans l’appendice de cet ouvrage il publie
un document de neuf pages portant le titre Sur la méthode des moindres carrés,
où il décrit la méthode des moindres carrés comme une méthode algébrique (et
non probabiliste). Selon Stigler, ce document figure parmi les documents les
plus clairs et les plus élégants introduisant une nouvelle méthode en statistique
dans l’histoire de la Statistique.
La méthode des moindres carrés peut être résumée comme suit. On cherche
la valeur la plus probable d’une quantité (inconnue) dont n observations indé-
pendantes ont donné n approximations, et on définit l’erreur comme étant la
différence entre les observations et cette valeur la plus probable. Le but consiste
évidemment à minimiser l’erreur. Comme les erreurs peuvent être soit positives
soit négatives, on prend les erreurs au carré et la valeur la plus probable sera
alors celle qui minimise la somme des carrés des erreurs, d’où la terminologie.
Legendre décrit la solution de la façon suivante :

« Of all the principles that can be proposed for this purpose, I think
there is none more general, more exact, or easier to apply, than that
which we have used in this work ; it consists of making the sum of
the squares of the errors a minimum. By this method, a kind of

24
Gauss et le maximum de vraisemblance

equilibrium is established among the errors which, since it prevents


the extremes from dominating, is appropriate for revealing the state
of the system which most nearly approaches the truth. » (Legendre,
1805, pp. 72-73, cité par (Stigler 1986, p. 13))

Pour nos besoins ici nous pouvons nous contenter de la version la plus simple
de la méthode des moindres carrés (estimer un paramètre de position), ce qui
donne comme estimateur µ
b = x̄, la moyenne empirique. En effet, on cherche à
minimiser l’expression
n
X
S= (xi − µ)2 .
i=1

En prenant la dérivée par rapport à µ nous obtenons :

n
dS X
= 0 ⇐⇒ 2 (xi − µ) = 0
dµ i=1
n
X
⇐⇒ xi − nµ = 0
i=1
n
P
xi
i=1
⇐⇒ µ =
n
⇐⇒ µ = x̄.

La moyenne empirique correspond donc, dans le cas d’un paramètre de position,


à l’estimateur des moindres carrés ; bien évidemment il existe des situations bien
plus complexes que celles-ci, où la méthode des moindres carrés donne lieu à des
solutions moins faciles.

25
Chapitre 2

2.2.2 L’approche de Gauss

Dans ce qui suit nous allons suivre Hald (1998), Fuchs (1995) et Samueli
(2010).
Le mathématicien, astronome et physicien allemand Carl Friedrich Gauss
(1777-1855) a découvert la loi normale d’une manière bien différente de celle
de Laplace. Travaillant en astronomie, il s’est intéressé aux erreurs de mesure,
et comme Legendre il a cherché une méthode pour minimiser ces erreurs. Dans
son livre « Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem
Ambientium » il écrit qu’il a utilisé le principe des moindres carrés déjà depuis
1795, donc bien avant la publication de cette méthode par Legendre en 1805.
Cette affirmation irritait Legendre et ils échangeaient des lettres sur ce sujet.
Concernant les erreurs de mesure, Gauss s’est posé la question s’il existe une
loi de probabilité des erreurs ei qui nous mène vers la moyenne arithmétique
comme estimateur du maximum de vraisemblance. Gauss a publié sa solution
dans « Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Am-
bientium » (« La théorie du mouvement des corps célestes tournant autour du
soleil ambiant en sections coniques ») en 1809.
Nous considérons les erreurs sur une quantité µ inconnue pour laquelle on dis-
pose de n mesures x1 , . . . , xn . Les erreurs y associées sont définies par ei = xi − µ
pour i = 1, . . . , n. Nous pouvons dire que ces erreurs sont n variables aléatoires
indépendantes suivant une même loi de densité f , dépendant de µ. Gauss fait les
hypothèses suivantes sur f :
– f est une fonction continûment dérivable ;
– f est une fonction paire, car il existe autant d’erreurs positives que d’erreurs
négatives ;
– f tend vers 0 lorsque |x| → ∞, car on fait moins souvent de grandes erreurs

26
Gauss et le maximum de vraisemblance

que de petites erreurs.


La densité de probabilité jointe de ces erreurs indépendantes est donnée par

L(µ) = f (x1 − µ) · . . . · f (xn − µ).

Il s’agit donc de chercher les densités f tel que la fonction L(µ) prenne sa
valeur maximale au point µ = µ
b = x̄. Aujourd’hui on appelle la fonction L(µ)
fonction de vraisemblance. Gauss a montré que les seules densités qui satisfont
ces différentes conditions sont les densités « normales ».
Gauss décrit son approche de la façon suivante :

« It has been customary to regard as an axiom the hypothesis


that if any quantity has been determined by several direct obser-
vations, made under the same circumstances and with equal care,
the arithmetic mean of the observed values gives the most probable
value, if not rigorously, yet very nearly, so that it is always most safe
to hold on to it. » (Gauss, 1809, §177, cité par (Hald 1998, p. 354))

Dans ce qui suit nous allons décrire le raisonnement de Gauss.


La fonction L(µ) est maximale lorsque log L(µ) est maximale. On a donc :

log L(µ) = log f (x1 − µ) + . . . + log f (xn − µ)

En prenant la dérivée par rapport à µ nous obtenons la condition suivante :

d log L(µ)
= 0. (2.2.1)

27
Chapitre 2

L’équation (2.2.1) doit être satisfaite pour µ = x̄. Pour la suite nous posons
g = log f , alors en remplaçant µ par x̄ nous obtenons pour (2.2.1) :

g 0 (x1 − x̄) + . . . + g 0 (xn − x̄) = 0 (2.2.2)

Pour résoudre cette équation Gauss a pris une configuration spéciale pour l’échan-
tillon, à savoir

x2 = x3 = . . . = xn = x1 − nδ, n = 3, 4, . . . ,

avec δ un nombre réel. Ceci nous donne

x1 + . . . + xn
x̄ =
n
x1 + (n − 1)(x1 − nδ)
=
n
= x1 − nδ + δ

= x1 − δ(n − 1)

D’où x1 − x̄ = (n − 1)δ et x2 − x̄ = . . . = xn − x̄ = −δ.


Ainsi nous obtenons pour (2.2.2)

g 0 [(n − 1)δ] + (n − 1)g 0 (−δ) = 0

Comme f est une fonction paire nous avons g 0 (−δ) = −g 0 (δ), d’où

g 0 [(n − 1)δ] − (n − 1)g 0 (δ) = 0

28
Gauss et le maximum de vraisemblance

autrement
g 0 [(n − 1)δ] g 0 (δ)
= .
(n − 1)δ δ
Comme cette égalité est vraie pour toute valeur de δ ainsi que pour tout multiple
g 0 (δ)
(n − 1)δ avec n naturel, il s’ensuit que forcément la fonction δ 7→ doit être
δ
une constante, que nous notons k. (voir la remarque en fin de section)
2
Ainsi g 0 (δ) = kδ et log f (δ) = g(δ) = k δ2 + c. Finalement la densité sera
1 2
f (δ) = Ce 2 kδ . Pour que f (0) soit un maximum il faut que la constante k soit
R∞ 2 √
négative. Grâce à un théorème de Laplace qui dit que 0 e−t dt = 21 π, Gauss
a finalement écrit la loi des erreurs sous la forme

h 2 2
f (δ) = √ e−h δ , avec −∞ < δ < ∞,
π

forme que nous connaissons bien de nos jours sous le nom de densité normale !

Remarque : Nous esquissons une brève preuve du fait que, si f (x) = f (nx)
pour tout naturel n > 0 et tout réel x avec f paire et continue, alors f est
forcément constante (nous avons utilisé ce résultat dans la preuve ci-dessus, où
f (x) = g 0 (x)/x est paire et continue). En posant x = 1, on trouve facilement
que f (n) = f (1) pour tout naturel n > 0. Pour x = m/n avec m > 0 naturel
on trouve f (m/n) = f (m) = f (1), donc nous savons que f (q) = f (1) pour tout
rationnel positif q. Comme Q+ est dense dans R+ et que f est continue, il suit
que f (x) = f (1) pour tout réel positif x. Le même raisonnement peut s’opérer
sur R− et donne f (x) = f (−1). La parité de f implique alors f (x) = f (−x) = c
une constante.

29
Chapitre 2

2.3 Loi normale en statistique


Après les travaux théoriques de Laplace et Gauss, les scientifiques étaient
plutôt intéressés par l’utilisation de la loi normale en pratique et ils ont commencé
à l’utiliser pour analyser et interpréter des données.

2.3.1 Hypothèses des erreurs élémentaires

Dans ce qui suit nous allons suivre Fischer (2011).


Depuis Laplace et Gauss, la loi normale a occupé un rôle prépondérant
parmi l’ensemble des lois probabilistes. Il était donc naturel que les chercheurs
en astronomie ont vu en la loi normale LA loi qui régit les erreurs de mesure,
d’où l’appellation auxiliaire de « loi des erreurs ». Une justification de l’utili-
sation de la loi normale comme loi des erreurs, outre celle proposée par Gauss
(voir Section 2.2.2), se trouve dans l’« Hypothèse des Erreurs Elémentaires »,
popularisée entre autres par Friedrich Wilhelm Bessel (1784-1846) et Gotthilf
Hagen (1797-1884) dans les années 1830. L’idée derrière cette hypothèse va
comme suit : toute erreur e peut être vue comme une somme infinie d’erreurs
infinitésimales, qui sont indépendantes et identiquement distribuées. Autrement
dit, une erreur de mesure provient d’un grand nombre de petites erreurs. Dès
lors, le Théorème Central Limite de Laplace dit que, forcément, la loi de cette
somme doit être la loi normale, d’où la justification de « loi normale = loi
des erreurs ». Dans son livre « Grundzüge der Wahrscheinlichkeits-Rechnung »
publié en 1837 Hagen a écrit :

« Der Fehler im Resultate einer Messung ist die algebraische Summe


aus einer unendlich großen Anzahl elementarer Fehler, die alle gleich

30
Loi normale en statistique

groß sind, und von denen jeder einzelne eben so leicht positiv, wie
negativ sein kann. » (Hagen 1837, p. 34)

Cette idée d’erreurs élémentaires a été appréciée d’un point de vue théorique,
mais a eu du mal à convaincre les chercheurs d’autres domaines. De même, la loi
normale n’a pas été utilisée ailleurs qu’en astronomie et probabilités.

2.3.2 Quetelet et la loi normale

Dans ce qui suit nous allons suivre Hald (1998), Stigler (1986) et Bischof
et al. (2011).
Lambert Adolphe Jacques Quetelet (1796-1874), un astronome, mathémati-
cien, naturaliste et statisticien belge a « exporté » la loi normale vers d’autres
domaines. En re-pensant l’hypothèse des erreurs élémentaires, il a postulé que
tous les phénomènes naturels mesurables devaient suivre une loi normale. Pour
comprendre son idée nous allons expliquer un de ses exemples plus en détail.
Quetelet a utilisé des données de tour de poitrine de 5738 soldats écossais, qu’il
a obtenues par le « Edinburgh Medical and Surgical Journal (1817) ». (Ces don-
nées étaient parmi les plus souvent utilisées dans la littérature statistique du 19e
siècle.) Il a dessiné un histogramme de ces données auquel il a superposé une loi
normale (en ayant recours à l’approximation normale d’une loi binomiale, voir
Section 2.1). Ceci peut se voir sur la Figure 2.2.
Il a constaté qu’il existe peu de soldats avec un tour de poitrine étroit ou
large et que la plupart des soldats ont un tour de poitrine moyen. Ces variations
sont, selon Quetelet, dues à des « causes aléatoires coopératives » : ces causes
qui coopèrent sont sa retranscription de l’hypothèse des erreurs élémentaires, et
sa justification de l’utilisation de la loi normale pour décrire le tour de poitrine

31
Chapitre 2

Figure 2.2 – Approxiamtion de la loi binomiale par la loi normale d’après Que-
telet (Quetelet, 1846, p. 396, cité par (Stigler 1986, p. 209))

chez les hommes.


Quetelet a fait connaître son idée de l’omniprésence de la loi normale via
d’autres données anatomiques. Il a ainsi été intéressé par l’homme moyen, et
toutes les déviations de cet homme moyen suivent une loi normale. Sa doctrine
a par la suite été appelée « Queteletisme ». Il a fait des études sur différentes
capacités des êtres humains, comme par exemple la tendance à devenir écrivain
ou à tomber dans la criminalité. Dans beaucoup de ces domaines il a constaté un
comportement « normal ». Pour Quetelet la variation autour de la moyenne était
un signe de beauté. Il a publié sa méthode dans son livre « Lettres à S.A.R. Le
Duc Régnant de Saxe-Cobourg et Gotha sur la Théorie des Probabilités appliquée
aux sciences morales et sociales ».
Notons que Quetelet a été le premier à décrire des données réelles en sociologie
et biologie par une distribution statistique.

32
Loi normale en statistique

2.3.3 Galton et l’hérédité

Dans ce qui suit nous allons suivre Droesbeke et al. (2006) et Hald (1998).
Après Quetelet, un autre grand scientifique, à savoir Sir Francis Galton (1822-
1911), a cru en l’omniprésence de la loi normale. Il s’est intéressé à l’étude de
l’homme moyen de Quetelet. Galton était impressionné par le livre de son cousin
Charles Darwin, « L’origine des espèces au moyen de la sélection naturelle ou de
la lutte pour l’existence dans la nature ». Il s’est ainsi intéressé à l’hérédité. Il
voulait établir une échelle de mesure des aptitudes humaines.
Pendant que Quetelet s’est intéressé aux variations autour de la moyenne,
Galton s’est intéressé aux écarts à la moyenne. Il ne voulait pas éliminer les
écarts comme les astronomes, mais les interpréter. Galton a tellement cru en la
loi des possibilités de Quetelet qu’il l’a considérée comme « normal ». Dans son
livre « Natural Inheritance », publié en 1889, il écrit :

« Je ne connais guère de chose plus apte à impressionner l’imagina-


tion que la magnifique forme d’ordre cosmique exprimée par la loi
de fréquences des erreurs, la loi aurait été personnifiée et déifiée par
les Grecs s’ils l’avaient connue. Elle règne avec sérénité et discrétion
au sein de la confusion la plus sauvage. Plus forte est la cohue, plus
grande l’anarchie apparente, plus parfaite est sa domination. C’est
la loi suprême de la déraison. Chaque fois qu’un grand échantillon
d’éléments chaotiques est ordonné selon leur grandeur, la plus belle
et insoupçonnée se révèle ainsi comme forme latente du chaos. » (cité
par (Droesbeke et al. 2006, p. 8))

33
Chapitre 2

Dans la Section 2.3.2 nous avons parlé du fait que Quetelet a eu recours à
l’approximation normale de la loi binomiale pour représenter graphiquement à
quel point la loi normale s’accorde bien aux données. Galton a approfondi cette
approche. Il a imaginé et créé un instrument, « la quinconce », pour montrer
ce résultat visuellement. Il a aussi utilisé cet instrument pour étudier plus en
détail l’hérédité. La quinconce est une planche sur laquelle sont fixés des clous
disposés en quinconce. Du haut de la planche on fait tomber un nombre élevé de
billes. À chaque clou la bille a deux possibilités, soit elle est déviée à droite, soit
elle est déviée à gauche, ceci avec même probabilité 12 . On peut alors dire qu’à
chaque clou a lieu une épreuve de Bernoulli. Comme toutes les épreuves sont
indépendantes, la somme de toutes ces n épreuves suit donc une loi binomiale
B n, 21 qui, pour n grand, s’apparente à une densité normale. Sur la Figure 2.3


sont représentées les trois quinconces de Galton.

Figure 2.3 – Les trois quinconces de Galton (1889a, p. 63, cité par (Hald 1998,
p. 605))

34
Loi normale en statistique

2.3.4 Galton et les classes d’intelligence

Dans ce qui suit nous allons suivre Droesbeke et al. (2006).


Comme pour Galton beaucoup de caractéristiques humaines suivent une loi
normale, ce n’est pas étonnant qu’il a également choisi une échelle normale pour
répartir les capacités intellectuelles afin de déterminer le pourcentage de génies
et de gens « normaux ». Pour ce faire il se base sur la « classification sociale »
élaborée par Charles Booth dans les années 1870 dans le but de déterminer
les gens pauvres d’une société. Galton considère une échelle à 16 positions, sur
laquelle il code les positions (par degré d’intelligence) de la façon suivante :

xgfedcbaABCDEFGX,

où le niveau intellectuel va en croissant de gauche à droite. Ou, selon Droesbeke


et al. (2006) : « Les gens illustres se trouvent en X, les génies en G, les idiots
et les imbéciles se trouvent à l’autre bout de l’échelle. Au centre se trouvent les
médiocres. » (Droesbeke et al. 2006, p.6)
La répartition obtenue par Galton est donnée dans la Table 2.1. Pour la
déduire, il lui a suffi de connaître les proportions des catégories X et G à l’aide des
enquêtes antérieures menées par Booth. Le fait que ces proportions suffisent pour
déterminer toutes les autres suit du caractère normal que Galton a supposé pour
la répartition des classes d’intelligence : la loi normale ayant deux paramètres
inconnus, elle est complètement déterminée par deux valeurs connues donnant
lieu à deux équations en les deux inconnues µ et σ 2 .
Cette idée que la courbe normale détermine la répartition des quotients in-
tellectuel a été reprise par David Wechsler qui, en 1939, a précisément défini la
répartition du QI en prenant 100 points comme moyenne et 15 comme écart-
type. Nous avons dessiné cette répartition sur la Figure 2.4. On peut y lire par

35
Chapitre 2

exemple, outre l’observation immédiate que la moitié des gens ont un QI au-
dessus et en-dessous de 100 points, que 84.1% des gens ont un QI inférieur à 115
points, et que seulement 2.2% de personnes disposent d’un QI au-delà de 130
points.

Échelons équidistants Nombres d’hommes


d’aptitude naturelle
Sous la moyenne Au-dessus de la Par tranche d’un Proportion :
moyenne million de même 1 sur . . .
âge
a A 256 791 4
b B 161 279 6
c C 63 563 16
d D 15 969 64
e E 2 423 413
f F 233 4 300
g G 14 79 000
x X 1 100 000

Table 2.1 – Répartition par classes d’intelligence (Galton (1869, p. 30), cité par
Droesbeke et al. (2006, p. 7))

Figure 2.4 – Répartition du quotient intellectuel selon une loi normale de


moyenne 100 et d’écart-type 15

36
Un peu de nomenclature

2.4 Un peu de nomenclature


Dans ce qui suit nous allons suivre Patel and Read (1996).
Pour clôturer ce chapitre sur la naissance de la loi normale, disons quelques
mots sur sa nomenclature. Laplace et Gauss ont parlé d’une « loi des erreurs ».
D’autres personnes ont aussi parlé d’une « loi des fréquences des erreurs » ou
de « loi exponentielle ». Quetelet l’a nommée « la courbe de possibilité ». En
1877, Galton a pour la première fois utilisé le nom « loi normale ». Aujourd’hui
on dit parfois « loi de Laplace » (surtout en France), ou on parle de la « loi
de Laplace-Gauss ». En Allemagne on fait plutôt appel à la « loi de Gauss ».
Malheureusement on ne trouve pas une nomenclature qui fait référence à de
Moivre. Aujourd’hui la nomenclature de Galton, « loi normale », est utilisée le
plus souvent dans la littérature statistique.

37
Chapitre 2

38
Chapitre 3

Description de la loi normale

Dans ce chapitre nous allons d’abord donner la définition de la fonction de


densité et de la fonction de répartition. Ensuite nous passerons au calcul de
l’espérance et de la variance d’une loi normale, et nous traiterons de manière
générale ses moments et quantiles. Après ces différentes propriétés et caractéris-
tiques nous passerons au célèbre théorème central limite dont nous avons déjà
parlé dans le chapitre précédent. Ensuite nous expliquerons le concept de l’en-
tropie et nous donnerons une propriété qui est unique pour la loi normale. Nous
terminerons ce chapitre par la génération de variables aléatoires normales selon
l’algorithme de Box-Muller.

3.1 Définitions
Commençons d’abord par donner une définition formelle de la densité d’une
loi normale.

Définition 3.1.1. La densité de probabilité d’une variable aléatoire X suivant

39
Chapitre 3

une loi normale est donnée par

1 (x−µ)2
φ x; µ, σ 2 = √ e− 2σ2 .

σ 2π

Les paramètres µ, σ et σ 2 représentent respectivement la moyenne, l’écart-type


et la variance d’une loi normale. On note X ∼ N (µ, σ 2 ).

Afin de donner une idée de l’effet de chaque paramètre, nous donnons dans les
Figures 3.1 et 3.2 quelques courbes de la densité normale pour diverses valeurs
de µ et σ. La Figure 3.1 montre bien le rôle de σ comme paramètre d’échelle, qui
rend la densité soit plus aplatie soit plus pointue. En revanche, des variations
de µ n’affectent pas la forme de la courbe mais uniquement son emplacement,
comme le montre la Figure 3.2 ; d’où le nom de paramètre de position pour µ.

40
Définitions

Fonction de densité de la loi normale


0.5
0.4
densité

0.3
0.2
0.1
0.0

-6 -4 -2 0 2 4 6

Figure 3.1 – Fonction de densité d’une loi normale : µ = 0, σ = 0.7 (bleu) ;


µ = 0, σ = 1 (rouge) ; µ = 0, σ = 2 (vert)

41
Chapitre 3

Fonction de densité de la loi normale


0.4
0.3
densité

0.2
0.1
0.0

-6 -4 -2 0 2 4 6

Figure 3.2 – Fonction de densité d’une loi normale : µ = −2, σ = 1 (vert) ;


µ = 0, σ = 1 (rouge) ; µ = 2, σ = 1 (bleu)

Passons ensuite à la définition de la fonction de répartition d’une loi normale.

Définition 3.1.2 (Fonction de répartition). La fonction de répartition d’une


variable aléatoire X suivant une loi normale est donnée par
Z x
1 (y−µ)2
2
e−

Φ x; µ, σ = √ 2σ 2 dy.
σ 2π −∞

42
Définitions

Comme pour la densité, nous donnons quelques courbes de la fonction de


répartition pour montrer ce qui se passe quand on varie les paramètres µ et σ.

Fonction de répartition de la loi normale


1.0
0.8
0.6
0.4
0.2
0.0

-6 -4 -2 0 2 4 6

Figure 3.3 – Fonction de répartition d’une loi normale : µ = 0, σ = 0.7 (bleu) ;


µ = 0, σ = 1 (rouge) ; µ = 0, σ = 2 (vert)

43
Chapitre 3

Fonction de répartition de la loi normale


1.0
0.8
0.6
0.4
0.2
0.0

-6 -4 -2 0 2 4 6

Figure 3.4 – Fonction de répartition d’une loi normale : ; µ = −2, σ = 1 (vert) ;


µ = 0, σ = 1 (rouge) ; µ = 2, σ = 1 (bleu)

La loi normale est surtout connue sous sa forme dite centrée réduite dont la
densité de probabilité est donnée par

1 z2
φ(z) = √ e− 2 ,

et notons la fonction de répartition associée Φ(z). La variable aléatoire Z de loi

44
Propriétés et caractéristiques

X −µ
normale centrée réduite est donc définie comme Z = . Sa moyenne est
σ
égale à 0 et sa variance est égale à 1. On note Z ∼ N (0, 1). Remarquons que la
notation φ(z) et Φ(z) nous évite la notation superflue φ(z; 0, 1) et Φ(z; 0, 1).

3.2 Propriétés et caractéristiques


Calculons d’abord l’espérance de la loi normale. En gardant la notation X pour
une variable aléatoire suivant une loi N (µ, σ 2 ), nous avons
Z +∞
E[X] = x · φ(x; µ, σ 2 )dx
−∞
Z +∞
(x − µ)2
 
1
= x √ exp − dx
−∞ σ 2π 2σ 2
Z +∞
(x − µ)2
 
1
= (x − µ + µ) · √ exp − dx
−∞ σ 2π 2σ 2
Z +∞
(x − µ)2
 
1
= (x − µ) √ exp − dx
−∞ σ 2π 2σ 2
Z +∞
(x − µ)2
 
1
+ µ √ exp − dx.
−∞ σ 2π 2σ 2

Posons z = x − µ, alors x = z + µ, et

+∞ Z +∞
z2 z2
Z    
1 1
E[X] = z √ exp − 2 dz + µ √ exp − 2 dx
−∞ σ 2π 2σ −∞ σ 2π 2σ
| {z }
=1
 +∞
z2

1 2
= − √ σ exp − 2 +µ
σ 2π 2σ −∞

=0+µ

= µ.

45
Chapitre 3

La variance de la loi normale est donnée par :

Var[X] = E (X − E[X])2
 

= E[X 2 ] − (E[X])2
Z +∞
= x2 · φ(x; µ, σ 2 )dx − µ2
−∞
Z +∞
(x − µ)2
 
2 1
= x √ exp − 2
dx − µ2 .
−∞ σ 2π 2σ

Posons z = x − µ, alors x = z + µ, et

+∞
z2
Z  
1
Var[X] = 2
(z + µ) √ exp − 2 dz − µ2
−∞ σ 2π 2σ
Z +∞ 2 Z +∞
z2
   
2 1 z 1
= z √ exp − 2 dz + 2µz √ exp − 2 dz
−∞ σ 2π 2σ −∞ σ 2π 2σ
Z +∞  2

1 z
+ µ2 √ exp − 2 dz − µ2
−∞ σ 2π 2σ
Z +∞ 2 Z +∞
z2
   
2 1 z 1
= z √ exp − 2 dz + 2µ z √ exp − 2 dz
−∞ σ 2π 2σ −∞ σ 2π 2σ
| {z }
=0
Z +∞
z2
 
2 1
+µ √ exp − 2 dz −µ2
σ 2π 2σ
| −∞ {z }
=1
Z +∞
z2
 
2 1
= z √ exp − 2 dz.
−∞ σ 2π 2σ

46
Propriétés et caractéristiques

En résolvant cette intégrale par parties nous obtenons


 +∞ Z +∞
z2 z2
  
1
2 2 1
Var[X] = −σ √ exp − 2 + σ √ exp − 2 dz
σ 2π 2σ −∞ −∞ σ 2π 2σ
Z +∞
z2
 
1
= 0 + σ2 √ exp − 2 dz
σ 2π 2σ
| −∞ {z }
=1
2
=σ .

Passons ensuite à la fonction caractéristique et à la fonction génératrice des


moments d’une loi normale (voir A.0.9 pour une définition générale de ces quan-
tités).

Propriété 3.2.1. La fonction caractéristique d’une loi normale N (µ, σ 2 ) est


donnée par :
−σ 2 t2
φN (µ,σ2 ) (t) = eµit e 2 .

Propriété 3.2.2. La fonction génératrice des moments d’une loi normale


N (µ, σ 2 ) est donnée par :

t2 σ 2
MN (µ,σ2 ) (t) = etµ e 2 .

Comme les deux preuves se ressemblent fortement, nous allons nous contenter
ici d’établir l’expression de MN (µ,σ2 ) (t).

Démonstration. En utilisant la définition de la fonction génératrice des moments

47
Chapitre 3

nous obtenons

MN (µ,σ2 ) (t) = E [exp(tX)]


Z +∞
(x − µ)2
 
1
= √ exp − exp(tx)dx
−∞ σ 2π 2σ 2
Z +∞
(x − µ)2
 
1
= √ exp − + tx dx
−∞ σ 2π 2σ 2
Z +∞
(x − µ)2
 
1
= √ exp − + t(x − µ + µ) dx
−∞ σ 2π 2σ 2
Z +∞
(x − µ)2
 
1
= √ exp − + t(x − µ) · exp (tµ) dx
−∞ σ 2π 2σ 2
Z +∞
(x − µ)2
 
1
= exp (tµ) √ exp − + t(x − µ) dx.
−∞ σ 2π 2σ 2

Posons z = x − µ, alors

+∞
z2
Z  
1
MN (µ,σ2 ) (t) = exp (tµ) √ exp − 2 + tz dz
−∞ σ 2π 2σ
Z +∞  
1 1  2 2 2 2
 
2 2
= exp (tµ) √ exp − 2 z − 2tσ z + tσ − tσ dz
−∞ σ 2π 2σ
  Z +∞  
1 2 2
 1 1 2 2

= exp (tµ) exp tσ √ exp − 2 z − tσ dz
2σ 2 −∞ σ 2π 2σ
| {z }
=1
 2 2

= exp (tµ) exp .
2

La fonction génératrice des moments ne sert pas uniquement à calculer les mo-
ments d’une variable aléatoire, mais également à la définir. En effet, deux va-
riables aléatoires sont égales en distribution si et seulement si leurs fonctions
génératrices des moments sont égales en tout point. Dans ce qui suit, nous allons
justement avoir recours à cette propriété clé pour prouver diverses propriétés

48
Propriétés et caractéristiques

intéressantes sur la loi normale, dont en particulier le Théorème Central Limite


introduit à la Section 2.1.

Propriété 3.2.3. Si X1 , X2 , . . . , Xn sont des variables aléatoires indépendantes


et identiquement distribuées suivant une loi normale, alors

X1 + X2 + . . . + Xn ∼ N µ1 + µ2 + . . . + µn , σ12 + σ22 + . . . + σn2 .




Démonstration. En utilisant la définition de la fonction génératrice des moments


nous obtenons

MX1 +X2 +...+Xn (t) = E et(X1 +X2 +...+Xn )


 

= E etX1 etX2 . . . etXn


 

= E etX1 · E etX2 · . . . · E etXn


     
par la propriété de l’indépendance
t2 σ1
2 t2 σ2
2
t2 σn
2

= etµ1 e 2 · etµ2 e 2 · . . . · etµn e 2

t2 2 2 2
= et(µ1 +µ2 +...+µn ) e 2 (σ1 +σ2 +...+σn ) .

Propriété 3.2.4. Soient X ∼ N (µ, σ 2 ) et p ∈ R alors

pX ∼ N pµ, p2 σ 2 .


Démonstration. En utilisant la définition de la fonction génératrice des moments

49
Chapitre 3

nous obtenons

MpX (t) = E et(pX)


 

= E e(tp)X
 

t2 p2 2
= e(tp)µ e 2
σ

t2 2 2
= et(pµ) e 2 p σ
.

3.2.1 Moments d’ordre n

Le moment d’ordre n d’une variable aléatoire X est un indicateur de la disper-


sion de cette variable, il aide à caractériser davantage la distribution en question.
Par exemple dans des test de normalité, on utilise les moments (voir Chapitre
4).

Définition 3.2.1. Le moment d’ordre n ∈ N d’une variable aléatoire X, s’il


existe, est donné par
mn = E [X n ]

Souvent on parle aussi du moment centré.

Définition 3.2.2. Le moment centré d’ordre n ∈ N, s’il existe, est donné par

µn = E [(X − E[X])n ]

Dans ce qui suit nous allons nous concentrer sur les moments d’ordre 1, 2, 3
et 4.
Le moment d’ordre 1 est l’espérance de la variable aléatoire X, c’est-à-dire la

50
Propriétés et caractéristiques

moyenne. Le moment d’ordre 2 détermine la variance, le moment d’ordre 3 mesure


l’asymétrie et le moment d’ordre 4 mesure l’aplatissement (on l’appelle aussi
kurtosis).
Comme E[X] = µ, nous avons directement pour le moment centré d’ordre
1 que E[X − µ] = 0. Le moment centré d’ordre 2 suit de calculs précédents et
correspond à E [(X − µ)2 ] = σ 2 (= Var[X]). Il en découle que E[X 2 ] = µ2 + σ 2 .
Passons alors au moment centré d’ordre 3 :

+∞
(x − µ)2
Z  
1
E (X − µ)3 = 3
 
(x − µ) √ exp − dx.
−∞ σ 2π 2σ 2

Comme la fonction de densité de la loi normale est symétrique autour de µ, et


que (x − µ)3 est asymétrique autour de µ, il suit que

E (X − µ)3 = 0.
 

Nous obtenons alors facilement l’expression pour le troisième moment E [X 3 ] :

E (X − µ)3 = E X 3 − 3µE X 2 + 3µ2 E [X] − µ3


     

⇐⇒ 0 = E X 3 − 3µ µ2 + σ 2 + 3µ3 − µ3
  

⇐⇒ E X 3 = 3µ3 + 3µσ 2 − 2µ3


 

⇐⇒ E X 3 = 3µσ 2 + µ3 .
 

Calculons finalement le moment centré d’ordre 4 :

+∞
(x − µ)2
Z  
1
E (X − µ)4 = 4
 
(x − µ) √ exp − dx.
−∞ σ 2π 2σ 2

51
Chapitre 3

En posant z = x − µ, nous avons

+∞
z2
Z  
1
E (X − µ)4 = 4
 
z √ exp − 2 dz.
−∞ σ 2π 2σ

En résolvant cette intégrale par une intégration par parties nous obtenons

+∞ +∞
z2 z2
  Z  
 4
 1 2 3 2 2 1
E (X − µ) = − √ σ z exp − 2 + 3σ z √ exp − 2 dz
σ 2π 2σ σ 2π 2σ
−∞
| −∞ {z }
=σ 2

= 0 + 3σ 4

= 3σ 4 .

Nous obtenons alors facilement l’expression pour le quatrième moment E [X 4 ] :

E (X − µ)4 = E X 4 − 4µE X 3 + 6µ2 E X 2 − 4µ3 E [X] + µ4


       

⇐⇒ 3σ 4 = E X 4 − 4µ 3µσ 2 + µ3 + 6µ2 (σ 2 + µ2 ) − 4µ4 + µ4


  

⇐⇒ E X 4 = 3σ 4 + 12µ2 σ 2 + 4µ4 − 6µ2 σ 2 − 6µ4 + 4µ4 − µ4


 

⇐⇒ E X 4 = 3σ 4 + 6µ2 σ 2 + µ4 .
 

3.3 Quantile
Les quantiles sont des mesures de position, ils décrivent une position parti-
culière. Nous connaissons déjà un quantile particulier, la médiane, qui divise un
ensemble d’observations en deux parties. En d’autres mots, on peut dire qu’un
quantile est une valeur séparante, une certaine partie des valeurs étant plus pe-
tites, une autre partie plus grande qu’un quantile.
De manière plus formelle, nous définissons de la manière suivante le quantile

52
Quantile

d’ordre α ∈ [0, 1] d’une variable aléatoire continue X de fonction de répartition F .

Définition 3.3.1. Le quantile d’ordre α d’une loi probabiliste continue de fonc-


tion de répartition F , noté qαF , est donné par

qαF := argminx∈R {F (x) ≥ α}.

S’il n’y a pas de sauts de discontinuité dans F , alors qαF = F −1 (α) est bien
défini. La médiane correspond donc à F −1 (1/2) ; si X est symétrique sur R, alors
F −1 (1/2) = 0 comme c’est le cas de la loi normale centrée réduite. Les quantiles
de cette loi sont particulièrement bien étudiés, et sont repris dans la Table 3.1.
Rappelons que sa fonction de répartition se note Φ(x). A l’aide de ce tableau, on
peut facilement calculer les quantiles de la loi normale centrée réduite, que nous
noterons zα = qαΦ , ainsi que des quantités comme la probabilité qu’une N (0, 1) se
situe entre, disons, 1 et 1, 2. Il suffit pour cela d’aller voir la probabilité associée
aux points 1 et 1,2 (0,8413 et 0,8849, respectivement), et de calculer la différence
(0,0436). Le quantile d’ordre 0,6 s’obtient en allant chercher sur le tableau quelle
valeur de Φ(x) correspond à 0,6 (c’est une valeur entre 0,25 et 0,26). La Table 3.1
ne contient que les quantiles, donc les valeurs de Φ(x), variant entre 0, 5 et 1 ;
les valeurs négatives s’en déduisent aisément via la relation Φ(x) + Φ(−x) = 1
(propriété de symétrie de la loi normale ; elle implique aussi que zα = −z1−α ).
Les quantiles, pas seulement de la loi normale, sont des outils précieux en sta-
tistique. D’un côté, parce qu’ils sont utilisés comme valeurs limites dans les tests
d’hypothèse (voir Section 4.4) ; d’un autre côté, pour construire des intervalles de
confiance (voir Section 4.3). Il existe aussi des outils comme le QQ-plot pour faire
de l’inférence statistique comme par exemple pour tester visuellement si l’hypo-
thèse de normalité est correcte dans une situation donnée, voir Section 4.5.

53
Chapitre 3

Φ(x) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

Table 3.1 – Table de valeurs de la fonction de répartition de la loi normale centrée réduite.
Les valeurs dans le tableau correspondent à Φ(x), et les valeurs en gras sur le côté déterminent
les valeurs de x correspondantes. A gauche se trouvent les premières décimales, en haut les
deuxièmes décimales. (Dodge 2007, p. 624)

54
Le Théorème Central Limite

3.4 Le Théorème Central Limite


Nous avons déjà énoncé le théorème dans la Section 2.1 et nous allons mainte-
nant donner une preuve « moderne » de ce théorème. Pour la preuve nous allons
suivre Diener (2006).

Théorème 3.4.1. Soient X1 , . . . , Xn des variables aléatoires indépendantes et


identiquement distribuées de moyenne µ et de variance σ 2 > 0. Alors, quand
n → ∞,
n  
1 X Xi − µ d
Zn = √ →
− N (0, 1)
n i=1 σ

d
− signifie convergence en distribution ou en loi 1 .
où →

Démonstration. L’idée de la preuve consiste à montrer que la fonction généra-


trice des moments de Zn tend vers la fonction génératrice des moments d’une
variable aléatoire suivant une loi normale standard. Dans la Section 3.2 nous
avons donné la définition de la fonction génératrice des moments MN (µ,σ2 ) (t). Il
t2
est facile de voir qu’elle correspond à e 2 pour une loi N (0, 1).
Notons Yi = (Xi − µ)/σ ; les Yi sont donc des variables aléatoires indépendantes
et identiquement distribuées de moyenne 0 et de variance 1. En notant M (·) leur
fonction génératrice des moments commune, nous pouvons écrire le développe-
1. Une suite de variables aléatoires Yn converge en distribution ou en loi vers une variable
aléatoire Y si la suite de fonctions de répartition de Yn , notée Fn , converge faiblement vers
la fonction de répartition F de Y , ce qui veut dire que Fn (x) → F (x) quand n → ∞ en tout
point de continuité de F .

55
Chapitre 3

ment suivant :

MZn (t) = M √1 Pni=1 Yi (t)


"n n
!#
1 X
= E exp t √ Yi
n i=1
  
1 1
= E exp t √ Y1 + . . . + t √ Yn
n n
    
1 1
= E exp t √ Y1 · . . . · exp t √ Yn
n n
     
1 1
= E exp t √ Y1 · . . . · E exp t √ Yn
n n
   
1 1
= M t√ · . . . · M t√
n n
  n
1
= M t√ .
n

Pour calculer la limite de MZn (t), nous utilisons un développement en série de


 
1
Taylor à l’ordre 2 de M t n . Dans ce développement nous avons besoin de

connaître M (0), M 0 (0) et M 00 (0), quantités que nous pouvons facilement calculer :
M (0) = 1, M 0 (0) = 0 et M 00 (0) = 1. Ceci nous donne :
n
t2 00
 
t 0 1
MZn (t) = M (0) + √ M (0) + M (0) + R t √
n1! n2! n
   
où R t √1n désigne le reste du développement, avec limn→∞ nR t √1n = 0.
 
Pour simplifier l’écriture, notons rn = R t √1n et en remplaçant M (0), M 0 (0)

56
Le Théorème Central Limite

et M 00 (0) par leurs valeurs nous obtenons :


n
1 t2

MZn (t) = 1 + + rn
2n
n
t2 + 2nrn

= 1+
2n
!n
1
= 1 + 2n
t2 +2nrn
t2
 
n
  · +nrn
t2 +nr 2
n
1 2

= 1 + n
 .
t2
2
+nrn

1 x

Comme lim 1 + x
→ e, nous avons :
x→∞

t2
 
n
  · +nrn
t2 +nr 2
n
1 2

MZn (t) = 1 + n

t2
2
+nrn
 2
t
n→∞
−→ e1
 2
car nrn → 0
t2
=e . 2

Finalement on voit que MZn (t) tend vers la fonction génératrice des moments
d’une variable aléatoire suivant la loi N (0, 1) dont on peut conclure que
Pn Xi −µ  d
√1 →
− N (0, 1).
n i=1 σ

Remarquons que dans cette preuve nous avons fait une hypothèse en plus :
que la fonction génératrice des moments des variables X1 , . . . , Xn existe. Quand
tel n’est pas le cas, nous pouvons faire la même preuve avec la fonction carac-
téristique (qui existe toujours) ; ici, nous avons opté pour le premier choix par
souci de simplicité, afin d’éviter des nombres complexes.

57
Chapitre 3

Aujourd’hui il existe beaucoup de variantes du TCL classique, sous d’autres


conditions. Pour les différents énoncés nous nous basons sur Fischer (2011). Nous
allons donner deux formulations qui sont souvent utilisées. Commençons par la
formulation de Lyapunov en 1901.

Théorème 3.4.2. Soient X1 , . . . , Xn des variables aléatoires indépendantes de


moyenne µi et de variance σi2 , i = 1, . . . , n. Définissons s2n = ni=1 σi2 . Si pour
P

un certain δ > 0 la condition suivante est satisfaite

n
1 X 
E |Xi − µi |2+δ = 0,

lim 2+δ (3.4.1)
n→∞ sn
i=1

alors, pour n → ∞,

n
1 X d
(Xi − µi ) →
− N (0, 1) .
sn i=1

La condition (3.4.1) est appelée condition de Lyapunov. Dans ce théorème on


ne fait pas l’hypothèse que les variables doivent être de distribution identique
(comme le montre le fait que les moyennes et variances peuvent être distinctes).
En 1920 Lindeberg a énoncé le théorème suivant en utilisant les mêmes hypo-
thèses que Lyapunov, mais en prenant une condition différente de (3.4.1).

Théorème 3.4.3. Soient X1 , . . . , Xn des variables aléatoires indépendantes de


moyenne µi et de variance σi2 , i = 1, . . . , n. Définissons s2n = ni=1 σi2 . Supposons
P

que pour tout  > 0

n
1 X 
E (Xi − µi )2 1{|Xi −µi |>sn } = 0,

lim 2 (3.4.2)
n→∞ sn
i=1

58
Le Théorème Central Limite

où 1{...} est la fonction indicatrice, alors, pour n → ∞,

n
1 X d
(Xi − µi ) →
− N (0, 1) .
sn i=1

Comme avant, la condition (3.4.2) est appelée condition de Lindeberg.


Terminons cette section par une brève note sur l’utilité du TCL et sa grande
popularité qui en découle. En effet, il permet de déterminer de manière simple
la loi de probabilité d’une somme de termes, sous condition que la somme soit
assez grande évidemment. Or, c’est précisément pour des grandes sommes qu’il
est difficile de déterminer une loi exacte. Et c’est là que le TCL entre en jeu : pour
2
n assez grand, il dit que Sn = n1 ni=1 Xi ≈ N (µ, σn ) (ceci est une retranscription
P

approximative du Théorème Central Limite). Autrement dit

n
1 X
√ (Xi − µ) ≈ N (0, 1),
nσ i=1

et il suffit alors d’aller consulter la table de la loi normale (voir Table 3.1) pour
trouver par exemple la probabilité que la somme nSn se trouve entre deux valeurs
a et b. De tels calculs sont extrêmement utiles quand, par exemple, on dispose de
500 appareils électriques indépendants dont on sait que chacun tombe en panne
avec une probabilité de 25%, et qu’on aimerait connaître la probabilité que moins
de 100 appareils tombent en panne. Grâce au TCL, des questions de ce genre
se résolvent presque immédiatement. D’autre part, le TCL est beaucoup utilisé
en statistique où la plupart des expressions statistiques comportent des sommes.
Grâce au TCL, les statisticiens peuvent en déterminer la loi probabiliste, et ainsi
construire leurs procédures. C’est donc la simplicité ainsi que le grand éventail
d’utilisations potentielles qui rendent le TCL tellement populaire.

59
Chapitre 3

3.5 L’entropie
Tout comme en thermodynamique, le concept d’entropie a été introduit en
probabilités pour mesurer le degré de désordre, chaos, incertitude d’une variable
aléatoire. La définition est comme suit.

Définition 3.5.1. Soit X une variable aléatoire continue de densité f . Alors la


quantité
Z+∞
H(f ) = − f (x) log f (x)dx
−∞

est appelée l’entropie de Shannon de la densité f . Si X est une variable aléatoire


discrète, alors son entropie vaut


X
H(X) = − P [X = i] log(P [X = i]).
i=1

Notons que les deux notations, H(f ) et H(X), sont admises. Le concept d’en-
tropie a été introduit par Claude Elwood Shannon (1916-2001), un ingénieur en
génie électrique et mathématicien américain. Il est considéré comme le père de
la théorie de l’information, une théorie mathématique de la transmission de si-
gnal. Pour illustrer la définition précédente, considérons un exemple très simple,
à savoir de nouveau le jeu pile ou face. Si la pièce de monnaie est truquée de telle
sorte que Pile apparaît avec probabilité p = 1, alors H(Bern(p)) = 0. Si, par
contre, la pièce est parfaitement équilibrée, son entropie H(Bern(p)) = log(2)
est maximale car elle correspond à l’état le plus incertain.
La loi normale occupe aussi un rôle particulier en ce qui concerne l’entropie,
comme le montre le Théorème 3.5.1 ci-dessous. Avant cela, nous calculons d’abord
l’entropie de la loi normale.

60
L’entropie

Propriété 3.5.1. L’entropie de la loi normale est donnée par

log(2πσ 2 e)
H(φ(·; µ, σ 2 )) =
2

Démonstration.

Z+∞
H(φ(·; µ, σ 2 )) = − φ(x; µ, σ 2 ) log φ(x; µ, σ 2 )dx
−∞
Z+∞  
1 −
(x−µ)2 1 −
(x−µ)2
=− √ e 2σ log √ e 2σ
2 2
dx
σ 2π σ 2π
−∞
Z+∞
(x − µ)2
   
1 −
(x−µ)2 1
=− √ e 2σ 2
log √ − dx
σ 2π σ 2π 2σ 2
−∞
Z+∞  Z+∞
(x − µ)2 1

1 1 −
(x−µ)2

(x−µ)2
=− log √ √ e 2σ2 dx + √ e 2σ 2 dx
σ 2π σ 2π 2σ 2 σ 2π
−∞ −∞
  Z+∞ Z+∞
1 1 −
(x−µ)2 1 1 (x−µ)2
= − log √ √ e 2σ2 dx + 2 (x − µ)2 √ e− 2σ2 dx
σ 2π σ 2π 2σ σ 2π
−∞ −∞
| {z } | {z }
=1 =σ 2
h 1
1 i
2 2
= log 2πσ +
2
1 1
= log 2πσ 2 + log e1

2 2
2
log (2πσ e)
=
2

Théorème 3.5.1. Parmi l’ensemble des densités de probabilité sur R de


moyenne µ ∈ R et de variance σ 2 > 0 fixées, l’entropie est maximisée par la loi
normale N (µ, σ 2 ).

61
Chapitre 3

Démonstration. L’idée de la preuve est de montrer que H(f ) ≤ H(φ(·; µ, σ 2 )).


Pour le montrer nous utilisons l’inégalité suivante :

log(x) ≤ x − 1 ∀x > 0. (3.5.3)

1
La dérivée de la fonction log(x) − x + 1 est égale à x
− 1 et la fonction est ainsi
croissante sur l’intervalle ]0; 1] et décroissante sur l’intervalle ]1; +∞[. Comme
son maximum en 1 vaut 0, log(x) − x + 1 ≤ 0 et l’inégalité (3.5.3) est vérifiée.
g(x)
En remplaçant dans cette inégalité x par f (x)
, avec f (x) > 0 et g(x) > 0, nous
obtenons  
g(x) g(x)
log ≤ − 1.
f (x) f (x)
Ainsi nous pouvons écrire que

Z+∞   Z+∞  
g(x) g(x)
f (x) log dx ≤ f (x) − 1 dx
f (x) f (x)
−∞ −∞
Z+∞
= (g(x) − f (x)) dx
−∞
Z+∞ Z+∞
= g(x)dx − f (x)dx, car f et g sont des densités
−∞ −∞
| {z } | {z }
=1 =1

= 0.

Ainsi

Z+∞  
g(x)
f (x) log dx ≤ 0. (3.5.4)
f (x)
−∞

62
L’entropie

Par (3.5.4) nous obtenons

Z+∞  
g(x)
f (x) log dx ≤ 0
f (x)
−∞
 +∞ 
Z+∞ Z
⇐⇒ f (x) log g(x)dx + − f (x) log f (x)dx ≤ 0
−∞ −∞
| {z }
H(f )
Z+∞
⇐⇒ H(f ) ≤ − f (x) log g(x)dx.
−∞

En prenant pour g la densité normale N (µ, σ 2 ), nous avons

Z+∞  
1 −
(x−µ)2
H(f ) ≤ − f (x) log √ e 2σ2 dx
σ 2π
−∞
Z+∞ Z+∞
(x − µ)2
 
1
=− f (x) log √ dx + f (x) dx
σ 2π 2σ 2
−∞ −∞
  Z+∞ Z+∞
1 1
= − log √ f (x)dx + 2 (x − µ)2 f (x)dx
σ 2π 2σ
−∞ −∞
| {z } | {z }
=1 =σ 2
h 1 i
2 2 1
= log 2πσ +
2
log (2πσ 2 e)
=
2
= H(φ(·; µ, σ 2 )).

Donc H(f ) ≤ H(φ(·; µ, σ 2 )) pour tout f , avec égalité si et seulement si f est la


densité normale.

63
Chapitre 3

3.6 Génération de variables aléatoires normales


via la méthode de Box-Muller

3.6.1 L’algorithme de Box-Muller

Il existe diverses méthodes de générer une variable aléatoire X suivant une


loi L(F ) de fonction de répartition F . La plus simple repose sur l’idée suivante :
si U est une variable aléatoire de loi uniforme sur [0, 1], alors la variable aléatoire
F −1 (U ) est de loi L(F ) (en effet, P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = F (x)).
Donc, si F est inversible, on sait générer X en générant d’abord une variable
uniforme U et en y appliquant la fonction F −1 (·). Si, par contre, F n’admet pas
d’inverse sous forme connue, comme c’est le cas de la fonction de répartition
normale Φ, alors il faut procéder à une inversion numérique. Dans ce travail,
nous n’allons pas nous préoccuper de telles méthodes numériques, mais plutôt
brièvement décrire une célèbre méthode de génération de variables aléatoires
normales : la transformation Box-Muller.
Soient U et V des variables aléatoires indépendantes, suivant chacune une loi
uniforme sur [0, 1]. Alors, chacune des deux variables aléatoires X et Y définies
comme
 X = cos(2πU )√−2 log V

 Y = sin(2πU )√−2 log V

est de loi normale ; même plus fort, le vecteur (X, Y )0 suit en fait une loi normale
en dimension deux (voir Section 4.5.1). Cette manière de générer des variables
aléatoires normales, en commençant par des uniformes U et V et en y appliquant
les transformations ci-dessus, est la méthode dite Box-Muller. Cette méthode a
été introduite par le statisticien britannique George Edward Pelham Box et par

64
Génération de variables aléatoires normales via la méthode de Box-Muller

Mervin Edgar Muller en 1958. Nous n’allons pas donner ici une preuve rigoureuse
du fait que X et Y soient de loi normale, mais nous allons plutôt donner un
argument heuristique.
Deux résultats connus sur un vecteur normal bivarié sont les suivants : X 2 +Y 2
suit une loi khi-deux de degré de liberté 2, et arctan(Y /X), soit l’angle formé par
le vecteur (X, Y )0 , est de loi uniforme sur [0, 2π]. La construction de Box-Muller
permet de retrouver ces propriétés. En effet
 √ 
sin(2πU ) −2 log V
arctan(Y /X) = arctan √ = arctan (tan(2πU )) = 2πU,
cos(2πU ) −2 log V

et comme U est uniforme sur [0, 1], 2πU est uniforme sur [0, 2π]. Par ailleurs

X 2 + Y 2 = (cos2 (2πU ) + sin2 (2πU ))(−2 log V ) = −2 log V.

Il reste à déterminer la loi de −2 log V . Nous avons

P (−2 log V ≤ x) = P (log V ≥ −x/2)

= P (V ≥ exp(−x/2))

= 1 − P (V ≤ exp(−x/2))

= 1 − exp(−x/2), car V ∼ U[0; 1]

ce qui correspond à la fonction de répartition d’une loi khi-deux à 2 degrés de


liberté.

65
Chapitre 3

3.6.2 Génération de données normales en implémentant


l’algorithme de Box-Muller dans R

Grâce à l’algorithme de Box-Muller, nous pouvons générer des données distri-


buées selon une loi normale à l’aide du logiciel R. Pour ce faire, nous considérons
plusieurs tailles d’échantillons n distinctes et, pour chaque valeur de n, nous
dessinons un histogramme des données obtenues (nous nous restreignons aux ré-
sultats de type X dans Box-Muller, mais bien sûr on aurait aussi pu prendre Y ).
La Figure 3.5 contient les histogrammes qui en résultent, et nous remarquons
clairement que leurs allures ressemblent toutes à la courbe de Gauss. Cet effet
est d’autant plus marqué que la taille d’échantillon est large, comme on pouvait
s’en douter.
Le code que nous avons utilisé pour générer les données se trouve dans l’an-
nexe C.

66
Génération de variables aléatoires normales via la méthode de Box-Muller

(a) n = 100 (b) n = 200


Histogramme de X Histogramme de X
25

40
20

30
15
fréquence

fréquence

20
10

10
5
0

0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

X X

(c) n = 500 (d) n = 1000


Histogramme de X Histogramme de X
100

200
80

150
60
fréquence

fréquence

100
40

50
20
0

-4 -3 -2 -1 0 1 2 3 -4 -2 0 2 4

X X

Figure 3.5 – Histogrammes de X

67
Chapitre 3

68
Chapitre 4

Inférence statistique basée sur la loi


normale

Comme la loi normale est souvent utilisée pour modéliser divers phénomènes
réels, il est essentiel de savoir estimer les paramètres de position et d’échelle
de cette loi. Nous allons décrire deux méthodes d’estimation, la méthode par
le maximum de vraisemblance et la méthode des moments. Fortement lié à la
thématique estimation est le théorème de caractérisation de Gauss vu à la Sec-
tion 2.2. Nous en donnerons ici une version moderne. Puis nous passerons aux
intervalles de confiance et aux tests d’hypothèse portant sur soit la position
soit l’échelle et expliquer quand et pourquoi on rejette une hypothèse donnée.
Ces tests et intervalles ne sont valides qu’à condition que les données observées
suivent une loi normale, mais bien sûr rien ne garantit a priori que tous les jeux
de données suivent bel et bien cette courbe. Nous allons par conséquent décrire
des tests qui valident ou invalident l’hypothèse de normalité. En cas d’invalida-
tion, il faut s’en tenir à des lois non-normales ; je termine donc le chapitre par
un bref aperçu sur de telles lois.

69
Chapitre 4

4.1 Estimation des différents paramètres


Il existe diverses méthodes d’estimation des paramètres de position µ et d’échelle
σ. Dans ce qui suit, nous allons nous concentrer sur la méthode du maximum de
vraisemblance (MLE) et sur la méthode des moments (MM).

4.1.1 Méthode du maximum de vraisemblance

Soient les observations X1 , . . . , Xn des variables aléatoires indépendantes et iden-


tiquement distribuées suivant une loi normale de moyenne µ et d’écart-type σ.
Autrement dit, nous avons

1 (xi −µ)2
fXi xi ; µ, σ 2 = √ e− 2σ2 .

∀i = 1, . . . , n :
σ 2π

La fonction de vraisemblance est donnée par le produit des fonctions de densité

n
Y
Lµ,σ2 (x1 , . . . , xn ) = fXi (xi ; µ, σ 2 )
i=1
n
Y 1 1 2
= √ e− 2σ2 (xi −µ)
i=1
σ 2π
 n
1 1 Pn 2
= √ e− 2σ2 i=1 (xi −µ)
σ 2π
 n   n2
1 1 − 12
Pn 2
i=1 (xi −µ) .
= √ e 2σ (4.1.1)
2π σ2

En prenant le logarithme de l’équation (4.1.1), nous obtenons comme log-


vraisemblance

n
√ n 2 1 X
log Lµ,σ2 (x1 , . . . , xn ) = −n log( 2π) − log(σ ) − 2 (xi − µ)2 . (4.1.2)
2 2σ i=1

70
Estimation des différents paramètres

Pour trouver l’estimateur MLE de µ, c’est-à-dire la valeur de µ qui maximise


l’expression précédente, nous dérivons d’abord l’expression (4.1.2) par rapport à
µ:

n
∂ 1 X
log Lµ,σ2 (x1 , . . . , xn ) = 2 2(xi − µ)
∂µ 2σ i=1
n
1 X
= 2 (xi − µ),
σ i=1

puis nous résolvons l’équation :

n
∂ 1 X
log Lµ,σ2 (x1 , . . . , xn ) = 0 ⇐⇒ 2 (xi − µ) = 0
∂µ σ i=1
n
X
⇐⇒ xi − nµ = 0
i=1

⇐⇒ n(x̄ − µ) = 0

⇐⇒ µ = x̄.

Il s’ensuit que µ
bMLE = x̄.
Pour trouver l’estimateur MLE de σ 2 , nous faisons le même raisonnement en
dérivant l’expression (4.1.2) par rapport à σ 2 :

n
∂ n 1 1 X
log Lµ,σ 2 (x 1 , . . . , x n ) = − + (xi − µ)2 .
∂σ 2 2 σ 2 2 (σ 2 )2 i=1

71
Chapitre 4

Ensuite nous résolvons l’équation :

n
∂ n 1 X
2
log Lµ,σ2 (x1 , . . . , xn ) = 0 ⇐⇒ − 2 + 2 (xi − µ)2 = 0
∂σ 2σ 2
2 (σ ) i=1
Xn
⇐⇒ −nσ 2 + (xi − µ)2 = 0
i=1
n
2 1X
⇐⇒ σ = (xi − µ)2 .
n i=1

1
Pn
bMLE = x̄, nous obtenons finalement σb2 MLE =
Comme µ n i=1 (xi − x̄)2 .
Il nous reste à vérifier que les valeurs obtenues correspondent bien à des
maxima ; pour que ce soit le cas il faut que la matrice hessienne soit définie
négative. Calculons donc les différents coefficients de la matrice hessienne :

∂2 n
2
log Lµ,σ2 (x1 , . . . , xn ) = − 2
(∂µ) σ

n
∂ ∂ 1 X
log L µ,σ 2 (x1 , . . . , xn ) = − 2 (xi − µ)
2
∂µ ∂σ 2 2 (σ 2 ) i=1
n
1 X
=− (xi − µ)
(σ 2 )2 i=1

n
∂ ∂ 1 X
log Lµ,σ2 (x1 , . . . , xn ) = − (xi − µ)
∂σ 2 ∂µ (σ 2 )2 i=1

72
Estimation des différents paramètres

n
∂2 n 2σ 2 X
log Lµ,σ 2 (x 1 , . . . , x n ) = 2 − 2 (xi − µ)2
(∂σ 2 )2 2
2 (σ ) 2 
2 (σ )2
i=1
n
n 1 X
= 2 − 3 (xi − µ)2 .
2
2 (σ ) 2
(σ ) i=1

Donc on obtient comme matrice hessienne


 Pn 
− σn2 − (σ12 )2 (x
i=1 i − µ)
H= Pn Pn ,
− (σ12 )2 i=1 (xi − µ) n
2(σ 2 )2
1
− (σ2 )3 i=1 (xi − µ) 2

où, en replaçant µ et σ 2 par leurs estimateurs µ


bMLE et σb2 MLE respectivement,
nous obtenons
 Pn 
− c2 n − c 1
2
i=1 (xi − µ
bMLE )
 σ MLE σ 2 MLE 
H= Pn Pn
.
1 n 1
− c i=1 (xi −µ
bMLE ) − i=1 (xi bMLE )2
−µ
 
2  2  3
σ2 MLE
c2
2 σ MLE 2
σ MLE
c

Comme µ
bMLE = x̄, les éléments diagonaux s’annulent, donnant lieu à la simpli-
fication
 
n
− c2 0
σ MLE
H= .
 
n 1
Pn 2
0  2 −  3
i=1 (xi − x̄)
2
2 σ MLE
c c2
σ MLE

Comme H est une matrice diagonale il suffit de vérifier que les éléments diago-
naux sont tous négatifs :
n
− <0
σb2 MLE

73
Chapitre 4

et
 
 
n n
n 1 X
2 n 
2
1 X 
2
2 −  (xi − x̄) =  3 σ MLE − 2 (xi − x̄) 
 b
3
n i=1

2 σb2 MLE σb2 MLE i=1 2 σb2 MLE 
 
| {z }
c2
σ MLE

n
=−  2
2 σb2 MLE

< 0.

bMLE et σb2 MLE


Donc la matrice hessienne H est définie négative et par conséquent µ
sont bien les uniques maxima.

4.1.2 Méthode des moments

L’estimation des paramètres via la méthode des moments a été utilisée pour
la première fois par Karl Pearson. Cette méthode repose sur l’idée d’égaliser les
k premiers moments de la distribution en question avec les moments empiriques
correspondants. Il faut alors résoudre un sytème de k équations, avec k le nombre
de paramètres inconnus dans la distribution. Ainsi pour l’estimation des para-
mètres µ et σ 2 il faut résoudre le système suivant (voir Section 3.2.1 pour les
moments théoriques)

 m =µ
1
 m = σ 2 + µ2 , avec mi (i = 1, 2) les moments empiriques.
2

74
Estimation des différents paramètres

Pour les moments empiriques nous avons

n n
1X 1X 2
m1 = xi et m2 = x (4.1.3)
n i=1 n i=1 i

ce qui nous donne


 n
1
P

 n
xi = µ
i=1
n
 n1 x2i = σ 2 + µ2
 P

 i=1
 x̄ = µ

⇒ n
 n1 x2i − µ2 = σ 2
P

i=1

 x̄ = µ

⇒ n
 n1 x2i − x̄2 = σ 2
P

 i=1
 x̄ = µ

⇒ n
 n1 x2i − 2x̄2 + x̄2 = σ 2
P

i=1

 x̄ = µ

⇒ n n n
 n1 x2i − 2 n1 xi x̄ + n1 x̄2 = σ 2
P P P

 i=1 i=1 i=1

 x̄ = µ

⇒ n
 n1 (xi − x̄)2 = σ 2
P

i=1

Finalement nous obtenons comme estimateurs de µ et σ 2 :

n
1X
µ
bM M = x̄ et σb2 M M = (xi − x̄)2 .
n i=1

Nous voyons donc que les estimateurs par la méthode des moments corres-

75
Chapitre 4

pondent exactement à ceux obtenus via le maximum de vraisemblance ; notons


que cela n’est en général pas le cas, mais représente une belle propriété de la loi
normale.

4.2 Version moderne du théorème de


caractérisation de la loi normale selon Gauss
Dans la Section 4.1.1 nous avons vu que si x1 , . . . , xn sont des observations
issues d’une loi normale ayant comme moyenne µ et comme écart-type σ, alors le
maximum de vraisemblance de µ est donné par la moyenne arithmétique x̄. Nous
avons également vu, dans la Section 2.2.2, que la réciproque est vraie aussi, à
savoir que la loi normale est la seule pour laquelle x̄ est constamment estimateur
du maximum de vraisemblance pour µ, résultat dû à Gauss.
Plus que cent ans après Gauss, d’autres auteurs ont raffiné la solution de
Gauss ; ils ont donné des conditions moins strictes que Gauss. Dans ce qui suit
nous allons donner et démontrer le théorème le plus récent, celui de Azzalini and
Genton (2007).

Théorème 4.2.1. Soit une population de variables aléatoires absolument conti-


nues telle que pour toute valeur de µ ∈ R la fonction de densité au point x ∈ R
peut s’écrire f (x − µ). Considérons un échantillon de taille n ≥ 3 extrait de cette
population, et qui satisfait les conditions suivantes :
(i) f (x) est dérivable en x et sa dérivée est continue en au moins un point
x ∈ R;
Pn xi
(ii) pour tout échantillon x1 , . . . , xn la moyenne empirique x̄ = i=1 n est
solution de l’équation de vraisemblance pour le paramètre de position µ.

76
Version moderne du théorème de caractérisation de la loi normale selon Gauss

Alors f (x) est la fonction de densité d’une loi N (0, σ 2 ) pour un certain σ 2 > 0.

Démonstration. Soit x1 , . . . , xn un échantillon issu d’une population de fonction


de densité f (x − µ). Soit Lf,µ (x1 , . . . , xn ) = ni=1 f (xi − µ) sa fonction de vrai-
Q
Pn
semblance et log Lf,µ (x1 , . . . , xn ) = i=1 log (f (xi − µ)) sa log-vraisemblance.

L’équation de vraisemblance pour µ est donnée par

n
X d
log (f (xi − µ)) = 0. (4.2.4)
i=1

d
En posant g(x) = dx
log (f (x)), nous obtenons pour (4.2.4)

n
X
g(xi − µ) = 0.
i=1

Vu la condition (ii), nous avons

n
X
g(xi − x̄) = 0 (4.2.5)
i=1

pour tout échantillon x1 , . . . , xn de taille n ≥ 3. Il faut maintenant prouver que


la fonction de densité d’une loi normale est la seule fonction dont la dérivée du
logarithme satisfait (4.2.5).
Une bonne approche pour résoudre cette équation est de prendre des exemples
d’échantillons bien choisis. Les différentes conditions que nous obtenons sur la
fonction g nous aideront à déterminer exactement g.
Commençons par considérer l’échantillon x1 = x2 = . . . = xn = u pour une
constante réelle u donnée, où la moyenne empirique µ
b vaut u. Nous obtenons
alors pour l’équation (4.2.5)
ng(0) = 0.

77
Chapitre 4

Ainsi

g(0) = 0.

Prenons ensuite un deuxième échantillon bien choisi, à savoir 2u, 0, u, u . . . , u, où


la moyenne empirique µ
b vaut u. Nous obtenons alors pour l’équation (4.2.5)

g(2u − u) + g(0 − u) + g(u − u) + . . . + g(u − u) = 0

⇐⇒ g(u) + g(−u) + (n − 2)g(0) = 0

⇐⇒ g(u) + g(−u) = 0, car g(0) = 0.

Ceci implique que g(−u) = −g(u), c’est-à-dire que g est une fonction impaire.
Prenons ensuite un troisième et dernier échantillon, u, v, −(u + v), 0, . . . , 0, avec
u et v deux réels donnés, où la moyenne empirique µ
b vaut 0. Nous obtenons alors
pour l’équation (4.2.5)

g(u) + g(v) + g(−(u + v)) + g(0) + . . . + g(0) = 0

⇐⇒ g(u) + g(v) + g(−(u + v)) + (n − 3)g(0) = 0

⇐⇒ g(u) + g(v) + g(−(u + v)) = 0, car g(0) = 0.

Comme g est une fonction impaire nous obtenons

g(u) + g(v) = g(u + v). (4.2.6)

L’équation (4.2.6) représente la célèbre équation fonctionnelle de Cauchy. Pour


la résolution d’une équation fonctionnelle de Cauchy nous nous référons à Aczél
and Dhombres (1989).

78
Version moderne du théorème de caractérisation de la loi normale selon Gauss

Comme première observation nous déduisons de l’équation (4.2.6) que

g(n) = g(n − 1 + 1) = g(n − 1) + g(1) = g(n − 2 + 1) + g(1)

= g(n − 2) + g(1) + g(1)

= ...

= ng(1).

Ainsi

g(n) = ng(1) ∀n ∈ N.

Comme g est une fonction impaire g(−n) = −g(n) = −ng(1), et nous pouvons
étendre ce résultat aux entiers pour avoir

g(z) = zg(1) ∀z ∈ Z.

Etendons ce résultat à présent aux rationnels. Prenons q = rs , avec r, s ∈ Z.


Comme
   
1 1
g(1) = g s = sg ,
s s

il suit que

r    
1 g(1) 1 g(1)
g(q) = g = rg =r , car g =
s s s s s
= qg(1).

79
Chapitre 4

Donc

g(q) = qg(1) ∀q ∈ Q. (4.2.7)

Comme Q est dense dans R et g est une fonction continue (car f 0 est une fonction
continue), la relation (4.2.7) s’étend aux réels et donc

g(x) = xg(1) ∀x ∈ R.

Donc la solution de l’équation (4.2.6) est de la forme g(x) = g(1)x = cx, avec
c ∈ R une constante. Pour simplifier les notations dans la suite nous écrivons
d
g(x) = −cx, avec c ∈ R une constante. Ainsi comme g(x) = dx
log (f (x)) nous
avons

1
log f (x) = d − cx2
2

et finalement

x2
f (x) = De−c 2 ∀x ∈ R,

avec D et c des constantes réelles. Comme f doit être intégrable sur R, il faut
que c > 0. Après avoir choisi la constante D de telle façon que l’intégrale de f
x2
soit égale à 1, nous obtenons, en posant 1
= σ 2 , que f (x) = √ 1 e− 2σ2 , qui est
c 2πσ

la forme bien connue de la densité de la loi normale.

80
Intervalles de confiance

4.3 Intervalles de confiance


Dans la section précédente nous venons de voir comment on peut estimer
les paramètres de position et d’échelle d’une loi normale. Or, souvent on est
davantage intéressé par un intervalle dans lequel ces valeurs peuvent se trouver
que par une valeur unique. Par exemple, il peut être plus intéressant de savoir que
la taille moyenne des gens se trouve avec une probabilité de 95% entre 1, 75 m et
1, 85 m (valeurs fictives) plutôt que de connaître uniquement une seule valeur, la
taille estimée à 1, 80 m (également valeur fictive). De tels intervalles sont appelés
intervalles de confiance en statistique, et dans cette section nous allons nous
atteler à une description des intervalles de confiance des paramètres d’une loi
normale.
Le modus operandi général va comme suit. Nous cherchons à déterminer
un intervalle qui contient le paramètre (notons-le θ, qui est soit µ soit σ) avec
une probabilité 1 − α, pour α ∈ [0; 1] (p.ex., pour α = 0, 05, nous retrouvons
l’intervalle de confiance à 95% que nous venons d’évoquer ci-dessus). A cet effet,
nous devons avoir à notre disposition une statistique contenant le paramètre θ
et dont nous connaissons la loi de probabilité sous l’hypothèse que les données
suivent une loi normale. Dans les sous-sections qui suivent, nous allons utiliser
diverses telles statistiques et expliquer à chaque fois la distribution de probabilité
de cette statistique.

4.3.1 Intervalle pour µ quand σ est connu

Supposons avoir des observations aléatoires i.i.d. X1 , . . . , Xn de loi commune


N (µ, σ 2 ) avec σ 2 connu et µ à estimer. Grâce aux Propriété 3.2.3 et 3.2.4, nous
savons que la variable aléatoire X̄ = n1 ni=1 Xi suit alors une loi normale de
P

81
Chapitre 4

moyenne µ et de variance σ 2 /n, ce qui nous permet de voir que

X̄ − µ
√ ∼ N (0, 1). (4.3.8)
σ/ n

Ceci constitue notre statistique basée sur les observations X1 , . . . , Xn , contenant


le paramètre d’intérêt µ et dont nous connaissons la distribution exacte. Par
conséquent, en notant zα/2 (= −z1−α/2 ) et z1−α/2 les quantiles d’ordre α/2 et
1 − α/2 de la loi normale standard, nous avons
 
X̄ − µ
P −z1−α/2 ≤ √ ≤ z1−α/2 = 1 − α. (4.3.9)
σ/ n

Notons que cet intervalle-ci est le plus petit intervalle contenant une masse de
probabilité de 1 − α pour la loi normale standard (dû au fait que l’intervalle est
centré sur l’origine), il est donc naturel de le choisir vu que nous voulons avoir
un intervalle de confiance pour µ qui soit le plus petit, et donc le plus précis,
possible. Développons à présent (4.3.9) afin de le centrer sur µ :

X̄ − µ
−z1−α/2 ≤ √ ≤ z1−α/2
σ/ n
σ σ
⇐⇒ −z1−α/2 √ ≤ X̄ − µ ≤ z1−α/2 √
n n
σ σ
⇐⇒ X̄ − z1−α/2 √ ≤ µ ≤ X̄ + z1−α/2 √ .
n n

Il s’ensuit donc que l’intervalle de confiance au niveau 1−α pour le paramètre


de position µ quand σ est connu correspond à
 
σ σ
X̄ − z1−α/2 √ , X̄ + z1−α/2 √ .
n n

82
Intervalles de confiance

On voit bien ici la valeur ajoutée par rapport aux estimateurs de la section
précédente : ici, on retrouve l’estimateur X̄, mais en plus nous avons un intervalle
centré sur X̄ qui contient la vraie valeur de paramètre µ avec probabilité 1 − α.

4.3.2 Intervalle pour µ quand σ est inconnu

Maintenant, il est clair que les situations où σ est connu d’avance sont plutôt
rares, et il est donc surtout important de construire un intervalle de confiance
pour µ quand le paramètre d’échelle est inconnu et doit être estimé. Nous allons
l’estimer en modifiant quelque peu l’estimateur σb2 MLE de la section précédente :
1
Pn n b2
nous utilisons ici s2n = n−1 2
i=1 (Xi − X̄) = n−1 σ MLE . D’un point de vue

statistique, cet estimateur jouit de la propriété d’être sans biais pour l’estimation
n−1 2
de σ 2 , ce qui veut dire que E[s2n ] = σ 2 , contrairement à E[σb2 ] = n
σ .
Montrons que s2n est sans biais :
" n
#
1 X
E s2n = E (Xi − X̄)2
 
n − 1 i=1
" n #
1 X
= E Xi2 − nX̄ 2
n−1
" i=1
n
#
1 X n
Xi2 − E X̄ 2
 
= E
n−1 i=1
n−1
n
E X12 − Var X̄ + E2 X̄
     
=
n−1
n
Var[X1 ] + E2 [X1 ] − Var[X̄] − E2 [X̄]

=
n−1
σ2

n 2 2 2
= σ +µ − −µ
n−1 n
n n−1 2
= · σ
n−1 n
= σ2.

83
Chapitre 4

Il s’ensuit directement que σb2 n’est pas sans biais, car


 
h i (n − 1) 2 (n − 1) 2
E σb2 = E sn = σ .
n n

La propriété « sans biais » signifie que la moyenne théorique de l’estimateur


équivaut au paramètre à estimer, ce qui est plutôt désirable vu qu’alors l’estima-
teur pointera en moyenne correctement sur la valeur inconnue.
En modifiant (4.3.8) via l’estimation de σ 2 , nous obtenons la statistique de
test suivante :
X̄ − µ
√ .
sn / n
Déterminer la loi exacte de cet estimateur requiert certains résultats que nous
n’allons pas prouver ici vu qu’ils sortent du cadre de ce travail. Nous allons
cependant les énoncer (sans preuve) sous forme d’un lemme, qui est connu sous
le nom Lemme de Fisher.

Lemme 4.3.1. Soient X1 , . . . , Xn des variables aléatoires i.i.d. de loi commune


N (µ, σ 2 ). Alors nous avons
– La moyenne empirique X̄ = n1 ni=1 Xi est de loi N (µ, σ 2 /n).
P

1
Pn
– En notant s2n = n−1 2
i=1 (Xi − X̄) la variance empirique, il suit que

(n − 1)s2n /σ 2 suit une loi khi-deux de degré n − 1.


– La moyenne empirique et la variance empirique sont indépendantes.

Ce lemme précieux nous procure toutes les informations dont nous avons
besoin (bien que le premier point nous soit déjà connu). En effet, en combinant

(X̄ − µ)/(σ/ n) ∼ N (0, 1), (n − 1)s2n /σ 2 ∼ χ2n−1 et l’indépendance entre X̄ et

84
Intervalles de confiance

sn , nous avons
√X̄−µ
X̄ − µ σ/ n
√ = √ ∼ tn−1 , (4.3.10)
sn / n (n−1)s2n /σ 2

(n−1)

une loi de Student à n − 1 degrés de liberté. En effet, une loi de Student à


ν degrés de liberté est définie comme le ratio entre une loi normale standard

et la racine d’une loi khi-deux à ν degrés de liberté divisée par ν ; de plus,
numérateur et dénominateur doivent être indépendants. Ceci étant exactement
le cas dans (4.3.10), nous avons donc

X̄ − µ
√ ∼ tn−1 ,
sn / n

d’où nous pouvons déduire comme dans la section précédente un intervalle de


confiance en partant de
 
X̄ − µ
P −tn−1;1−α/2 ≤ √ ≤ tn−1;1−α/2 = 1 − α. (4.3.11)
sn / n

Grâce aux simples manipulations

X̄ − µ
−tn−1;1−α/2 ≤ √ ≤ tn−1;1−α/2
sn / n
sn sn
⇐⇒ −tn−1;1−α/2 √ ≤ X̄ − µ ≤ tn−1;1−α/2 √
n n
sn sn
⇐⇒ X̄ − tn−1;1−α/2 √ ≤ µ ≤ X̄ + tn−1;1−α/2 √ .
n n

Nous aboutissons donc à l’intervalle de confiance


 
sn sn
X̄ − tn−1;1−α/2 √ , X̄ + tn−1;1−α/2 √
n n

85
Chapitre 4

pour le paramètre de position µ quand il faut estimer le paramètre d’échelle σ.

4.3.3 Intervalle pour σ

Nous allons également avoir recours au Lemme de Fisher pour produire un


intervalle de confiance pour σ 2 . En effet, nous y avons appris que (n − 1)s2n /σ 2
suit une χ2n−1 quand les observations proviennent d’une population normale de
moyenne µ et de variance σ 2 . Comme cette statistique ne fait pas intervenir
µ, il n’est pas nécessaire de distinguer 2 cas ici (µ connu ou inconnu), et nous
pouvons directement construire un intervalle de confiance basé sur les quantiles
de la khi-deux à n − 1 degrés de liberté. Ceci nous donne comme point de départ

(n − 1)s2n
 
2 2
P χn−1;α/2 ≤ ≤ χn−1;1−α/2 = 1 − α. (4.3.12)
σ2

Après simples manipulations

(n − 1)s2n
χ2n−1;α/2 ≤ ≤ χ2n−1;1−α/2
σ2
1 σ2 1
⇐⇒ ≤ ≤
χ2n−1;1−α/2 (n − 1)s2n 2
χn−1;α/2
(n − 1)s2n (n − 1)s2n
⇐⇒ ≤ σ2 ≤ .
χ2n−1;1−α/2 χ2n−1;α/2

Nous aboutissons donc à l’intervalle de confiance


" #
(n − 1)s2n (n − 1)s2n
,
χ2n−1;1−α/2 χ2n−1;α/2

86
Tests d’hypothèse sur les paramètres d’une loi normale

4.4 Tests d’hypothèse sur les paramètres d’une loi


normale
Après l’estimation des paramètres de la loi normale (et la détermination d’in-
tervalles de confiance pour ces paramètres), nous allons à présent nous attaquer
au deuxième grand volet en statistique inférentielle, à savoir les tests d’hypothèse.
Dans la vie pratique ainsi que dans la recherche (par exemple en médecine ou
en économie) il faut souvent établir des hypothèses et prouver leur véracité. En
guise d’exemple, les industries pharmaceutiques, avant de mettre sur le marché
un nouveau médicament, doivent d’abord s’assurer que ce médicament a un réel
effet bénéfique pour les patients atteints d’une certaine maladie. Pour ce faire,
ils doivent comparer leur médicament soit à un placebo, soit au médicament
couramment utilisé. Idéalement, ils administrent le médicament ainsi que son
alternative à toutes les personnes atteintes, et en déduisent son effet/non-effet.
Or, cela n’est pas seulement très coûteux en temps et matériels, mais surtout il
s’avère très difficile de convaincre des personnes pour prendre part à une telle
expérience ; par conséquent, en fin de compte ils ne disposent que d’une poignée
de patients sur base desquels ils doivent prendre une décision. Pareille situation
se retrouve dans quasi tous les domaines : les populations pour lesquelles on dé-
sire tester des hypothèses sont le plus souvent très grandes et il faut se contenter
d’échantillons de ces populations (comme c’est le cas pour les problèmes d’esti-
mation). Il faut donc disposer d’outils bien développés afin de pouvoir prendre,
sur base de cet échantillon, une décision qui soit la plus correcte possible pour
l’entièreté de la population.
Dans ce qui suit, nous allons d’abord rappeler les concepts généraux de tests
d’hypothèse, puis décrire en détails des tests d’hypothèse sur les paramètres d’une

87
Chapitre 4

loi normale. Comme nous le verrons, les statistiques sur lesquelles les règles de
décision (rejet ou non-rejet d’une hypothèse) se basent sont très semblables aux
statistiques utilisées pour construire les intervalles de confiance dans la section
précédente.

4.4.1 Bref aperçu général de tests d’hypothèse

Dans ce qui suit nous allons suivre Mendenhall et al. (2002). Avant de
commencer par décrire différents tests, nous allons d’abord définir ce qu’est un
test d’hypothèse. Selon Dodge (2007, p. 525) :

« Un test d’hypothèse est une procédure permettant d’aboutir, en


fonction de certaines règles de décision, au non-rejet d’une hypothèse
de départ, appelée hypothèse nulle ou au rejet de l’hypothèse nulle
en faveur de l’hypothèse alternative. »

Il est important de noter ici la signification de cette phrase. Si on rejette l’hypo-


thèse nulle, on prend une décision claire et nette : on conclut que cette hypothèse
est erronée, et on opte alors pour son alternative. Si, par contre, on ne rejette pas
l’hypothèse nulle, cela ne veut pas dire qu’on l’accepte pour vraie, mais seulement
que sur base des données on ne soit pas parvenu à dire qu’elle est fausse.
Pour effectuer un test d’hypothèse on suit les étapes suivantes. Tout d’abord,
il faut clairement formuler les hypothèses, l’hypothèse nulle H0 et l’hypothèse
alternative H1 . Puis il s’agit de définir la « bonne » statistique de test pour le
problème en question (on verra au cas par cas quelle statistique de test s’avère
être bonne en quelle situation). À partir de cette statistique et de son compor-

88
Tests d’hypothèse sur les paramètres d’une loi normale

tement théorique sous l’hypothèse nulle, on prendra les décisions statistiques, à


savoir rejeter ou non H0 . Une fois la loi sous H0 de la statistique de test détermi-
née, on saura dire si la statistique obtenue est conforme à cette loi ou pas ; par
exemple, si on s’aperçoit que seulement avec 0.01% de chances on peut détecter
sous H0 une valeur plus extrême que celle obtenue pour la statistique de test sur
base de l’échantillon en question, on en déduira que les données n’obéissent pas
l’hypothèse nulle, et on la rejettera. Une manière équivalente et plus courte de
ré-exprimer ceci consiste à dire qu’il existe des régions de rejet et de non-rejet
de la statistique de test sous H0 , et qu’il suffit de voir où se situe sa valeur pour
prendre une décision.
Lorsque l’on établit cette région de rejet (et donc aussi de non-rejet), il y a
deux types d’erreurs qu’on cherche à éviter. Tout d’abord, l’erreur dite de Type
1 consiste à rejeter H0 en faveur de l’hypothèse alternative alors que l’hypothèse
nulle est correcte. L’erreur dite de Type 2 consiste à ne pas rejeter H0 alors que
l’alternative est vraie. La probabilité de l’erreur de première espèce est notée α
et appelée niveau de signification d’un test, tandis que la probabilité de l’erreur
de second espèce est notée β. Comme il est contradictoire de vouloir minimiser
à la fois α et β, il faut trouver un compromis entre les deux types d’erreurs.
On procède alors comme suit : on fixe d’avoir le niveau α, puis, pour α donné,
on cherche à minimiser β, ou encore à maximiser 1 − β, que l’on nomme encore
puissance d’un test. Plus un test est puissant, meilleur il est.

4.4.2 Tests de la moyenne et de la variance

Nous allons à présent nous atteler à la description de tests sur la moyenne


et la variance d’une population normale. Nous allons pour ce faire avoir recours
aux développements de la Section 4.3, qui nous sera d’une grande aide dans la

89
Chapitre 4

suite.

Test sur la moyenne

Comme pour les intervalles de confiance, nous commençons par supposer que
la variance de la population est connue. L’échantillon suit alors une loi normale
N (µ, σ 2 ), et on cherche à tester

H0 : µ = µ0 contre H1 : µ 6= µ0 ,

pour une quelconque valeur µ0 ∈ R. Le test formulé comme ci-dessus est dit
bilatéral ; des tests unilatéraux auraient comme alternatives H1;> : µ > µ0 et
H1;< : µ < µ0 .

Fixons le niveau de signification à α ∈ (0, 0.5). Par (4.3.8) nous savons que,
sous H0 ,
X̄ − µ0
√ ∼ N (0, 1),
σ/ n
dont nous pouvons directement déduire qu’un test sur µ rejette l’hypothèse nulle
H0 au niveau α si
X̄ − µ0
Z := √ ∈ / [−z1−α/2 ; z1−α/2 ],
σ/ n
où nous gardons les mêmes notations de quantiles qu’aux sections précédentes.
Intuitivement, on rejette l’hypothèse nulle si l’écart entre X̄ et µ0 devient trop
grand, et comme nous connaissons la loi de Z sous H0 , nous savons exprimer en
termes mathématiques « l’écart est trop grand » : ceci est le cas si |Z| dépasse les
quantiles d’ordre α/2 ou 1−α/2. On voit donc aussi directement le lien fort entre
domaines de rejet/non-rejet d’une hypothèse nulle et les intervalles de confiances.

90
Tests d’hypothèse sur les paramètres d’une loi normale

Dans le cas de tests unilatéraux, on rejette H0


– en faveur de H1;> si Z > z1−α ;
– en faveur de H1;< si Z < −z1−α (= zα ).
Les Figures 4.1, 4.2 et 4.3 expliquent schématiquement ces règles de rejet.

Figure 4.1 – Cas bilatéral : H0 : µ = µ0 contre H1 : µ 6= µ0

Figure 4.2 – Cas unilatéral : H0 : µ = µ0 contre H1;> : µ > µ0

91
Chapitre 4

Figure 4.3 – Cas unilatéral : H0 : µ = µ0 contre H1;< : µ < µ0

Supposons maintenant que la variance est inconnue, il faut donc l’estimer.


Une méthode pour l’estimer est de calculer la variance de l’échantillon. L’esti-
mateur de la variance (la variance empirique) est donnée par

n
1 X 2
s2n = Xi − X̄ .
n − 1 i=1

La statistique de test de la moyenne est alors donnée par

X̄ − µ0
T = √ ,
sn / n

Maintenant T ne suit plus une loi normale, mais d’après la Section 4.3.2, la sta-
tistique de test T suit une loi de Student à (n−1) degrés de liberté. La procédure
pour déterminer la région de rejet est la même que pour le test précédent, sauf
qu’on utilise la table de la loi de Student. On rejette alors l’hypothèse nulle si
T < tn−1;α/2 ou si T > tn−1;1−α/2 .
Dans le cas de tests unilatéraux, on rejette H0
– en faveur de H1;> si T > tn−1;1−α ;

92
Tests d’hypothèse sur les paramètres d’une loi normale

– en faveur de H1;< si T < tn−1;α .

Test de la variance

Pour un premier test nous supposons que la moyenne µ = µ0 est connue. On


suppose de nouveau que l’échantillon suit une loi normale N (µ0 , σ 2 ). On cherche
à tester
H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 ,

pour une quelconque valeur σ02 ∈ R. C’est le cas bilatéral.


La statistique T est donnée par

n 2
(n − 1)s2n X

Xi − µ0
T = = .
σ02 i=1
σ0

Elle suit une loi khi-deux à n degrés de libertés sous l’hypothèse nulle. Pour un
risque α, on a alors

(n − 1)s2n
 
2 2
P χn;α/2 ≤ ≤ χn;1−α/2 = 1 − α.
σ02

On rejette alors l’hypothèse nulle si T < χ2n;α/2 ou si T > χ2n;1−α/2 .


Dans le cas de tests unilatéraux, on rejette H0
– en faveur de H1;> si T > χ2n;1−α ;
– en faveur de H1;< si T < χ2n;α .
Pour un deuxième test nous supposons que la moyenne est inconnue, il faut
donc l’estimer par X̄. La statistique de test T est alors donnée par

n 2
(n − 1)s2n X

Xi − X̄
T = = .
σ02 i=1
σ0

93
Chapitre 4

Elle suit une loi khi-deux à (n − 1) degrés de libertés sous l’hypothèse nulle. Pour
un risque α, on a alors

(n − 1)s2n
 
2 2
P χn−1;α/2 ≤ ≤ χn−1;1−α/2 = 1 − α.
σ02

On rejette alors l’hypothèse nulle si T < χ2n−1;α/2 ou si T > χ2n−1;1−α/2 .


Dans le cas de tests unilatéraux, on rejette H0
– en faveur de H1;> si T > χ2n−1;1−α ;
– en faveur de H1;< si T < χ2n−1;α .

4.5 Tests de normalité


Dans la Section 4.4 nous avons décrit des tests d’hypothèse sous la condition
de normalité des données, mais rien ne garantit que les données suivent effective-
ment une loi normale ! Il existe par ailleurs un grand nombre d’autres procédures
statistiques qui pré-supposent la normalité. Afin que tous ces tests fondés sur
l’hypothèse de normalité fassent donc un sens, il faut d’abord s’assurer que les
données sont bel et bien distribuées selon une loi normale. Pour ce faire il existe
diverses méthodes, que l’on peut subdiviser en deux catégories : des méthodes
graphiques ainsi que des méthodes plus formelles, qui sont des tests de normalité.
La méthode graphique est la plus simple. On peut par exemple superposer
une courbe normale sur l’histogramme des données et voir si oui ou non elle
correspond aux données. Une autre méthode graphique consiste à dessiner un
QQ-plot qui contient, sur l’axe des abscisses, les quantiles théoriques de la loi
normale, et sur l’axe des ordonnées les quantiles empiriques. Clairement, à partir
de ces représentations graphiques on ne peut pas encore tirer des conclusions
fermes sur la distribution, mais on obtient déjà une bonne première idée de l’al-

94
Tests de normalité

lure de la distribution. Par exemple, le QQ-plot permet de rejeter l’hypothèse de


normalité si on voit que les quantiles théoriques et empiriques ne se ressemblent
pas du tout. Dans pareil cas, on n’a pas besoin de faire des tests supplémentaires.
Une méthode beaucoup plus précise pour tester la normalité des données
sont les tests de normalité. Il existe plusieurs tests de normalité, qui peuvent
être divisés en deux catégories (selon certains auteurs, même quatre catégories),
d’un côté on a les tests de type statistique descriptive et de l’autre côté on a les
tests basés sur des théorèmes caractérisant la loi normale. Nous allons décrire
deux de ces tests, le test de Jarque-Bera, basé sur les moments et le test de
Kolmogorov-Smirnov, basé sur la fonction de répartition empirique.

4.5.1 Test de Jarque-Bera

Pour cette section nous allons suivre Gel and Gastwirth (2008) et D’Agostino
and Pearson (1973).
Karl Pearson (1857-1936), un mathématicien et statisticien britannique,
était le premier à observer que des déviations de la distribution normale peuvent
être déterminées par des différences dans les moments d’ordre 3 et 4 entre les
moments empiriques, calculés à partir des données, et les moments théoriques
de la loi normale. Son fils Egon Sharpe Pearson, qui était aussi statisticien, a
écrit en 1935 :

« In the case of testing the hypothesis that a sample has been drawn
from a normality distributed population, it seems likely that for
late samples and when only small departures from normality are in
question, the most efficient criteria will be based on the moment
coefficients of the sample [...]. » (cité par (Thode 2002, p. 41))

95
Chapitre 4

Le test de Jarque-Bera, introduit par Carlos Jarque et Anil Bera en 1980, est
justement basé sur ces coefficients d’asymétrie et d’aplatissement. Comme nous
l’avons vu dans la Section 3.2.1 la loi normale a pour coefficient d’asymétrie 0
et pour coefficient d’aplatissement 3. Il s’agit donc de comparer ces valeurs aux
coefficients empiriques obtenus grâce aux données qu’on veut analyser.
Les estimateurs pour les coefficients d’asymétrie et d’aplatissement sont don-
nés par
n
1
(xi − x̄)3
P
µ
b3 n
b1 = 3
=  i=1  32
σ
b n
2
1
P
n
(xi − x̄)
i=1

et n
(xi − x̄)4
1
P
µ
b4 n
b2 = 4 =  i=1 2 ,
σ
b 1
n
P 2
n
(xi − x̄)
i=1

bk = n1 ni=1 (xi −x̄)k pour le k-ième moment


P
où nous suivons la notation courante µ

empirique, et où σb = µ̂2 est l’écart-type empirique. Nous remarquons que les
coefficients b1 et b2 sont obtenus en divisant les moments empiriques d’ordre 3 et 4
par le moment empirique d’ordre 2 à la puissance 3/2 et 2, respectivement, ce qui
correspond bien sûr à prendre le cube respectivement la puissance d’ordre 4 de
l’écart-type empirique. Ces standardisations sont cruciales pour la construction
du test Jarque-Bera, comme nous le verrons dans les lignes qui suivent.
Intuitivement, nous cherchons donc à comparer b1 à 0 et b2 à 3 ; au lieu de le
faire individuellement, il serait désirable de trouver une statistique qui soit basée
à la fois sur d(b1 , 0) et d(b2 , 3), où d(a, b) désigne une quelconque distance entre les
valeurs a et b. Une distance naturelle, au vu des estimateurs des moindres carrés

96
Tests de normalité

de la Section 2.2.1, est d(a, b) = (a − b)2 , ce qui donnerait une statistique du type
α1 b21 + α2 (b2 − 3)2 , avec α1 et α2 des constantes. Le choix de ces constantes est
guidé par la loi sous l’hypothèse nulle de normalité des deux coefficients b1 et b2 .
Sous l’hypothèse nulle, on peut montrer que ces estimateurs pour les coefficients

d’asymétrie et d’aplatissement sont tels que le vecteur n bb12 converge vers la


loi    
0 6 0
N2  ,  (4.5.13)
3 0 24

quand n → ∞. Jusqu’à présent nous avons uniquement parlé de loi normale en


dimension 1. La loi ci-dessus est la première occurrence d’une loi normale bi-
variée, c’est-à-dire en dimension 2, d’où la notation N2 . Nous remarquons juste
ici que la moyenne est un vecteur de dimension deux, et que la variance devient
une matrice de variance-covariance, dont les éléments diagonaux représentent la
covariance entre les deux composantes b1 et b2 . Il est intéressant de constater
que ces éléments sont nuls, ce qui veut dire que, asymptotiquement, les deux
coefficients sont indépendants (en effet, covariance nulle équivaut à indépendance
dans le cas d’un vecteur bi-normal).
A partir de cette loi asymptotique nous pouvons trouver les constantes α1 et
α2 pour obtenir la statistique de test Jarque-Bera

n 2 n
JB = b1 + (b2 − 3)2 .
6 24

n 2
Sous l’hypothèse nulle, la loi asymptotique (4.5.13) nous dit donc que b
6 1
suit
n
une (N (0, 1))2 , et de même pour (b − 3)2 .
24 2
Comme de plus b1 et b2 sont asymp-
totiquement indépendants, il en découle que JB suit asymptotiquement une loi
khi-deux à 2 degrés de liberté. Le test Jarque-Bera, qui rejette l’hypothèse nulle

97
Chapitre 4

de normalité pour des grandes valeurs de JB, rejettera donc au niveau α la


normalité dès que JB dépasse χ22;1−α , le quantile d’ordre 1 − α de la loi χ22 .

4.5.2 Tests de Kolmogorov-Smirnov et de Lilliefors

Pour cette section nous allons suivre Razali and Wah (2011).
Le test de Jarque-Bera se base sur les moments de la loi normale. Les tests
de Kolmogorov-Smirnov et de Lilliefors, par contre, sont basés sur la fonction
de répartition de la loi normale. En bref, ils comparent la distribution normale
théorique à la distribution empirique des données, et rejettent la normalité pour
une trop grande distance entre ces quantités. Le test de Kolmogorov-Smirnov
suppose connues la moyenne et la variance, tandis que le test de Lilliefors ne fait
pas cette hypothèse.
La statistique de test de Kolmogorov-Smirnov est donnée par

KS = sup Φ(x; µ, σ 2 ) − Fn (x) ,


x

on mesure donc le suprémum de la différence |Φ(x; µ, σ 2 )(x) − Fn (x)|, c’est-à-dire


entre Φ(x; µ, σ 2 ), la fonction de répartition d’une loi N (µ, σ 2 ), et la distribution
empirique Fn (x). Celle-ci est définie comme Fn (x) = n1 ni=1 1{xi ≤x} , en d’autres
P

mots comme la portion d’observations inférieures ou égales à x. Nous attirons


l’attention sur le fait que µ et σ 2 sont supposés connus ici. On rejette alors
l’hypothèse nulle de normalité avec µ et σ 2 fixés au niveau α si KS excède le
quantile d’ordre 1 − α d’une loi compliquée qui est donnée sous forme d’une table
de valeurs.

98
Tests de normalité

Le test de Lilliefors est basé sur la statistique de test

b, σb2 ) − Fn (x) ,
LF = sup Φ(x; µ
x

b = x̄ et σb2 = sn . Ce test permet donc de tester la normalité sans préciser


où µ
moyenne et variance, et sera donc plus intéressant en pratique. Bien sûr, le fait
d’estimer µ et σ 2 change la loi asymptotique de LF par rapport à KS, et une
autre table de valeurs est donnée pour le test LF .

4.5.3 Application dans R des tests de normalité sur des


données réelles

Après avoir vu les tests de normalité en théorie, nous allons mettre en pratique
ces tests sur des jeux de données réelles.
Pour ce faire, nous allons utiliser une base de donnée faite par l’« Australian
Institute of Sport ». Ces données contiennent des informations sur 102 athlètes
masculins et 100 athlètes féminines. Les informations données sont le sexe, la
taille, le poids, le BMI (body-mass index), etc (au total il y a 13 types de données
distinctes). Elles sont enregistrées dans le package « sn » du logiciel R.
Nous allons tester la normalité des variables taille, poids et BMI. Pour cela nous
allons utiliser le logiciel R où beaucoup de tests sont déjà définis, et nous allons
donc consulter la librairie « nortest » et la librairie « tseries ».
Commençons par la taille, où les données sont fournies en cm. En appliquant
les deux tests de normalité nous obtenons comme résultats :

Jarque Bera Test

99
Chapitre 4

data: ais$Ht
X-squared = 3.6848, df = 2, p-value = 0.1584

Lilliefors (Kolmogorov-Smirnov) normality test

data: ais$Ht
D = 0.045569, p-value = 0.3874

En regardant les p-valeurs pour les deux tests, nous constatons qu’au niveau
5% on ne rejette pas l’hypothèse nulle, car la p-valeur est supérieure à 0, 05 et
ainsi nous pouvons dire que la taille des athlètes suit une loi normale (en toute
théorie, il faudrait dire que nous ne disposons pas d’éléments contredisant la
normalité, mais en pratique la plupart du temps on dit alors que la variable suit
bien une loi normale).
Passons à la variable poids, dont les données sont fournies en kg.

Jarque Bera Test

data: ais$Wt
X-squared = 3.1997, df = 2, p-value = 0.2019

Lilliefors (Kolmogorov-Smirnov) normality test

data: ais$Wt
D = 0.057308, p-value = 0.1086

En regardant les p-valeurs pour les deux tests, nous constatons qu’au niveau 5%
on ne rejette pas l’hypothèse nulle, car la p-valeur est supérieure à 0, 05 et ainsi
nous pouvons dire que le poids des athlètes suit une loi normale.

100
Au-delà de la loi normale : les lois Student et skew-normale

Passons à la variable BMI, défini comme étant le quotient du poids (en kg) divisé
par le carré de la taille (en cm).

Jarque Bera Test

data: ais$BMI
X-squared = 70.289, df = 2, p-value = 5.551e-16

Lilliefors (Kolmogorov-Smirnov) normality test

data: ais$BMI
D = 0.072934, p-value = 0.01091

En regardant les p-valeurs pour les deux tests, nous constatons qu’au niveau
5% on rejette l’hypothèse nulle, car la p-valeur est inférieure à 0, 05. Le test est
même rejeté au niveau 2%. Ainsi le BMI ne suit pas une loi normale, fait que
nous expliquerions dans la Section 4.6.

4.6 Au-delà de la loi normale : les lois Student et


skew-normale
Comme nous venons de le voir dans les exemples précédents, tous les jeux de
données ne suivent pas une loi normale et ne peuvent, par conséquent, pas être
modelés à l’aide de la loi normale. Les principales restrictions de la loi normale
sont
– le poids de queue : la loi normale contient la plus grande partie de sa
masse de probabilité amassée autour de son centre µ, et n’adjoint donc que

101
Chapitre 4

très peu de probabilité aux points éloignés du centre ; de ce fait, elle est
incapable de modéliser des phénomènes où des valeurs plus extrêmes sont
davantage probables de survenir.
– la symétrie : la loi normale est symétrique autour de son centre µ, et ne
peut donc pas représenter des phénomènes asymétriques
Notons que ces deux restrictions sont à la fois les caractéristiques de la loi normale
sur lesquelles est basé le test Jarque-Bera. Il existe deux types de données où il
est très aisé de remarquer que la loi normale ne convient pas à la modélisation :
les données financières ainsi que les données biomédicales. En effet, les retours
journaliers sur une action donnée, si on fait abstraction des effets temporels 1 ,
sont mieux décrits par des lois de probabilité dites à queues lourdes afin de tenir
compte des événements extrêmes qui peuvent surgir. La loi normale ne permet
de prédire de tels événements extrêmes qu’avec une probabilité si mince qu’on
considérerait de tels événements comme hautement improbables voire impos-
sibles. Quant aux données biomédicales, revenons sur l’exemple du BMI étudié
à la section précédente. Nous y avons rejeté l’hypothèse nulle d’une loi normale,
et cela peut s’expliquer de la manière suivante. Il existe tout naturellement une
sorte de limite inférieure au BMI d’une personne : en-dessous d’une certaine li-
mite, la personne sera tellement maigre qu’elle frôle un danger de mort, et donc
un certain seuil de BMI minimal ne sera jamais franchi. De l’autre côté, il est
plus probable d’avoir un BMI élevé, étant donné qu’il existe différents niveaux
de sur-poids avant que la situation devienne alarmante. Ces raisons naturelles
impliquent donc qu’un jeu de données BMI sera forcément asymétrique (vers la
1. Afin de tenir compte du trend dans les données financières (et donc de la corrélation
temporelle entre les valeurs d’une action), Robert Engle a en 1982 proposé le modèle ARCH
(AutoRegressive Conditional Heteroscedasticity) pour lequel il a été primé du prix Nobel d’éco-
nomie en 2003.

102
Au-delà de la loi normale : les lois Student et skew-normale

droite) autour de son centre. Comme pareil phénomène a déjà pu être remarqué
sur des données de sportifs qui ne sont pas enclins à avoir du sur-poids, il est
évident que l’asymétrie sera encore plus marquée sur un échantillon de personnes
non nécessairement sportives de haut niveau.
Ces deux exemples soulignent donc la nécessité de disposer des lois probabi-
listes autres que la loi normale, lois qui permettent de modéliser des données à
queues lourdes ou/et asymétriques. Nous allons à présent décrire trois lois très
populaires qui ont ces caractéristiques.

4.6.1 La loi de Student

Dans la plupart des cours de statistique de base, on rencontre à part la loi


normale également la loi de Student. Rappelons que nous avons déjà vu cette loi
au Chapitre 4 dans la Section 4.3.1 comme loi exacte de la statistique (4.3.10).
La densité de probabilité d’une loi de Student s’écrit de la manière suivante :

−(ν+1)/2
1 Γ ν+1
 
2 (x − µ)2
√  1+ (4.6.14)
σ νπΓ ν2 σ2ν

R +∞
où Γ(t) = 0
exp(−s)st−1 ds est la fonction Gamma, µ ∈ R et σ ∈ R+
0 sont

des paramètres de position et d’échelle et où ν mesure le poids de queue (on


appelle ν en général le nombre de degrés de liberté de la loi de Student). Quand
ν tend vers l’infini, la loi de Student tend vers la loi normale ; toute valeur finie
de ν donne lieu à une loi à queue plus lourde que la loi normale, comme on peut
le voir sur les Figures 4.4 et 4.5. Comme nous nous intéressons seulement au
comportement en bout de queue, nous changerons seulement la valeur du degré
de liberté ν et nous fixons µ = 0 et σ = 1.

103
Chapitre 4

Fonction de densité de la loi de Student


0.4
0.3
densité

0.2
0.1
0.0

-6 -4 -2 0 2 4 6

Figure 4.4 – Fonction de densité d’une loi de Student : ν = 1 (violet) ; ν = 5


(bleu) ; ν = 20 (vert) et ν = ∞ (rouge)

104
Au-delà de la loi normale : les lois Student et skew-normale

Fonction de répartition de la loi de Student


1.0
0.8
0.6
0.4
0.2
0.0

-6 -4 -2 0 2 4 6

Figure 4.5 – Fonction de répartition d’une loi de Student : ν = 1 (violet) ; ν = 5


(bleu) ; ν = 20 (vert) et ν = ∞ (rouge)

Nous terminons cette sous-section sur une note historique. Le nom « loi de
Student » est dû à William Sealy Gosset, statisticien qui a travaillé dans une
brasserie au début du 20e siècle et qui a publié en 1908 un article qui a rendu
célèbre la densité (4.6.14). Or, il n’a pas voulu signer l’article de son nom, par
peur de problèmes éventuels de la part de son employeur, et a donc signé l’article
par STUDENT. C’est de là qu’est née la terminologie.

105
Chapitre 4

4.6.2 La loi skew-normale

Pour cette section nous allons suivre Azzalini and Capitanio (2014).
L’article Azzalini (1985) propose comme extension de la loi normale la loi skew-
normale de densité    
2 x−µ x−µ
φ Φ α· (4.6.15)
σ σ σ
où µ ∈ R et σ ∈ R+
0 sont des paramètres de position et d’échelle et où α est

un paramètre d’asymétrie. En effet, quand α = 0, la densité (4.6.15) devient la


loi normale (car Φ(0) = 1/2), et pour toute autre valeur de α cette densité est
asymétrique, comme on peut le voir sur les Figures 4.6 et 4.7. Nous constatons
que, pour α > 0, le mode (point le plus élevé de la courbe) se situe à droite de
l’origine, contrairement au cas α < 0. Comme nous nous intéressons à l’asymétrie,
nous changeons uniquement la valeur de α et nous fixons µ = 0 et σ = 1.

106
Au-delà de la loi normale : les lois Student et skew-normale

Fonction de densité de la loi skew-normale


0.6
0.4
densité

0.2
0.0

-6 -4 -2 0 2 4 6

Figure 4.6 – Fonction de densité d’une loi skew-normale : α = 0 (rouge) ; α = 1


(bleu) ; α = 3 (violet) ; α = 6 (vert)

107
Chapitre 4

Fonction de densité de la loi skew-normale


0.6
0.4
densité

0.2
0.0

-6 -4 -2 0 2 4 6

Figure 4.7 – Fonction de densité d’une loi skew-normale : α = 0 (rouge) ; α = −1


(bleu) ; α = −3 (violet) ; α = −6 (vert)

La loi skew-normale est beaucoup utilisée pour modéliser des données biomé-
triques, environnementales, ou météorologiques.
Nous terminons également cette sous-section-ci sur une note historique. Se-
lon Azzalini and Regoli (2012), l’origine de la construction de la densité skew-
normale (4.6.15) remonte au statisticien Fernando de Helguero en 1908. D’autres
chercheurs ont par la suite re-découvert la construction, mais ce n’est qu’avec

108
Au-delà de la loi normale : les lois Student et skew-normale

l’article Azzalini (1985) que la loi skew-normale a réellement connu son succès.

4.6.3 La loi skew-Student

Pour cette section nous allons suivre Azzalini and Capitanio (2014).
Nous terminons ce chapitre sur une brève note. Nous venons de voir que la loi
de Student est une loi à queues lourdes et que la loi skew-normale est une loi
asymétrique. Afin d’avoir à disposition une loi qui soit à la fois à queues lourdes
et asymétrique, Azzalini and Capitanio (2003) ont proposé la loi skew-Student
qui combine ces deux effets.
La densité de probabilité d’une loi skew-Student s’écrit de la manière sui-
vante : r !
ν+1
2t(x; ν)T αx ;ν + 1 , (4.6.16)
ν + x2

où t(·; η) et T (·; η) représentent respectivement la densité et la fonction de répar-


tition d’une loi de Student à η degrés de liberté. Nous voyons sur la Figure 4.8
l’effet des deux paramètres α et ν, qui permettent de varier en même temps
l’asymétrie et le poids de queues.

109
Chapitre 4

Fonction de densité de la loi skew-Student


0.6
0.4
densité

0.2
0.0

-6 -4 -2 0 2 4 6

Figure 4.8 – Fonction de densité d’une loi skew-Student pour α = −10 : ν = 10


(violet) ; α = −2 : ν = 1 (vert) ; α = 1 : ν = 0.5 (bleu) ; α = 3 : ν = 5 (rouge)

110
Chapitre 5

La courbe de Gauss au lycée

Motivée par ce travail de candidature, je voulais chercher un lien avec la


matière enseignée au lycée. J’ai voulu faire découvrir à mes élèves la loi normale
d’une façon ludique. Je cherchais donc un moyen facile qui ne nécessite pas des
mathématiques compliquées, et la méthode la plus simple et la plus naturelle
pour leur donner ce premier contact me semblait être via des histogrammes
respectivement diagrammes en bâtons.
Les histogrammes sont introduits une première fois en classe de 6e respec-
tivement en classe de 8e et, selon la section choisie, la statistique revient dans
les classes du cycle moyen. Or, pour la division de la formation administrative
et commerciale du régime technique (CM) la statistique est une matière impor-
tante, et de ce fait j’ai choisi une classe de 11CM pour traiter cette matière. Les
élèves de cette classe ont déjà vu ce qu’est un histogramme en classe de 8e , et en
11e on peut aller plus dans les détails dans l’interprétation des graphiques.
Dans ce qui suit je vais expliquer le cadre dans lequel j’ai fait découvrir aux
élèves la loi normale. En informatique les élèves ont appris à travailler avec le
logiciel Excel et j’en ai profité pour leur montrer comment faire des histogrammes

111
Chapitre 5

des données ; cela me permettait donc aussi de faire un lien direct avec le cours
d’informatique. J’ai donc décidé de faire travailler les élèves sur des données
qu’ils collectent eux-mêmes au sein du lycée, comme par exemple des données
anatomiques. Après discussion avec les élèves de ma classe, nous nous sommes
mis d’accord pour collecter les données suivantes : taille, poids (en toute rigueur
il s’agit de la masse) et pointure. Comme les élèves interrogés proviennent des
classes entre la 8e et la 12e , j’ai demandé à mes élèves de récolter aussi les années
de naissance afin de pouvoir regrouper les données par tranches d’âge. Ceci est
bien sûr nécessaire étant donné que les élèves sont en état de croissance, où une
différence de 4 ans donne lieu à des différences significatives, alors que tel n’est
pas le cas si on avait récolté les mêmes données auprès de personnes adultes.
Cette étude était bien sûr sur base volontaire et anonyme.
En ce qui concerne le déroulement de l’étude, les élèves sont allés dans cer-
taines classes pour collecter ces données ; pour des raisons d’organisation et de
disponibilité de quelques classes, j’ai donné le questionnaire à certains profes-
seurs afin qu’ils le distribuent à leurs élèves. Tous les élèves étaient d’accord
pour y participer. Avant que mes élèves aient travaillé avec ces données récol-
tées, j’ai d’abord survolé les réponses pour exclure éventuellement des feuilles
d’élèves qui n’ont pas pris au sérieux l’étude (et ont par conséquent indiqué des
réponses invraisemblables). Il y avait au total trois feuilles que j’ai dû exclure à
cause de données impossibles, par exemple une taille de 250 cm ou un poids de
200 kg. Après cette première analyse, les élèves ont classé les données par année
de naissance, de 1992 jusqu’à 2002. Comme les élèves des classes inférieures n’ont
pas encore atteint leur taille maximale j’ai décidé de faire deux groupes, l’une
regroupant les élèves nés entre 1992 et 1998 et l’autre ceux nés entre 1999 et
2002. Le premier groupe est constitué de 153 élèves tandis que dans le deuxième

112
il y a 173 élèves. Je me suis restreinte à deux groupes (et non pas plus) afin
d’avoir suffisamment de données par groupe pour faire l’étude. J’ai réparti mes
14 élèves de la 11CM en quatre groupes de travail, deux de trois élèves et deux
de quatre élèves. J’ai demandé aux élèves de faire les différents histogrammes et
diagrammes en bâtons avec le programme Excel, que les élèves connaissent et
ont déjà utilisé dans d’autres branches.
D’abord les élèves ont entré les données dans Excel. Comme la leçon d’avant
j’avais montré aux élèves comment dessiner un histogramme dans Excel, ils pou-
vaient faire les différents histogrammes eux-mêmes. Ils devaient aussi choisir eux-
mêmes le nombre et l’amplitude des classes (dans l’histogramme) pour les don-
nées taille et poids, la variable pointure donnant lieu à un diagramme en bâtons.
Les élèves se sont décidé pour des classes d’intervalles 5 (p.ex., ]145; 150]).
Voici les histogrammes que les élèves ont faits dans Excel. Par souci de com-
plétude, je donne également, dans l’Annexe B.2, des histogrammes portant sur
toutes les données (malgré les soucis de différences d’âges mentionnés ci-dessus).

113
Chapitre 5

Figure 5.1 – Histogramme de la taille des élèves

En ce qui concerne l’interprétation du graphique « taille », les élèves ont


remarqué qu’il y a peu d’élèves qui sont petits ou grands et que la majorité des
élèves a une taille entre 160 cm et 180 cm ou autour de 170 cm.

114
Figure 5.2 – Histogramme du poids des élèves

Pour la variable poids, les élèves ont de nouveau dit qu’il y a peu d’élèves avec
un poids faible, ainsi que peu d’élèves avec un poids plus élevé. Mais ils ont aussi
constaté que la plupart des élèves ont un poids se trouvant dans la première partie

115
Chapitre 5

de l’histogramme. Pour la taille on pouvait reconnaître une symétrie autour de


la valeur centrale, ce qui n’est pas le cas pour le poids.

Figure 5.3 – Diagramme en bâtons de la pointure des élèves

Le comportement de la variable pointure est semblable à la variable taille :


peu de valeurs extrêmes et beaucoup de valeurs autour du centre.

116
Après l’interprétation des histogrammes resp. des diagrammes en bâtons, j’ai
profité de l’occasion pour faire une remarque sur la courbe de Gauss.
J’ai demandé aux élèves de trouver des similitudes entre la répartition des
tailles et des pointures. Certains élèves ont vite remarqué que la forme des his-
togrammes est la même et ont dessiné une courbe en forme de cloche. Ceci était
bien sûr le moment idéal pour leur parler de la courbe de Gauss, et du fait que
beaucoup de données dans la nature suivent une telle courbe. Je leur ai aussi
montré d’autres exemples, entre autres que les notes obtenues dans un devoir en
classe suivent souvent une telle courbe.
Ceci termine mon introduction de la courbe de Gauss à mes élèves de 11CM.
Pour vérifier d’une manière plus exacte l’hypothèse de normalité des différentes
variables, je vais appliquer, dans le cadre de ce travail, le test de Jarque-Bera
aux différentes données.
– Pour la variable taille : pour le groupe 1992–1998, on obtient une p-valeur
de 0, 2488, pour le groupe 1999–2002, une p-valeur de 0, 6966. On ne rejette
donc pas l’hypothèse de normalité au niveau 5%.
– Pour la variable poids : pour le groupe 1992–1998, on obtient une p-valeur
de 0, 02685, pour le groupe 1999–2002, une p-valeur de 6, 447 · 10−6 . On
rejette donc l’hypothèse de normalité au niveau 5%.
– Pour la variable pointure : pour le groupe 1992–1998, on obtient une p-
valeur de 0, 2857, pour le groupe 1999–2002, une p-valeur de 0, 4467. On
ne rejette donc pas l’hypothèse de normalité au niveau 5%.
Nous constatons donc que la taille et la pointure suivent une loi normale, tandis
que le poids ne suit pas une loi normale. Ceci est tout à fait cohérent avec les
conclusions visuelles que nous avons pu tirer des histogrammes respectivement
des diagrammes en bâtons. Une raison pour cette différence entre taille-pointure

117
Chapitre 5

et poids est la suivante. Taille et pointure sont des données plus « naturelles »,
sur lesquelles les humains n’ont pas (ou presque pas) d’influence. Par contre le
poids est fortement lié aux habitudes alimentaires et échappe donc partiellement
au contrôle de la nature.
La motivation de mes élèves par rapport à cette expérience en classe m’incite
à la ré-éditer dans les années à venir, et à songer à la manière d’introduire la
loi normale dans des classes plus spécialisées en mathématique. Les élèves sont
réceptifs par rapport à une matière, bien que compliquée, si elle est expliquée en
termes simples et s’ils voient son utilité dans la vie de tous les jours.

118
Annexe A

Définitions et propriétés
élémentaires

Le but de cette section est de rappeler des définitions et propriétés élémentaires


dont nous avons besoin dans ce travail. Pour toutes ces notions nous allons suivre
Dodge (2007) et Foata and Fuchs (2003).
Rappelons tout d’abord qu’il existe deux types de variables aléatoires, la
variable aléatoire discrète et la variable aléatoire continue. Une variable aléatoire
est dite discrète si l’ensemble des valeurs prises par la variable aléatoire est un
ensemble fini ou infini dénombrable. Une variable aléatoire est dite continue si
l’ensemble des valeurs prises par la variable aléatoire est un ensemble infini non
dénombrable.
Une variable aléatoire est caractérisée par sa loi probabiliste, qui détermine
son comportement aléatoire. Cette loi repose sur la fonction de probabilité (cas
discret) et la fonction de densité (cas continu), deux notions que nous définissons
formellement à présent.

Définition A.0.1. La fonction (ou masse) de probabilité d’une variable aléatoire

119
Chapitre A

discrète est une fonction qui associe à chaque valeur de cette variable aléatoire
sa probabilité.
La fonction P(b) = P(X = b) où b varie selon les valeurs possibles de la variable
aléatoire discrète X est appelée fonction de probabilité de X.

Définition A.0.2. La fonction de densité d’une variable aléatoire continue per-


met de déterminer la probabilité qu’une variable aléatoire X prenne une valeur
dans un intervalle fixé. Cette fonction de densité est une fonction f non néga-
tive s’intégrant à 1 sur son domaine (souvent R entier), définie sur les réels et
vérifiant pour tout intervalle [a; b] la propriété suivante :

Zb
P(a ≤ X ≤ b) = f (x)dx
a

où P(a ≤ X ≤ b désigne la probabilité que X se trouve dans l’intervalle [a; b].

Intimement liée à ces notions est la fonction de répartition. La fonction de ré-


partition d’une variable aléatoire réelle est la probabilité que la variable aléatoire
prenne une valeur inférieure ou égale à ce nombre réel.

Définition A.0.3. On appelle fonction de répartition d’une variable aléatoire


discrète X la fonction F définie par

F (x) = P(X ≤ x)

Définition A.0.4. On appelle fonction de répartition d’une variable aléatoire


continue X la fonction F définie par

Zx
F (x) = P(X ≤ x) = f (x)dx.
−∞

120
La fonction de répartition (discrète ou continue) a les propriétés suivantes :

Propriété A.0.1. 1. F est une fonction non décroissante, autrement dit si


a < b, alors F (a) ≤ F (b) ;

2. F prend ses valeurs dans l’intervalle [0; 1] ;

3. lim F (a) = 0 et lim F (b) = 1.


a→−∞ b→+∞

Définissons ensuite l’espérance et la variance d’une variable aléatoire.


En général l’espérance mathématique d’une variable aléatoire est la moyenne
pondérée des valeurs que la variable aléatoire peut prendre, les poids étant les
probabilités avec lesquelles ces valeurs peuvent être prises.

Définition A.0.5. L’espérance d’une variable aléatoire discrète X prenant ses


valeurs sur le domaine D est définie par :

X
E[X] = iP(X = i).
i∈D

Définition A.0.6. L’espérance d’une variable aléatoire continue X de domaine


D est définie par : Z
E[X] = xf (x)dx.
D

La variance mesure la dispersion des valeurs prises par la variable aléatoire.

Définition A.0.7. La variance d’une variable aléatoire discrète X prenant ses


valeurs sur le domaine D est définie par :

X
Var[X] = E[(X − µ)2 ] = (i − µ)2 P(X = i),
i∈D

où µ représente l’espérance mathématique de X.

121
Chapitre A

Définition A.0.8. La variance d’une variable aléatoire continue X de domaine


D est définie par :
Z
2
Var[X] = E[(X − µ) ] = (x − µ)2 f (x)dx,
D

où µ représente l’espérance mathématique de X.

Passons maintenant la définition de la fonction génératrice des moments et


de la fonction caractéristique d’une variable aléatoire.

Définition A.0.9. – La fonction génératrice des moments d’une variable


aléatoire X est définie par

MX (t) = E[etX ]

avec t ∈ R.
– La fonction caractéristique d’une variable aléatoire X est définie par

φX (t) = E[eitX ]

avec t ∈ R.

Ces deux quantités permettent de calculer plus aisément les moments d’une
distribution, mais également de définir les caractéristiques d’une variable aléa-
toire X. En effet,d eux variables aléatoires sont égales en loi si et seulement si
leurs fonctions génératrices des moments et leurs fonctions caractéristiques sont
les mêmes. La fonction caractéristique est souvent préférée car elle existe tou-
jours (|φX (t)| = E|eitX | = E[1] = 1) contrairement à la fonction génératrice des
moments qui peut devenir infinie.

122
Nous allons définir maintenant plusieurs exemples de variables aléatoires
discrètes et continues qui sont utilisées tout au long de ce travail.

Définition A.0.10. Une variable aléatoire X suit une loi de Bernoulli de para-
mètre p si sa fonction de probabilité est de la forme :

P(X = x) = px (1 − p)1−x , x = 0, 1,

où p est la probabilité de succès et où x peut prendre les valeurs 1 (succès) et 0


(échec).

Un autre exemple d’une loi discrète est la loi binomiale, qui est la somme de
plusieurs variables aléatoires indépendantes de type Bernoulli.

Définition A.0.11. Une variable aléatoire X suit une loi binomiale de para-
mètres n et p si sa fonction de probabilité est de la forme :
 
n x
P(X = x) = p (1 − p)n−x , x = 0, 1, 2, . . . , n,
x

où p est la probabilité de succès de chacune des n expériences Bernoulli indépen-


dantes.

La loi continue la plus simple imaginable est la loi uniforme.

Définition A.0.12. Une variable aléatoire X est dite uniformément distribuée


sur l’intervalle [a; b] si sa fonction de densité est donnée par :

1

b−a
si a ≤ x ≤ b
f (x) =
 0 sinon.

123
Chapitre A

La loi normale ne se trouve bien entendu pas dans ce glossaire ; à sa place,


nous définissons la loi khi-deux dont on parle en lien avec les tests statistiques.

Définition A.0.13. Une loi khi-deux est définie à partir de la loi normale. Soient
X1 , . . . , Xn n variables aléatoires indépendantes et identiquement distribuées sui-
vant une loi normale centrée réduite. La somme de leurs carrés

n
X
Z= X12 + ... + Xn2 = Xi2
i=1

est une variable aléatoire distribuée selon une loi khi-deux avec n degrés de liberté.
Sa densité correspond à

 1
2n/2 Γ(n/2)
xn/2−1 e−x/2 si x ≥ 0
fZ (x) =
 0 sinon.

124
Annexe B

La courbe de Gauss au lycée

B.1 Questionnaire distribuée aux élèves

Étude statistique

Pour le cours de mathématiques nous avons besoin de votre aide afin de collecter
des données. Ces informations resteront bien sûr anonymes. Nous aurons besoin
des données suivantes :

– Année de naissance : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

– Taille (en cm) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

– Poids (en kg) : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

– Pointure : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Merci de votre aide

La classe 11CM2

125
Chapitre B

B.2 Histogrammes portant sur toutes les


données

Figure B.1 – Histogramme de la taille des élèves

126
Histogrammes portant sur toutes les données

Figure B.2 – Histogramme du poids des élèves

Figure B.3 – Diagramme en bâtons de la pointure des élèves

127
Chapitre B

Comme au Chapitre 5, nous appliquons le test de Jarque-Bera à l’ensemble des


données pour obtenir les résultats suivants :
– Pour la variable taille : : on obtient une p-valeur de 0, 2182, ainsi on ne
rejette pas l’hypothèse de normalité au niveau 5%.
– Pour la variable poids : : on obtient une p-valeur de 1, 068 · 10−5 , ainsi on
rejette l’hypothèse de normalité au niveau 5%.
– Pour la variable pointure : : on obtient une p-valeur de 0, 1313, ainsi on ne
rejette pas l’hypothèse de normalité au niveau 5%.
Nous remarquons donc que les résultats portant sur l’ensemble des données
sont en accord avec les résultats obtenus sur base de chacun des deux groupes.

128
Annexe C

Code R

Génération de données normales à l’aide de l’algorithme


de Box-Muller

set.seed(654321)
n=500;
X=array(0,dim=c(n,1));
Y=array(0,dim=c(n,1));
for(i in 1:n){
U=runif(1);
V=runif(1);
X[i]=cos(2*pi*U)*sqrt(-2*log(V));
Y[i]=sin(2*pi*U)*sqrt(-2*log(V));
}
hist(X);
hist(Y);

129
130
Bibliographie

J. Aczél and J. Dhombres. Functional equations in several variables with ap-


plications to mathematics, information theory and to the natural and social
sciences. Encyclopedia of Mathematics and its Applications. Cambridge Uni-
versity Press, Cambridge, 1 edition, 1989.

A. Azzalini. A class of distributions which includes the normal ones. Scandina-


vian Journal of Statistics, 12(2) :171–178, 1985.

A. Azzalini and A. Capitanio. Distributions generated by perturbation of sym-


metry with emphasis on a multivariate skew t-distribution. Royal Statistical
Society, 65(2) :367–389, 2003.

A. Azzalini and A. Capitanio. The Skew-Normal and Related Families. Cam-


bridge University Press, New York, 1 edition, 2014.

A. Azzalini and M.G. Genton. On gauss characterization of the normal distri-


bution. Bernoulli, 13 :169–174, 2007.

A. Azzalini and G. Regoli. The work of fernando de helguero on non-normality


arising from selection. Chilean Journal of Statistics, 3(2) :113–128, September
2012.

131
A. Bischof, M. Schulze, and H. Steffen. Die Flucht ins Normale publié dans
Mythos Mitte. VS Verlag, 2011.

R. D’Agostino and E.S. Pearson. Tests for departure from normality. empirical
results for the distributions of b2 and b1. Biometrika, 60(3) :613–622, 1973.

M. Diener. Le théorème limite central.


URL : http://math.unice.fr/~diener/probas/TLC.pdf, 2006.

Y. Dodge. Statistique Dictionnaire encyclopédique. Springer, Paris, 2 edition,


2007.

J.-J Droesbeke, M. Lejeune, and G. Saporta. Analyse statistique des données


spatiales. Editions Technip, Paris, 1 edition, 2006.

H. Fischer. A History of the Central Limit Theorem. Springer, New York, 1


edition, 2011.

D. Foata and A. Fuchs. Calcul des probabilités. Dunod, Paris, 2 edition, 2003.

A. Fuchs. Plaidoyer pour la loi normale publié dans pour la science. URL :
http://www-irma.u-strasbg.fr/~foata/fuchs/FuchsNormale.pdf, 1995.

Y. R. Gel and J. L. Gastwirth. A robust modification of the jarque-bera test of


normality. Economics Letters, 99 :30–32, 2008.

A. Guionnet. Laplace, le hasard et les lois universelles. tangente, l’aventure


mathématique, (140) :22–24, Mai-Juin 2011.

G. Hagen. Grundzüge der Wahrscheinlichkeits-Rechnung. Dümmler, Berlin, 1837.

A. Hald. A History of Mathematical Statistics from 1750 to 1930. Wiley Series


in Probability and Statistics, Canada, 1 edition, 1998.

132
Bibliographie

W. Mendenhall, R.L. Scheaffer, and D. Wackerly. Mathematical Statistics with


Applications. Duxbury, 6 edition, 2002.

J.K. Patel and C.B. Read. Handbook of the normal distribution. CRC Press,
New York, 2 edition, 1996.

N.M. Razali and Y.B. Wah. Power comparisons of shapiro-wilk, kolmogorov-


smirnov, lilliefors and anderson-darling tests. Journal of Statistical Modeling
and Analytics, 2(1) :21–33, 2011.

J.-J. Samueli. Legendre et la méthode des moindres carrés. URL : https://www.


bibnum.education.fr/sites/default/files/legendre-analyse.pdf,
2010.

S.M. Stigler. The History of Statistics : The Measurement of Uncertainty before


1900. The Belknap Press of Harvard University Press, Cambridge, Massachu-
setts, London, 1 edition, 1986.

S.M. Stigler. Statistics on the Table. Harvard University Press, Cambridge,


Massachusetts, London, England, 1999.

H. C. Thode. Testing for normality. Marcel Dekker, inc, New York, Basel, 2002.

133

Vous aimerez peut-être aussi