Vous êtes sur la page 1sur 188

Benoît Clément

Analyse de données en
sciences expérimentales
Probabilités et Statistiques,
avec exemples en sciences
physique
Illustration de couverture : © kentoh - Fotolia.fr

© Dunod, Paris, 2012


ISBN 978-2-10-058039-2
T ABLE DES MATIÈRES

Avant-propos VII

PARTIE I
É CHANTILLONS

Chapitre 1. Distributions et fréquences 3


1.1 Échantillon et population 3
1.2 Mesures de position 4
1.3 Mesures de dispersion 5
1.4 Tableau de fréquences 7

Chapitre 2. Échantillons multidimensionnels 13


2.1 Mesures de forme 13
2.2 Régression linéaire 15
2.3 Matrice de covariance et décorrélation de variables 17

Chapitre 3. Incertitudes de mesures 21


3.1 Le concept d’incertitude 21
3.2 Lien avec l’écart type 21
3.3 Propagation des incertitudes 23

Exercices 27

PARTIE II
P ROBABILITÉS
© Dunod. La photocopie non autorisée est un délit.

Chapitre 4. Un peu de théorie des probabilités 33


4.1 Définitions de la probabilité 33
4.2 Fonction de probabilité 34
4.3 Combinatoire 37

Chapitre 5. Variables aléatoires 41


5.1 Fonction de répartition et densité de probabilité 41
5.2 Changement de variable 43
5.3 Mesures de forme 44
5.4 Densités usuelles 48

III
Analyse de données en sciences expérimentales

Chapitre 6. Variables aléatoires multidimensionnelles 55


6.1 Densités marginales et conditionnelles 55
6.2 Covariance 56
6.3 La loi multinormale 57
6.4 Somme de variables aléatoires indépendantes 57
Exercices 61

PARTIE III
S TATISTIQUES
Chapitre 7. Estimation paramétrique 67
7.1 Estimateur 67
7.2 Estimateurs des moments 69
7.3 Estimateur du maximum de vraisemblance 72
Chapitre 8. Estimation et incertitude 77
8.1 Estimation par intervalle 77
8.2 Retour sur l’incertitude 81
8.3 Estimation non paramétrique 83
Chapitre 9. Tests statistiques 87
9.1 Le test du χ de Pearson
2
87
9.2 Le test de Kolmogorov-Smirnov 89
9.3 Exemple 90
Chapitre 10. Ajustements de données 93
10.1 Introduction 93
10.2 Régression dans le cas général 94
10.3 Méthode des moindres carrés ou méthode du χ2 95
Chapitre 11. Introduction aux méthodes Monte-Carlo 107
11.1 Échantillonnage 107
11.2 Intégration Monte-Carlo 110
11.3 Propagation d’incertitudes 113
11.4 Simulation de systèmes physiques 114
Exercices 118

Annexes
Corrigés 127
Formulaire 161
Tableaux 173
Bibliographie 179
Index 181

IV
A VANT - PROPOS

Il existe traditionnellement un clivage dans la communauté scientifique entre théori-


ciens et expérimentateurs. D’un coté les théoriciens tentent de décrire les phénomènes
au moyen d’équations. Les modèles ainsi développés permettent de décrire l’évolu-
tion de systèmes physiques. Ils sont prédictifs s’ils permettent le calcul d’un grand
nombre d’observables à partir de quelques paramètres libres. De l’autre les expéri-
mentateurs conçoivent et réalisent des expériences destinées à mesurer telle ou telle
propriété physique, avec la meilleure précision possible.
L’analyse des données se situe à l’interface et devient de plus en plus un domaine
à part entière de la physique. Elle regroupe toutes les techniques visant à extraire une
information utile d’un ensemble de données. Ceci consiste à présenter ces données
de manière compréhensible et à les réduire à une information utile, la plus com-
pacte possible avec une perte minimum d’information. Pour l’expérimentateur son
rôle premier sera la détermination la plus correcte possible des incertitudes qui en-
tachent toute mesure. Pour le théoricien, elle fournira des outils statistiques pour
résoudre numériquement des problèmes complexes, par exemple au moyen de mé-
thodes Monte-Carlo. Mais surtout, l’analyse de données permet de faire le lien entre
la mesure expérimentale et les modèles théoriques. Les problèmes auxquels on sera
confrontés (estimation de paramètres d’un modèle et de l’incertitude associée à ce
résultat, détermination de niveaux de confiance, contrainte d’un modèle théorique,
test d’hypothèse) reviennent tous à répondre à la question : « Quelles informations
les données expérimentales apportent-elles sur le modèle théorique ? » La réponse à
cette question relève de l’inférence statistique, qui elle-même repose sur la théorie
des probabilités. Ce sont les bases des ces deux concepts que nous allons dévelop-
per dans cet ouvrage. Pour les étudiants, leur première application sera la rédaction
de comptes rendus de travaux pratiques, c’est pourquoi deux notions centrales ser-
© Dunod. La photocopie non autorisée est un délit.

viront de fil conducteur à l’exposé : d’une part, l’estimation et la propagation des


incertitudes, d’autre part, l’ajustement de courbes sur des points expérimentaux.
L’ouvrage est découpé en trois grandes parties. La première introduira simplement
des outils permettant de caractériser et de représenter un ensemble fini de valeurs tels
la moyenne ou l’écart type. La seconde partie formalisera ces outils dans le cadre de
la théorie des probabilités. Enfin la dernière partie concernant l’inférence statistique
illustrera comment, à partir de la théorie des probabilités, on peut tenter d’extraire
des informations d’un échantillon de données. Cette dernière partie se terminera par
une brève introduction aux méthodes Monte-Carlo. Chaque partie est accompagnée
d’exercices d’application dont les solutions sont données en annexes. Ces annexes

V
Analyse de données en sciences expérimentales

sont complétées par un formulaire regroupant de manière synthétique les principales


formules de l’ouvrage ainsi que par quelques tables de fonctions statistiques utiles.
L’essentiel du contenu de cet ouvrage repose sur des cours donnés en troisième
année de licence de physique et en première année de master à l’Université Joseph
Fourier. Il n’existerait pas sans la contribution de nombreux collegues. Je tiens parti-
culièrement à remercier Arnaud Lucotte qui a patiemment relu ce document, Frederic
Mayet et Eric Liatard qui m’ont, les premiers, proposé d’enseigner l’analyse de don-
nées, ainsi que Laurent Derome, Julien Billard et Thomas Delemontex pour les dis-
cussions enrichissantes qui m’ont permis d’étendre ma compréhension de ce vaste
sujet qu’est l’analyse statistique.

VI
Partie I

Échantillons
D ISTRIBUTIONS
ET FRÉQUENCES
1
Nous allons commencer notre étude par la caractérisation d’un ensemble de données
brutes (par exemple des mesures) par un petit nombre de grandeurs : il s’agit alors de
réduire un grand volume de données à un nombre réduit de valeurs tout en minimisant
la perte d’information.

1.1 É CHANTILLON ET POPULATION


Un échantillon est un ensemble de n réalisations {xi }i=1...n d’une même grandeur, par
exemple :
• plusieurs mesures de l’énergie de l’électron issu de la désintégration β d’un noyau,
• la date de naissance de la moitié des étudiants d’un amphi,
• le résultat d’une série de lancers de dé,
• ...
Généralement l’échantillon est une sous-partie d’une population plus vaste (l’en-
semble des énergies que peut prendre l’électron, l’ensemble des dates de naissance,
l’ensemble des résultats possibles d’un lancer de dé. . .). Un échantillon a toujours
une taille finie, alors que la population peut être infinie (ce n’est pas le cas pour les
résultats d’un lancer de dé). De plus les valeurs de l’échantillon peuvent être soit dis-
crètes (dates, lancer de dé) soit continues (énergies). On se limitera dans ce cours à
l’étude d’échantillons à valeurs entières ou réelles. On parlera par la suite de variables
aléatoires discrètes (ou dénombrables) ou continues pour décrire une population.
L’analyse statistique des données vise à estimer les propriétés d’une population
(potentiellement infinie) à partir de celles d’un échantillon (de taille finie). On va
© Dunod. La photocopie non autorisée est un délit.

s’intéresser dans ce chapitre à la distribution d’un échantillon, c’est-à-dire étudier et


caractériser la répartition de ses valeurs :
• répartition aléatoire,
• regroupement autour d’une ou plusieurs valeurs particulières : mesure de locali-
sation ou de position,
• dispersion des valeurs autour de ces valeurs caractéristiques : mesure de disper-
sion,
• autre. . .

3
Chapitre 1 • Distributions et fréquences

Les données brutes sont le plus souvent inexploitables telles quelles. Voici à titre
d’exemple les valeurs du rapport du nombre de neutrons (N) au nombre de pro-
tons (Z) pour les noyaux stables de Z > 55 :

1,321 ; 1,357 ; 1,392 ; 1,410 ; 1,428 ; 1,446 ; 1,464 ; 1,421 ; 1,438 ; 1,344 ; 1,379 ;
1,413 ; 1,448 ; 1,389 ; 1,366 ; 1,383 ; 1,400 ; 1,416 ; 1,433 ; 1,466 ; 1,500 ; 1,322 ;
1,370 ; 1,387 ; 1,403 ; 1,419 ; 1,451 ; 1,483 ; 1,396 ; 1,428 ; 1,375 ; 1,406 ; 1,421 ;
1,437 ; 1,453 ; 1,468 ; 1,500 ; 1,446 ; 1,363 ; 1,393 ; 1,424 ; 1,439 ; 1,454 ; 1,469 ;
1,484 ; 1,462 ; 1,382 ; 1,411 ; 1,441 ; 1,455 ; 1,470 ; 1,500 ; 1,449 ; 1,400 ; 1,428 ;
1,442 ; 1,457 ; 1,471 ; 1,485 ; 1,514 ; 1,464 ; 1,478 ; 1,416 ; 1,444 ; 1,458 ; 1,472 ;
1,486 ; 1,500 ; 1,465 ; 1,479 ; 1,432 ; 1,459 ; 1,472 ; 1,486 ; 1,513 ; 1,466 ; 1,493 ;
1,421 ; 1,447 ; 1,460 ; 1,473 ; 1,486 ; 1,500 ; 1,526 ; 1,480 ; 1,506 ; 1,435 ; 1,461 ;
1,487 ; 1,500 ; 1,512 ; 1,538 ; 1,493 ; 1,450 ; 1,475 ; 1,500 ; 1,512 ; 1,525 ; 1,550 ;
1,506 ; 1,530 ; 1,487 ; 1,512 ; 1,524 ; 1,536 ; 1,518 ; 1,577 ; 1,554 ; 1,586 ; 1,586.

Il y a au total 110 valeurs. Nous allons utiliser cet échantillon tout au long de ce
chapitre. Il semble difficile de tirer des conclusions des données présentées sous cette
forme. On va donc chercher à réduire l’information contenue dans ces données à un
nombre plus faible de grandeurs caractéristiques.

1.2 M ESURES DE POSITION


On peut définir plusieurs grandeurs qui caractérisent la position de la distribution,
c’est-à-dire une valeur unique qui permet de caractériser l’ensemble des valeurs de
l’échantillon. La plus connue est la moyenne. Dans certaines situations, on utilise
aussi la médiane ou le mode.

1.2.1 La moyenne
La moyenne de l’échantillon est donnée par :

1 1
N
1
x̄ = (x1 + x2 + . . . + xn ) = xi = xi . (1.1)
n n i=1 n i

En utilisant les valeurs de N/Z du paragraphe précédent on trouve : x̄ = 1,4564.

Remarque
Il existe de multiples notations pour la valeur moyenne d’une grandeur x : mx , μx ,
x̄, x.

4
1.3. Mesures de dispersion

1.2.2 La médiane
On ordonne l’échantillon de sorte que x1 ≤ x2 ≤ . . . ≤ xn . La médiane de l’échan-
tillon est la valeur qui sépare l’échantillon en deux parties de même taille :
• med{xi } = xm , si la taille de l’échantillon n = 2m − 1 est impaire.
1
• med{xi } = (xm + xm+1 ), si la taille n = 2m est paire.
2
Pour les valeurs de N/Z du paragraphe précédent il y a 110 valeurs, la médiane est
1
donc donnée par : med{xi } = (x55 + x56 ) = 1,4595.
2

Remarque
Pour une distribution symétrique, la médiane et la moyenne sont égales.

1.2.3 Le mode
Le mode correspond à la valeur qui a la plus grande occurrence dans l’échantillon,
soit la valeur la plus probable. Le mode d’un échantillon ne peut-être déterminé
que pour un échantillon tiré d’une population à valeurs discrètes (dates, lancer de
dé. . .). Pour un échantillon pris sur une population continue (par exemple une mesure
d’énergie), il n’y a aucune chance d’obtenir deux fois exactement le même résultat
et le mode de l’échantillon n’est pas défini. En introduisant le tableau de fréquences
(cf. 1.4), on pourra néanmoins définir un mode pour un échantillon quelconque.
Dans l’exemple précédent, la valeur la plus fréquente est N/Z = 1,5 qui apparaît
7 fois. Il y a donc un unique mode,

mod{xi } = 1,5. (1.2)

1.3 M ESURES DE DISPERSION


Une mesure de position réduit la distribution à une seule valeur. Elle ne donne aucune
© Dunod. La photocopie non autorisée est un délit.

information sur la forme de la distribution. Une mesure de dispersion donne une


information supplémentaire sur la répartition de la distribution autour d’une valeur
particulière (en général une mesure de position).

1.3.1 Variance et écart type


La variance de l’échantillon autour de sa valeur moyenne est définie par :

1
v = var{xi } = σ2 = (xi − x̄)2 . (1.3)
n i

5
Chapitre 1 • Distributions et fréquences

Le théorème de Koenig est souvent utilisé pour calculer effectivement une variance :

1 1  2 x̄  x̄2 
v= (xi − x̄)2 = xi + xi − 2 1 = x2 − x̄2 . (1.4)
n i n i n i n i
La racine carrée de la variance, σ, est appelée l’écart type de l’échantillon. C’est une
grandeur qui a la même dimension que les xi . L’écart type caractérise la dispersion
des valeurs de l’échantillon autour de la valeur moyenne. Il joue un rôle fondamental
en statistique, en particulier pour estimer une incertitude de mesure. Le lien entre
l’écart type et la largeur d’une distribution est illustré sur la figure 1.1.
Pour l’exemple de la distribution de N/Z on obtient : v = 0,283 × 10−3 , soit
σ = 0,053.
Frequence

250
x=2
200 σ=1
σ=2
150
σ=5
100

50

0
-10 -5 0 5 10
x

Figure 1.1– Écart type et largeur de la distribution pour une loi normale. Les courbes
sont normalisées à la même intégrale.

1.3.2 Autres mesures de dispersion


Il existe plusieurs autres mesures de dispersion d’intérêt moindre :
1
• L’écart moyen, δ1 = |xi − x̄|,
n i
1 
• La moyenne des écarts, δ2 = |xi − x j |,
n(n − 1) i j
• L’espace interquartile : on généralise le concept de médiane pour définir les trois
quartiles q1 , q2 et q3 qui séparent l’échantillon en quatre ensembles de même taille.
La médiane est évidemment q2 . La différence δ3 = q3 − q1 est une mesure de la
dispersion appelée espace interquartile. Par construction, la moitié des valeurs de
l’échantillon sont telles que q1 < xi < q3 .

6
1.4. Tableau de fréquences

Dans notre exemple des N/Z on peut calculer :


• δ1 = 0,042
• δ2 = 0,030
• q1 = 1,421, q2 = 1,493 soit δ3 = 0,072
Bien que différentes, toutes ces valeurs sont du même ordre de grandeur et quantifient
bien la dispersion de l’échantillon autour de la moyenne (écart-moyen, moyenne des
écarts) ou de la médiane (quartiles). On pourrait en imaginer bien d’autres !

1.3.3 Autres mesures de forme


Au-delà des mesures de position et de dispersion, d’autres grandeurs peuvent être cal-
culées sur le modèle de la moyenne et de l’écart type. Les deux les plus fréquemment
utilisées sont le coefficient d’asymétrie β1 (ou skewness) et le coefficient d’apla-
tissement γ2 (ou kurtosis). Ils caractérisent la déformation de la distribution rela-
tivement à une distribution qui suivrait une loi normale (voir chapitre 5) de mêmes
moyenne et écart type. Ils sont définis par :
1 
β1 = (xi − x̄)3 , (1.5)
nσ3 i
1 
γ2 = (xi − x̄)4 − 3. (1.6)
nσ4 i
La figure 1.2 illustre la forme de distributions en fonction du signe des coefficients
d’asymétrie et d’aplatissement. Si le coefficient d’asymétrie est négatif, la distribution
a plus de valeurs à droite de la moyenne qu’à gauche et inversement pour un coeffi-
cient positif. Un coefficient d’aplatissement positif marque une distribution fortement
piquée alors qu’une valeur négative indique une distribution aplatie. Pour γ2 = −1,2
la distribution est complètement plate (et donc nécessairement bornée) : c’est la dis-
tribution uniforme. En-deçà la distribution remonte vers ses extrémités : on parle de
distribution en U ou en J.
© Dunod. La photocopie non autorisée est un délit.

1.4 T ABLEAU DE FRÉQUENCES


Une solution pour présenter ces données est de découper l’ensemble des valeurs pos-
sibles en un nombre fini d’intervalles [I j , I j+1 [ de même largeur δ = I j+1 − I j et de
compter le nombre n j d’éléments xi de l’échantillon tels que I j ≤ xi < I j+1 . Chaque
intervalle est appelé une classe. Le nombre d’événements dans chaque classe (ramené
au nombre total d’événements n) est la fréquence d’occurrence de cette classe dans
l’échantillon :
f j = n j /n. (1.7)

7
Chapitre 1 • Distributions et fréquences

β =0, γ =0 (normale)
1 2

β <0
1
β >0
1

γ >0
2
-1.2<γ <0
2
γ =-1.2 (uniforme)
2
γ <-1.2
2

Figure 1.2 – Effet des coefficients d’asymétrie (de gauche à droite) et d’aplatissement
(de haut en bas). La courbe centrale noire correspond à la distribution normale.

Remarque
Quand la distribution n’est pas bornée, il peut être utile de rajouter deux classes
extrêmes ] − ∞, I1 [ et [Ik+1 , +∞[ où k est le nombre de classes considérées.

En réduisant la distribution à un tableau de fréquences on perd de l’information.


On ne conserve que les caractéristiques globales de la distribution.

La représentation en classe de fréquences est très sensible au choix de la taille


des classes. Si les classes sont trop larges on perd une grande partie de l’infor-
mation, le cas extrême étant une unique classe contenant tous les événements. À
l’inverse, si les classes sont trop petites on ne voit plus les structures globales de
la distribution.
Mathématiquement, la détermination de la largeur optimale est un problème com-
plexe et il n’existe pas de critère universel. Souvent un choix « à l’œil » est suf-
fisant, d’autant que l’utilisation de l’ordinateur permet de construire facilement
des tables de fréquences en modifiant au besoin la largeur des classes. Intuitive-
ment, la largeur des classes doit être sensiblement plus petite que la dispersion de
l’échantillon. Ainsi on pourra choisir une certaine fraction de l’écart type comme
largeur (σ/5 ou σ/10 par exemple). Le choix de la largeur doit également tenir
compte de la taille de l’échantillon pour que le nombre d’événements par classe
reste significatif.

8
1.4. Tableau de fréquences

Le tableau 1.1 donne les fréquences d’occurrence dans l’échantillon précédent


dans 9(+2) classes allant de 1,3 à 1,6.

Tableau 1.1 – Distribution des fréquences de N/Z pour les noyaux stables de Z > 55.
Classe Nombre Fréquence Classe Nombre Fréquence
de N/Z de N/Z
< 1,30 0 0 1,45 - 1,48 26 0,2363
1,30 - 1,33 2 0,0182 1,48 - 1,51 19 0,1727
1,33 - 1,36 2 0,0182 1,51 - 1,54 12 0,1091
1,36 - 1,39 9 0,0818 1,54 - 1,57 2 0,0182
1,39 - 1,42 13 0,1182 1,57 - 1,60 3 0,0273
1,42 - 1,45 22 0,2 ≥ 1,60 0 0

1.4.1 L’histogramme
Un histogramme est la représentation graphique de la table de fréquences. Pour des
classes de mêmes largeur, on réprésente le nombre d’occurence n j en fonction de la
classe c j = [I j , I j+1 ]. Chaque classe est ainsi représentée par un rectangle dont la
surface est proportionnelle à la fréquence d’occurence. La figure 1.3 donne l’histo-
gramme correspondant à l’exemple précédent.

25

20

15

10

5
© Dunod. La photocopie non autorisée est un délit.

1.3 1.35 1.4 1.45 1.5 1.55 1.6


N/Z, Z>55

Figure 1.3 – Histogramme de N/Z pour Z > 55.

Remarque
On peut envisager une représentation plus générale où la largeur des classes serait
variable : faire des classes plus petites là où les fréquences sont plus élevées. Lors du
tracé de l’histogramme associé, il faut se rappeler que c’est la surface du rectangle
et non sa hauteur qui est proportionnelle à la fréquence.

9
Chapitre 1 • Distributions et fréquences

1.4.2 Calcul des mesures de position et de dispersion


Il arrive souvent que l’on ne dispose que de données organisées en fréquences, sans
avoir accès à l’information complète de l’échantillon. Dans ce cas, il est néanmoins
possible de calculer des valeurs approximées des mesures de position et de dispersion
définies précédemment.
• Moyenne :
1  Ii + Ii+1  Ii + Ii+1
k k
x̄ ≈ ni = fi . (1.8)
n i=1 2 i=1
2

La somme porte sur l’ensemble des classes (on exclut les classes non bornées).
Ii + Ii+1
Le terme correspond au centre de la i−ème classe. C’est la moyenne des
2
centres de classes pondérés par la fréquence d’occurrence correspondante fi =
ni /n.
• Médiane : Pour des données rangées en classes, on peut déterminer une valeur
approximée de la médiane en identifiant la classe dans laquelle se situe la médiane
puis en réalisant une interpolation linéaire.
Pour le calcul à partir de la table de fréquences 1.1, on constate d’abord que les 36
premières valeurs sont inférieures à 1,42 et que les 28 suivantes sont dans la classe
[1,42; 1,45[. On cherche les valeurs 55 et 56 qui se situent donc dans cette classe
(36 < 55 < 56 < 36 + 28). On interpole linéairement pour aboutir à
 
(1,46 − 1,42) × (55,5 − 36)
med{xi } ≈ 1,42 + = 1,441 . (1.9)
28

• Mode : À partir du tableau de fréquences, il est aisé de définir le ou les mode(s)


pour l’échantillon par le centre de la ou les classe(s) ayant la fréquence la plus
élevée.
• Variance : comme pour la moyenne la formule devient :

1   Ii + Ii+1 2  I + I 2
k k
i i+1
v≈ ni − x̄ = fi − x̄
n i=1 2 i=1
2
⎛ k ⎞2
k  I + I 2 ⎜⎜ Ii + Ii+1 ⎟⎟⎟⎟
i i+1 ⎜⎜⎜ ⎟⎟ .
≈ fi − ⎝⎜ fi (1.10)
i=1
2 i=1
2 ⎠

Pour les calculs de moyenne et d’écart type, on a systématiquement remplacé les


valeurs de l’échantillon par le centre de la classe correspondante. Cette approximation

10
1.4. Tableau de fréquences

peut également s’utiliser pour déterminer les coefficients d’asymétrie et d’aplatisse-


ment en remplaçant les carrés dans la formule de l’écart type par une puissance 3
ou 4 respectivement. Plus la puissance est élevée plus l’approximation devient im-
portante et dans la pratique ces coefficients sont inutilisables, à moins d’avoir des
échantillons de très grande taille et des classes de largeur faible devant la dispersion
(δ < σ). Il est néanmoins possible de déterminer une correction, dite correction de
Sheppard, qui compense en partie les effets du regroupement en classes. On admettra
sans démonstration que, pour la variance, cette correction vaut :
1 2
ΔS heppard = − δ , (1.11)
12
où δ est la largeur des classes.
Le tableau 1.2 résume, pour l’échantillon des N/Z, les principales grandeurs dé-
finies dans ce chapitre, calculées à partir de l’échantillon et de la table de fré-
quences 1.1.
Tableau 1.2 – Mesures de forme pour N/Z.
Échantillon Table de fréquences
Moyenne 1,45644 1,45627
Médiane 1,4595 1,441
Mode 1,5 1,465
Écart type 0,0532137 0,0543241
Écart type (Sheppard) – 0,0536294
Asymétrie –0,0941047 –0,104889
Kurtosis 0,00220867 0,0424635
© Dunod. La photocopie non autorisée est un délit.

11
MULTIDIMENSIONNELS
É CHANTILLONS
2
Jusqu’ici, il n’a été traité que d’échantillons unidimensionnels, c’est-à-dire que les
éléments de l’échantillon sont des nombres entiers ou réels. Il arrive très souvent que
les xi soient des vecteurs, par exemple l’ensemble des couples (Z, N) pour les noyaux
stables (cf. figure 2.2). On peut bien sûr traiter indépendamment l’ensemble des N et
l’ensemble des Z et calculer pour chacun une moyenne et un écart type.
Néanmoins, ces grandeurs ne portent aucune information sur une éventuelle dé-
pendance ou corrélation entre N et Z.

2.1 M ESURES DE FORME


2.1.1 Mesures de position et de dispersion
Un échantillon
(1) (2) multidimentionnel
 {xi } est un ensemble de vecteurs
(k)
xi = xi , xi , . . . , xi à k composantes.
On peut alors considérer
  cet échantillon vectoriel comme plusieurs échantillons
unidimensionnels x(u) i . Pour chacun des ces échantillons les mesures de position et
de dispersion discutées au chapitre 1 sont définies et forment un ensemble de valeurs
caractérisant l’échantillon multidimensionel.
Ainsi pour un échantillon à deux dimensions {(xi , yi )} on définit le vecteur moyen
( x̄, ȳ) par :
  
1 1
( x̄, ȳ) = xi , yi . (2.1)
n n
De même les dispersions selon x et y sont données par les écarts types σ x et σy .
Néanmoins cette manière de quantifier la dispersion traite les coordonées de manière
indépendantes. Souvent il existe une relation entre les composantes du vecteur, qui
© Dunod. La photocopie non autorisée est un délit.

doit donner lieu à une mesure de dispersion supplémentaire qui couple x et y : c’est
la covariance.

2.1.2 Covariance et coefficient de corrélation


La covariance est une généralisation de la variance pour des échantillons à plusieurs
dimensions. La covariance de deux grandeurs {(xi , yi )} est donnée par :

1
cov(x, y) = (xi − x̄)(yi − ȳ) = xy − x̄ȳ, (2.2)
n i

13
Chapitre 2 • Échantillons multidimensionnels

où x̄ et ȳ sont les moyennes des échantillons {xi } et {yi }. On remarque que cov(x, x) =
var(x) = σ2x et cov(y, y) = var(y) = σ2y .
La covariance peut se réécrire :

cov(x, y) = rσ x σy . (2.3)

Le facteur r est le coefficient de corrélation. Par construction −1 ≤ r ≤ 1. Deux


variables sont décorrélées si r = 0, entièrement corrélées si r = 1 et entièrement
anti-corrélées si r = −1. Dans le cas de la (anti)corrélation totale, les deux variables
sont reliées linéairement : yi = axi + b. Ce coefficient sera utilisé par la suite dans les
problèmes de régression linéaire.
La figure 2.1 donne la forme de distributions de couples (X, Y) pour différentes
valeurs du coefficient de corrélation.

ρ = -0.5 ρ = 0.9
25 25
20 20
15 15
10 10
5 5
0 0
-5 -5
-10 -10
-2 0 2 4 6 8 10 -2 0 2 4 6 8 10

ρ=0 ρ=0
25 25
20 20
15 15
10 10
5 5
0 0
-5 -5
-10 -10
-2 0 2 4 6 8 10 -2 0 2 4 6 8 10

Figure 2.1– Influence du coefficient de corrélation sur la distribution de couples (X , Y ).

La figure 2.2 donne la distribution des couples (Z, N) pour les noyaux stables. Le
coefficient de corrélation vaut r = 0,9951 illustrant le fait que ces deux grandeurs sont
fortement corrélées. Ceci pouvait déjà se deviner à partir de la forme de la distribution
de N/Z qui a une faible dispersion autour d’une valeur moyenne.

Deux variables décorrélées ne sont pas nécessairement indépendantes (cette no-


tion sera définie au chapitre 4), comme l’illustre la dernière image de la figure 2.1.

14
2.2. Régression linéaire

160

N
140

120

100

80

60

40

20

0
0 20 40 60 80 100
Z

Figure 2.2 – Distribution des couples (Z, N) pour les noyaux stables, r = 0,9951.

2.1.3 Somme de deux variables


À partir d’un échantillon {(xi , yi )}, on peut construire un nouvel échantillon {zi } avec
zi = xi + yi . La moyenne de cet échantillon est alors :
1 1 1
z̄ = zi = xi + yi = x̄ + ȳ, (2.4)
n n n
et sa variance :
1
σ2z = (zi − z̄)2
n
1 1 2
= (xi − x̄)2 + (yi − ȳ)2 + (xi − x̄)(yi − ȳ) (2.5)
n n n
= σ2x + σ2y + 2rσ x σy .
Dans le cas où x et y sont décorrélées, ce résultat devient :
σ2z = σ2x + σ2y . (2.6)
© Dunod. La photocopie non autorisée est un délit.

On voit apparaitre ici l’intérêt de la moyenne et de l’écart type comme mesures de


forme : la moyenne est une grandeur additive, de même que la variance si les va-
riables sont décorrélées. Cette propriété jouera une rôle clé dans la combinaison des
incertitudes de mesures qui sera discutée au chapitre 3.

2.2 R ÉGRESSION LINÉAIRE


Le vecteur des valeurs moyennes ( x̄, ȳ), est une mesure de position de l’échantillon
{(xi , yi )}. Néanmoins pour des échantillons de deux valeurs corrélées, un autre objet

15
Chapitre 2 • Échantillons multidimensionnels

mathématique peut être utilisé pour caractériser la position de la distribution : la


droite passant au plus près de chacun des points de l’échantillon. C’est la droite de
régression, d’équation y = a.x + b. Il s’agit donc de déterminer deux nombres a et b
tels que la dispersion de yi autour de y = a.xi + b soit minimale. En utilisant l’écart
type comme mesure de dispersion, ceci revient à minimiser :
1
n
w(a, b) = (yi − a.xi − b)2 . (2.7)
n i=1

Pour minimiser w(a, b), on cherche les valeurs amin et bmin qui annulent les dérivées
partielles de w. On doit donc résoudre le système d’équations suivant relativement à
a et b : ⎧ 

⎪ ∂w


⎪ = −2 xi (yi − axi − b) = 0

⎨ ∂a
⎪ i


⎪ ∂w  ,


⎪ = −2 (y − ax − b) = 0

⎩ ∂b i i
i
soit : ⎧ 


⎪ 0 = xi (yi − axi − b)




⎨ i


⎪  ,


⎪ 0 = (y − ax − b)

⎩ i i
i

⎧ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ (2.8)

⎪ ⎜⎜⎜ ⎟⎟⎟ ⎜⎜⎜ 2 ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟


⎪ 0 = ⎜⎝⎜ xi yi ⎟⎟⎠ − a ⎜⎜⎝ xi ⎟⎟⎠ − b ⎜⎜⎝ xi ⎟⎟⎠




⎨ i i i


⎪ ⎛ ⎞ ⎛ ⎞ .

⎪ ⎜⎜⎜  ⎟⎟⎟ ⎜⎜⎜  ⎟⎟⎟


⎪ ⎜ ⎟ ⎜ xi ⎟⎟⎠ − nb
⎩ 0 = ⎜⎝ yi ⎟⎠ − a ⎜⎝

i i
Ce système est linéaire en a et b et possède une unique solution :
⎧   

⎪ n xi yi − xi yi


⎪ a =   


⎨ n x2i − xi xi



. (2.9)


⎪ 1  1 

⎩b = yi − a xi
n n
On voit apparaître les moyennes des échantillons :
1 1
x̄ = xi , ȳ = yi , (2.10)
n n
les variances des échantillons :
1 2 1   1 2 1  
σ2x = xi − 2 xi xi , σ2y = yi − 2 yi yi , (2.11)
n n n n
16
2.3. Matrice de covariance et décorrélation de variables

et la covariance de x et y :
1 1  
cov(x, y) = xi yi − 2 xi yi = rσ x σy . (2.12)
n n
Finalement le résultat de la régression linéaire est :
⎧ σy


⎪ a=r


⎨ σx


⎪ σy . (2.13)


⎩ b = ȳ − r x̄
σx
On peut toujours effectuer une régression linéaire sur un ensemble de points {(xi , yi )}.
Si les xi et les yi sont effectivement reliés par une loi linéaire alors r = ±1. Si |r| est
beaucoup plus petit que 1 les données sont peu corrélées et la droite de régression
n’apporte que peu d’information.
Les calculatrices qui possèdent une fonction « régression linéaire » donnent géné-
ralement la valeur de r 2 . Cette grandeur quantifie la qualité de l’ajustement avec
r 2 ≈ 1 pour un bon ajustement.

Remarque
La régression linéaire constitue un cas particulier des problèmes d’ajustement qui
consistent à optimiser un ensemble de paramètres d’un modèle (ici les coefficients
d’une droite) relativement à un ensemble de données. Les généralisations de la ré-
gression dans des cas plus complexes feront l’objet du chapitre 10.

2.3 M ATRICE DE COVARIANCE


ET DÉCORRÉLATION DE VARIABLES
Soit un échantillon {xi }i=1...n d’une variable vectorielle de dimension k pour lequel les
x(u)
i sont potentiellement corrélés. La matrice de covariance est la matrice dont les
éléments sont définis par :
Σu,v = cov(x(u) , x(v) ) = ruv σu σv = rvu σu σv . (2.14)
© Dunod. La photocopie non autorisée est un délit.

où ruv , σu et σv sont respectivement le coefficient de correlation et les écarts types


des composantes x(u) et x(v) . Les éléments diagonaux sont les variances de chaque
composante. La matrice de covariance s’écrit donc :
⎛ ⎞
⎜⎜⎜ σ21 r12 σ1 σ2 . . . r1k σ1 σk ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ r σ σ ⎟⎟
σ . . . 2k 2 k ⎟
σ σ
2
⎜⎜⎜⎜ 12 1 2 2 r ⎟⎟⎟⎟
Σ = ⎜⎜⎜ . . . ⎟⎟⎟ . (2.15)
⎜⎜⎜ .. .. .. .. ⎟⎟⎟
⎜⎜⎜ . ⎟⎟⎟
⎜⎝ ⎟⎠
r1k σ1 σk r2k σ2 σk . . . σk 2

17
Chapitre 2 • Échantillons multidimensionnels

Les variables sont dites décorrélées si la matrice de covariance est diagonale.


Comme la matrice de covariance est réelle et symétrique elle est diagonalisable. Il
est donc possible de trouver les valeurs propres λ(u) , u = 1 . . . k, de cette matrice ainsi
que des vecteur propres e(u) associés à chacune de ces valeurs propres. La matrice B
de changement de la base propre vers la base initiale est alors définie par Buv = e(u) v .
Dans la base propre la matrice de covariance est diagonale. On peut réécrire le vec-
teur xi dans la base propre :
yi = B−1 xi , (2.16)
ou encore :

k
y(u)
i = B−1 (v)
uv xi . (2.17)
v=1

Par une transformation linéaire, on définit ainsi k nouvelles variables y(u) . La matrice
de covariance de ces nouvelles variables est diagonale : les variables sont décorrélées
et la variance de y(u) est donnée par la valeur propre λ(u) . On dispose ainsi d’une
procédure de décorrélation de variables.
Sur l’exemple précédent des couples (Z, N) pour les noyaux stables, la matrice de
covariance vaut : ⎛ ⎞
⎜⎜⎜ 505,8 794,1 ⎟⎟⎟
Σ = ⎜⎜⎝ ⎟⎟⎠ . (2.18)
794,1 1259
Les valeurs propres et les vecteurs propres unitaires associés sont alors :

λ(1) = 1761,31 avec pour vecteur propre unitaire e(1) = (0,5345; 0,8451),
λ(2) = 3,48289 avec pour vecteur propre unitaire e(2) = (−0,8451; 0,5345).

Les matrices de changement de base sont alors :


⎛ ⎞ ⎛ ⎞
⎜⎜⎜ 0,5345 −0,8451 ⎟⎟⎟ ⎜ 0,5345 0,8451 ⎟⎟⎟
B = ⎜⎜⎝ ⎟⎟⎠ et B = ⎜⎜⎜⎜⎝
−1 ⎟⎟⎠ . (2.19)
0,8451 0,5345 −0,8451 0,5345

Soit finalement pour les deux variables décorrélées :

y(1) = 0,5345Z + 0,8451N,


(2.20)
y(2) = −0,8451Z + 0,5345N.

En choisissant des vecteurs propres unitaires et orthogonaux, la matrice de change-


ment de base est une matrice de rotation dans l’espace des variables. La décorrélation
de deux variables peut toujours s’interpréter comme une rotation dans l’espace des
variables visant à aligner la droite de régression sur l’axe des abscisses. En effet, pour
des variables décorrélées, r = 0 donc a = 0 et la droite de régression est horizontale.

18
2.3. Matrice de covariance et décorrélation de variables

Remarque
À partir de cette observation, on pourrait déduire l’angle de rotation θ de la pente de
la droite de régression :
σy
tan(−θ) = r . (2.21)
σx
En fait ceci n’est qu’une approximation car la droite de régression est obtenue en mi-
nimisant les écarts quadratiques dans une direction particulière. La droite de régres-
sion après rotation n’est donc pas la rotation de la droite de regression de l’échan-
tillon inital. On peut néanmoins déterminer l’angle de rotation itérativement : on
σy
applique une première rotation d’angle θ = − arctan r , puis on recommence la procé-
σx
dure sur le nouvel échantillon obtenu jusqu’à ce que l’angle de rotation correctif soit
suffisament petit.

La figure 2.3 montre la distribution (Z, N) avant et après décorrélation. On notera


que les variables décorrélées ne sont pas indépendantes l’une de l’autre. La décor-
rélation ne change pas la forme de la distribution mais seulement son orientation.
(cercles)

180

160
(2)

140
N (triangles), y

120

100

80

60

40

20

0 20 40 60 80 100 120 140 160 180


(1)
Z (triangles), y (cercles)
© Dunod. La photocopie non autorisée est un délit.

Figure 2.3 – Distribution des couples (Z, N) pour les noyaux stables, avant (triangles) et
après (cercles) décorrélation.

Remarque
Cette procédure de décorrélation est la base de l’analyse en composantes principales.
Les composantes principales sont les variables décorrélées. Les composantes princi-
pales correspondant aux valeurs propres (variances) les plus élevées sont celles qui
apportent le plus d’information sur la distribution. Lors d’une analyse en composante
principale on peut réduire la dimensionnalité d’un ensemble de variables en se limi-
tant aux composantes principales les plus grandes. Ainsi la distribution des (Z, N)
peut se réduire en première approximation à la variable y(1) .

19
I NCERTITUDES
DE MESURES
3
Nous faisons ici une pause dans l’étude des observables statistiques pour introduire
une notion plus liée aux sciences expérimentales qu’aux mathématiques : le calcul et
la propagation de l’incertitude de mesure.

3.1 L E CONCEPT D ’ INCERTITUDE


Considérons une expérience simple de mesure, par exemple la mesure de la longueur
d’un segment à l’aide d’une règle graduée. On effectue une mesure, on obtient une
valeur de la longueur l. La question fondamentale à se poser concerne la crédibilité
que l’on peut attribuer à ce résultat, c’est-à-dire estimer l’écart possible entre la valeur
« vraie » de la longueur et celle mesurée.
Dans la pratique on ne connait généralement pas la valeur vraie et on ne peut que
donner un intervalle de valeurs autour de la mesure qui contient probablement la
valeur vraie. C’est ce qu’on appelle la barre d’erreur ou incertitude. On se limitera
à considérer des incertitudes symétriques, c’est-à-dire que pour une observable l, la
vraie valeur se trouve vraisemblablement dans l’intervalle [l − Δl; l + Δl], que l’on
note l ± Δl. Δl est l’incertitude absolue sur l. C’est une grandeur réelle, positive et de
même dimension que l.
Estimer l’incertitude sur une mesure peut s’avérer délicat, les sources de déviation
entre mesure et valeur « vraie » pouvant être multiples.
Généralement, pour tout appareil de mesure, le constructeur fournit la résolution
ou la précision, c’est-à-dire l’incertitude sur la mesure en fonction de la valeur mesu-
rée.
Nous verrons par la suite comment on peut, dans certains cas particuliers, quanti-
fier la probabilité de trouver la vraie valeur dans l’intervalle l ± Δl.
© Dunod. La photocopie non autorisée est un délit.

3.2 L IEN AVEC L ’ ÉCART TYPE


Afin d’estimer l’incertitude de mesure, on répète un grand nombre de fois la me-
sure. On obtient un ensemble de mesures {li }, que l’on peut interpréter comme un
échantillon issu de la population (imaginaire) de toutes les mesures possibles. L’in-
certitude sur la mesure est une mesure de dispersion. On peut donc considérer que Δl
est proportionnel à l’écart type σl de l’échantillon si celui-ci est suffisamment grand :
Δl = ασl . Si la distribution obtenue peut être raisonnablement approximée par une
distribution normale (cf. chapitre 5) l’intervalle donné par Δl = σl donne environ

21
Chapitre 3 • Incertitudes de mesures

68 % de probabilité de trouver la valeur vraie dans l’intervalle. L’intervalle Δl = 2σl


correspond à 95 %. Ce sont les deux conventions les plus utilisées. Il est toujours
utile de préciser le nombre α de déviations standard (le nombre de sigma) retenu
pour définir l’incertitude.
L’incertitude de mesure résulte de la combinaison de multiples sources d’incerti-
tudes. Pour estimer l’effet de chacune de ces source il faut réaliser plusieurs fois la
mesure en fixant toutes les sources d’incertitudes sauf une : ce n’est pas forcement
réalisable dans la pratique mais on supposera que c’est le cas pour les besoins de l’ex-
posé. Les écarts types ainsi obtenus permettent d’estimer l’incertitude due à chaque
source. S’il n’y a pas de corrélation entre les sources, alors l’incertitude totale est
donnée par la somme quadratique des différentes incertitudes, en vertu de l’additivité
des variances : 
Δ2tot = Δ2s . (3.1)
sources

Remarque
Si deux sources d’incertitude sont entièrement corrélées, c’est-à-dire qu’une fluctua-
tion dans une direction d’une source induit systématiquement une fluctuation dans
la même direction pour l’autre, le coefficient de corrélation est alors r = 1 et :
Δ2tot = Δ2X + Δ2Y + 2ΔX ΔY = (ΔX + ΔY )2 ⇒ Δtot = ΔX + ΔY . (3.2)
Si deux sources d’incertitude sont entièrement anti-corrélées, c’est-à-dire qu’une fluc-
tuation dans une direction d’une source induit systématiquement une fluctuation
dans la direction opposée de l’autre, et donc que les incertitudes se compensent, le
coefficient de corrélation est alors r = −1 et :
Δ2tot = Δ2X + Δ2Y − 2ΔX ΔY = (ΔX − ΔY )2 ⇒ Δtot = |ΔX − ΔY |. (3.3)

Reprenons l’exemple de la règle graduée. Les sources d’incertitude pouvant af-


fecter la mesure sont par exemple : la qualité des graduations Δgrad , la lecture par
l’observateur Δobs , le positionnement de la règle Δ pos , etc.
Pour estimer séparément les contributions des trois sources d’incertitude, il faut
réaliser trois ensembles de mesures, dans des conditions différentes :
• utiliser toujours la même règle, positionnée une fois et lue par différents observa-
teurs : on obtient un ensemble de mesures {oi } sensibles uniquement à l’incertitude
d’observation Δobs = ασo .
• utiliser toujours la même règle, en la repositionnant à chaque fois et lue par un
unique observateur : mesures {pi } sensibles uniquement à l’incertitude de position-
nement : Δ pos = ασ p .
• utiliser des règles différentes (avec des caractéristiques similaires) lues par un
unique observateur : mesures {gi } sensibles à l’incertitude de graduation mais éga-
lement à celle de positionnement (on doit repositionner chaque nouvelle règle).
Ainsi Δ2grad + Δ2pos = α2 σ2g inclut les deux effets.

22
3.3. Propagation des incertitudes

Finalement l’erreur totale est :

Δ2tot = Δ2obs + Δ2pos + Δ2grad = α2 (σ2o + σ2g ). (3.4)

La valeur de Δtot ainsi obtenue est une estimation de l’incertitude sur une me-
sure unique. Puisqu’on a réalisé de nombreuses mesures pour arriver à ce résultat
on pourrait imaginer prendre la moyenne de toutes ces mesures comme résultat final.
L’incertitude sur cette valeur moyenne serait différente de Δtot . On verra au chapitre 8
que l’incertitude sur la moyenne est plus petite que l’incertitude sur une mesure indi-
viduelle.

3.3 P ROPAGATION DES INCERTITUDES


Souvent la grandeur étudiée n’est pas le résultat direct d’une ou de plusieurs mesures
x, y, . . . mais une fonction de ces mesures f (x, y, . . .). Une fois les incertitudes de
mesure Δx, Δy, . . . connues, même approximativement, on souhaite donner une in-
certitude Δ f sur le résultat final f (x, y, . . .). Cette incertitude va être une fonction des
mesures et de leurs incertitudes : Δ f = Δ f (x, Δx, y, Δy, . . .).

3.3.1 Formule de propagation


Regardons d’abord le cas d’une seule grandeur x = xm ± Δx. Si Δx est relativement
petit devant xm (ce qui est généralement le cas) on peut faire un développement en
série de Taylor autour de xm de f (xm − Δx) et f (xm + Δx).
 
d f  1 d2 f 
f (xm + Δx) = f (xm ) +  Δx +  Δx + O(Δx ),
2 3
dx  xm 2 dx2  xm
 (3.5)

d f  1 d2 f 
f (xm − Δx) = f (xm ) −  Δx +  Δx + O(Δx ).
2 3
dx  xm 2 dx2  xm
© Dunod. La photocopie non autorisée est un délit.

En faisant la différence, il vient :


   
1
Δ f =  f (xm + Δx) − f (xm − Δx) =   Δx.
df
(3.6)
2 dx

Remarque
Cette relation pouvait s’obtenir en se rappellant que, pour Δx petit, la définition de la
Δf df
dérivée donne ≈ . Néanmoins cette relation est une approximation au premier
Δx dx
ordre. La démonstration précédente montre qu’elle est correcte également au second
ordre.

23
Chapitre 3 • Incertitudes de mesures

Remarque
Si Δx est grand, les termes d’ordres supérieurs ne sont plus négligeables et doivent
être pris en compte. A l’ordre 4 on a :
 
 d f 1 d3 f 3 
Δ f =  Δx + Δ x . (3.7)
 dx 6 dx3 

Si f dépend maintenant de 2 grandeurs x = xm ± Δx et y = ym ± Δy, on peut


considérer qu’il y a deux composantes à l’incertitude sur f (x, y) : une incertitude
provenant de l’incertitude sur x (Δx f ) et une provenant de l’incertitude sur y (Δy f ).
En généralisant la formule (3.6) il vient :
  
 ∂ f  
Δx f =   Δx
 ∂x xm ,ym 
  
 ∂ f  
Δy f =   Δy
 ∂y xm ,ym 
(3.8)

Δ f 2 = Δx f 2 + Δy f 2 + 2rΔx f Δy f ,

où r est le coefficient de corrélation entre x et y. La formule générale de propagation


des incertitudes pour n variables est donc :
n  2  
 ∂f   ∂ f ∂ f 
Δf =
2
Δx2i +2 ri j  Δx Δx .
 ∂xi ∂x j  i j
(3.9)
i=1
∂xi i, j<i

Si les deux variables sont décorrélées, cette expression se réduit à :


n 
 2
∂f
Δf =2
Δx2i . (3.10)
i=1
∂xi

Remarque
On rencontre parfois la formule :

 n 
 
 ∂ f  Δx ,
n
Δf = Δxi f =  ∂xi  i (3.11)
i=1 i=1

qui correspond au cas de corrélation totale entre les variables. Cette formule donne
systématiquement une incertitude plus grande que la relation (3.10) et correspond
au cas le plus défavorable. Elle peut être utilisée en cas de doute sur de possibles
corrélations entre les sources d’incertitude : il est en effet généralement préférable
de surestimer l’incertitude que de la sous-estimer.

24
3.3. Propagation des incertitudes

3.3.2 Méthode de la dérivée logarithmique


Dans le cas particulier où f peut s’écrire comme le produit de deux fonctions in-
dépendantes, f (x, y) = g(x)h(y), une autre formule de propagation équivalente peut
s’obtenir en calculant la différentielle du logarithme de f ;
 
Δf
|d(log f )| =   ≈
df
, (3.12)
f f

log f (x, y) = log g(x) + log h(y), (3.13)


et donc :
   
 Δx f  =  Δg 
 f   g 
   
 Δy f   Δh 
 = 
f   h 
2  2 
f f
Δf = 2
+ = Δg + Δh
Δ2x f Δ2y f
g h
 2  2  2
Δf Δg Δh
= + . (3.14)
f g h

Δf
La grandeur est l’incertitude relative sur f . Elle est sans dimension et se donne
f
en pourcents. La relation (3.14) peut se retrouver à partir de la relation (3.10).

La formule (3.14) n’est valable que pour un produit ou un quotient de fonctions


indépendantes. Seule la relation (3.10) est valable dans tous les cas.

3.3.3 Incertitudes usuelles


Les formules classiques pour somme, différence, produit et quotient de variables dé-
© Dunod. La photocopie non autorisée est un délit.

corrélées sont :
• f (x, y) = x + y :
Δ f 2 = Δx2 + Δy2 ; (3.15)

• f (x, y) = x − y :
Δ f 2 = Δx2 + Δy2 ; (3.16)

• f (x, y) = x.y :
 2  2  2
Δf Δx Δy
= + ; (3.17)
f x y

25
Chapitre 3 • Incertitudes de mesures

• f (x, y) = x/y :
 2  2  2
Δf Δx Δy
= + ; (3.18)
f x y
• f (x) = xn :
Δf Δx
=n . (3.19)
f x
La démonstration de ces résultats découle naturellement de (3.10) et (3.14). Les deux
méthodes aboutissent aux mêmes résultats.

26
Partie I • Échantillons

Exercices

I.1 Histogramme 
On dispose de 50 mesures de la distance d’interaction, en cm, d’un photon γ de
662 keV dans du germanium.
3,088 3,544 5,014 0,386 1,448
1,749 1,398 2,255 4,084 0,673
4,085 0,625 4,899 0,615 4,029
1,906 2,094 1,726 0,388 6,589
0,782 3,807 1,552 1,955 2,434
3,683 1,617 1,811 0,989 4,388
1,706 0,969 0,524 2,206 2,955
6,445 0,81 0,98 6,407 2,01
2,431 0,748 0,041 1,019 1,709
1,418 1,535 2,068 1,18 1,064

1. Calculez la moyenne et l’écart type de l’échantillon.


2. Déterminez le coefficient d’asymétrie et le kurtosis.
3. D’après vos résultats, quelle forme attend-on pour l’histogramme ?
4. Construisez la table de fréquences et l’histogramme avec des classes de 0,3 cm,
1,2 cm et 3 cm de large.
5. Calculez la moyenne et l’écart type à partir des tables de fréquences, avec et sans
corrections de Sheppard (pour l’écart type).
6. Calculez la médiane et le mode pour l’échantillon et pour l’histogramme de classes
1,2 cm.
© Dunod. La photocopie non autorisée est un délit.

I.2 Optimisation de la largeur des classes 


On considère les mêmes données que dans l’exercice I.1.
On va tenter de déterminer la meilleure largeur de classe.
On note m et σ la moyenne et l’écart type de l’échantillon et mδ et σδ la moyenne
et l’écart type estimés avec la table de fréquence pour des classes de largeur δ. Pour
chaque classe, on construit la grandeur suivante :
|m − mδ | + |σ − σδ |
K(δ) = .
δ

27
Exercices

1. Que représente cette grandeur ?


2. Quelle critère peut-on imaginer pour choisir la largeur des classes ?
3. Construisez les tables de fréquence pour δ = 0,6 ; 1,2 ; 1,8 ; 2,4 ; 3 et 4,2 cm.
4. Faites le calcul pour les différentes tables de fréquence et tracez la courbe K(δ).
5. Concluez.

I.3 Propagation d’incertitude 


Déterminez l’incertitude sur les grandeurs suivantes. Vous supposerez que tous les
paramètres sont entachés d’une incertitude, à l’exception des constantes fondamen-
tales.
1. U = RI en fonction de I, ΔI, R et ΔR (loi d’Ohm).
c
2. E = (relation de de Broglie, reliant énergie et longueur d’onde).
λ

m
3. T = 2π (période d’oscillation d’un système masse-ressort).
k
mv
4. p =  (impulsion relativiste).
1 − cv2
2

 
Vf
5. W = −nRT ln (travail de la force de pression, gaz parfait en détente iso-
Vi
therme).
 
n1
6. θ2 = arcsin sin θ1 (angle diffracté, loi de Snell-Descartes)
n2
2(ρ s − ρl )gR2
7. v = (loi de Stokes : vitesse limite d’une bille de densité ρ s de rayon R

dans un fluide de viscosité η et de densité ρl ).

I.4 Régression linéaire 


Lors d’une séance de travaux pratiques, les étudiants doivent mesurer la valeur d’une
résistance. Pour mesurer la valeur de la résistance, chaque étudiant dispose d’un volt-
mètre, d’un ampèremètre et d’un générateur de tension variable. Chacun mesure le
courant et la tension pour cinq réglages différents du générateur. Un étudiant a obtenu
les résultats suivants :
mesure (U en V,I en mA) : (0,204 ; 1,05), (1,23 ; 2,72),
(2,04 ; 5,02), (3,48 ; 6,59), (4,83 ; 10,9).

28
Partie I • Échantillons

G R V

1. Déterminez les coefficients de la droite de régression U = aI + b. En déduire la


valeur de R.
2. Refaites le calcul de la régression linéaire en forçant b = 0.
3. Quel résultat obtiendrait-on en ajustant I = a U + b ?

I.5 Incertitudes de mesure   


À la fin de la séance de TP de l’exercice précédent, on regroupe les mesures des
10 étudiants qui ont travaillé avec la même résistance. L’histogramme des U/I pour
les mesures de tous les étudiants est donné sur la figure suivante :

22
20
18
16
14
12
© Dunod. La photocopie non autorisée est un délit.

10
8
6
4
2
0
0.2 0.3 0.4 0.5 0.6 0.7 0.8
R=U/I (kΩ)

Les valeurs des paramètres de régression linéaire de chaque étudiant sont regroupées
dans la table suivante :

29
Exercices

étudiant 1 2 3 4 5
a 0,475 0,385 0,486 0,472 0,497
b –0,138 0,589 –0,144 –0,185 0,076
étudiant 6 7 8 9 10
a 0,443 0,490 0,393 0,514 0,429
b –0,127 0,047 0,562 0,036 0,199

1. Estimez l’incertitude sur une mesure de R à partir de l’histogramme.


2. Estimez l’incertitude sur les coefficients a et b. En déduire une erreur sur R.
3. La valeur de b trouvée par le premier groupe est-elle compatible avec la loi
d’Ohm ?
4. Attend-on une corrélation entre a et b ? Calculez la valeur du coefficient de corré-
lation.
5. Construisez deux variables a et b à partir de a et b, décorrélées. Quel est l’écart
type de chacune de ces deux grandeurs ?

30
Partie II

Probabilités
UN PEU DE THÉORIE
DES PROBABILITÉS
4
Au chapitre précédent la notion d’incertitude a été introduite comme un intervalle
contenant probablement la valeur vraie de la grandeur mesurée. Nous allons mainte-
nant expliquer et tenter de quantifier ce probablement.

4.1 D ÉFINITIONS DE LA PROBABILITÉ


Il existe plusieurs définitions de la probabilité d’un événement. Toutes amènent à la
même théorie mathématique mais peuvent avoir des interprétations très différentes
lors de l’application de cette théorie à des problèmes statistiques complexes qui dé-
passent largement le cadre de ce cours.
La première, dite approche fréquentiste (Fisher, Neymann, Kolmogorov) repose
sur la loi des grands nombres et définit la probabilité d’un événement comme sa
fréquence d’occurrence ou de répétition. Supposons que l’on effectue N fois une
expérience, la probabilité de l’hypothèse H est donnée par la limite :
nH
lim , (4.1)
N→∞ N

où nH est le nombre de résultats satisfaisant H.


La seconde approche, dite bayesienne, repose sur une interprétation du théorème
de Bayes qui sera discuté au 4.2.3. La probabilité d’une hypothèse est définie comme
sa crédibilité ou son degré de confiance. La probabilité quantifie « à quel point on
peut croire que l’hypothèse est vraie ». C’est la définition que nous avons utilisée
pour l’incertitude.
Dans les deux cas, il est impossible de calculer directement la probabilité. Dans
la pratique on considère toujours qu’il existe des événements élémentaires, souvent
équiprobables, dont la probabilité est définie par des considérations pratiques (par
© Dunod. La photocopie non autorisée est un délit.

exemple, la probabilité de tomber sur une face donnée d’un dé équilibré à 6 faces
1
est par symétrie). Les probabilités d’événements plus complexes découlent de pro-
6
priétés combinatoires (dénombrement).
Le défaut majeur de l’approche bayesienne est sa subjectivité. La probabilité tient
compte des a priori (peut-être faux) que l’expérimentateur a sur la réalisation d’un
événement. Si ces connaissances sont erronées, il y a un risque de biaiser (fortement)
les conclusions tirées de l’analyse. Elle a néanmoins le mérite de forcer l’expéri-
mentateur à expliciter et justifier ces a priori. Cette approche permet par ailleur de
quantifier la probabilité d’événements rares (par exemple, la probabilité qu’il neige

33
Chapitre 4 • Un peu de théorie des probabilités

le 14 mars 2713) qui n’ont pas de sens en approche fréquentiste (il ne peut pas y
avoir de fréquence de répétition du 14 mars 2713, puisqu’il s’agit d’un événement
unique !). La notion de test d’hypothèse (l’hypothèse A est-elle vraie ou fausse ?)
n’est de même réellement définie que dans l’approche bayesienne.
On peut aussi noter que la probabilité fréquentiste est définie comme la limite
d’un processus aléatoire, dont on ne peut pas prouver la convergence. Les mérites
comparés des approches bayesienne et fréquentiste sont encore aujourd’hui l’objet
de discussions (parfois houleuses) entre spécialistes.

4.2 F ONCTION DE PROBABILITÉ


4.2.1 Univers, événement et probabilité
Une expérience (ou processus) aléatoire est une expérience susceptible de donner des
résultats différents et imprévisibles à l’avance si elle est répétée dans des conditions
identiques.
Pour chaque expérience aléatoire on peut définir l’univers des possibles, c’est-à-
dire l’ensemble Ω des résultats possibles de l’expérience.
Remarque
L’univers dépend à la fois de l’expérience et de ce qui est définit comme résultat.
Pour une même expérience, plusieurs résultats peuvent-être considérés.

Exemple
Expérience : lancer 2 dés
Résultat : couples (dé 1, dé 2) → Ω = {(1, 1), (1, 2), ..., (6, 6)}
Résultat : somme des deux dés → Ω = {2, 3, ..., 12}

Un événement est une proposition logique portant sur le résultat de l’expérience.


Un événement ne peut prendre que deux valeurs : vrai ou faux.

Exemple
Expérience : lancer 2 dés, résultat : somme des deux dés ;
« Somme des 2 dés < 8 » est un événement.

Un événement A sépare l’univers en deux sous-ensembles notés A et Ā qui


contiennent l’ensemble des éléments de Ω pour lesquels A est vrai (A) ou faux (Ā).
On identifie l’événement A à l’ensemble A. L’ensemble des événements est donc
l’ensemble des sous-ensembles de Ω.
Dans cette représentation ensembliste, l’événement A ou B qui est vrai si au moins
un des deux événements est vrai correspond à l’ensemble A ∪ B. De même A et B

34
4.2. Fonction de probabilité

correspond à A ∩ B. Par abus de langage on confondra généralement les différentes


notations A ↔ A ainsi que ou ↔ ∪ et et ↔ ∩.
La probabilité d’un événement A est une mesure P sur l’ensemble des événements
telle que :
• 0 ≤ P(A) ≤ 1,
• P(Ω) = 1,
• P(A ∪ B) = P(A) + P(B) si A ∩ B = ∅.
La fréquence d’occurrence d’un événement dans un ensemble fini satisfait à cette
définition (approche fréquentiste de la probabilité).
La seconde propriété traduit le fait qu’un événement toujours vrai a une probabilité
égale à l’unité. La dernière propriété traduit l’additivité des probabilités sous réserve
du non-recouvrement des ensembles. On parle alors d’événements incompatibles
c’est-à-dire qu’ils ne peuvent pas être vrais en même temps.
On a ainsi :
P(A ou B) = P(A ∪ B) = P(A) + P(B) si A et B sont incompatibles. (4.2)
De même on aura :
P(A et B) = P(A ∩ B) = P(A) × P(B) si A et B sont indépendants. (4.3)
La notion d’indépendance sera définie au paragraphe 4.2.3.

4.2.2 Propriétés
À partir de la définition précédentes on démontre sans difficultés que :
• P(∅) = 0,
• P(Ā) = 1 − P(A). Ā est la négation de l’événement A,
• P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
La figure 4.1 illustre les événements A, Ā, A et B, A ou B. La probabilité de chaque
événement correspond à la surface de l’événement divisée par celle de l’univers.
© Dunod. La photocopie non autorisée est un délit.

Un système complet est un ensemble d’événements {Ai }i=1...n qui forment une
partition de l’univers sans recouvrement :

n
Ai = Ω et Ai ∩ A j = ∅ pour i  j. (4.4)
i=1

Pour un système complet d’événements {Ai }i=1...n :



n
P(B) = P(Ai ∩ B). (4.5)
i=1

35
Chapitre 4 • Un peu de théorie des probabilités

Ω Ω Ω
A A
A
A ou B A et B
A
B B

Figure 4.1– Illustration d’événements par des ensembles (diagrammes de Venn). La


probabilité de chaque événement est représentée par la surface S de l’ensemble
correspondant avec S(Ω) = 1.

4.2.3 Probabilités conditionnelles et théorème de Bayes


Si un événement B est vrai, on peut restreindre l’univers au sous-ensemble associé.
On définit alors une nouvelle fonction de probabilité sur cet univers Ω que l’on note
P(A|B), « probabilité de A sachant B ». C’est une probabilité conditionnelle. Elle est
définie par :
P(A ∩ B)
P(A|B) = . (4.6)
P(B)
Cette fonction vérifie bien la définition d’une probabilité :
• 0 ≤ P(A|B) ≤ 1,
P(B)
• P(Ω |B) = = 1,
P(B)
• P(A1 ∪ A2 |B) = P (A1 |B) + P (A2 |B) si A1 ∩ A2 = ∅.
La probabilité conditionnelle P(A|B) est la probabilité de A dans un univers restreint
Ω = B. La figure 4.2 illustre la probabilité conditionnelle en terme d’ensembles.

Ω
Ω’=B
A

B
A et B A|B
Figure 4.2 – Probabilité conditionnelle en terme d’ensembles : on retrouve
Surf (A|B) Surf (Ω) Surf (A ∩ B) P(A ∩ B)
graphiquement la définition P(A|B) = = = .
Surf (Ω ) Surf (B) Surf (Ω) P(B)

On déduit de cette définition que :

P(A ∩ B) = P(A|B) × P(B). (4.7)

36
4.3. Combinatoire

Deux événements A et B sont dits indépendants si la probabilité de A est la même


quel que soit le résultat de B, soit P(A|B) = P(A). Ainsi pour deux événements indé-
pendants :
P(A ∩ B) = P(A)P(B). (4.8)
La symétrie de P(A ∩ B) par rapport à A et B induit :

P(A ∩ B) = P(A|B)P(B) = P(B ∩ A) = P(B|A)P(A), (4.9)

d’où on déduit le théorème de Bayes :

P(A|B)P(B)
P(B|A) = . (4.10)
P(A)

Si on dispose d’un système complet d’événements {Bi}, on peut écrire :


 
P(A) = P(A ∩ Bi ) = P(A|Bi)P(Bi ), (4.11)
i i

soit :
P(A|Bi )P(Bi)
P(Bi |A) =  . (4.12)
i P(A|Bi )P(Bi )
Le théorème de Bayes permet de relier les probabilités conditionnelles P(A|B) et
P(B|A).

Remarque
En statistique bayesienne, il est utilisé pour déterminer la probabilité P(H|d) d’une
hypothèse H au vu de données mesurées d (c’est-à-dire pour tester la validité de
cette hypothèse compte tenu de résultats expérimentaux), à partir de la probabilité
P(d|H) d’observer ces données dans le contexte de cette hypothèse (qui découle de la
comparaison des données d à ce que prévoit l’hypothèse H).

4.3 C OMBINATOIRE
© Dunod. La photocopie non autorisée est un délit.

Les premiers développements de la théorie des probabilités sont venus de problèmes


de dénombrement et de combinatoire, principalement en lien avec les jeux de hasard.
On considère un univers Ω fini. Pour tout événement A, associé à un sous-ensemble
A de Ω, la fonction :
card(A)
p : A → p(A) = , (4.13)
card(Ω)
satisfait à la définition d’une probabilité. Le calcul de la probabilité de A est donc
ramené à un problème de dénombrement : dans combien de cas A est-il vrai (card(A))
relativement au nombre total de cas possibles (card(Ω)) ?

37
Chapitre 4 • Un peu de théorie des probabilités

Un événement élémentaire est un événement vrai pour un unique élément de


Ω (par exemple, tirer au hasard un objet dans l’ensemble Ω). Tous les événements
élémentaires sont équiprobables :
card(A) 1
p(A) = = pour un événement élémentaire. (4.14)
card(Ω) card(Ω)
La combinatoire permet alors de définir et dénombrer des combinaisons d’événe-
ments élémentaires. On peut citer quatre cas principaux :
• Tirage avec remise de k objets dans un ensemble de taille n, en tenant compte
de l’ordre : Il existe n possibilités pour le premier choix, n possibilités pour le
second, etc. Le nombre total de configurations est donc :
N(n, k) = n × n × · · · × n = nk (4.15)

• Tirage avec remise de k objets dans un ensemble de taille n, sans tenir compte
de l’ordre : on considère que toutes les permutations possibles d’une configuration
du cas précédent sont identiques. Le nombre total de configurations est donc divisé
par le nombre de permutations possibles de k éléments qui vaut k!, soit :
nk
N(n, k) = (4.16)
k!
• Tirage sans remise de k objets dans un ensemble de taille n, en tenant compte
de l’ordre. Ce cas correspond au nombre d’arrangements de k objets parmi n,
Akn : il y a n possibilités pour le premier, n−1 pour le second et finalement (n−k+1)
pour le k-ième, soit au total :
n!
N(n, k) = Akn = n × (n − 1) × · · · × (n − k + 1) = (4.17)
(n − k)!
• Tirage sans remise de k objets dans un ensemble de taille n, sans tenir compte
de l’ordre. On parle alors du nombre de combinaisons de k objets parmi n, Ckn .
Comme dans le second cas, il faut diviser le nombre d’arrangements par le nombre
de permutations possibles de k éléments, soit :
Akn n!
N(n, k) = Ckn = = (4.18)
k! k!(n − k)!
 
n
Les Ckn (parfois notés ) sont les coefficients binomiaux car ils apparaissent dans
k
le développement de (1 + x)n :

n
(1 + x) =
n
Ckn xk (4.19)
k=0

38
4.3. Combinatoire

Ils vérifient en outre la relation suivante (triangle de Pascal) :

Ckn = Ck−1
n−1 + Cn−1
k
(4.20)

Dans ces quatre situations, chaque configuration a pour probabilité 1/N(n, k). On peut
également combiner plusieurs séries de tirages indépendants. Le nombre de configu-
rations pour prendre k1 événements parmi n1 et k2 parmi n2 est ainsi :

N(n1 , k1 , n2 , k2 ) = N(n1 , k1 ) × N(n2 , k2 ). (4.21)

Exemple
Application au calcul de probabilité :
On considère un sac contenant 3 boules rouges et 2 vertes. On tire 2 boules et on
cherche la probabilité de tirer une rouge et une verte (sans ordre) :
Le nombre de combinaisons aboutissant à une rouge et une verte est :

nrv = C12 × C13 = 6.

Le nombre total de combinaisons de 2 boules parmi les 5 vaut :

ntot = card(Ω) = C25 = 10.

La probabilité est donc : p = nrv /ntot = C12 × C13 /C25 = 0,6.


On pouvait aboutir à ce résultat à partir des probabilités conditionnelles :

P(rouge et vert) = P(rouge puis vert) + P(vert puis rouge)


= P(rouge) × P(vert|rouge) + P(vert) × P(rouge|vert)
2 3 3 2 (4.22)
= × + ×
5 4 5 4
= 0,6

La probabilité de tirer k1 parmi n1 , . . ., kr parmi nr dans un ensemble de N événe-


ments est finalement :
 ki  
© Dunod. La photocopie non autorisée est un délit.

i Ani
p(n1 , k1 , . . . , nr , kr ) = , avec K = ki , N = ni (tirages avec ordre),
AKN i i
(4.23)
et :  ki
i Cni
p(n1 , k1 , . . . , nr , kr ) = (tirages sans ordre). (4.24)
CKN
Le passage d’un univers fini à un univers dénombrable ne pose pas de problème
particulier. En revanche, le passage à un univers non dénombrable comme un en-
semble de points dans le plan (droite, cercle) est plus délicat.

39
Chapitre 4 • Un peu de théorie des probabilités

Considérons l’exemple simple d’un cercle de rayon √ 1. On√ s’intéresse à la proba-


bilité de trouver une corde du cercle de longueur l > 3 ( 3 étant la longueur du
coté d’un triangle équilatéral inscrit dans le cercle). On peut proposer au moins trois
réponses à ce problème, qui sont illustrées sur la figure 4.3 :
• On fixe un point sur le cercle. Une corde est
√ alors définie en tirant aléatoirement un
autre point sur le cercle. Dans ce cas l > 3 dans 1/3 des cas (rapport des longueur
d’arc). Par symétrie de rotation on aboutit à p = 1/3.
• Une corde quelconque peut être définie par un point sur un rayon du cercle en
prenant le segment normal au rayon passant √par ce point. Pour un rayon donné la
moitié des cordes ainsi définie vérifie l > 3. Par symétrie de rotation il vient
p = 1/2.
• Une corde est définie de manière unique par son centre. En choisissant au hasard un
point √
dans le cercle, on définit aléatoirement une corde. La corde est de longueur
l > 3 si le point choisi est dans le cercle inscrit au triangle équilatéral, soit
p = 1/4 (rapport des surfaces des cercles inscrit et circonscrit au triangle).

a : point sur le cercle b : point sur un rayon c : point dans le disque

Figure 4.3 – Illustration du paradoxe de Bertrand : (a) corde définie par deux points sur
le cercle, (b) corde définie par un point et un rayon, (c) corde définie par son centre.

Ce résultat est connu sous le nom de paradoxe de Bertrand. Aucun de ces résultats
n’est faux. Chacun résulte d’un choix différent des événements élémentaires équi-
probables. Il existe plusieurs solutions car le problème ne définit pas précisément
ce qu’est le tirage aléatoire d’une corde. Ceci illustre la difficulté de généraliser les
concepts de combinatoire à un ensemble indénombrable.

40
V ARIABLES
ALÉATOIRES
5
Le passage à un univers non dénombrable nécessite l’introduction d’un formalisme
plus général de la théorie des probabilités que celui que nous avons vu jusqu’à pré-
sent. En particulier, le choix des événements élémentaires équiprobables qui n’est pas
unique va céder la place au concept de densité de probabilité.

5.1 F ONCTION DE RÉPARTITION ET DENSITÉ


DE PROBABILITÉ
On appelle variable aléatoire X le résultat numérique d’un processus aléatoire. On
note X (majuscule) la variable aléatoire et x (minuscule) une réalisation de la variable.
On s’intéressera donc à la probabilité d’événements du type X = x, X < x, . . . On
distinguera :
• les variables aléatoires discrètes (par exemple entières), où l’univers est un en-
semble fini ou dénombrable.
• les variables aléatoires continues (généralement à valeurs dans R), où l’univers
est indénombrable.
Pour une variable aléatoire discrète N, définie sur un ensemble Ω = {ni }i=1...∞ . Les
événements du type N = ni forment un système complet. La loi de probabilité de N
est la fonction :
p(n) = P(N = n), (5.1)
et : 
p(ni ) = 1. (5.2)
i

Si on ordonne les éléments de Ω, n1 < n2 < · · · < nk . . . , la fonction de répartition


© Dunod. La photocopie non autorisée est un délit.

F(n) de N est : 
F(n) = P(N < n) = p(ni ). (5.3)
ni <n

Par construction :

lim F(n) = P(∅) = 0 et lim F(n) = P(Ω) = 1. (5.4)


n→−∞ n→+∞

Pour une variable aléatoire continue, la probabilité d’obtenir un résultat précis


X = x est strictement nulle. En revanche, on peut toujours définir une fonction de

41
Chapitre 5 • Variables aléatoires

répartition F(x) = P(X < x). On pose alors :


 a
dF
F(a) = f (x)dx ⇒ f (x) = . (5.5)
−∞ dx

La fonction f (x) s’appelle la densité de probabilité de X. f (x)dx est la probabilité de


trouver X dans un intervalle infinitésimal de largeur dx autour de x :

f (x)dx = dF = P(X < x + dx) − P(X < x) = P(x < X < x + dx). (5.6)

La densité de probabilité remplace la loi de probabilité pour une variable continue.


On dira que la variable aléatoire X est distribuée selon f , ou encore, que X suit la
densité f . La probabilité de trouver X dans un intervalle [a, b] est alors :
 b  +∞
P(a ≤ X ≤ b) = f (x)dx d’où f (x)dx = P(Ω) = 1. (5.7)
a −∞

Remarque
Comme P(X = a) = P(X = b) = 0, l’inclusion ou non des bornes de l’intervalle ne modifie
pas le résultat :

P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b). (5.8)

Pour une variable discrète de loi p(n), on peut également définir une densité de
probabilité en utilisant un « peigne de Dirac », la probabilité n’étant non-nulle que
pour une quantité dénombrable de valeurs :

f (x) = p(n)δ(x − n). (5.9)
n∈Ω

La figure 5.1 illustre un exemple de densités de probabilité et de fonctions de


répartition dans les cas discret et continu.
variable discrète N variable continue X
0.5 1 1
0.7

0.4 p(n) 0.8 F(n) 0.6


f(x) 0.8 F(x)
0.5
0.3 0.6 0.6
0.4

0.2 0.4 0.3 0.4

0.2
0.1 0.2 0.2
0.1

0 0 0 0
0 0.5 1 1.5 2 2.5 3 3.5 4 0 0.5 1 1.5 2 2.5 3 3.5 4 0 0.5 1 1.5 2 2.5 3 3.5 4 0 0.5 1 1.5 2 2.5 3 3.5 4
n n x x

Figure 5.1– Densité de probabilité et fonction de répartition pour une variable


aléatoire discrète (à gauche) et continue (à droite).

42
5.2. Changement de variable

5.2 C HANGEMENT DE VARIABLE


Soit X une variable aléatoire réelle suivant une densité de probabilité f (x). On définit
une nouvelle variable aléatoire Y = ϕ(X), où ϕ est une fonction réelle dérivable. Pour
déterminer la densité de probabilité g(y) de Y, on suppose dans un premier temps
que ϕ(x) est bijective. Les fonctions de répartition de X et Y sont notées F(x) et G(y)
respectivement. Il y a alors 2 cas :
• Si ϕ est croissante, X < x ⇔ ϕ(X) < ϕ(x), soit :

P(X < x) = F(x) = P(Y < y) = G(y) = G(ϕ(x)), (5.10)

d’où
d f (x) dy
g(y) = F(x) = , avec ϕ (x) = > 0. (5.11)
dy ϕ (x) dx
• Si ϕ est décroissante, X < x ⇔ ϕ(X) > ϕ(x), soit :

P(X < x) = F(x) = P(Y > y) = 1 − P(Y < y) = 1 − G(y) = 1 − G(ϕ(x)), (5.12)

d’où
d f (x) dy
g(y) = − F(x) =
, avec ϕ (x) = < 0. (5.13)
dy −ϕ (x) dx
Finalement, la densité de probabilité g(y) de Y est alors donnée par :

f (x) f ϕ−1 (y)
g(y) = =   . (5.14)
|ϕ (x)| |ϕ ϕ−1 (y) |

Exemple
Pour X distribuée selon une loi exponentielle : f (x) = e−x alors, Y = 1/X est distribuée
selon :
e−x e−1/y
g(y) = = 2 . (5.15)
1/x2 y
1
© Dunod. La photocopie non autorisée est un délit.

0.8 f(x)

0.6 g(y)=g(1/x)

0.4

0.2

0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x ou y

Figure 5.2 – Exemple de changement de variable pour une loi exponentielle.

43
Chapitre 5 • Variables aléatoires

Si ϕ(x) n’est pas bijective, on peut la découper en plusieurs fonctions bijectives ϕi


définie sur des intervalles successifs de l’ensemble de définition de X. La densité de
probabilité de Y devient alors :

 f (x)  f ϕ−1 i (y)
g(y) = =  . (5.16)
i
|ϕ i (x)| −1
i |ϕ ϕ (y) |
i i

5.3 M ESURES DE FORME


Les mesures de position et de dispersion définies pour un échantillon au chapitre 1
peuvent aussi être définies pour une densité de probabilité.
Dans le cas où la densité est associée à la population dont est issu l’échantillon, on
verra au chapitre 7 que les grandeurs définies pour l’échantillon permettent d’estimer
celles de la population.

5.3.1 Espérance mathématique et moments d’une variable


aléatoire
L’espérance mathématique ou moyenne d’une fonction g(x) d’une variable aléa-
toire distribuée selon f (x) est notée E[g(X)] et vaut :
 +∞
E[g(X)] = g(x) f (x)dx. (5.17)
−∞

C’est la somme (intégrale) des valeurs de g(x) pondérées par la probabilité de trouver
X dans un intervalle infinitésimal autour de x.
Le moment d’ordre n, μn de la variable aléatoire est l’espérance de xn , soit :
 +∞
μn = E[x ] =
n
xn f (x)dx. (5.18)
−∞

Pour une distribution discrète cette formule se réduit à :


 +∞  +∞  
μn = x f (x)dx =
n
xn p(k)δ(x − k) = kn p(k). (5.19)
−∞ −∞ k∈Ω k∈Ω

5.3.2 Moyenne et mesures de position



Le moment d’ordre 1, μ1 = x f (x)dx est la moyenne de X.
On peut considérer un échantillon {xi }i=1...N (chapitre 1) comme une distribution
discrète où toutes les valeurs de l’échantillon sont équiprobables. Dans ce cas, la loi

44
5.3. Mesures de forme

1
de probabilité de l’échantillon est : p(xi ) = . Le moment d’ordre 1 s’écrit alors :
N


N
1 
N
μ1 = xi p(xi ) = xi . (5.20)
i=1
N i=1

On retrouve évidemment la moyenne de l’échantillon définie précédemment. Comme


pour un échantillon la moyenne représente une mesure de la localisation de la densité
de probabilité.
Les autres mesures de position définies pour un échantillon se généralisent égale-
ment à une variable aléatoire continue.
• la médiane est la grandeur med(X) telle que :

 med(X)  +∞
1
f (x)dx = f (x)dx = ; (5.21)
−∞ med(X) 2

• le mode correspond à la valeur la plus probable, soit au maximum de la densité de


probabilité.

5.3.3 Variance et mesure de dispersion


La variable X = X − μ1 est une variable centrée. Les moments centrés μ n de X sont
les moments de X . Par construction le moment centré d’ordre 1 (moyenne) est nul.
Le moment centré d’ordre 2 est la variance de X :
 +∞
v = σ2 = μ 2 = (x − μ1 )2 f (x)dx. (5.22)
−∞
© Dunod. La photocopie non autorisée est un délit.

Pour un échantillon on retrouve la définition de la variance du chapitre 1. Le théorème


de Koenig se démontre de la même manière :

σ2 = E[x2 ] − E[x]2 = μ2 − μ21 . (5.23)



L’écart type σ = v est une mesure de la dispersion de X autour de la valeur
moyenne.
Pour une variable aléatoire X de densité f (x), la probabilité de trouver X dans
l’intervalle [μ1 − a, μ1 + a] peut être minorée. On note Δ =]− ∞, μ1 − a[∪]μ1 + a, +∞].

45
Chapitre 5 • Variables aléatoires

Pour x dans Δ, on a :
 x − μ 2  x − μ 2
1 1
>1⇒ f (x) > f (x)
a a
  
x − μ1 2
⇒ f (x)dx > f (x)dx
Δ a Δ
 +∞  
x − μ1 2
⇒ f (x)dx > f (x)dx
−∞ a Δ

σ2
⇒ > P(|X − μ1 | > a). (5.24)
a2

On en déduit alors l’inégalité de Bienaymé-Tchebychev :

σ2
P(|X − μ1 | < a) > 1 − . (5.25)
a2

Dans le cadre d’une mesure physique, la moyenne (mesure de position) est une es-
timation de la grandeur mesurée, l’écart type (mesure de dispersion) donne une in-
dication de l’incertitude. On peut commencer à quantifier l’incertitude grâce à l’in-
égalité de Bienaymé-Tchebychev. Elle n’apporte aucune contrainte sur l’intervalle
[μ1 − σ, μ1 + σ], qui est pourtant la définition usuelle de la barre d’erreur. On verra
que, pour des distributions particulières, cet intervalle a néanmoins une probabilité
élevée de contenir la valeur vraie. En revanche si on ne dispose d’aucune information
sur la densité de probabilité associée à la mesure, l’intervalle [μ1 − 2σ, μ1 + 2σ] (soit
Δx = 2σ) a une probabilité d’au moins 75 %. C’est pourquoi la convention Δx = 2σ
est parfois utilisée pour définir la barre d’erreur.

5.3.4 Moments d’ordres supérieurs


X X − μ1
La variable X = = est une variable centrée réduite. Les moments
σ σ
centrés réduits μn de X sont les moments de X . Par définition μ

1 = 0 et μ2 = 1. Le
coefficient d’asymétrie β1 et le kurtosis γ2 sont définis par :
   
x − μ1 3 x − μ1 4
β1 = μ =E
et γ2 = μ4 − 3 = E − 3. (5.26)
3
σ σ

Pour un échantillon on retrouve encore les résultats du chapitre 1. Ces coefficients


décrivent des déformations par rapport à la distribution de Gauss.

46
5.3. Mesures de forme

Le théorème de Koenig sur la variance se généralise pour exprimer les moments


centrés en fonction des moments d’une variable aléatoire :


μn = (x − μ1 )n f (x)dx
 
n
= Ckn xk (−μ1 )n−k f (x)dx
k=0

n 
= Ckn (−μ1 )n−k xk f (x)dx (5.27)
k=0

n
= Ckn (−μ1 )n−k μk
k=0

n
= C0n (−μ1 )n μ0 + C1n (−μ1 )n−1 μ1 + Ckn (−μ1 )n−k μk ,
k=2

soit finalement :

n
μ n = (−1)n (1 − n)μn1 + Ckn (−μ1 )n−k μk . (5.28)
k=2

De même pour les moments centrés réduits :


⎛ ⎞n
 ⎜⎜⎜ ⎟  n/2
⎜⎜⎜ x − μ1 ⎟⎟⎟⎟⎟ 1
μn = ⎜⎜⎜⎜  ⎟⎟⎟⎟ f (x)dx = μ n , (5.29)
⎝ μ ⎠ μ2
2

soit :
 n/2 ⎛⎜ 
n

⎟⎟⎟
1 ⎜⎜⎜
μ
n = ⎜⎜⎝(−1)n (1 − n)μn1 + Ckn (−μ1 )n−k μk ⎟⎟⎟⎠ . (5.30)
μ 2 k=2
© Dunod. La photocopie non autorisée est un délit.

Le calcul du coefficient d’asymétrie et du kurtosis se fera généralement à l’aide des


ces formules, en passant par celui des moments d’ordre 1 à 4. Dans ces cas particu-
liers, il vient :
 3/2 
1
β1 = μ3 = μ3 − 3μ1 μ2 + 2μ31 , (5.31)
μ2
et
 2 
1
γ2 = μ −3= μ4 − 4μ1 μ3 + 6μ21 μ2 − 3μ41 − 3. (5.32)
4
μ2

47
Chapitre 5 • Variables aléatoires

5.3.5 Fonction caractéristique


La fonction caractéristique ϕ(t) est l’espérance de eitx . Elle correspond à la trans-
formée de Fourier inverse de la densité de probabilité :

!  +∞   x 
−1
ϕ(t) = E e itx
= e f (x)dx = T F
itx
f (5.33)
−∞ 2π

et
 +∞
1
f (x) = e−itx ϕ(t)dt. (5.34)
2π −∞

En utilisant le développement en série de l’exponentielle, il vient :

 +∞ 
+∞  (it)k +∞  +∞ 
+∞
(itx)k (it)k
ϕ(t) = f (x)dx = xk f (x)dx = μk . (5.35)
−∞ k=0
k! k=0
k! −∞ k=0
k!

En identifiant avec le développement en série de Taylor de ϕ(t) autour de 0 :



 t dk ϕ 
+∞ k
ϕ(t) =  , (5.36)
k=0
k! dtk t=0

on obtient alors pour les moments :



dk ϕ 
μk = (−i) k
 . (5.37)
dtk t=0

La fonction caractéristique est la fonction génératrice des moments. Elle offre un


moyen pratique de calculer les moments d’une densité de probabilité. Elle est aussi
très utilisée pour la démonstration de théorèmes sur les distributions.
La densité de probabilité, via la fonction caractéristique, est entièrement définie
par ses moments, ce qui justifie a posteriori l’utilisation des 4 premiers moments
pour décrire la forme d’une distribution : moyenne, écart type, asymétrie et kurtosis.

5.4 D ENSITÉS USUELLES


Voici quelques densités de probabilité fréquemment utilisées. Il en existe beaucoup
d’autres qui peuvent apparaître lors d’études statistiques poussées.

48
5.4. Densités usuelles

5.4.1 Lois de probabilité discrètes


a) Loi de Bernoulli
Considérons un processus aléatoire qui possède deux issues possibles : succès ou
échec (exemple : tirage à pile ou face). On lui associe une variable aléatoire X qui
vaut X = 1 pour un succès et X = 0 pour un échec. La probabilité de succès est
notée p.
La loi de probabilité peut s’écrire sous la forme :

P(x; p) = px (1 − p)1−x ⇒ P(0; p) = 1 − p, P(1; p) = p. (5.38)

C’est la loi de Bernoulli de paramètre p. Sa moyenne est μ = p et sa variance σ2 =


p(1 − p).

b) Loi Binomiale
On répète n fois, de façon idépendante, un processus de Bernoulli et on compte le
nombre de succès. La probabilité d’obtenir k succès et n − k échecs est alors donnée
par la loi binomiale. La probabilité d’une combinaison quelconque de k succès et
n − k échecs est pk (1 − p)n−k et il existe Ckn combinaisons possibles. La loi binomiale
est donc :
n!
B(k; n, p) = Ckn pk (1 − p)n−k , Ckn = . (5.39)
k!(n − k)!

Sa moyenne est μ = np et sa variance σ2 = np(1 − p).

c) Loi de Poisson
Il s’agit d’une limite de la loi binomiale quand le nombre d’essais n devient grand
(n → +∞) et la probabilité de succès p petite (p → 0) avec np = λ constant.
© Dunod. La photocopie non autorisée est un délit.

Cette situation s’applique au cas d’un comptage d’événements sur une période de
temps ou d’espace où le nombre moyen de succès est proportionnel à la période de
comptage. La période de comptage peut se découper en n intervalles Δ suffisamment
petits (n → +∞) pour ne contenir qu’au plus un seul événement. Ceci n’est possible
que si p est petit (p → 0). La probabilité d’observer un événement sur un intervalle
Δ est un processus de Bernoulli. La probabilité d’observer k événements sur une
période nΔ suit donc une loi binomiale, le nombre moyen d’événements np = λ étant
fixé :
n!λk  λ n−k
B(k; n, p) = Ckn pk (1 − p)n−k = 1 − . (5.40)
k!(n − k)!nk n

49
Chapitre 5 • Variables aléatoires

Si on fait tendre n vers l’infini (temps d’observation long) et p vers 0 (faible proba-
bilité d’observation), on peut approximer :
n! 1 1
→ nk k = 1, (5.41)
(n − k)! nk n
et  λ n−k  λ n λ n
1− → 1− → e− n = e−λ , (5.42)
n n
d’où finalement :
e−λ λk
lim B(k; n, p) = P(k; λ) = . (5.43)
n→+∞,p→0 k!
C’est la loi de Poisson. Cette loi, très importante en statistique, est suivie par le
taux de comptage d’événements rares, à probabilité constante sur une courte période.
C’est par exemple le cas pour tous les processus de désintégrations radioactives. On
constate en particulier que, ni le nombre d’essais n, ni la probabilité du succès sur
Δ n’apparaissent explicitement dans l’expression de la loi de probabilité. La loi de
Poisson s’applique ainsi à des processus binomiaux où le nombre d’essais est in-
connu mais très grand devant le nombre de succès (k  n).
La moyenne de la loi de Poisson est μ = λ et sa variance σ2 = λ.
Ces trois densités sont représentées sur la figure 5.3.
Densite de probabilite f(x)

Densite de probabilite f(x)

Densite de probabilite f(x)

0.25 0.16
0.6
0.14

0.5 0.2
0.12

0.4 0.1
0.15
0.08
0.3
0.1 0.06
0.2
0.04
0.05
0.1
0.02

0 0 0
-0.2 0 0.2 0.4 0.6 0.8 1 1.2 0 2 4 6 8 10 0 2 4 6 8 10 12 14
x x x

Figure 5.3 – Densités de probabilité pour les lois de Bernoulli (à gauche, p = 0,65),
binomiale (au centre, p = 0,65, n = 10) et de Poisson (à droite, λ = 6,5).

5.4.2 Densités continues


a) Loi uniforme
La loi de probabilité continue la plus simple est celle d’une variable aléatoire continue
X, équiprobable sur un intervalle [a; b] et de probabilité nulle en dehors :
1
f (x; a, b) = si a ≤ x ≤ b , 0 sinon. (5.44)
b−a

On vérifie que f (x)dx = 1.

50
5.4. Densités usuelles

La moyenne et la variance valent respectivement :

a+b (b − a)2
μ= , σ2 = . (5.45)
2 12
Le coefficient d’asymétrie β1 est nul et le kurtosis est γ2 = −1,2.

b) Loi normale ou loi de Gauss


La loi normale est, sans doute, la loi la plus importante en statistique. Elle dépend de
deux paramètres notés μ et σ et s’écrit :
2
1 − (x−μ)2
N(x; μ, σ) = √ e 2σ . (5.46)
σ 2π

Sa moyenne est μ et sa variance σ2 .


Le coefficient d’asymétrie et le kurtosis sont nuls. Pour une distribution quel-
conque ces deux coefficients décrivent les déformations relativement à la distribution
normale.
La largeur à mi-hauteur (ou FWHM : Full Width at Half Maximum) est par-
fois utilisée en lieu et place de l’écart type pour caractériser une distribution normale.
1
C’est la largeur de la distribution à N(x; μ, σ) = N(μ; μ, σ). La largeur à mi-hauteur
2
est reliée à l’écart type par :

FW H M = 2 2 ln 2σ ≈ 2,35σ. (5.47)

Écart type et largeur à mi-hauteur sont indiqués sur l’image centrale de la figure 5.4.
Densite de probabilite f(x)

0.45 0.14
Densite de probabilite f(x)
Densite de probabilite f(x)

0.3
0.4
0.12
0.35
0.25

0.3
σ 0.1
0.2
0.25 0.08
0.15 FWHM
0.2 0.06
0.15 0.1
0.04
0.1
© Dunod. La photocopie non autorisée est un délit.

0.05 0.02
0.05

0 0 0
0 2 4 6 8 10 12 2 3 4 5 6 7 8 9 10 11 0 2 4 6 8 10 12 14 16 18 20
x x
x

Figure 5.4 – Densités de probabilité pour les lois uniforme (à gauche, a = 3 et b = 9),
normale (au centre, μ = 6,5, σ = 1,2) et du χ2 (à droite, n = 6).

La fonction caractéristique de la loi normale est aussi une gaussienne (propriété de


la transformée de Fourier) en particulier la fonction caractéristique d’une loi normale
centrée réduite est :
1 x2 t2
N(x) = √ e− 2 → ϕ(t) = e− 2 . (5.48)

51
Chapitre 5 • Variables aléatoires

c) Loi du Khi-Deux (χ2 )


Soient X1 , X2 , ..., Xn , n variables indépendantes distribuées normalement. On note μi
et σi la moyenne et l’écart type de la distribution de Xi . On définit alors :

 (X − μ )2
i i
C(X1 , X2 , ...) = . (5.49)
i
σ 2
i

La variable C suit une loi appelée loi de χ2 à n degrés de liberté dont la densité de
probabilité est :
c 2 −1 − c
n

fχ2 (c; n) = n n e 2 . (5.50)


2 2 Γ( 2 )

Sa moyenne et sa variance sont :

μ = n , σ2 = 2n. (5.51)

Cette loi de probabilité joue un rôle important lors de la réalisation d’ajustements


pour estimer la qualité de l’ajustement.
Ces trois densités continues sont représentées sur la figure 5.4.

Loi de Poisson
−λ k
P (k; λ) = e k!λ
p petit, k << n μ=λ σ=λ
np = λ λ > 25

Loi binômiale Loi normale


n > 50 (x−μ)2
p(k; n, p) = Cknpk (1 − p)n−k f (x; μ, σ) = √12π e− 2σ2

μ = np σ = np(1 − p) μ=μ σ=σ

Loi du Khi2 n > 30


n −1
c
f (x; n) = cn2 2 n e− 2
2 Γ(√ 2)
μ = n σ = 2n

Figure 5.5 – Règles pratiques de convergence de lois statistiques usuelles.

52
5.4. Densités usuelles

5.4.3 Propriétés de convergence


La loi normale joue un rôle central en analyse statistique car elle apparait comme
la limite de nombreuses lois statistiques et en constitue souvent une approximation
raisonnable.
Quand λ tend vers l’infini (dans la pratique λ√> 25 suffit), la loi de Poisson tend
vers une loi normale de paramètres μ = λ et σ = λ. Ceci est illustré sur la figure 5.6.
Densite de probabilite f(x)

Densite de probabilite f(x)


0.08 0.04
Densite de probabilite f(x)

0.22
0.2 0.07 0.035

0.18 0.06 0.03


0.16
0.05 0.025
0.14
0.12 0.04 0.02
0.1
0.03 0.015
0.08
0.06 0.02 0.01
0.04
0.01 0.005
0.02
0 0 0
0 2 4 6 8 10 10 15 20 25 30 35 40 50 60 70 80 90 100 110 120 130 140 150
x x x

Figure 5.6 – Comparaison√ entre densité de Poisson de paramètre λ et densité normale


de paramètres μ = λ, σ = λ pour λ = 3 (à gauche), λ = 25 (au centre) et λ = 100 (à droite).

De même, la loi binomiale tend vers une loi normale quand le nombre d’essais
devient très grand. √
Enfin la loi du χ2 tend vers une loi normale de paramètres μ = n, σ = 2n quand
le nombre de degrés de liberté, n, devient grand (n > 30).
Ces convergences sont résumées sur la figure 5.5.
© Dunod. La photocopie non autorisée est un délit.

53
ALÉATOIRES
V ARIABLES
6
MULTIDIMENSIONNELLES

Au chapitre 3, nous avons caractérisé des échantillons multidimensionnels. De la


même manière, la population associée va être décrite par une variable aléatoire vec-
torielle, dotée d’une fonction de répartition et d’une loi de probabilité. Les moments
seront également généralisés, en particulier la matrice de covariance.

6.1 D ENSITÉS MARGINALES


ET CONDITIONNELLES
La densité de probabilité se généralise pour plusieurs variables aléatoires. Considé-
rons deux variables X et Y. La densité jointe f (x, y) est définie telle que f (x, y)dxdy
soit la probabilité d’obtenir un résultat dans une surface élémentaire dxdy autour de
la réalisation (X, Y) = (x, y). Les densités de probabilité des variables individuelles
X et Y, appelées densités marginales sont données par :
 
fX (x) = f (x, y)dy et fY (y) = f (x, y)dx. (6.1)

On définit également une loi de probabilité conditionnelle f (x|y0 ) comme la loi de


probabilité de la variable X connaissant la valeur de l’autre variable, Y = y0 . On doit
avoir : f (x|y0 ) ∝ f (x, y0 ) et la condition de normalisation permet de déterminer le
coefficient de proportionnalité :
© Dunod. La photocopie non autorisée est un délit.

f (x, y0 )dxdy f (x, y0 )dx f (x, y0 )


f (x|y0 )dx = " = ⇒ f (x|y0 ) = . (6.2)
( f (x, y0 )dx)dy fY (y0 ) fY (y0 )

On peut donc écrire :


f (x|y) fY (y)
f (x, y) = f (x|y) fY (y) = f (y|x) fX (x) ⇒ f (y|x) = . (6.3)
fX (x)

Ce dernier résultat constitue une généralisation du théorème de Bayes. Il jouera un


rôle central dans l’analyse bayesienne que nous allons décrire au chapitre 8.

55
Chapitre 6 • Variables aléatoires multidimensionnelles

Deux événements indépendants vérifient f (x|y) = fX (x), car la connaissance de la


valeur de Y n’influe pas sur les valeurs que peut prendre X. Ceci conduit naturelle-
ment au résultat suivant pour deux variables indépendantes : f (x, y) = fX (x) fY (y).
Tous ces résultats se généralisent sans difficulté à un nombre quelconque de va-
riables aléatoires.

6.2 C OVARIANCE
La covariance de deux variables aléatoires X et Y est donnée par :
 +∞  +∞
cov(X, Y) = (x − μ x )(y − μy ) f (x, y)dxdy = E[xy] − μ x μy , (6.4)
−∞ −∞

où f (x, y) est la densité jointe de X et Y telle que

f (x, y)dxdy = P(x < X < x + dx, y < Y < y + dy).

Les moyennes individuelles pour X et Y sont alors données par :


 +∞  +∞
μx = x f (x, y)dxdy = x fX (x)dx, (6.5)
−∞ +∞  −∞
+∞
μy = y f (x, y)dxdy = y fY (y)dy. (6.6)
−∞ −∞

Le coefficient de corrélation ρ est défini comme précédemment par :

cov(X, Y)
cov(X, Y) = ρσX σY ⇒ ρ = . (6.7)
σ X σY

Deux variables aléatoires sont dites indépendantes si la densité jointe f (x, y) peut
se factoriser sous la forme f (x, y) = fX (x) fY (y). Dans ce cas on montre facilement
que ρ = 0 et donc que X et Y sont décorrélées. La réciproque n’est pas vraie.
Comme pour un échantillon, la mesure de dispersion pour une variable vectorielle
est données de manière complète par la matrice de covariance Σ. Pour une variable
 = (X1 , . . . , Xn ) la matrice de covariance est :
X

Σi j = cov(Xi , X j ). (6.8)

La matrice de covariance est une matrice réelle symétrique. Elle est diagonale pour
des variables décorrélées. Sinon, on peut décorréler les variables en diagonalisant la
matrice de covariance pour se placer dans une base propre comme celà est décrit au
chapitre 2.

56
6.3. La loi multinormale

6.3 L A LOI MULTINORMALE


La loi multinormale est la généralisation de la loi de Gauss à une variable aléatoire
vectorielle. La loi normale était définie par sa moyenne et sa variance, de même la loi
multinormale est définie par une moyenne μ et une matrice de covariance Σ par :

1 T Σ −1 (
e− 2 (x−μ) x−μ)
1
N(x; μ, Σ) = n 1
. (6.9)
(2π) |Σ|
2 2

Dans le cas de variables décorrélées, la matrice de covariance est diagonale et la loi


multinormale se simplifie sous la forme :

n (xi −μi )2 #
n (xi −μi )2
1 − i=1 1 −
2σ2 2σ2
N(x; μ, Σ) = n 1
e i = √ e i . (6.10)
(2π) 2 |Σ| 2 i 2πσi

La densité se factorise et les variables sont indépendantes : des variables gaussiennes


décorrélées sont indépendantes.

6.4 S OMME DE VARIABLES ALÉATOIRES


INDÉPENDANTES

6.4.1 Somme de deux variables


Soit deux variables aléatoires X et Y, on s’intéresse à la densité de probabilité de
Z = X + Y.
À partir de la définition des moments, on montre que si les moyennes de X et Y
sont μX et μY , alors μZ vaut alors :

© Dunod. La photocopie non autorisée est un délit.

μZ = z fZ (z)dz

= (x + y) f (x, y)dxdy
 
= x f (x, y)dxdy + y f (x, y)dxdy
 
= x fX (x)dx + y fY (y)dy

μZ = μ X + μY . (6.11)

57
Chapitre 6 • Variables aléatoires multidimensionnelles

La moyenne est une grandeur additive. De même, si les écarts types de X et Y sont
σX et σY , alors :

σZ = (z − μZ )2 fZ (z)dz
2


= (x − μX + y − μY )2 f (x, y)dxdy
 
= (x − μX )2 f (x, y)dxdy + (y − μY )2 f (x, y)dxdy

+2 (x − μX )(y − μY ) f (x, y)dxdy
 
= (x − μX ) fX (x)dx + (y − μY )2 fY (y)dy + 2cov(X, Y)
2

σ2Z = σ2X + σ2Y + 2ρσX σY . (6.12)

Si les deux variables sont indépendantes (en fait non corrélées est suffisant) alors
le coefficient de corrélation ρ est nul et la variance est aussi une grandeur additive :
σ2Z = σ2X + σ2Y . On retrouve là des résultats déjà démontrés au chapitre 2 dans le cas
d’un échantillon. Ces deux résultats se généralisent sans difficulté à une somme de
plusieurs variables.
Si les variables aléatoires X et Y sont indépendantes, la densité jointe de X et Y se
factorise sous la forme :
f (x, y) = fX (x) fY (y). (6.13)
La fonction caractéristique de Z s’écrit alors :

ϕZ (t) = E[e ] = E[e
itz it(x+y)
]= eit(x+y) f (x, y)dxdy

= eitx eity fX (x) fY (y)dxdy
 
= eitx fX (x)dx eity fY (y)dy

= ϕX (t)ϕY (t). (6.14)

La densité de probabilité s’obtenant par transformation de Fourier de la fonction


caractéristique, on en déduit que la densité de probabilité de Z est donnée par la
convolution des densité de X et de Y :

fZ (z) = ( fX ∗ fY )(z) = fX (x) fY (z − x)dx. (6.15)

58
6.4. Somme de variables aléatoires indépendantes

Les trois propriétés suivantes découlent des résultats précédents :


• Si X et Y suivent chacune une loi normale alors Z suit également une loi normale
vérifiant :
μZ = μX + μY et σ2Z = σ2X + σ2Y ; (6.16)
• Si X et Y suivent chacune une loi de Poisson de paramètres respectifs λX et λY
alors Z suit une loi de Poisson de paramètre λZ = λX + λY ;
• Si X et Y suivent chacune une loi du χ2 à nX et nY degrés de libertés respectivement
alors Z suit une loi du χ2 à nZ = nX + nY degrés de liberté.

6.4.2 Théorème central limite


Soit un échantillon fini {xi } de n réalisations indépendantes d’une même variable
aléatoire X qui suit une loi quelconque de moyenne μ et de variance σ2 .
On construit une nouvelle variable aléatoire :
1  x1 − μ x2 − μ xn − μ  1  xi − μ
n
Zn = √ + + ... + = √ . (6.17)
n σ σ σ n i=1 σ
Alors la densité de probabilité de Zn tend vers la loi normale centrée réduite (de
moyenne nulle et de variance unitaire) quand n devient grand. Ce résultat est un
résultat fondamental en statistique, le théorème central limite.
La démonstration à partir de la fonction caractéristique est simple : les termes
x1 − μ X−μ
sont des réalisations de la variable centrée réduite X = . Le dévelop-
σ σ
pement de sa fonction caractéristique est donc :
t2
ϕX (t) = 1 − + o(t2 ). (6.18)
2
La fonction caractéristique de Z est donc :
  n   2 n
t t2 t
ϕZn (t) = ϕX √ = 1− +o . (6.19)
n 2n n
© Dunod. La photocopie non autorisée est un délit.

t2
Quand n devient grand, le terme en o( ) tend vers 0. On retrouve alors le dévelop-
n
pement limité d’une exponentielle :
$ t2 %n t2
lim ϕZn (t) = e− 2n = e− 2 . (6.20)
n→+∞

On retrouve la fonction caractéristique d’une loi normale centrée réduite, ce qui


conclut la démonstration. La valeur de n à partir de laquelle la loi normale est va-
lide dépend de la distribution initiale de X. La figure 6.1 illustre la convergence vers
la loi de Gauss pour deux lois initiales : loi uniforme et loi en U.

59
Chapitre 6 • Variables aléatoires multidimensionnelles

X1 X1

2 2
1
2
∑X
i
i
1
2
∑X
i
i

0.5 4
0.5 4
1
4
∑X
i
i
1
4
∑X
i
i

Loi normale Loi normale


0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Figure 6.1– Convergence vers la loi normale par le théorème central limite de deux lois
centrées réduites : une loi uniforme (à gauche) et une loi en U (à droite).

Sous certaines hypothèses, ce théorème se généralise à des variables aléatoires


suivant des lois de probabilité différentes.
L’incertitude de mesure résulte de l’accumulation de nombreuses sources d’incer-
titude, qu’il n’est pas toujours possible d’évaluer, voire même d’identifier :

vmesure = vvraie + δ1 + δ2 + δ3 + . . . (6.21)

Le théorème central limite permet de justifier que, même si la loi de probabilité des
fluctuations δi n’est pas connue, la valeur mesurée devra, elle, suivre une loi sta-
tistique qu’on pourra raisonnablement approximer par une loi normale : ainsi, aucun
phénomène n’est rigoureusement gaussien mais la loi normale constitue dans presque
tous les cas une approximation plus que satisfaisante.
Dans la pratique, la loi normale constitue une bonne approximation à partir de
n > 10 pour la plupart des lois statistiques.

60
Partie II • Probabilités

Exercices

II.1 Probabilités discrètes 


On considère 4 événements notés A, B, C et D dans un univers Ω vérifiant :
• P(A) = 0,3
• P(B et C) = 0,2
• P(C) = 0,3
• P(D) = 0,5
• P(B et C̄) = 0,3
• P(D et C̄) = 0,5
• P(A ou B) = 0,65
C̄ désigne le complémentaire de C dans Ω.
1. Que vaut P(C̄) ?
2. Que valent P(B|C) et P(C|B) ?
3. Les événements C et D sont-ils incompatibles ?
4. Les événements A et B sont-ils indépendants ?
5. Les événements A, C et D forment-ils un système complet ?

II.2 Paradoxe des anniversaires 

1. Soit un groupe composé de 5 personnes. Quelle est la probabilité qu’au moins deux
aient la même date anniversaire ?
2. Sachant que 1− x ≈ e−x si x petit, en déduire que la probabilité que deux personnes
© Dunod. La photocopie non autorisée est un délit.

aient la même date anniversaire dans un groupe de n personnes peut s’écrire :


n(1−n)
1−e 730 .

3. À partir de combien de personnes cette probabilité est-elle supérieure à 1/2 ?

II.3 Jeu de cartes 


Dans un jeu de cartes bien connu, on distribue 5 cartes d’un jeu de 52 à chacun des
quatre joueurs.
1. Quelle est la probabilité qu’un joueur obtienne deux rois ?

61
Exercices

2. Si un joueur à deux rois, quelle est la probabilité qu’un autre roi soit en possession
d’un autre joueur ? que les deux autres rois soient en possession des autres joueurs ?
3. Ce joueur tire 3 nouvelles cartes parmi les restantes. Quelle est la probabilité qu’il
tire un roi ? deux rois ?

II.4 Dé pipé  à   
1
On dispose de 30 dés pipés (probabilité d’obtenir 3, p3 = , les autres faces étant
3
équiprobables) et de 70 dés équilibrés.
1. Quelle est la probabilité d’obtenir un 5 avec un dé normal ? avec un dé pipé ?
2. On tire au hasard un dé : quelle est la probabilité que le dé soit pipé ?
3. On jette le dé et on obtient 3 : quelle est la probabilité que le dé soit pipé ?
On lance le dé jusqu’à obtenir un 3. Le nombre de lancers nécessaires est noté N. Les
lancers sont indépendants les uns des autres.
4. Quelle est la probabilité de trouver N = 1, N = 2, N = 3 ?
5. Donnez la loi de probabilité P3 (N = n) de la variable aléatoire N.
6. Montrez que la moyenne μ3 et la variance σ32 de cette loi P3 valent respective-
ment :
1 1 − p3
μ3 = et σ32 = .
p3 p32
7. Déterminez la probabilité que le dé soit pipé en fonction de n.
8. On réalise 3 séries de lancers, dont les résultats sont n1 = 2, n2 = 4 et n3 = 1.
8.a. Peut-on considérer les séries de lancer comme indépendantes ?
8.b. Quelle est la probabilité que le dé soit pipé ?

II.5 Achat d’ordinateurs 


L’université achète 1000 ordinateurs de même type chez 4 fabricants différents.
Chaque fabriquant fourni un taux de pannes pour ses machines. Au cours de l’an-
née plusieurs machines tombent en panne. Le tableau suivant résume ces données
pour les quatre marques :
Marque Machines achetées Taux de pannes annoncé Pannes
m1 n1 = 200 0,3 % 2
m2 n2 = 300 0,2 % 2
m3 n3 = 100 0,6 % 1
m4 n4 = 400 0,15 % 6

62
Partie II • Probabilités

1. Selon le constructeur, quelle est, pour chaque marque, la probabilité d’avoir un


ordinateur défectueux ?
2. Quelle est la probabilité totale d’avoir une machine défectueuse ?
3. Sachant qu’une machine est défectueuse, quelle est sa probabilité d’être de la
marque mi ? La personne qui a acheté ces ordinateurs a-t-elle fait un bon choix dans
les proportions ?
4. Quelle est la loi de probabilité du nombre de pannes pour une marque donnée ?
5. Quelle est, pour chaque marque, la probabilité d’observer le nombre de pannes
constatées ? Les chiffres fournis par les constructeurs sont-ils crédibles ?
6. L’année suivante, l’université souhaite racheter de nouvelles machines. Au vu de
ces données, quelle marque choisiriez-vous ?

II.6 Probabilités de défaillance 


Le circuit de refroidissement d’un réacteur nucléaire possède 13 vannes de sécurité
indépendantes conçues pour s’ouvrir quand la pression dans le réacteur dépasse des
seuils prédéfinis. En cas d’excursion de puissance importante, un minimum de huit
vannes doit s’ouvrir pour éviter une surpression. La probabilité de défaillance d’une
vanne est estimée à 10−4 .
1. Donnez la loi de probabilité du nombre de pannes.
2. En déduire la probabilité que moins de 8 vannes s’ouvrent en cas d’incident.

II.7 Somme de deux variables aléatoires  à 


On considère deux variables aléatoires X et Y indépendantes de densités fX (x) et
fY (y). On construit une nouvelle variable Z = X + Y. La densité de probabilité de Z
est alors :

fZ = fX ∗ fY .
© Dunod. La photocopie non autorisée est un délit.

On va démontrer ce résultat de deux manières.


1.a. Donnez la densité jointe f (x, y).
1.b. Donnez la probabilité de trouver z < Z < z + dz en fonction de X et Y.
1.c. En déduire le résultat.
2.a. Déterminez la fonction caractéristique ϕZ (t) de Z en fonction de ϕX (t) et ϕY (t).
2.b. Concluez.

63
Exercices

II.8 Loi exponentielle 


On souhaite déterminer la probabilité qu’un photon de haute énergie n’ait pas interagi
après avoir traversé une épaisseur L de matière. On note P(x) (x > 0) la probabilité
que le photon traverse une épaisseur x de matière sans interagir. Cette probabilité
ne dépend que de l’épaisseur traversée. La probabilité d’interaction sur une longueur
élémentaire dx est proportionnelle à cette longueur et vaut λdx.
1. Que vaut P(0), P(+∞) ?
2. Justifiez que la probabilité de traverser une épaisseur L1 + L2 peut s’écrire
P(L1 + L2 ) = P(L1 ) × P(L2 |L1 ).
3. Justifiez que P(L2 |L1 ) = P(L2 ).
4. Donnez l’expression de P(dx), probabilité de traverser une longueur dx.
5. A partir des résultats précédents, montrez que P(x) = e−λx .
6. On considère maintenant la distance à laquelle le photon interagit comme une va-
riable aléatoire X de densité de probabilité fX (x) et de fonction de répartition F X (x).
Pour une réalisation x de X, donnez la relation entre P(x) et F X (x). En déduire l’ex-
pression de F X (x).
7. Calculez l’expression de la densité de probabilité de X.

II.9 Loi de Poisson 


La loi de Poisson de paramètre λ est la loi :

e−λ λn
P(n; λ) = .
n!

1. Déterminez la moyenne de la loi de Poisson par intégration.


2. Calculez la fonction caractéristique de la loi de Poisson.
3. En déduire moyenne, écart type, coefficient d’asymétrie et kurtosis de cette loi.
4. Que ce passe-t-il quand le paramètre de la loi devient grand ?

64
Partie III

Statistiques
E STIMATION
PARAMÉTRIQUE
7
Le but d’une mesure est d’estimer un ou plusieurs paramètres physiques avec une
certaine précision. Une mesure ou un ensemble de mesures peuvent être vus comme
un échantillon issu de la population de toutes les mesures possibles. Estimer la valeur
et l’incertitude sur un paramètre consiste à caractériser la densité de probabilité de la
population à partir de l’échantillon observé. C’est là le rôle de l’analyse statistique.
On distingue trois classes d’estimation :
• l’estimation paramétrique : on construit à partir de l’échantillon une unique va-
leur numérique qui est utilisée pour donner une valeur au paramètre estimé. Ce
type d’estimation sera à rapprocher du concept de valeur centrale d’une mesure ;
• l’estimation par intervalle : on définit un intervalle [a, b] qui contient vraisem-
blablement la valeur vraie. On retrouve ici une généralisation de la barre d’incerti-
tude ;
• l’estimation non-paramétrique : on tente d’approximer directement la densité de
probabilité de la population.
Ce chapitre va se focaliser sur l’estimation paramétrique, les autres modes seront
discutés au chapitre suivant.
Soit {xi } un échantillon de n mesures indépendantes de X. La densité de probabilité
f (x) de X est la densité de la population. On note sa moyenne μ et son écart type σ.
#
L’échantillon peut également être vu comme une réalisation x d’une variable aléatoire
 de densité f  (x) =
X f (xi ).
X

7.1 E STIMATEUR
Un estimateur θ̂(x) d’une grandeur θ est une fonction des mesures x utilisée pour
approximer la valeur vraie θ0 de θ.
© Dunod. La photocopie non autorisée est un délit.

Un estimateur est une réalisation d’une variable aléatoire Θ̂ qui possède donc une
densité de probabilité fΘ̂ (θ̂) = fΘ̂ (x). Si θ̂(x) est bijectif, la probabilité de trouver
θ̂ < Θ̂ < θ̂ + dθ̂ est donnée par :
fΘ̂ (θ̂)dθ̂ = fX (x)dx. (7.1)
Un bon estimateur doit vérifier quatre propriétés fondamentales :
• la convergence : dans la limite d’un échantillon infini, l’estimateur doit converger
vers la valeur vraie du paramètre :
lim θ̂ = θ0 . (7.2)
n→+∞

67
Chapitre 7 • Estimation paramétrique

Rigoureusement, il s’agit d’une convergence en probabilité, soit :

∀ε > 0, lim P(|θ̂ − θ0 | ≤ ε) = 1. (7.3)


n→+∞

• l’absence de biais : le biais est défini comme l’écart entre la valeur moyenne de
l’estimateur et la valeur estimée :

b(θ̂) = E[θ̂] − θ0 = (θ̂ − θ0 ) fΘ̂ (θ̂)dθ̂. (7.4)

Un estimateur est non biaisé si le biais est nul quelle que soit la taille de l’échan-
tillon. On a alors :
E[θ̂] = θ0 . (7.5)
Un estimateur est non biaisé asymptotiquement si le biais est nul dans la limite
d’un échantillon infini, soit :
lim E[θ̂] = θ0 . (7.6)
n→+∞

Tout estimateur convergent est non biaisé asymptotiquement.


• l’efficacité : c’est-à-dire la vitesse de convergence. Pour une taille d’échantillon
fixée, un estimateur efficace donnera en général une meilleure estimation qu’un
autre estimateur moins efficace. Un estimateur efficace aura donc une variance
faible. L’efficacité est liée à la quantité d’information contenue dans l’échantillon.
Un estimateur efficace utilisera au maximum l’information disponible : il existe
donc une limite à l’efficacité d’un estimateur qui sera discutée au paragraphe 7.3.2.

• la robustesse : un estimateur robuste sera peu sensible à des fluctuations statis-


tiques dans l’échantillon.
Nous n’insisterons pas dans la suite sur les deux derniers critères. Un bon estimateur
doit au minimum être convergent et non biaisé asymptotiquement. Il est générale-
ment difficile de concilier absence de biais, efficacité et robustesse. Ainsi pour une
même grandeur à estimer, l’estimateur le plus efficace sera souvent biaisé. De même,
un estimateur plus robuste sera généralement moins efficace. Le choix d’un estima-
teur dépend donc de l’utilisation qu’on veut en faire et des propriétés qu’on souhaite
mettre en avant.
L’écart type σθ̂ donne une indication de l’incertitude sur θ̂. Pour un estimateur non
biaisé asymptotiquement, E[θ̂] → θ0 quand n → +∞. Si, en plus :

lim σ2θ̂ = 0, (7.7)


n→+∞

alors l’estimateur est convergent : dans la limite d’un échantillon infini la densité de
l’estimateur est de moyenne θ0 et de variance nulle : c’est une distribution de Dirac.

68
7.2. Estimateurs des moments

L’estimateur donne donc exactement la valeur vraie du paramètre estimé.


C’est de cette manière qu’on démontre pratiquement la convergence d’un estimateur
non biaisé asymptotiquement.
Nous allons maintenant passer en revue quelques estimateurs usuels.

7.2 E STIMATEURS DES MOMENTS


7.2.1 Moyenne empirique
Considérons la moyenne de l’échantillon x̄ = μ̂ comme estimateur de la moyenne
de la population μ. Chaque xi est une réalisation de la variable aléatoire X, donc
E[xi ] = μ et var(xi ) = σ2
Le biais et la variance de cet estimateur se calculent aisément à partir des règles
d’additivité démontrées au chapitre précédent :
⎡ ⎤
⎢⎢⎢ 1  ⎥⎥⎥ 1  1
μμ̂ = E[μ̂] = E ⎢⎣ ⎢ xi ⎥⎥⎦ = E [xi ] = μ = μ, (7.8)
n i n i n i

soit pour le biais :


b(μ̂) = μμ̂ − μ = 0. (7.9)
L’estimateur est non biaisé.
La variance de μ̂ est alors :
⎛ ⎞
⎜⎜⎜ 1  ⎟⎟⎟ 1  1  2 σ2
σμ̂ = var ⎜⎝
2 ⎜ xi ⎟⎟⎠ = 2 var(xi ) = 2 σ = , (7.10)
n i n i n i n

soit :
lim σ2μ̂ = 0. (7.11)
n→+∞
La moyenne de l’échantillon est un estimateur convergent et non biaisé de la moyenne
de la population. On montre également que c’est un estimateur efficace. C’est l’esti-
mateur de moyenne empirique.
© Dunod. La photocopie non autorisée est un délit.

Ce dernier résultat montre que l’incertitude Δμ̂ sur la valeur moyenne des n me-
sures est plus faible que l’incertitude sur chacune des mesures individuelles Δx :

σ2 Δx
σ2μ̂ = ⇒ Δ x̄ = Δμ̂ = √ . (7.12)
n n
On gagne en précision à faire la moyenne de plusieurs mesures. Pour diviser l’incer-
titude par 2 il faut augmenter la taille de l’échantillon d’un facteur 4.
De plus, en vertu du théorème central limite discuté au chapitre 2, pour n grand
la densité de probabilité de l’estimateur tend vers une distribution normale de

69
Chapitre 7 • Estimation paramétrique

σ
moyenne μ et d’écart type σn = √ . La moyenne empirique est en revanche peu
n
robuste : si une seule valeur de l’échantillon se situe loin de la moyenne attendue,
elle peut modifier significativement celle-ci. On peut construire des estimateurs plus
robustes en retirant par exemple un certain pourcentage des valeurs les plus extrêmes
de l’échantillon (moyenne tronquée) ou en leur attribuant un poids plus faible dans
l’estimateur (moyenne Winsor). Ce type d’estimateur sera moins efficace, puisqu’on
n’utilise qu’une partie de l’information de l’échantillon.

7.2.2 Variance et écart type


1
Considérons la variance de l’échantillon ŝ2 = (xi − μ̂)2 comme estimateur de
n i
la variance de la population σ2 . En introduisant la moyenne de la population μ, ŝ2 se
réécrit :
1
ŝ2 = (xi − μ + μ − μ̂)2
n i
⎛ ⎞
1 ⎜⎜⎜⎜  
2⎟

= ⎜⎝ (xi − μ) + 2 (xi − μ)(μ − μ̂) +
2
(μ − μ̂) ⎟⎟⎟⎠
n i i i
⎛ ⎞ ⎛ ⎞
⎜⎜⎜ 1  ⎟⎟⎟ ⎜⎜⎜ 1  ⎟⎟
= ⎜⎜⎝ (xi − μ) ⎟⎟⎠ + 2(μ − μ̂) ⎜⎜⎝
2
(xi − μ)⎟⎟⎟⎠ + (μ − μ̂)2
n i n i
⎛ ⎞
⎜⎜⎜ 1  ⎟⎟
= ⎜⎜⎝ (xi − μ)2 ⎟⎟⎟⎠ − 2(μ − μ̂)2 + (μ − μ̂)2
n i
⎛ ⎞
⎜⎜⎜ 1  2⎟

ŝ2 = ⎜⎜⎝ (xi − μ) ⎟⎟⎟⎠ − (μ − μ̂)2 .
n i

À partir de ce résultat, on voit que le calcul de la moyenne de ŝ2 fait intervenir la


variance de x et celle de μ̂, soit :

1
E[ ŝ2 ] = E[(xi − μ)2 ] − E[(μ − μ̂)2 ]
n i
1 2
= σ − σ2μ̂
n i
σ2
= σ2 −
n
n−1 2
= σ .
n
70
7.2. Estimateurs des moments

La variance de l’échantillon n’est pas un bon estimateur de la variance de la po-


pulation car cet estimateur possède un biais. Le biais résulte de l’utilisation de la
moyenne empirique au lieu de la moyenne de la population dans l’estimateur. En
n 2
revanche ŝ est un bon estimateur de σ2 . C’est l’estimateur de variance empi-
n−1
rique noté σ̂2 :
n 2 1 
σ̂2 = ŝ = (xi − x̄)2 . (7.13)
n−1 n−1 i
 
σ4 n − 1
Sa valeur moyenne est μσ̂2 = σ et sa variance σσ̂2 =
2 2
γ2 + 2 . Pour un
n−1 n
échantillon distribué selon une loi normale, γ2 = 0 et la variance de l’estimateur se
2σ4
réduit à σ2σ̂2 = .
n−1
Remarque
n
Pour n grand, → 1 et la variance de l’échantillon devient un bon estimateur :
n−1
l’estimateur est non biaisé asymptotiquement. De cet estimateur, on déduit un esti-
mateur biaisé, non biaisé asymptotiquement de l’écart type :

σ̂ = σ̂2 . (7.14)
Pour n = 1, la variance de l’échantillon est nulle car il n’y a aucune dispersion pour
une unique valeur, mais l’estimateur de variance empirique n’est pas défini : il est
impossible d’estimer la dispersion de la population à partir d’une seule mesure !

7.2.3 Autres estimateurs des moments


L’utilisation des moments d’un échantillon pour estimer les moments de la popula-
tion peut se généraliser. Néanmoins on aura affaire systématiquement à des estima-
teurs biaisés, non biaisés asymptotiquement. Pour les moments centrés, réduits, la
suppression du biais est plus complexe que pour la variance car on doit utiliser les
estimateurs de moyenne et de variance empiriques en lieu et place des valeurs de la
population. Plus le moment sera élevé, plus la vitesse de convergence de l’estimateur
sera lente. Ainsi les estimateurs des moments d’ordre 3 (asymétrie) et 4 (kurtosis) ne
© Dunod. La photocopie non autorisée est un délit.

deviennent fiables que pour des grands échantillons (plusieurs milliers de valeurs).
On peut également généraliser au cas de multiples variables. L’estimateur non
biaisé de covariance empirique est donné par :
1 
c,
ov(X, Y) = (xi − μ̂X )(yi − μ̂Y ), (7.15)
n−1 i
où μX et μY sont les estimateurs de moyenne empirique pour X et Y. Enfin un estima-
teur du coefficient de corrélation est donné par :

(xi − μ̂X )(yi − μ̂Y )
ρ̂ = - i  . (7.16)
i (xi − μ̂ X ) i (yi − μ̂Y )
2 2

71
Chapitre 7 • Estimation paramétrique

7.3 E STIMATEUR DU MAXIMUM


DE VRAISEMBLANCE
7.3.1 Fonction de vraisemblance
Nous considérerons dans ce paragraphe un échantillon de mesures {ui } = u d’un
ensemble de variables aléatoires {Xi } = X.  Un ensemble {xi } = x représentera une
réalisation quelconque des variables aléatoires.
Si les données permettent de contraindre la valeur d’un où plusieurs paramètres θ,
alors la densité de probabilité de l’échantillon doit dépendre aussi de θ. D’un point
de vue purement mathématique, on peut considérer une fonction générale dont les
variables seraient à la fois les variables aléatoires et les paramètres à estimer. Notons
cette fonction k(x, θ). La densité de probabilité de X  est une fonction du seul vecteur
 les paramètres θ étant fixés à une valeur θ = θ0 unique. Cette
x, réalisation de X,

valeur θ0 est la valeur vraie des paramètres :


fX (x) = k(x, θ0 ) et fX (x)dx = 1. (7.17)

À l’inverse, on peut, pour un échantillon particulier u, fixer x = u et ne considérer


que la dépendance en θ de k. C’est la fonction de vraisemblance des paramètres :
L(θ) = k(u, θ). (7.18)
La fonction de vraisemblance n’est pas une densité de probabilité. Elle mesure néan-
moins la crédibilité associée à chaque valeur possible des paramètres θ.

7.3.2 Inégalité de Cramer-Rao


La notion d’efficacité d’un estimateur est associée à la variance de cet estimateur.
On peut montrer qu’il existe une borne inférieure à cette variance. Nous allons le
démontrer dans le cas d’un unique paramètre θ à estimer.
Pour toute fonction positive deux fois dérivable f (x), on a :
∂f ∂ ln f
= f , (7.19)
∂x ∂x
et ⎛  2 ⎞
∂2 f ∂2 ln f ∂ f ∂ ln f ⎜⎜⎜ ∂2 ln f ∂ ln f ⎟⎟⎟
= f + = f ⎜⎜⎝ + ⎟⎟ . (7.20)
∂x2 ∂x2 ∂x ∂x ∂x2 ∂x ⎠
Partons de la fonction générale k(x, θ) qui nous a servi à définir la densité de
l’échantillon et la fonction de vraisemblance. Par construction, pour toute valeur de θ :

1= k(x, θ)dx. (7.21)

72
7.3. Estimateur du maximum de vraisemblance

En dérivant cette expression et en introduisant le résultat précédent, il vient :


   
∂ ∂ ln k ∂ ln k
0= k(x, θ)dx = kdx = E , (7.22)
∂θ ∂θ ∂θ
puis en différenciant une seconde fois :
     2
∂2 ∂2 k(x, θ) ∂2 ln k ∂ ln k
0= 2 k(x, θ)dx = dx = k dx + k dx, (7.23)
∂θ ∂θ2 ∂θ2 ∂θ
soit :   ⎡  ⎤
∂2 ln k ⎢⎢⎢ ∂ ln k 2 ⎥⎥⎥
E = −E ⎢⎢⎣ ⎥⎥ . (7.24)
∂θ2 ∂θ ⎦

L’espérance E se comprenant comme la moyenne sur la variable aléatoire X  associée


à l’échantillon. Pour un estimateur θ̂ de θ, le biais b est défini par :

θ+b= θ̂(x)k(x, θ)dx. (7.25)

En différenciant le biais, il vient :


 
∂b ∂θ̂(x)k(x, θ) ∂ ln k
1+ = dx = (θ̂ − θ − b) kdx. (7.26)
∂θ ∂θ ∂θ
   
∂ ln k ∂ ln k
Cette dernière égalité utilise la propriété précédente : E α = αE =0
∂θ ∂θ
avec α = θ + b(θ). Finalement en utilisant l’inégalité de Cauchy-Schwartz :
 2    
∂b ∂ ln k
1+ ≤ (θ̂ − θ − b(θ)) kdx
2
kdx, (7.27)
∂θ ∂θ
soit finalement :  2  
∂b ∂2 ln k
1+ ≤ −σ2θ̂ E , (7.28)
∂θ ∂θ2
© Dunod. La photocopie non autorisée est un délit.

ou encore :
1 + b (θ)
σ2θ̂ ≥ − !. (7.29)
E ∂ ∂θln2 k
2

Ce résultat est connu sous le nom d’inégalité de Cramer-Rao (parfois Rao-Cramer-


Fréchet ou RCF). Le dénominateur est souvent donné avec la fonction de vraisem-
blance en lieu et place de k et s’appelle l’information de Fisher :
 2   2 
∂ ln k ∂ ln L
I = −E = −E , (7.30)
∂θ2 ∂θ2

73
Chapitre 7 • Estimation paramétrique

qui caractérise le contenu en information de l’échantillon relativement au paramètre


estimé. Pour un estimateur non biaisé, cette relation devient simplement :
1
σ2θ̂ ≥ − !. (7.31)
∂2 ln L
E ∂θ2
Cette inégalité traduit que, pour une taille d’échantillon donnée (soit un nombre
fixé de mesures), la précision de tout estimateur est bornée. Un estimateur efficace
atteint la borne de Cramer-Rao : c’est l’estimateur de variance minimale. En général
l’estimateur du maximum de vraisemblance satisfait asymptotiquement cette condi-
tion.

7.3.3 Le maximum de vraisemblance


Si la valeur vraie des paramètres θ0 est inconnue, on va tenter d’en construire un
ˆ
estimateur θ à partir de l’échantillon u. Pour une valeur particulière θ = θ1 , supposons
que cette valeur soit vraie, alors :
 < u + dx).
L(θ1 )dx = fX (u)dx = P(u < X (7.32)
La fonction de vraisemblance L(θ1 ) correspond à la probabilité d’obtenir le résultat u
effectivement observé sous l’hypothèse θ = θ1 . Un estimateur raisonnable de θ0 sera
ˆ
de choisir θ de tel sorte que la probabilité d’observer le résultat obtenu soit maximale,
c’est-à-dire que : 
∂L(θ) 
 = 0, (7.33)
∂θ θ=θˆ
où la dérivation par rapport au vecteur θ doit se comprendre comme le vecteur des dé-
rivées partielles par rapport à chaque composante θi . En théorie, il faudrait également
vérifier le signe de la dérivée seconde pour s’assurer qu’il s’agit d’un maximum, mais
c’est généralement inutile dans la pratique.
Le maximum de vraisemblance est un estimateur efficace, non biaisé asymptoti-
quement : quand la taille de l’échantillon devient suffisamment grande, la loi de pro-
babilité de l’estimateur tend vers une loi multinormale, de moyenne θ0 et de matrice
de covariance donnée par la généralisation de la borne de Cramer-Rao :
 2 
−1  ∂ ln L(θ) 
Σ̂ = L avec Li j = − 
 ∂θi ∂θ j θ=θˆ
. (7.34)

Dans le cas d’un unique paramètre θ, une estimation de la variance de l’estimateur


devient simplement :
1
σ̂2θ̂ =  2  . (7.35)
 ∂ ln L(θ) 

∂θ
2
θ=θ̂

74
7.3. Estimateur du maximum de vraisemblance

Ces relations ne fournissent qu’un estimateur de la variance de l’estimateur de


maximum de vraisemblance. En effet, le calcul exact de la borne de Cramer-Rao,
∂2 ln L
implique le calcul de la valeur moyenne de . Ce calcul n’est généralement
∂(θ)2
pas possible et on prend donc, comme estimateur de cette moyenne, l’unique
fonction de vraisemblance à notre disposition !

Remarque
Si l’échantillon consiste en plusieurs réalisations indépendantes, la densité de
l’échantillon se factorise sous la forme :

#
n
fX (x) = fXi (xi ). (7.36)
i=1

La fonction de vraisemblance est alors également factorisée :

#
n
L(θ) = fXi (ui ; θ). (7.37)
i=1

Dans ce cas, plutôt que de maximiser la fonction de vraisemblance, on cherchera


plutôt à minimiser − ln L :

n
− ln L = − ln fXi (ui ; θ). (7.38)
i=1

Le logarithme est une fonction monotone, croissante, qui ne change donc pas le
maximum de la fonction. L’intérêt de ce changement est double. D’une part, plu-
sieurs lois souvent utilisées avec la méthode de vraisemblance (loi de Poisson, loi
normale) contiennent un facteur e−... qui disparaît ainsi (ceci justifie également le
changement de signe), simplifiant le traitement analytique. D’autre part, la fonction
de vraisemblance est un produit de facteurs tous inférieurs à l’unité qui aboutit donc
à un résultat extrêmement petit qui peut conduire à des aberrations numériques lors
d’un traitement informatique. Le passage à une somme de logarithmes simplifie donc
la résolution numérique de ce type de problème.

7.3.4 L’exemple de la loi de Poisson


On part d’un échantillon de taux de comptage {ui }i=1..n . Cet échantillon contient n
© Dunod. La photocopie non autorisée est un délit.

mesures indépendantes, chacune devant suivre une loi de Poisson de paramètre λ


inconnu. On souhaite estimer λ. Pour ce faire on peut proposer plusieurs estimateurs :
• λ est la moyenne de la loi de Poisson, donc on peut prendre comme estimateur de
λ l’estimateur de moyenne empirique (ou tout autre estimateur de la moyenne) ;
• λ est aussi la variance de la loi de Poisson, donc on peut prendre comme estimateur
de λ l’estimateur de variance empirique ;
• on connait la loi statistique mais pas la valeur du paramètre : on peut utiliser l’es-
timateur de maximum de vraisemblance. C’est ce dernier que nous allons calculer.

75
Chapitre 7 • Estimation paramétrique

Les mesures étant indépendantes, la fonction de vraisemblance s’écrit :


#
n #
n
e−λ λui
L(λ) = fXi (ui ) = . (7.39)
i=1 i=1
ui !

En passant au logarithme, il vient :



n
− ln L = λ − ui ln λ + ln ui ! . (7.40)
i=1

Pour minimiser cette grandeur, on dérive par rapport au paramètre λ :

∂ − ln L  1
n n
ui
= 1− =n− ui . (7.41)
∂λ i=1
λ λ i=1

Soit pour l’estimateur du maximum de vraisemblance :

1 1
n n
n− ui = 0 ⇒ λ̂ = ui = μ̂. (7.42)
λ̂ i=1 n i=1

Dans ce cas particulier, l’estimateur du maximum de vraisemblance est la moyenne


empirique.

76
ET INCERTITUDE
E STIMATION
8
L’estimation paramétrique permet d’assigner une valeur unique à un paramètre : il
s’agit d’une mesure de position assimilable à la moyenne (absence de biais) ou au
mode (maximum de vraisemblance). Comme toute mesure, l’estimateur possède une
incertitude. Au chapitre 3, la barre d’erreur avait été définie comme une plage de va-
leur contenant probablement la valeur vraie. C’est la notion d’intervalle de confiance
qui permet de quantifier cette probabilité.

8.1 E STIMATION PAR INTERVALLE


8.1.1 Intervalle de confiance
Pour une variable aléatoire θ, on peut chercher une plage de valeurs [a, b] telle que
la probabilité d’avoir a < θ < b soit égale à α. Un tel intervalle est appelé un inter-
valle de confiance. La grandeur seuil α est le niveau de confiance de l’intervalle. On
parlera par exemple d’un intervalle à 95 % de niveau de confiance pour α = 0,95.
Pour une variable aléatoire X de densité de probabilité f (x), le niveau de confiance
α d’un intervalle [a, b] est donné par :
 b
α= f (x)dx. (8.1)
a

Remarque
Pour un niveau de confiance fixé, il existe une infinité d’intervalles de confiance.
Plusieurs critères additionnels peuvent être utilisés pour assurer l’unicité :
• centrer l’intervalle sur une mesure de localisation particulière μ (en général la
moyenne) pour obtenir un intervalle symétrique [μ − Δ, μ + Δ] ;
• centrer l’intervalle en probabilité sur une mesure de localisation particulière μ (en
© Dunod. La photocopie non autorisée est un délit.

général la moyenne) de telle sorte que


 μ  b
α
f (x)dx = f (x)dx = ; (8.2)
a μ 2

• définir l’intervalle tel que f (x) > f (y) pour tout a < x < b et (y < a ou y > b), c’est-à-dire
que la densité de probabilité est plus grande partout à l’intérieur de l’intervalle de
confiance qu’à l’extérieur. Dans ce cas on a f (a) = f (b). Un tel intervalle est appelé
highest probability densisty ou HPD.
Ces trois possibilités sont illustrées sur la figure 8.2 pour un intervalle à 68 % de
niveau de confiance.

77
Chapitre 8 • Estimation et incertitude
densite de probabilite f(x)

densite de probabilite f(x)

densite de probabilite f(x)


0.24 0.24 0.24
0.22 0.22 0.22
0.2 0.2 0.2
0.18 0.18 0.18
0.16 0.16 0.16
0.14 0.14 0.14
0.12 0.12 0.12
0.1 0.1 0.1
0.08 0.08 0.08
0.06 0.06 0.06
0.04 0.04 0.04
0.02 0.02 0.02
0 0 0
0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14
μ x μ x μ x

Figure 8.1– Exemples d’intervalle de confiance à 68 % : centré sur la moyenne


(à gauche), centré sur la moyenne en probabilité (au centre), intervalle HPD (à droite).

Remarque
L’espace interquartile (chapitre 1) est un intervalle à 50 % de niveau de confiance
centrée en probabilité sur la médiane.

Remarque
Cas où l’une des bornes d’un intervalle à α de niveau de confiance pour une grandeur
x est ±∞ :
• [a, +∞[ : a est appelé une limite inférieure et on note x > a à α de niveau de
confiance.
• ] − ∞, b] : b est appelé une limite supérieure et on note x < b à α de niveau de
confiance.

8.1.2 Le cas gaussien


Pour une variable distribuée normalement de moyenne μ et d’écart type σ, [μ−nσ, μ+
nσ] est un intervalle de confiance qui vérifie les trois critères de la remarque 8.1.1.
Le niveau de confiance atteint en fonction de n est donné dans la table 8.1.
On parle généralement d’intervalle à nσ pour désigner un intervalle dont le
niveau de confiance est égal à celui obtenu pour une distribution normale (intervalle
à 1σ : 68 % de niveau de confiance, intervalle à 2σ : 95 % de niveau de confiance, . . .).

Tableau 8.1– Niveau de confiance pour un intervalle gaussien à nσ.


Valeur de n 1 2 3 4 5
Niveau de confiance (%) 68,3 95,4 99,7 99,994 99,99994
Valeur de n 1,64 1,96 2,56
Niveau de confiance (%) 90 95 99

La définition de l’incertitude du chapitre 1 correspond à un intervalle de confiance


centré sur la valeur mesurée.
Si la distribution de la mesure est normale ou très proche de la normale (c’est le
cas pour une moyenne si n est grand) alors Δ = 2σ définit un intervalle de confiance
à 95 %, c’est-à-dire qu’il y a 95 % de chance que la valeur « vraie » se situe dans
l’intervalle ±Δ autour de la mesure.

78
8.1. Estimation par intervalle

8.1.3 Le cas non gaussien


Dans le cas où la grandeur mesurée n’est pas distribuée normalement, l’inégalité de
Bienaymé-Tchebychev permet de donner une valeur minimale au niveau de confiance
à nσ (le niveau de confiance peut être bien plus élevé que la limite de Bienaymé-
Tchebychev).
1
α(nσ) ≥ 1 − 2 . (8.3)
n
Pour une distribution possédant un seul maximum (distribution unimodale), proche
de la moyenne, on trouve une contrainte plus forte :

4
α(nσ)  1 − . (8.4)
9n2
Le niveau de confiance minimal pour un intervalle à nσ en fonction de n est donné
dans la table 8.2 et sur la figure 8.2.

Tableau 8.2– Niveau de confiance minimal pour un intervalle à nσ, dans le cas le plus
général (Bienaymé-Tchebychev) et dans le cas d’une distribution unimodale.
Valeur de n 1 2 3 4 5
Gaussien (%) 68,3 95,4 99,7 99,994 99,99994
BT, cas général (%) 0 75 88,9 93,8 96
BT, cas unimodal (%) 55,6 88,9 95 97,2 98,2

1
Niveau de confiance

0.9

0.8

0.7

0.6

0.5

0.4 Erreur gaussienne


© Dunod. La photocopie non autorisée est un délit.

0.3 Bienayme-Chebyshev, cas general

0.2
Bienayme-Chebyshev, cas unimodal
0.1

0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
n

Figure 8.2 – Niveaux de confiance pour un intervalle à nσ.

La convention pour la barre d’incertitude de Δ = 2σ correspond toujours à un


niveau de confiance d’au moins 75 %, voire 89 % pour une distribution possédant

79
Chapitre 8 • Estimation et incertitude

un maximum proche de la moyenne. Le niveau de confiance de cet intervalle est


d’environ 95 % pour une distribution normale.
Dans le cas le plus général il n’y a aucune contrainte sur le niveau de confiance
d’un intervalle à 1σ.

8.1.4 Intervalle bayesien


L’approche bayesienne de l’intervalle de confiance est a priori la plus simple. La
probabilité étant simplement interprétée comme un degré de confiance, on peut asso-
cier une densité de probabilité aux paramètres θ. Après un ensemble de mesures x,
la densité de probabilité des paramètres du modèle contrainte par ces mesures est la
densité conditionnelle f (θ|x), appelée densité a posteriori. En utilisant le théorème
de Bayes, on a :

f (x|θ)dx f (θ)dθ f (x|θ) f (θ)


f (θ|x)dθ = ⇒ f (θ|x) = . (8.5)
f (x)dx f (x)
Cette expression fait apparaître trois facteurs :
• f (x|θ) est la probabilité des mesures pour une valeur déterminée de θ. C’est la
fonction de vraisemblance L(θ) définie précédemment.
• f (θ) = π(θ) est la densité de probabilité des paramètres avant la mesure, nommée
densité a priori des paramètres. Cette densité est souvent fixée arbitrairement.
• f (x) est la densité probabilité de la mesure x. C’est une grandeur numérique
constante qui joue un simple rôle de normalisation de la densité a posteriori.
Cette application du théorème de Bayes peut s’interpréter ainsi :
f (mesure|modèle) f (modèle)
f (modèle|mesure) = .
f (mesure)
La probabilité a posteriori peut finalement se réécrire :

L(θ)π(θ)
f (θ|x) = " . (8.6)
L(θ)π(θ)dθ
Le choix le plus fréquent pour la densité a priori est une densité uniforme sur
un intervalle [a, b]. Cette densité traduit l’absence d’a priori sur la valeur des pa-
ramètres. Comme la fonction de vraisemblance tombe généralement à 0 pour des
valeurs des paramètres loin du maximum de vraisemblance, on peut souvent choisir
[a, b] tel que :
L(θ) L(θ)
L(θ)π(θ) ≈ ⇒ f (θ|x) ≈ " . (8.7)
b−a L(θ)dθ

80
8.2. Retour sur l’incertitude

La densité a priori permet également de borner les paramètres en imposant un a


priori nul dans les régions non physiques. Dans le cas d’une mesure d’une gran-
deur positive (énergie, section efficace, température, masse,. . .), on coupera la
partie négative de la fonction de vraisemblance. Si la partie de fonction de vrai-
semblance coupée par l’a priori n’est pas négligeable, l’approximation précédente
devient fausse et il faut recalculer la normalisation de la densité a posteriori.

Remarque
Un autre choix pour la densité a priori serait de prendre la densité du paramètre
estimée par une mesure précédente. Le choix arbitraire de cette densité est le point
faible de cette approche. En particulier, le résultat final ne sera pas invariant par
changement de variable : choisir θ ou log θ uniforme ne conduira pas à la même den-
sité a posteriori, mais il n’y a pas forcément d’arguments objectifs en faveur de l’un
ou l’autre de ces choix. Le choix de la densité a priori reste subjectif et pour plu-
sieurs a priori raisonnables (encore de la subjectivité ! ) le résultat a posteriori doit
être similaire.

Le concept de l’analyse bayesienne est donc de partir d’une connaissance a priori


des paramètres du modèle et de construire la densité a posteriori incluant l’informa-
tion apportée par la mesure. La mesure favorise certaines valeurs des paramètres, la
plus probable étant le maximum de la fonction de vraisemblance si celle-ci n’est pas
tronquée par la densité a priori. La mesure modifie donc le degré de crédibilité as-
socié aux valeurs possibles des paramètres (densité a posteriori). Contrairement au
cas fréquentiste, il n’y a plus d’estimateur et on obtient directement une densité de
probabilité pour les paramètres, à partir de laquelle on peut définir une valeur cen-
trale (moyenne, médiane ou plus souvent le mode qui correspond au maximum de
vraisemblance pour un a priori uniforme) et une barre d’erreur via un intervalle de
confiance [a, b] pour un niveau de confiance α tel que :
 b
f (θ|x)θ = α. (8.8)
a

8.2 R ETOUR SUR L ’ INCERTITUDE


Idéalement l’incertitude est définie à partir de la variance. Néanmoins, lors d’une
© Dunod. La photocopie non autorisée est un délit.

analyse statistique, la variance n’est généralement pas connue mais doit être estimée à
partir de l’échantillon. Dans la pratique l’erreur associée à un estimateur sera évaluée
à partir d’une estimation de la variance de cet estimateur. Ainsi pour la mesure d’un
paramètre θ, on donnera un résultat sous la forme :

θmesure = θ̂ ± Δθ̂, (8.9)

avec Δθ̂ = . σθ̂ (pour un intervalle à 68 % dans la limite gaussienne). Généralement


on ne dispose que d’une unique réalisation de l’estimateur θ̂, puisque l’idée est d’uti-
liser toute l’information de l’échantillon. La variance de l’estimateur ne peut donc

81
Chapitre 8 • Estimation et incertitude

être estimée à partir de la variance empirique. Néanmoins dans le cas où une expres-
sion analytique de cette variance est connue, un autre estimateur de la variance de
l’estimateur peut être construit.

8.2.1 Moyenne empirique


Pour un échantillon {xi }i=1...n distribué selon une loi de moyenne μ et de variance σ2 ,
1 σ2
un bon estimateur de μ est μ̂ = xi de variance σ2μ̂ = . Un estimateur de cette
n n
.2 = σ̂ , où σ̂2 sera un estimateur quelconque de la variance σ2 .
2
variance sera donc σ μ̂ n
L’estimateur de variance empirique peut jouer ce rôle. Finalement on choisira comme
erreur à 1σ sur μ̂ :
/ /
 
1
n−1 i (xi − μ̂)2 1
Δμ̂ = = (xi − μ̂)2 . (8.10)
n n(n − 1) i

8.2.2 Maximum de vraisemblance


En supposant que l’estimateur est efficace et de biais négligeable (ce qui est généra-
lement le cas pour le maximum de vraisemblance), alors la variance de l’estimateur
est donnée par la borne de Cramer-Rao :

−1
σθ̂ = $  %. (8.11)
∂2ln L 
∂θ2 θ=θ̂
E

Dans la mesure où l’on a qu’un seul échantillon, on n’a qu’une réalisation de


L. Le meilleur
  estimateur  de la moyenne est donc la valeur elle-même, soit
∂2 ln L  ∂2 ln L 
E  =  . Ainsi l’erreur sur l’estimateur du maximum de vrai-
∂θ2 θ=θ̂ ∂θ2 θ=θ̂
semblance sera donnée par l’inverse de la dérivée seconde du logarithme de la fonc-
tion de vraisemblance, soit :
0
1
−1
Δθ̂ =  . (8.12)
∂2 ln L 
∂θ2 
θ=θ̂

82
8.3. Estimation non paramétrique

8.3 E STIMATION NON PARAMÉTRIQUE


8.3.1 Histogramme
a) Estimation de la densité
Au chapitre 1 on a défini l’histogramme comme un outil de visualisation de données.
Si l’échantillon est issu d’un processus aléatoire associé à une densité de probabilité
f (indéterminée), on montre que l’histogramme permet d’approximer cette densité de
probabilité. Soit un échantillon de n valeurs {xi }, organisé en k classes de fréquence
C j = [I j , I j+1 [ de largeur δ = I j+1 − I j .
Par définition, la probabilité d’avoir I j ≤ X < I j+1 est :
 I j+1 I j + I j+1
P(I j ≤ X < I j+1 ) = fX (x)dx ≈ fX (xc )δ, avec xc = , (8.13)
Ij 2

si δ est suffisamment petit. De plus par définition :


nj
P(I j ≤ X < I j+1 ) = P j lim , (8.14)
n→+∞ n

nj
c’est-à-dire que = p̂ j est un estimateur convergent de p j . En combinant ces deux
n
résultats, il vient :
nj
f (xc ) = lim . (8.15)
n→+∞,δ→0 δn

On peut associer à l’histogramme des {xi } une fonction hn (x) = n j pour I j ≤ x <
I j+1 dont l’histogramme est la représentation graphique. On a alors :

hn (x)
f (x) = lim . (8.16)
n→+∞,δ→0 δn

Dans la limite où la taille de l’échantillon devient très grande et la largeur des


© Dunod. La photocopie non autorisée est un délit.

classes très petite, l’histogramme tend vers la densité de probabilité. Un estimateur


de la densité f est donc obtenu par :

hn (x)
fˆ(x) = . (8.17)
δn

b) Incertitude et histogramme
L’incertitude sur le taux de comptage est caractérisée par l’écart probable entre la
valeur vraie de la densité au centre de l’intervalle et la valeur estimée par le taux de
comptage.

83
Chapitre 8 • Estimation et incertitude

En ne considérant qu’une classe particulière, C j = [I j , I j+1 ], l’histogramme est


construit à partir de n événements qui sont soit dans la classe C j , soit en dehors. La
probabilité p j d’être dans la classe C j est :
 I j+1
I j + I j+1
pj = f (x)dx ≈ f (xc )δ, avec xc = et δ = I j+1 − I j . (8.18)
Ij 2
Le nombre n j d’événements dans la classe C j suit donc une loi binomiale de para-
mètre p j .
L’écart type de cette loi est donc :

σ = np j (1 − p j ). (8.19)

Dans le cas où p j est relativement petit (c’est-à-dire que les classes sont suffisamment

fines) la loi binomiale tend vers une loi de Poisson et σ j = np j que l’on peut estimer
par : 

σ̂ j = n p̂ j = n j . (8.20)
Cet écart type permet de définir une incertitude sur le nombre d’événements dans
chaque classe. On peut également montrer que la corrélation entre classes est faible.
Si le nombre d’événements est grand (>25), alors la loi de Poisson s’approxime par
√ √
une loi normale et l’intervalle n j ± n j (respectivement n j ± 2 n j ) est une estimation
d’un intervalle de à 68 % (respectivement 95 %) de confiance.

8.3.2 Estimateur de Parzen


L’histogramme a l’inconvénient de présenter des discontinuités. Si la densité à es-
timer est continue, il est parfois souhaitable que l’estimateur de la densité soit lui-
même continu. Plusieurs solutions sont possibles : la première est d’utiliser une fonc-
tion de lissage ou d’interpolation entre les centres de classes mais de telle méthodes
ne conservent pas l’intégrale de la densité et peuvent avoir un comportement aberrant
en dehors des valeurs de l’échantillon.
Une autre approche, plus élégante est l’estimateur de Parzen dont l’histogramme
est un cas particulier. Dans ce type d’estimateur, chaque point xi contribue à la dis-
x − xi
tribution via une fonction noyau k(u) avec u = , symétrique, d’intégrale 1 et
h
dont la largeur h est un paramètre libre (au même titre que la largeur des classes d’un
histogramme). L’estimateur de Parzen s’écrit alors :
1   x − xi 
fˆ(x) = k . (8.21)
n i h
Les nombreuses possibilités pour le choix du noyau conduisent à des résultats sensi-
blement identiques, par exemple :

84
8.3. Estimation non paramétrique

1
e− 2 u ,
1 2
• le noyau gaussien : k(u) = √
2πh
3
• le noyau parabolique (noyau d’Epanechnikov) : k(u) = (1 − u2 ) pour −1 < u < 1,
4
• les noyaux uniforme, triangulaire, sinusoïdal, . . .
La partie gauche de la figure 8.3 permet de comparer l’histogramme à l’estimateur
de Parzen, pour deux types de noyaux (triangulaire et parabolique).
Noyau parabolique Noyau optimal
Noyau trianglaire Noyau optimal ÷ 5
Histogramme Noyau optimal × 5
Loi estimée Loi estimée
0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4

Figure 8.3 – Estimateur de Parzen pour un tirage aléatoire de 1000 points suivant une
loi normale centrée réduite. La loi de départ est représentée en traits hachurés.

Il n’existe pas de critère optimal générique pour déterminer h. Néanmoins dans le


cas où la distribution à estimer est gaussienne, pour des événements non pondérés, il
a été montré que la largeur optimale pouvait s’écrire :
  15
4
h=σ , (8.22)
© Dunod. La photocopie non autorisée est un délit.

3n
où n est la taille de l’échantillon et σ son écart type. L’estimateur de Parzen se géné-
  xk − xi,k 2
ralise à plusieurs dimensions en posant, pour un vecteur xi , u =
2
. La
k
hk
largeur optimale pour la composante k devient alors :
  d+4
1
4
hk = σk , (8.23)
(d + 2)n
où d est la dimension du vecteur considéré.

85
Chapitre 8 • Estimation et incertitude

Le choix de la largeur définit la taille maximale des structures que peut décrire
l’estimateur de Parzen. Comme pour les classes d’un histogramme : si elle est trop
petite, l’estimateur est sensible aux fluctuations statistiques ; si elle est trop grande,
les caractéristiques principales de la distribution sont lissées. Ceci est illustré sur la
partie droite de la figure 8.3.

86
T ESTS STATISTIQUES
9
Un test statistique vise à vérifier la compatibilité d’un échantillon de données {xi }i=1...n
avec une loi statistique f (x) entièrement déterminée. Ce n’est pas à proprement par-
ler un ajustement car il n’y a aucun paramètre libre. Il existe de multiples tests sta-
tistiques, le principe consiste toujours à construire une variable aléatoire (on parle de
« statistique »), fonction de l’échantillon et de la loi à tester qui mesure l’accord entre
la loi théorique et les données.
La loi de probabilité de cette nouvelle variable peut être déterminée à partir de la
théorie des probabilités, (au moins asymptotiquement, c’est-à-dire dans la limite d’un
grand échantillon). On utilise ensuite la loi du test statistique pour traduire la valeur
obtenue en probabilité de compatibilité avec la loi théorique.
On se limitera ici à deux cas couramment utilisés : le test de Pearson et le test de
Kolmogorov-Smirnov.

9.1 L E TEST DU χ2 DE P EARSON


Le test du χ2 repose sur les propriétés de l’histogramme discutées au chapitre 8.3.1 :
• l’histogramme fournit un estimateur de la densité de probabilité. Le taux d’événe-
ments p̂ j = n j /n dans la classe C j ( j = 1 . . . k, pour k classes) fournit une estimation
de la probabilité de trouver x dans l’intervalle C j ;
• le nombre d’événements dans chaque classe suit asymptotiquement une loi de
Poisson ;
• pour une classe C j , la probabilité de trouver x ∈ C j si x est distribuée selon f est :

pj = f (x)dx. (9.1)
© Dunod. La photocopie non autorisée est un délit.

Cj

On construit alors la grandeur :


k 
k
(n p̂ j − np j )2 n p̂ j − np j
K2 = K 2j = , Kj = √ . (9.2)
j=1 j=1
np j np j

Le numérateur de chaque K j correspond à l’écart entre nombre d’événements ob-


servé et le nombre moyen attendu dans la classe C j dans l’hypothèse où les xi sont
distribués selon f . Le dénominateur correspond à l’écart type de la loi de Poisson de

87
Chapitre 9 • Tests statistiques

paramètre λ = np j , qui est la loi statistique du nombre d’événements dans la classe j


si les xi sont distribués selon f , c’est-à-dire la dispersion attendue.
Un bon accord entre la loi f et les données xi doit donc se traduire par une faible
valeur de K 2 . C’est le test du χ2 proposé par Pearson en 1900.
Dans l’hypothèse ou les xi sont distribués selon f , les K j sont des variables centrées
réduites. Dans la limite gaussienne (n grand), si les K j étaient indépendants, alors K 2
serait une variable aléatoire distribuée selon une loi de χ2 à k degrés de liberté. Ce
n’est pas le cas car il existe une contrainte p̂ j = p j = 1. On montre alors que
K est distribuée selon une loi de χ à k − 1 degrés de liberté.
2 2

Le problème de vérifier la compatibilité des mesures xi avec la loi f est donc


ramené à celui de tester la compatibilité de K 2 avec la loi du χ2 . Pour ce faire on
définit la p-value du test :
 +∞
p-value = fχ2 (x)dx. (9.3)
K2

Cette grandeur quantifie la probabilité d’obtenir une valeur plus grande que K 2 . Le
test est satisfaisant si la p-value est plus grande qu’une valeur seuil à fixer.
La loi du χ2 à r degrés de liberté a pour moyenne μ = r et pour variance σ2 = 2r.
De plus pour r > 10 elle est raisonnablement approximée par une loi normale. On
peut alors estimer que si K 2 est distribuée selon une loi du χ2 à k − 1 degrés de liberté
alors on doit avoir :
- -
P(K 2 ∈ [k − 1 − -2(k − 1), k − 1 + 2(k - − 1)]) ≈ 68%, (9.4)
P(K ∈ [k − 1 − 2 2(k − 1), k − 1 + 2 2(k − 1)]) ≈ 95%.
2

Ainsi, trouver K 2 dans l’intervalle ±1σ est une preuve de compatibilité entre f et
{xi }, néanmoins si K 2 est en dehors de l’intervalle, il est toujours possible mais moins
probable que les xi soient distribués selon f .
Ce test nécessite d’organiser l’échantillon sous forme d’un histogramme ou d’une
table de fréquence. Cette présentation nécessite de choisir des classes spécifiques. On
a vu au chapitre précédent qu’il n’y avait pas de règle particulière pour le choix des
classes. Le test de Pearson n’utilise pas la convergence de la loi de l’histogramme vers
la loi de probabilité quand la largeur des classes tend vers 0. En revanche, il repose
sur l’approximation de la loi de chaque classe par une loi de Poisson, ce qui implique
que le nombre d’événement par classe doit être suffisamment grand (n j > 20).
Remarque
Si cette dernière condition n’est pas vérifiée, le test reste valide mais l’interprétation
statistique en terme de loi du χ2 ne l’est plus. On s’attend cependant à ce que la
grandeur K 2 calculée reste petite, de l’ordre de k.

88
9.2. Le test de Kolmogorov-Smirnov

Remarque
L’interprétation en terme d’intervalle de confiance gaussien suppose de plus que le
régime asymptotique de la loi du χ2 soit atteint, soit k > 10.

9.2 L E TEST DE K OLMOGOROV -S MIRNOV


Le test du χ2 nécessite d’organiser les données en classes, ce qui implique une perte
d’information par rapport à l’échantillon complet. Il existe néanmoins des tests sta-
tistiques permettant d’utiliser tout l’échantillon. Le plus couramment utilisé a été
proposé par Kolmogorov en 1930.
On a vu que, si on considérait l’échantillon comme la population totale, on pouvait
lui adjoindre une densité de probabilité fech :
1
fech (x) = δ(x − xi ). (9.5)
n
Le test consiste à comparer la fonction de répartition F de la loi à tester à celle de
l’échantillon. La fonction de répartition pour l’échantillon est :



⎪ 0 si x < x0



⎨k
Fech (x) = ⎪⎪ si xk ≤ x < xk+1 , (9.6)


⎪ n

⎩ 1 si x ≥ x
n

où on suppose que l’échantillon est ordonné : x0 ≤ x1 ≤ · · · ≤ xn . Un bon accord


entre l’échantillon et la loi f se traduit par un faible écart entre F(x) et Fech (x) pour
toutes les valeurs de x. Le test reposera donc sur la grandeur :
Dn = sup |F(x) − Fech (x)|. (9.7)
x

Comme dans le cas du test du χ2 , une petite valeur de Dn indique un accord satisfai-
sant. De plus, on peut également introduire une interprétation statistique équivalente
à la p-value. On montre en effet que dans la limite de n grand (n > 80 est suffisant) :
∞
© Dunod. La photocopie non autorisée est un délit.

P(Dn > β) = 2 (−1)r−1 e−2nr β .


2 2
(9.8)
r=1
Il n’est pas possible de définir un intervalle de confiance centré comme pour la loi
du χ2 . Il est néanmoins possible de déduire de la formule précédente des intervalles
de confiance de la forme [0, β]. La valeur de β pour un niveau de confiance fixé
dépend de la taille de l’échantillon. On aura :

β = 0, 9584/ √n pour 68,3% (1σ),
β = 1, 3754/ √n pour 95,4% (2σ), (9.9)
β = 1, 8177/ n pour 99,7% (3σ).

89
Chapitre 9 • Tests statistiques

9.3 E XEMPLE
On considère l’échantillon suivant :
0,008 0,036 0,112 0,115 0,133 0,178 0,189 0,238
0,274 0,323 0,364 0,386 0,406 0,409 0,418 0,421
0,423 0,455 0,459 0,496 0,519 0,522 0,534 0,582
0,606 0,624 0,649 0,687 0,689 0,764 0,768 0,774
0,825 0,843 0,921 0,987 0,992 1,003 1,004 1,015
1,034 1,064 1,112 1,159 1,163 1,208 1,253 1,287
1,317 1,320 1,333 1,412 1,421 1,438 1,574 1,719
1,769 1,830 1,853 1,930 2,041 2,053 2,119 2,146
2,167 2,237 2,243 2,249 2,318 2,325 2,349 2,372
2,465 2,497 2,553 2,562 2,616 2,739 2,851 3,029
3,327 3,335 3,390 3,447 3,473 3,568 3,627 3,718
3,720 3,814 3,854 3,929 4,038 4,065 4,089 4,177
4,357 4,403 4,514 4,771 4,809 4,827 5,086 5,191
5,928 5,952 5,968 6,222 6,556 6,670 7,673 8,071
8,165 8,181 8,383 8,557 8,606 9,032 10,482 14,174

Il se compose de n = 120 nombres aléatoires tirés selon une loi exponentielle


f (x) = λe−λx de paramètre λ = 0,4. On va vérifier la compatibilité de l’échantillon
avec cette loi.

Test du χ2
On construit une table de fréquence avec des classes de largeur 1,25. Pour chaque
classe on calcule en plus le nombre d’événements moyen attendu np j et l’écart qua-
dratique K 2j . Ces grandeurs sont listées dans la table 9.1. L’histogramme correspon-
dant est donné sur la figure 9.1.
Tableau 9.1
Cj 0,00–1,25 1,25–2,50 2,50–3,75 3,75–5,00 5,00–6,25
nj 46 28 15 13 6
n.pj 47,216 28,638 17,370 10,535 6,390
Kj2 0,031 0,014 0,323 0,577 0,024

Cj 6,25–7,50 7,50–8,75 8,75–10,00 > 10,00


nj 2 7 1 2
n.pj 3,876 2,351 1,426 2,198
Kj2 0,908 9,195 0,127 0,018

La valeur finale obtenue pour le test est K 2 = 11,22 pour 8 degrés de libertés.
La p-value correspondante est de 0,19, c’est-à-dire que la probabilité d’avoir un
échantillon en moins bon accord que le nôtre avec la loi proposée est d’environ une
chance sur cinq.
Le nombre de classes ne permet pas vraiment d’atteindre le régime gaussien, on
peut néanmoins regarder l’intervalle à ±1σ, mais ce dernier que correspondra pas

90
9.3. Exemple
evénements par classe

Fonction de répartition
1
50
Echantillon, n
j
0.8
40
j ∫
Modèle, n.p =n 0.4e-0.4xdx
cj 0.6
30

Echantillon, Fech
20 0.4

Modèle, F(x)=1-exp(-0.4x)
10 0.2
Dn=max |Fexp(x)-F(x))|

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
x (classes de largeur 1.25) x

Figure 9.1– Histogramme (test du χ2 ) et fonction de répartition (test de


Kolmogorov-Smirnov) pour l’échantillon (noir) et le modèle à tester (gris).

exactement à un niveau de confiance de 68%. On trouve 8 ± 4, qui contient la valeur


obtenue. En conclusion, les données de l’échantillon sont compatibles avec la loi
exponentielle. On aurait tiré la même conclusion si K 2 avait été légèrement hors de
l’intervalle, mais une déviation supérieure à 3σ (ici, K 2 > 20) aurait marqué un
désaccord important.

Test de Kolmogorov-Smirnov
La mise en œuvre du test de Kolmogorov est plus délicate et nécessite généralement
le recours à un ordinateur. Les fonctions de répartition de l’échantillon et du modèle
sont représentées sur la figure 9.1. L’écart maximal Dn est représenté par un segment
vertical gris.
La valeur obtenue est Dn = 0,069, soit une p-value de 0,617. L’intervalle de
confiance à 1σ est ici [0; 0,0875] qui contient encore la valeur de Dn . On conclut
également que l’échantillon est compatible avec la loi proposée.
© Dunod. La photocopie non autorisée est un délit.

91
A JUSTEMENTS
DE DONNÉES
10
Nous revenons maintenant à un problème fréquent qui consiste à déterminer la courbe
optimale passant par une série de point. Le cas le plus simple de la régression linéaire
a déjà été discuté au chapitre 2.

10.1 I NTRODUCTION
Formellement, supposons un ensemble de n couples {(xi , yi )} qu’on sait être reliés
théoriquement par une loi y = f (x, θ), où θ = θ1 , θ2 , . . . représente un ensemble de
paramètres inconnus. L’ajustement de la fonction f sur les données {(xi , yi )} consiste
à trouver la valeur des paramètres θ qui correspondent le mieux aux données.
On va présenter deux méthodes d’ajustement : l’ajustement par régression qui ne
prend pas en compte les incertitudes de mesures et la méthode des moindres carrés
qui utilise l’incertitude comme information supplémentaire.
Comme dans le cas d’un test statistique, l’approche la plus simple est de construire
une grandeur qui mesure l’accord entre les mesures et la courbe théorique. A la diffé-
rence d’un test statistique où la loi théorique est complètement spécifiée, cette mesure
va dépendre des paramètres θ. Ensuite, la valeur des paramètres donnant le meilleur
accord sera choisie comme estimateur des paramètres. Il est important de bien diffé-
rencier la mesure de l’accord théorie/expérience et la valeur optimale des paramètres,
les deux fournissant une information différente :

• L’estimation des paramètres fournit une mesure de ces paramètres. Dans certains
cas on peut déterminer la loi de probabilité de cet estimateur et en déduire une
© Dunod. La photocopie non autorisée est un délit.

incertitude sur les paramètres estimés.

• La valeur de la mesure d’accord pour les paramètres optimaux, définit le meilleur


accord possible. Il permet de définir la qualité de l’ajustement et de conclure sur
l’adéquation entre le modèle théorique et les données.

Il est tout à fait possible d’avoir une mesure peu précise des paramètres mais un
très bon accord avec les données tout comme un désaccord flagrant avec une bonne
précision. Dans ce dernier cas on mesurera précisément un paramètre qui n’a pas de
sens, ce qui sera évidemment sujet à caution.

93
Chapitre 10 • Ajustements de données

10.2 R ÉGRESSION DANS LE CAS GÉNÉRAL


L’approche la plus simple consiste à chercher θ de manière à minimiser la dispersion
de yi autour de f (xi , θ). En utilisant l’écart type comme mesure de dispersion, ceci
revient à minimiser :
1  2
n
w(θ) = yi − f (xi , θ) . (10.1)
n i=1

ˆ
Minimiser w(θ) revient à chercher les valeurs θreg qui annulent toutes les dérivées
partielles de w. On doit donc résoudre par rapport à l’ensemble des paramètres θ le
système d’équations suivant :

∂w
0=
∂θ
1 ∂  2
= yi − f (xi , θ)
n ∂θ i
1  ∂ f (xi , θ)
= −2 yi − f (xi , θ)
n i ∂θ
 ∂ f (x , θ) 
yi − f (xi , θ) ,
i
⇒0= (10.2)
i ∂θ


où la notation condense les dérivées partielles relativement à chaque θi . Le sys-
∂θ
tème d’équations peut toujours se résoudre analytiquement si la fonction f dépend
linéairement des paramètres, soit :

f (x) = a1 h1 (x) + a2 h2 (x) + · · · + am hm (x). (10.3)

Pour m paramètres, on obtient alors un système linéaire de m équations à m incon-


nues. On cherche alors à résoudre pour tout k ∈ [1, m] :
⎛ ⎞
n ∂ m a h (x ) ⎜ ⎜ m ⎟⎟⎟
j j i ⎜
⎜⎜⎜y − ⎟⎟
j j i ⎟
j
0= ⎜⎝ i a h (x ) ⎟⎠
i
∂a k j
⎛ ⎞
n ⎜⎜⎜ m ⎟⎟⎟
= hk (xi ) ⎜⎜⎜⎜⎝yi − a j h j (xi )⎟⎟⎟⎟⎠ (10.4)
i j

n 
m 
n
= hk (xi )yi − aj hk (xi )h j (xi ).
i j i

94
10.3. Méthode des moindres carrés ou méthode du χ2

Ceci revient à inverser le système suivant :


⎛   ⎞⎛ ⎞ ⎛  ⎞
⎜⎜⎜ h1 (xi )2 ... h1 (xi )hm (xi ) ⎟⎟⎟ ⎜⎜ a1 ⎟⎟ ⎜⎜⎜ h1 (xi )yi ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟ ⎜⎜ ⎟⎟ ⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ .. .. .. ⎟⎟⎟ ⎜⎜⎜ .. ⎟⎟⎟ = ⎜⎜⎜ .. ⎟⎟⎟ .
⎜⎜⎜  . .  . ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜  . ⎟⎟⎟ (10.5)
⎜⎝ ⎟⎠ ⎝ ⎠ ⎜⎝ ⎟
h1 (xi )hm (xi ) . . . hm (xi )2 am hm (xi )yi ⎠

On peut étendre ce résultat à toute fonction de la forme f (x) = h0 (a1 h1 (x) +


a2 h2 (x) + · · · + an hn (x)), où h0 est une fonction bijective. On se ramène au cas pré-
cédent en posant y i = h−1 0 (yi ). Il suffit donc d’effectuer la régression sur les couples
(xi , y i ).
Par exemple, pour ajuster y = ea−bx il suffit de poser y = ln y, ha (x) = 1 et
2

hb (x) = −x2 .
Pour quantifier la qualité de l’ajustement, on définit le coefficient de régression
par :
 reg 2
i (yi − f (xi , θ̂i ))
r =1−
2
 . (10.6)
i (yi − ȳ)
2

Ce critère compare l’écart résiduel après régression à la variance de l’échantillon {yi }.


Pour un bon ajustement, la variation résiduelle doit être très faible devant la disper-
sion de l’échantillon et donc r2 ≈ 1. On notera en particulier que r2 ≤ 1.

Remarque
Le cas linéaire f (x) = ax + b a été discuté au chapitre 2. On redonne simplement le
résultat final : ⎧
⎪ σy


⎪ a=r
⎨ σx


⎪ σy . (10.7)

⎩ b = ȳ − r x̄
σx
Dans ce cas particulier, le coefficient de régression est le carré du coefficient de
corrélation. Si les xi et les yi sont effectivement reliés par une relation linéaire alors
r = ±1. Si |r| est beaucoup plus petit que 1 alors le choix d’une fonction linéaire pour
relier x et y est mauvais et il faut trouver une autre loi. Les calculatrices qui possèdent
© Dunod. La photocopie non autorisée est un délit.

une fonction « régression linéaire » donnent généralement la valeur de r2 .

10.3 M ÉTHODE DES MOINDRES CARRÉS


2
OU MÉTHODE DU χ
10.3.1 Introduction
Considérons le cas d’un ensemble de valeurs {xi }. Pour chaque xi , on mesure une
autre grandeur yi avec une incertitude Δyi . On souhaite ajuster une loi y = f (x, θ) à
ces données.

95
Chapitre 10 • Ajustements de données

La méthode de la régression (10.2) ne prend pas en compte l’incertitude. Or il


semble naturel de donner un poids plus important aux points ayant la plus faible
incertitude.
La régression consistait à minimiser la dispersion entre les données et la loi théo-
rique. Pour chaque point de mesure, la grandeur :

yi − f (xi , θ)
(10.8)
Δyi
permet de comparer l’écart entre la mesure et la loi théorique à l’écart probable entre
la valeur mesurée et la valeur « vraie ». C’est l’écart entre la mesure yi et le mo-
dèle f (xi ) en unité d’incertitude ou encore en nombre de σ. Les paramètres optimaux
devront minimiser la grandeur :

 ⎛⎜⎜ y − f (x , θ) ⎞⎟⎟2


K (θ) =
2 ⎜⎜⎝ i i ⎟⎟⎠ , (10.9)
i
Δy i

qui est la somme quadratique du rapport de déviations. Il faut donc résoudre par
rapport aux paramètres θ le système d’équations :

∂K 2 (θ)  ∂ f (x , θ) ⎛⎜⎜ y − f (x , θ) ⎞⎟⎟


=0⇒
i ⎜⎝⎜ i i ⎟⎟⎠ = 0. (10.10)
∂θ i ∂θ Δy 2
i

Remarque
Cette généralisation de la régression est similaire à la construction du test statistique
du χ2 . Il existe cependant deux différences majeures. Dans le cas du test de Pearson,
le modèle consiste en un nombre d’événements pour chaque classe décrit par une
loi de Poisson. On connait donc la variance théorique et le dénominateur de chaque
terme de la somme est déterminé par le modèle. Dans l’ajustement le modèle n’ap-
porte aucune information sur la variance théorique et c’est l’erreur expérimentale qui
mesure la dispersion. L’autre différence découle de la nature fondamentale d’un test
statistique : il consiste à tester la compatibilité des données avec une loi de proba-
bilité alors que l’ajustement permet de déterminer les paramètres de n’importe quel
type de courbe.

Dans la mesure où on cherche le minimum de K 2 (θ), il faudrait également vérifier


∂2 K 2 (θ)
que > 0.
∂θ2
Si (10.10) a plusieurs solutions qui correspondent à des minima, il faut en plus
chercher parmi eux le minimum global.

Cet ajustement est connu sous le nom de méthode des moindres carrés ou méthode
ˆ
du χ2 . L’estimateur de θ est donné par la valeur θ qui minimise K 2 (θ). On pose alors
ˆ
2
Kmin = K 2 (θ) la valeur minimale de K 2 . On trouve souvent la notation χ2 et χ2min

96
10.3. Méthode des moindres carrés ou méthode du χ2

pour K 2 et Kmin
2
, ce qui constitue un amalgame dangereux, le lien avec la loi du χ2
n’étant pas systématique.
2
La valeur de Kmin doit être petite si la fonction ajustée décrit les données de ma-
yi − f (xi , θ)
nière satisfaisante. En particulier pour chaque point (xi , yi ), le rapport
Δyi
K 2
doit être de l’ordre de l’unité et donc min doit également être de cet ordre de gran-
n
deur (n étant le nombre de points ajustés). Cette grandeur mesure donc la qualité de
l’ajustement. On verra dans la section 10.3.4 que l’on peut donner une interprétation
2
statistique en terme de p-value à Kmin .
Le système (10.10) ne peut généralement pas se résoudre analytiquement. On uti-
lise des algorithmes de minimisation numérique pour effectuer des ajustements com-
plexes. L’ordinateur devient alors indispensable. Néanmoins, comme dans le cas de
la régression, l’ajustement d’une fonction dépendant linéairement des paramètres se
résout analytiquement. On retrouve alors la même forme matricielle que pour la ré-
gression avec un dénominateur 1/Δy2i dans toutes les sommes :
⎛   h1 (xi )hm (xi ) ⎞⎟ ⎛ ⎞ ⎛  h1 (xi )yi ⎞
⎜⎜⎜ h1 (xi )2 ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ . . . ⎟⎟⎟ ⎜⎜⎜ a ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟
⎜⎜⎜ Δyi 2 Δyi 2
⎟⎟⎟ ⎜⎜⎜ 1 ⎟⎟⎟ ⎜⎜⎜ Δy2i ⎟⎟⎟
⎜⎜⎜ . .. . ⎟ ⎜

⎟⎟⎟ ⎜⎜ . ⎟⎟ = ⎜⎜
. ⎟
⎟ ⎜
⎜ . ⎟⎟⎟
⎜⎜⎜ .. . .. ⎟⎟⎟ ⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ .. ⎟⎟⎟ . (10.11)
⎜⎜⎜ ⎜ ⎟ ⎜  ⎟⎟⎟⎟
⎜⎜⎜  h1 (xi )hm (xi )  hm (xi )2 ⎟⎟⎟ ⎜⎜ a ⎟⎟ ⎜⎜ hm (xi )yi
⎜⎝ . . . ⎟⎟⎠ ⎜⎜⎝ m ⎟⎟⎠ ⎜⎜⎝ ⎟⎟⎠
Δy2i Δy2i Δy2i

Remarque
Si toutes les incertitudes Δyi ont la même valeur, on retrouve l’équation de régres-
sion (10.2). Les incertitudes étant identiques en chaque point, toutes les mesures ont
la même importance.

10.3.2 Cas linéaire


© Dunod. La photocopie non autorisée est un délit.

Dans le cas fréquent y = f (x) = ax + b, le système (10.10) se résout sans difficulté et


la solution est :
AE − DC DB − AC
â = , b̂ = , (10.12)
BE − C 2 BE − C 2
avec
 xy  x2
i i i
A= 2
,B= ,
(Δyi ) (Δyi )2
 xi  y  1
i
C= , D = et E = . (10.13)
(Δyi )2 (Δyi )2 (Δyi )2

97
Chapitre 10 • Ajustements de données

Dans le cas particulier ou la droite passe par l’origine : y = f (x) = ax, l’ajustement
par la méthode du χ2 donne :
 xi yi
A (Δy )2
â = =  2i . (10.14)
B xi
(Δyi )2

Exemple
Considérons les quatre points de mesure suivant :
xi 1 2,2 3,5 5
yi 1 10 3 25
Δyi 0,5 2 10 1,2

La figure 10.1 illustre les différences entre régression linéaire et méthode du χ2 .


La régression linéaire a pour résultat :

a = 5,01, b = −4,90 avec r = 0,79, (10.15)

alors que l’ajustement par la méthode du χ2 conduit à :

a = 6,00, b = −4,94 avec Kmin


2
= 2,46. (10.16)

Le coefficient de corrélation est faible (ρ = 0.79) ce qui indique a priori un mauvais


ajustement. Cependant, l’ajustement par χ2 prend en compte la grande incertitude
du troisième point et donne un résultat plus crédible.
y

25 Regression linéaire : r=0.792

20
Méthode du χ2 : K 2min/2=1.23

15

10

-5

-10
1 1.5 2 2.5 3 3.5 4 4.5 5
x

Figure 10.1– Ajustement de f (x) = ax + b par régression linéaire et par méthode


du χ2 sur un ensemble de données.

10.3.3 Ajustement d’un histogramme


On a vu au chapitre 8 que l’histogramme permet d’estimer une densité de probabilité.
Si la forme analytique de la densité est connue mais pas la valeur des paramètres (par

98
10.3. Méthode des moindres carrés ou méthode du χ2

exemple une densité normale de moyenne et d’écart type inconnus), on peut utiliser
un ajustement par la méthode du χ2 .
Les couples {(xi , yi )} sont définis pour chaque classe C j = [I j ; I j+1 [ par :



⎪ I j + I j+1
⎨ xj = , le centre de la classe C j


⎪ 2 . (10.17)
⎩ y j = n j , le nombre d’événements dans la classe C j

On approxime la densité de chaque mesure y j = n j par une densité normale (ri-



goureusement, c’est une densité binomiale) d’écart type σi = n j . La fonction à
minimiser est alors : 2
 n j − nδ f (x j , θ)
K 2 (θ) = , (10.18)
j
nj

où n est le nombre total d’événements, δ la largeur des classes et la somme porte sur
toutes les classes. Le système à résoudre devient donc :
 n ∂ f (x j , θ)  nδ

1− 
f (x j , θ) = 0. (10.19)
j
δ ∂θ nj

10.3.4 Interprétation statistique


a) Qualité de l’ajustement et p-value
Le plus souvent, chaque point de mesure yi ± Δyi , s’interprète comme la réalisation
ˆ
d’une variable aléatoire gaussienne, de moyenne f (yi , θ) (modèle optimal) et d’écart
type Δyi (incertitude expérimentale à 1σ). On supposera aussi que les variables aléa-
toires de l’ensemble des mesures sont indépendantes. Tous les résultats discutés dans
cette section supposeront que cette interprétation est valide.
Dans ce cas, la fonction à minimiser s’apparente à un test de χ2 . La valeur d’un tel
test est une réalisation d’une variable aléatoire distribuées selon une loi de χ2 si les
données suivent effectivement la loi testée. Pour l’ajustement par la méthode de χ2 , la
valeur minimale de K 2 correspond au meilleur accord entre les données et le modèle.
© Dunod. La photocopie non autorisée est un délit.

Elle possède des propriétés similaires au test de χ2 si le modèle est adapté. Dans ce
cas on montre que Kmin2
est la réalisation d’un variables aléatoire suivant une loi de χ2
à Nd f = n − nθ degrés de libertés où n est le nombre de points de mesure et nθ le
nombre de paramètres ajustés. S’il y a plus de paramètres à déterminer que de points
de mesure, alors Nd f < 0 et l’ajustement possède une infinité de solutions. Ainsi,
seuls les ajustements avec un nombre positif de degrés de libertés sont réalisables.
La loi de χ2 à n degrés de libertés a pour moyenne n. Une valeur de Kmin 2
/Nd f  1
indique généralement que l’accord entre les mesures et le modèle est bien meilleur
que les incertitudes le laisse supposer. Ceci est possible mais peu probable et traduit

99
Chapitre 10 • Ajustements de données

généralement que les incertitudes sont soit partiellement corrélées, soit surestimées.
2
A l’inverse Kmin /Nd f  1 indique soit que le modèle utilisé n’est pas adapté, soit
que les erreurs sont sous-estimées.
On peut également utiliser la variance de la loi de χ2 pour définir un intervalle
2
de confiance, ainsi pour un bon ajustement
- Kmin a environ 95% de probabilité de se
trouver dans l’intervalle Nd f ± 2 2Nd f , si Nd f est suffisamment grand (Nd f > 30
pour pouvoir utiliser l’approximation gaussienne).
Enfin on peut définir la p-value, qui est la probabilité de faire un ajustement dont
2
le résultat serait pire que celui observé. C’est donc la probabilité de trouver un Kmin
plus grand que celui obtenu. Elle est donnée par la densité de probabilité fχ2 de la loi
de χ2 (cf. chapitre 5). La p-value quantifie également la qualité de l’ajustement :
 +∞
p-value = fχ2 (x; Nd f )dx. (10.20)
2
Kmin

Les tables données en annexes permettent de déterminer les p-values connaissant K 2


et le nombre de degrés de liberté.

Exemple
Dans l’exemple de la figure 10.1, il y 4 points de mesure et 2 paramètres (a et b)
2
soit 2 degrés de libertés. Le Kmin par degrés de liberté vaut 1,23, ce qui indique
que le choix d’une droite était pertinent.
La p-value vaut alors 0,29, ce qui signifie qu’il y a 29% de chance de trouver un
ajustement plus mauvais.

Remarque
On peut généraliser la méthode du χ2 et son interprétation statistique au cas où les
incertitudes de mesures sont corrélées. Dans ce cas, on pose :

⎛y ⎞ ⎛ ⎞
⎜⎜⎜ 1 ⎟⎟⎟ ⎜⎜⎜ f (x1 , θ) ⎟⎟⎟
⎜⎜⎜ ⎟
⎜⎜⎜ y2 ⎟⎟⎟ ⎜⎜⎜ f (x2 , θ) ⎟⎟⎟⎟⎟
 = ⎜⎜⎜⎜ . ⎟⎟⎟⎟ ,
Y  
M(θ) = ⎜⎜⎜⎜ .. ⎟⎟⎟ , (10.21)
⎜⎜⎜ . ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟
⎜⎝ . ⎟⎠ ⎜⎝ . ⎟⎟⎠
yn f (xn , θ)

et
T 
K2 = Y − M(
 θ) Σ −1 Y − M(
 θ) . (10.22)

La difficulté principale réside dans la détermination correcte de la matrice de cova-


riance Σ. Dans le cas de mesures décorrélées, Σ est diagonale, avec Σii = σ2i = Δy2i . On
retrouve alors l’expression de K 2 utilisée précédemment.

100
10.3. Méthode des moindres carrés ou méthode du χ2

b) Lien avec la fonction de vraisemblance


Dans l’hypothèse où chaque mesure y0i est la réalisation d’une variable aléatoire gaus-
sienne Yi , de moyenne μi (θ) = f (xi ) et d’écart type Δyi , la densité de probabilité de
chaque mesure est donnée par :


(yi −μi (θ))2
1 2Δy2
fYi (yi ) = √ e i . (10.23)
2πΔyi

L’indice 0 sert ici à différencier la valeur mesurée y0i d’une réalisation quelconque yi
de Yi . La densité jointe de l’ensemble des mesures, en supposant les variables indé-
pendantes est alors :
2
#
n #
n  (yi −μi (θ))
1 1 − 2Δy2
fY (y1 , y2 , . . . , yn ) = fYi (yi ) = e i , (10.24)
(2π) 2 i Δyi
n
i

soit pour la fonction de vraisemblance :


2
#
n #
n  (yi −μi (θ)) 0
1 1 −
L(θ) = fYi (yi ) =
0
e 2Δy2
i . (10.25)
(2π) 2 i Δyi
n
i

On constate alors que :


2

n y0i − μi (θ)
−2 ln L(θ) = + cste = K 2 (θ) + cste. (10.26)
i
Δy2i

Minimiser K 2 revient donc à maximiser la fonction de vraisemblance. Les paramètres


ajustés par la méthode du χ2 correspondent dont à l’estimateur du maximum de vrai-
© Dunod. La photocopie non autorisée est un délit.

semblance. C’est cette propriété qui permet l’interprétation statistique à partir de la


loi du χ2 présentée précédemment.
Ceci n’est vrai que si les mesures sont gaussiennes. Si ce n’est pas le cas, l’ap-
proche de la méthode du χ2 reste valide : on tente de minimiser l’écart entre modèle
et mesures en pondérant par l’incertitude. Néanmoins on perd l’interprétation statis-
tique associée à la qualité du résultat.

Remarque
Dans le cas ou les mesures ne sont pas indépendantes, la densité jointe est donnée
par une loi multinormale et on retrouve pour −2 ln L l’expression généralisée de K 2 .

101
Chapitre 10 • Ajustements de données

c) Incertitude sur l’ajustement


Les données utilisées pour l’ajustement comportent une incertitude qui doit être pro-
pagée aux paramètres ajustés. Comme la méthode d’ajustement est équivalente au
maximum de vraisemblance, l’incertitude sur les paramètres ajustés peut être dérivée
de la matrice de covariance de l’estimateur.
Si le modèle dépend linéairement des paramètres, K 2 est un polynôme d’ordre 2.
Dans le cas général, on peut approximer K 2 par son développement limité autour du
minimum :

n k
K 2 (θ̂) = Kmin
2
+ ai j (θi − θ̂i )(θ j − θ̂ j ) + O(θ3 ), (10.27)
i=1 j=1
ou encore pour un unique paramètre :
K 2 (θ) = Kmin
2
+ a(θ − θ̂)2 + O(θ3 ). (10.28)
La matrice de covariance des paramètres est alors estimée par la dérivée seconde du
logarithme de la fonction de vraisemblance :
∂2 ln L 1 ∂2 K 2
Σ̂ = L−1 avec Li j = − = , (10.29)
∂θi ∂θ j 2 ∂θi ∂θ j
soit : ai j
Li j = L ji =pour i  j et Lii = aii . (10.30)
2
Cette matrice Σ̂ traduit l’incertitude sur les paramètres ajustés et leurs corrélations.
En l’absence de corrélation entre les paramètres, l’expression se simplifie en σ̂i =
1 1
Δθˆi = √ et, pour un unique paramètre, Δθ̂ = √ .
aii a
Remarque
Lors de la résolution numérique d’un ajustement à un unique paramètre, en particu-
lier pour un modèle non linéaire, on pourra commencer par identifier approximati-
vement la position du minimum, puis calculer K 2 pour trois valeurs de θ autour du
minimum. Il sera alors possible de déterminer l’équation de la parabole K 2 = aθ2 +bθ+c
passant par les trois couples (θ j , K 2j ) selon :

K12 (θ2 − θ3 ) + K22 (θ3 − θ1 ) + K32 (θ1 − θ2 )


a=− (10.31)
k
K12 (θ22 − θ32 ) + K22 (θ32 − θ12 ) + K32 (θ12 − θ22 )
b= (10.32)
k
K12 (θ22 θ3 − θ32 θ2 ) + K22 (θ32 θ1 − θ12 θ3 ) + K32 (θ12 θ2 − θ22 θ1 )
c=− (10.33)
k
avec k = (θ1 − θ2 )(θ2 − θ3 )(θ3 − θ1 ). (10.34)
−b 1
Le minimum de la parabole est alors donné par θ̂ = , l’incertitude par Δθ̂ = √ et la
2a a
b2
2
qualité de l’ajustement par : Kmin =c− .
4a

102
10.3. Méthode des moindres carrés ou méthode du χ2

À partir de la variance de l’estimateur on peut construire des intervalles de


confiance. On pose :
Δχ2 (θ) = K 2 (θ) − Kmin
2
. (10.35)
Dans le cas d’un paramètre unique, l’équation :
Δχ2 (θ) = n2 (10.36)
2 3
possède deux solutions θn− et θn+ qui définissent un intervalle de confiance θn− , θn+ à
nσ. Une démonstration bayesienne de ce résultat est proposée dans l’exercice III.11.
On le généralise à plusieurs paramètres : un intervalle [a, b] de niveau de confiance
α sur le paramètre θi est défini en résolvant l’équation :
Δχ2 (θ̂1 , . . . , θi , . . . , θ̂n ) = β(nθ , α), (10.37)
où β est un nombre dépendant du niveau de confiance α et du nombre de paramètres
ajustés nθ dans Δχ2 . Il est relié à la distribution de χ2 par :
 β(nθ ,α)
α= fχ2 (x; nθ )dx. (10.38)
0
La démonstration de ce résultat dépasse le cadre de ce cours.
Pour 2 paramètres, β(2, α) = −2 ln(1 − α). La table 10.1 donne les valeurs de
β(nθ , α) pour les intervalles usuels et nθ ≤ 3.
Tableau 10.1– Coupures en Δχ2 définissant différents intervalles de confiance en
fonction du nombre de paramètres ajustés.
Nombre de paramètres nθ → nθ = 1 nθ = 2 nθ = 3
Niveau de confiance (%)↓
68.3 1 2.3 3.53
90 2.71 4.61 6.25
95.4 4 6.18 8.03
99.7 9 11.83 14.16

De même on peut résoudre l’équation Δχ2 = β(nθ , α) en laissant libre tout ou partie
des paramètres ajustés. On détermine alors des contours de confiance dans l’espace
de paramètres par l’hypersurface déterminée par l’équation.
Remarque
Cette construction d’intervalle de confiance sera symétrique autour de l’estimateur
si le modèle est linéaire (K 2 est quadratique). En revanche quand on généralise cette
construction au cas non linéaire, on peut obtenir des intervalles asymétriques.

La valeur de χ2 au minimum donne une indication de la qualité de l’ajustement : il


permet de définir si la fonction choisie pour l’ajustement est pertinente.
L’écart par rapport au minimum Δχ2 permet de définir l’incertitude sur la valeur des
paramètres ajustés, indépendamment de la qualité de l’ajustement. Cette dernière
incertitude ne prend tout son sens que si on a auparavant validé le modèle.

103
Chapitre 10 • Ajustements de données

Exemple
On reprend l’exemple de la figure 10.2, d’un ajustement linéaire f (x) = ax + b.
Les intervalles de confiance à 1, 2 et 3σ pour chacun des paramètres a et b sont
donnés sur la figure 10.2. En prenant l’intervalle à 1σ comme incertitude, il vient :

a = 6,00 ± 0,32 et b = −4,94 ± 0,69. (10.39)


Les contours de confiance bidimensionnels à 1σ, 2σ et 3σ dans le plan (a, b) sont
donnés sur la figure 10.3. On voit notamment qu’il y a une forte anti-corrélation
entre les deux paramètres. En effet si on surestime l’ordonnée à l’origine (b), il
faudra diminuer la pente (a) de la droite pour accommoder au mieux les données
et inversement. Ce type de représentation graphique est la seule manière correcte
de présenter ce type de résultat à plusieurs paramètres en illustrant clairement les
corrélations.
Δχ 2
Δχ 2

14 14

12 12
Erreur d’ajustement : a Erreur d’ajustement : b
10 10 intervalle à 68.3%
intervalle à 68.3%
intervalle à 95.4% intervalle à 95.4%
8 8
intervalle à 99.7% intervalle à 99.7%
6 6

4 4

2 2

0 0
5.4 5.6 5.8 6 6.2 6.4 6.6 6.8 -6.5 -6 -5.5 -5 -4.5 -4 -3.5
paramètre a (pente) paramètre b (ordonnée à l’origine)

Figure 10.2 – Intervalles à 68, 95 et 99% de niveau de confiance dans le cas de


l’ajustement de f (x) = ax + b de la figure 10.1.
paramètre b (ordonnée à l’origine)

Valeur centrale

contour à 68.3%
-3
contour à 95.4%

contour à 99.7%
-4

-5

-6
Δχ 2=2.3

Δχ 2=6.2
-7
Δχ 2=11
.8

5 5.5 6 6.5 7
paramètre a, pente

Figure 10.3 – Contours à 68 et 95% de niveau de confiance dans le cas de


l’ajustement de f (x) = ax + b de la figure 10.1. Il s’agit d’un ajustement à 2
paramètres, les niveaux de confiance sont donc définit par Δχ2 = 2,3, Δχ2 = 6,18 et
Δχ2 = 11,23 respectivement.

104
10.3. Méthode des moindres carrés ou méthode du χ2

d) Ajustement linéaire
Pour finir, on présente les résultats analytiques des intervalles de confiance sur les
paramètres d’un ajustement linéaire : pour un ajustement par une droite passant par
l’origine, y = f (x) = ax, l’erreur à nσ sur a est donnée par :

Δâ tel que Δχ2 (â + Δâ) = Δχ2 (â − Δâ) = n2 , (10.40)

soit :
n n
Δâ = √ =  . (10.41)
B  x2i
(Δyi )2

De même, pour un ajustement linéaire y = f (x) = ax + b, l’incertitude à nσ sur les


paramètres a et b est donnée par :
 0
4
−2 ln(1 − α) 1 −2 ln(1 − α)
Δâ = =  x2i , (10.42)
B
(Δyi )2

 /
−2 ln(1 − α) −2 ln(1 − α)
Δb̂ = =  1 . (10.43)
E
(Δyi )2

Le contour de confiance à deux dimensions, pour un niveau de confiance α est une


ellipse d’équation :
-
B(a − â)2 + E(b − b̂)2 + 2C(a − â)(b − b̂) = −2 ln(1 − α). (10.44)
-
Le terme −2 ln(1 − α) vaut environ :
-
• intervalle à 1σ : −2 ln(1 − α) = 1.52
-
• intervalle à 2σ : −2 ln(1 − α) = 2.49
-
• intervalle à 3σ : −2 ln(1 − α) = 3.44
© Dunod. La photocopie non autorisée est un délit.

Comme illustré dans l’exemple précédent, cet intervalle de confiance traduit la cor-
rélation entre les deux paramètres a et b. On peut également déterminer le coefficient
de corrélation à partir de la matrice de covariance :
   
−1 BC 1 E −C C
Σ = ⇒Σ= ⇒ρ=−√ . (10.45)
CE BE − C −C B
2
BE
Si C > 0 alors ρ < 0 et les deux paramètres ajustés sont anti-corrélés. Au contraire
si C < 0 ils sont corrélés. On peut également vérifier numériquement que les er-
reurs Δâ et Δb̂ correspondent à celles données par la matrice de covariance.

105
I NTRODUCTION AUX
MÉTHODES
11
M ONTE -C ARLO

Les méthodes Monte-Carlo consistent en l’utilisation d’échantillons aléatoires pour


résoudre divers problèmes mathématiques et simuler des phénomènes physiques.
Nous nous limiterons ici à quelques illustrations basiques de ces méthodes comme
applications des outils statistiques présentés dans les chapitres précédents.

11.1 É CHANTILLONNAGE

11.1.1 Séries pseudo-aléatoire

L’échantillonnage consiste en la création d’une série de valeurs distribuées selon une


loi de probabilité fixée, dite densité cible. Il joue un rôle important dans les méthodes
Monte-Carlo qui utilisent des séries de nombres aléatoires pour effectuer numéri-
quement des calculs d’intégrales et leur application à la simulation de phénomènes
physiques.
Il est relativement aisé de créer à l’aide de l’ordinateur des nombres dits pseudo-
aléatoires. Il s’agit de séries périodiques de grande période, dont une sous-partie se
comporte comme des réalisations indépendantes d’une variable aléatoire uniforme.
La plus simple de ces séries est la série multiplicative congruente : ci = Aci−1 mod N
avec 0 ≤ A ≤ N − 1, qui génère des nombres aléatoires entiers uniformément répartis
entre 0 et N. Pour obtenir une grande période, il faut choisir les paramètres A et N
© Dunod. La photocopie non autorisée est un délit.

judicieusement. La valeur initiale ou graine, c0 , définit une série unique. L’utilisation


de l’ordinateur impose généralement pour N une puissance élevée de 2. On peut
alors montrer que la période la plus grande pour la série sera N/4 à condition que A
mod 8 = 3 ou 5 et que la graine c0 soit impaire.
ci
Si N est suffisamment grand, alors la variable xi = fournit une bonne approxi-
N
mation d’une variable aléatoire distribuée uniformément sur l’intervalle [0, 1[.
Il existe d’autres types de séries pseudo-aléatoires. Un autre moyen de produire des
nombres aléatoires consiste en l’exploitation de phénomènes physiques de densité de
probabilité connue, tel le bruit blanc gaussien.

107
Chapitre 11 • Introduction aux méthodes Monte-Carlo

11.1.2 Transformation vers une loi quelconque


En partant d’une variable aléatoire Y uniforme sur [0, 1], on cherche à obtenir une
nouvelle variable X distribuée selon une loi cible f (x) fixée. Pour ce faire, il faut
déterminer le changement de variable X = ϕ(Y). En appliquant le résultat de 5.2, il
vient :
1
f (x) = dϕ . (11.1)
dy

dF
Par définition de la fonction de répartition F de X, on a f (x) = soit finalement :
dx

dF dϕ
= 1. (11.2)
dx dy

Pour une fonction bijective v = h(u), on peut définir une fonction réciproque h−1
telle que u = h−1 (v). En différenciant cette relation :

dh−1 dh−1 dh dh−1 dh


du = dv = du ⇒ = 1. (11.3)
dv dv du dv du

En appliquant ce résultat à 11.2, sachant que la fonction de répartition est bijective,


il vient :
ϕ(y) = F −1 (y). (11.4)

Si on dispose d’un échantillon {yi } uniforme sur [0, 1], alors l’échantillon {xi =
F −1 (yi )} sera distribué selon f .

Exemple
x
On veut obtenir des nombres distribués selon f (x) = sur [0, 2]. On vérifie d’abord
2
que ceci définit bien une densité de probabilité :
 2
f (x) > 0 si x ∈ [0, 2] et f (x)dx = 1. (11.5)
0

x2 √
La fonction de répartition est donc F(x) = et sa réciproque, F −1 (y) = 2 y. Ainsi
4 √
pour un échantillon {yi } uniforme sur [0, 1], {2 yi } sera distribué selon f (x) = x/2
sur [0, 2]. Ceci est illustré sur la figure 11.1, où l’on utilise un histogramme pour
visualiser la densité de probabilité de l’échantillon (voir chapitre 8).

108
11.1. Échantillonnage

300

250

200

150

100

50
Echantillon uniforme {y }
i
00 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x
y

x
1 1 2
Densité f(x) Fonction de 1.8
0.8 0.8 répartition y=F(x) 1.6

1.4
0.6 0.6 1.2
1
0.4 0.4 0.8

0.6
0.2 0.2 0.4 Fonction de répartition
-1
0.2 inverse x=F (y)
0 0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x x y

500

400

300

200

100 {x =F-1(y )}
i i
distribué selon f(x)
00 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2
x

Figure 11.1– Génération d’échantillon aléatoire pour le cas f (x) = x/2. Pour chaque
figure on représente la densité cible f (x), la fonction de répartition F(x) et son inverse
F −1 (y ), ainsi que l’échantillon uniforme de départ et l’échantillon final.

Cas uniforme
La transformation d’une variable uniforme sur [0, 1] à une variable uniforme sur
© Dunod. La photocopie non autorisée est un délit.

[a, b] quelconque est presque intuitive. Si on utilise le résultat général, on a :


⎧ ⎧


⎪ 0 si x < a ⎪

⎪ 0 si x < a


⎨ 1 ⎪

⎨ x−a
f (x) = ⎪
⎪ si a < x < b ⇒ F(x) = ⎪ ⎪ si a < x < b , (11.6)

⎪ −a ⎪
⎪ b−a
⎩ 0b si

x>b

⎩ 1 si x > b
soit :
F −1 (y) = a + (b − a).y pour 0 < y < 1. (11.7)
De y uniforme sur [0, 1], on passe à (b − a).y uniforme sur [0, b − a] (changement
d’échelle) puis à a + (b − a).y uniforme sur [a, b] (translation).

109
Chapitre 11 • Introduction aux méthodes Monte-Carlo

Cas Gaussien
La fonction de répartition de la loi normale Fnorm (x; μ, σ) n’a pas d’expression ana-
lytique. Il s’agit néanmoins d’une fonction d’usage courant qui s’exprime en fonction
de la fonction d’erreur erf :
    x
1 x−μ 2
e−z dz.
2
Fnorm (y) = 1 + erf √ avec erf(x) = √ (11.8)
2 σ 2 π 0
La réciproque de la fonction de répartition s’exprime alors à partir de la réciproque
de la fonction d’erreur erf−1 .
−1

Fnorm (y) = μ + σ 2erf−1 (2y + 1) . (11.9)
Ces deux fonctions sont tabulées et sont généralement accessibles sur les calculatrices
ainsi que dans la plupart des langages de programmation. Cette transformation est
illustrée sur la figure 11.2.

Cas multidimensionnel
La méthode de la fonction inverse s’applique également à l’échantillonnage d’une
variable aléatoire vectorielle. Pour créer un échantillon {xi , yi }i=1..n de densité jointe
f (x, y), on utilise les probabilités conditionnelles :
f (x, y) = f (x) f (y|x), (11.10)

où f (x) = f (x, y)dy est la densité marginale de x et f (y|x) est la densité de y
à x fixé. Un couple aléatoire est obtenu en tirant une valeur x0 de x distribuée selon
f (x), puis en tirant y0 selon f (y|x0 ) = f (x0 , y)/ f (x0 ) ∝ f (x0 , y). Pour utiliser cette
méthode, il faut pouvoir déterminer et inverser la fonction de répartition de f (y|x)
pour toutes les valeurs de x, ce qui peut se révéler compliqué si le calcul n’est pas
réalisable analytiquement. La généralisation à une variable aléatoire vectorielle de
dimension quelconque se fait naturellement en utilisant :
f (x1 , . . . , xm ) = f (x1 ) f (x2 |x1 ) . . . f (x j |x1 . . . x j−1 ) . . . f (xm |x1 . . . xm−1 ). (11.11)
Dans le cas où les variables sont indépendantes, on a f (x1 , . . . , xm ) = f1 (x1 ) × · · · ×
fm (xm ). Un échantillon aléatoire peut alors s’obtenir en tirant indépendamment des
valeurs selon chacune des distributions f1 , . . . , fm .

11.2 I NTÉGRATION M ONTE -C ARLO


L’application la plus courante des méthodes Monte-Carlo est le calcul numérique
d’intégrale. Ceci est particulièrement utile quand l’intégrale n’a pas d’expression
analytique.

110
11.2. Intégration Monte-Carlo

300

250

200

150

100

50
Echantillon uniforme {y }
i
00 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x

x
y

0.4 1

0.35 Densité Fonction de 2

0.3
f(x) 0.8 répartition
y=F(x) 1
0.25 0.6
0.2 0

0.15 0.4
-1
0.1
0.2
-2
Fonction de répartition
0.05
inverse x=F-1(y)
0 0
-5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x x y

1000
{x =F-1(y )}
i i
800 distribué
selon f(x)
600

400

200

0
-5 -4 -3 -2 -1 0 1 2 3 4 5
x

Figure 11.2 – Génération d’échantillon aléatoire pour le cas gaussien. Pour chaque
figure on représente la densité cible f (x), la fonction de répartition et son inverse F(x) et
F −1 (y ), ainsi que l’échantillon uniforme de départ et l’échantillon final.

11.2.1 Moyenne empirique


Considérons l’intégrale :

© Dunod. La photocopie non autorisée est un délit.

b
I= h(x)dx, (11.12)
a

où a et b sont deux réels et h une fonction intégrable sur s’intervalle [a, b]. Pre-
nons maintenant une variable aléatoire X distribuée uniformément sur [a, b], alors la
valeur moyenne de h(X) est définie par :
 +∞  b
1 I
E[h(X)] = h(x) fX (x)dx = h(x)dx = . (11.13)
−∞ b−a a b−a

111
Chapitre 11 • Introduction aux méthodes Monte-Carlo

Le principe de l’intégration Monte-Carlo consiste alors à créer un échantillon


{xi }i=1..n uniformément distribué sur [a, b] et de calculer l’estimateur de moyenne
empirique de l’échantillon {h(xi )} :
1
μ̂h = h(xi ) −−−−−→ E[h(X)]. (11.14)
n i n→+∞

On en déduit alors un estimateur de l’intégrale I :


b−a 
Iˆ = h(xi ) −−−−−→ I, (11.15)
n i
n→+∞

ou encore pour {xi }i=1..n uniformément distribué sur [0, 1] :


b−a 
Iˆ = h (a + (b − a)xi ) . (11.16)
n i

Dans la première section, nous avons vu que l’échantillonnage selon une loi f
nécessitait de connaître numériquement la réciproque de la fonction de répartition. Il
est donc nécessaire d’intégrer f pour déterminer F avant de l’inverser. Pour ce faire
on peut utiliser l’intégration Monte-Carlo. La génération d’un échantillon selon une
loi f pourra se décomposer comme suit :
• Créer un premier échantillon uniforme {xi }.
• Utiliser {xi } pour déterminer numériquement (interpolation) F(x), puis F −1 (y).
• Créer un second échantillon uniforme {x i }.
• Utiliser ce second échantillon pour produire {yi = F −1 (x i )} distribué selon f .

11.2.2 Incertitude
Dans la pratique, on utilise évidemment un échantillon de taille finie, cette taille
étant contrainte par la puissance de calcul de l’ordinateur. La valeur de Iˆ comme tout
estimateur ne donnera donc jamais la valeur exacte de l’intégrale. Cet écart va donc
se traduire par une erreur statistique, liée à la variance de l’estimateur. Ces aspects
ont déjà été discutés pour l’estimateur de moyenne empirique.
La variance de l’estimateur de l’intégrale sera donc :
 b
σ2
σ2Iˆ = (b − a)2 h avec σ2h = (h(x) − μh )2 dx. (11.17)
n a

En utilisant la variance empirique comme estimateur de la variance :


⎛ ⎛ ⎞2 ⎞
2 n ⎜  ⎜  ⎟
σ̂ ⎜ ⎜⎜⎜ h(x )⎟⎟⎟⎟⎟ ⎟⎟⎟⎟ ,
2
.2 = (b − a)2 h = (b − a) ⎜
⎜⎜⎜ 1 1 ⎜
σ h(x )2
− ⎠ ⎟⎠ (11.18)
n − 1 ⎝n i n2 ⎝ i
Iˆ i i
n n

112
11.3. Propagation d’incertitudes

et finalement :
0
1
b−a 1 Iˆ2
5Iˆ = √
ΔIˆ = σ h(xi )2 − . (11.19)
(n − 1) n i (b − a)2

Pour n suffisamment grand, [Iˆ −ΔI,


ˆ Iˆ +ΔI]
ˆ définit un intervalle de confiance gaussien
à 1σ. Il est en outre possible de déterminer la taille de l’échantillon pour avoir une
précision fixée. Pour ce faire on réalise un premier calcul sur un petit échantillon de
taille m (typiquement quelques milliers de valeurs). Ce calcul donne une estimation
ΔIm
raisonnable de la précision . On en déduit alors la précision pour n’importe quelle
Im
taille n d’échantillon :

ΔIn m ΔIm
≈ . (11.20)
In n Im
Ainsi pour obtenir une précision relative α, on détermine nα par :

 2
m ΔIm
nα = 2 . (11.21)
α Im

La taille de l’échantillon augmente quadratiquement avec la précision recherchée. Un


tel algorithme sera donc peu efficace pour obtenir une grande précision dans le calcul.
Il existe néanmoins des méthodes plus complexes basées sur le principe précédent
qui permettent d’améliorer l’efficacité du calcul. En particulier, les méthodes Monte-
Carlo révèlent toute leur puissance dans le calcul d’intégrales multidimensionnelles.
Ces aspects ne seront pas développés ici.

11.3 P ROPAGATION D ’ INCERTITUDES


© Dunod. La photocopie non autorisée est un délit.

Une autre application des méthodes Monte-Carlo que nous allons discuter est le cal-
cul d’erreur. Les formules de propagation des incertitudes, que nous avons obtenues
au chapitre 3, ne sont applicables que dans des cas particuliers. En effet, pour dériver
ces formules, on a supposé des incertitudes faibles (développement limité à l’ordre 3)
et symétriques. Pour deux grandeurs x et y affectées d’une incertitude, l’approche la
plus correcte pour déterminer l’incertitude sur une fonction z = f (x, y) consisterait à
déterminer la densité de probabilité de z puis à construire un intervalle de confiance
à 68% (erreur à 1σ). Analytiquement, ceci peut se révéler très complexe.
Il est possible par l’approche Monte-Carlo de construire un échantillon distribué
selon fZ (z), et de l’utiliser pour estimer fZ (z). Pour ce faire, on suppose que la densité

113
Chapitre 11 • Introduction aux méthodes Monte-Carlo

de probabilité de X = x ± Δx et Y = y ± Δy, f (x, y) est connue (par exemple une loi


multinormale, incluant éventuellement la corrélation entre x et y), la procédure est
alors la suivante :
• On construit un échantillon {(xi , yi )} distribué selon f (x, y) en utilisant la méthode
de la fonction inverse ou toute autre méthode d’échantillonnage.
• On en déduit un échantillon {zi = f (xi , yi )}.
• Ce dernier échantillon permet de déterminer une incertitude sur z, soit en estimant
l’écart type à partir de cet échantillon (écart type empirique), soit en utilisant un
estimateur de la densité de probabilité (histogramme, estimateur de Parzen) pour
construire un intervalle de confiance.
Une fois encore la généralisation à un nombre quelconque de paramètres est évidente.

11.4 S IMULATION DE SYSTÈMES PHYSIQUES


Pour valider un modèle théorique et éventuellement en ajuster les paramètres, on réa-
lise une ou plusieurs expériences. Il est donc important de pouvoir prédire le résultat
de l’expérience en fonction des paramètres du modèle afin de valider ou d’infirmer ce
dernier. Le calcul analytique du résultat est généralement impossible si on veut tenir
compte des nombreux effets instrumentaux. En effet des effets aléatoires apparaissent
en plusieurs points de l’expérience :
• la définition des conditions initiales du système ;
• l’évolution du système, si cette dernière implique la mécanique quantique ou le
traitement macroscopique d’un système microscopique complexe ;
• la mesure elle-même : les perturbations qui induisent une différence entre la me-
sure et la valeur « vraie » qu’on souhaite mesurer sont a priori déterministes. Néan-
moins le cumul de nombreux effets conduit à un comportement pseudo-aléatoire,
ce sont les incertitudes de mesures ou incertitudes systématiques. Le théorème
centrale-limite permet de leur attribuer une densité gaussienne.
Les méthodes Monte-Carlo permettent de créer facilement des simulations d’un
dispositif expérimental, en utilisant des nombres aléatoires pour reproduire ces dif-
férents effets. On peut ainsi créer un échantillon de mesures simulées qui donne une
estimation de la densité de probabilité de la mesure réelle et peut servir de base à un
ajustement du modèle ou au calcul des incertitudes de mesures. Nous allons illustrer
ceci au travers d’un exemple simple.
Considérons une source radioactive émettant isotropiquement des photons d’éner-
gie E. On place à une distance L de cette source un cristal cylindrique de iodure de
sodium de diamètre r et de longueur l. L’interaction de photons dans le cristal crée

114
11.4. Simulation de systèmes physiques

de la lumière par scintillation, la quantité de lumière étant proportionnelle à l’éner-


gie déposée. Cette lumière est détectée par un photomultiplicateur, qui permet donc
de mesurer l’énergie déposée dans le cristal. Enfin, on construit l’histogramme des
énergies observées. Le dispositif est illustré sur la figure 11.3.

θmax
r
θlim
source
cristal scintillant

L l
Figure 11.3 – Dispositif expérimental à simuler.

La simulation du dispositif va se décomposer en trois parties.

La génération des photons


On va commencer par créer des photons émis par la source. Un photon est décrit par
sa direction, soit deux angles en coordonnées sphériques θ et φ. L’isotropie sur la
sphère se traduit par une distribution uniforme par unité d’angle solide, soit :

P(θ < Θ < θ + dθ, φ < Φ < φ + dφ) = f (θ, φ)dθdφ ∝ sin(θ)dθdφ, (11.22)

soit :
f (θ, φ) ∝ sin(θ). (11.23)

Pour simuler un photon, on doit donc générer deux nombres aléatoires indépendants,
1
θ distribué, selon f (θ) = sin θ (ou plus simplement cos θ uniforme sur [−1; 1]) et φ
2
uniforme sur [0, 2π]. On peut se limiter à la génération de photons qui pourront être
© Dunod. La photocopie non autorisée est un délit.

détectés, c’est-à-dire ceux qui auront un angle d’émission 0 < θ < θmax .

L’ interaction dans le cristal


Pour un photon généré, il existe trois possibilités :
• le photon n’interagit pas et ressort du cristal ;
• le photon dépose toute son énergie par effet photoélectrique ;
• le photon dépose un partie de son énergie par effet Compton.

115
Chapitre 11 • Introduction aux méthodes Monte-Carlo

La probabilité de chacun de ces cas dépend de l’énergie du photon et de l’épaisseur e


de matière traversée (voir exercice II.8). Cette épaisseur dépend de l’angle d’inci-
dence θ du photon :
⎧ r − L tan θ




⎪ si θlim < θ < θmax
⎨ sin θ
e=⎪ ⎪ . (11.24)


⎪ l
⎩ si 0 < θ < θlim
cos θ
La probabilité d’interaction suit une loi exponentielle de moyenne μ = μcompton +
μ photo dont les valeurs sont connues. Si une interaction a lieu, la probabilité de chacun
des deux modes d’interaction est donnée par le rapport μ x /(μcompton + μ photo ). On peut
donc calculer les probabilités pour chacune des trois possibilités :
P1 = P(pas d’interaction) = e−μe ;
μ photo
P2 = P(interaction photoélectrique) = (1 − e−μe );
μcompton + μ photo (11.25)
μcompton
P3 = P(interaction Compton) = (1 − e−μe ).
μcompton + μ photo
Pour décider du mode d’interaction du photon, on tire un nombre aléatoire u
entre [0, 1]. La méthode de la fonction inverse se traduit ainsi pour un cas discret :
si u < P1 on décide qu’il n’y a pas d’interaction, le dépôt d’énergie est donc nul.
Si P1 ≤ u < P1 + P2 , on décide qu’il y a interaction par effet photoélectrique : le
dépôt d’énergie est donc E. Enfin si u ≥ P1 + P2 on décide qu’il y a interaction par
effet Compton. Dans ce cas le dépôt d’énergie est plus complexe à calculer.
L’interaction Compton est la diffusion élastique d’un photon sur un électron. Dans
le cadre de l’électrodynamique quantique, on peut calculer analytiquement la section

efficace différentielle qui est proportionnelle à la probabilité que le photon
dcosϕ
reparte avec un angle ϕ par rapport à sa direction d’incidence. L’énergie déposée est

reliée à cet angle de diffusion. A partir de l’expression de on détermine f (ϕ),
dcosϕ
puis F(ϕ) et enfin ϕ = F −1 (y). En tirant un nombre y aléatoire, uniforme sur [0, 1],
on décide de l’angle de diffusion par ϕ = F −1 (y) puis on en déduit l’énergie déposée.
Après une interaction Compton, un nouveau photon de plus basse énergie repart et
peut interagir à nouveau dans le détecteur. Il faut encore utiliser des tirages aléatoires
pour affecter une nouvelle direction au photon et recommencer cette étape.

Détection
L’énergie E déposée par un photon dans le cristal est mesurée par le détecteur. Au
signal physique E vont se superposer de nombreuses fluctuations dues, par exemple,

116
11.4. Simulation de systèmes physiques

à la température, à l’électronique, au détecteur . . . Ceci se traduit par l’ajout d’un


bruit gaussien de largeur δ qui traduit la résolution du dispositif de mesure. Si cette
résolution est connue, on peut construire une énergie mesurée à partir de l’énergie
déposée en ajoutant un nombre aléatoire distribué normalement avec un moyenne
nulle (on suppose ici que le bruit est nul en moyenne) et d’écart type δ.
On utilise cette chaîne de simulation pour produire un grand nombre de photons
et donc un grand nombre de mesures de l’énergie ce qui permet finalement d’obtenir
l’histogramme final.
Ces méthodes sont très utilisées pour simuler des processus et des détecteurs
complexes, en particulier en physique nucléaire et en physique des particules. Elles
trouvent néanmoins leur application dans de nombreux autres domaines de la phy-
sique.
© Dunod. La photocopie non autorisée est un délit.

117
Exercices

Exercices

III.1 Sondage d’opinion (1) - représentativité d’un échantillon 


On considère que la population française compte 52% de femmes. 22% des hommes
sont ouvriers contre 5% des femmes.
1. Quelle est la proportion totale d’ouvriers dans la population ? Quelle est la propor-
tion de femmes ouvriers dans la population ?
2. On réalise un échantillon aléatoire de 1000 personnes. Quelle est la loi de proba-
bilité du nombre d’ouvrières dans cet échantillon ?
3. Quelle est sa valeur moyenne, son écart type ?
4. Comment calculeriez-vous la probabilité que le nombre d’ouvrières diffère de plus
de 5% de la valeur moyenne ?
5. Cette probabilité vaut 76,5%, concluez quant à la représentativité d’un tel échan-
tillon.

III.2 Sondage d’opinion (2) 


On tire maintenant un échantillon représentatif de 1000 personnes (c’est-à-dire que
chaque catégorie de la population apparaît dans l’échantillon dans des proportions
proches de celles de la population). On pose une question à chaque personne et on
comptabilise 48,2% de oui et 51,8% de non.
1. Si 47,9% de la population répondrait oui, quelle est la probabilité d’avoir obtenu
un tel résultat ?
2. Si 50,1% de la population répondrait oui, quelle est la probabilité d’avoir obtenu
un tel résultat ?
3. Donnez l’écart type de la loi de probabilité du résultat en fonction du pourcentage
de réponse positive dans la population. Conclusion ?

III.3 Seuil d’alerte 


La pression dans une enceinte ne doit pas dépasser Pcritique = 256 bars sous risque de
rupture de l’enceinte.
La pression est contrôlée par un capteur d’une précision absolue de 2 bars. Le fabri-
cant du capteur indique qu’il s’agit d’une précision à 95,4% de confiance.

118
Partie III • Statistiques

1. On suppose que la densité de probabilité pour la mesure de ce capteur est gaus-


sienne. Si la valeur réelle de la pression est Pv = 220 bars, dessinez schématiquement
l’histogramme que l’on obtiendrait pour une centaine de mesures avec ce capteur.
Précisez sa moyenne et son écart type.
2. Le capteur indique Pmesure = 253 bars. Quelle est l’incertitude sur cette mesure ?
3. Dans ce cas, quelle est la probabilité que la valeur vraie de la pression Pvraie soit
plus grande que Pcritique ?
Un système de sécurité qui déclenche une soupape est commandé par ce capteur.
L’ouverture de la soupape se produit quand Pmesure > P seuil . On veut déterminer une
valeur du seuil qui offre une sécurité suffisante.
4. Justifiez que la probabilité Prob(Pvraie > Pcritique ) est plus grande si Pmesure =
Pcritique que si Pmesure < Pcritique .
5. Que doit valoir P seuil pour que la probabilité Pvraie > Pcritique soit inférieure à
3 × 10−7 quand Pmesure < P seuil ?

III.4 Borne d’une loi uniforme   


Soit une variable aléatoire X uniforme sur l’intervalle [0, l], dont le paramètre réel
positif l est inconnu. On effectue n mesures indépendantes de X, qui forment un
échantillon {xi } afin d’estimer le paramètre l.
1. En partant de la moyenne empirique, proposez un estimateur de l. Calculez son
biais et sa variance.
Application numérique, n = 5, xi = {1, 9, 3, 5, 2}.
2. Quel autre estimateur pourriez-vous proposer ?
3. Déterminez la fonction de répartition, puis la densité de probabilité de ce nouvel
estimateur.
4. Calculez son biais et sa variance et comparez avec le cas précédent.
© Dunod. La photocopie non autorisée est un délit.

5. Quel est le lien avec le maximum de vraisemblance ?

III.5 Efficacité limite 


On lance un dé 20 fois, sans jamais obtenir de 6.
1. Déterminez une limite bayesienne à 95% de niveau de confiance sur la probabilité
de tirer 6 avec ce dé.
2. A quel niveau de confiance peut-on exclure l’hypothèse p = 1/6 ?

119
Exercices

3. Même question pour 50 tirages. Concluez.

III.6 Propagation d’un photon 


La distance parcourue par un photon γ d’énergie E dans un matériau m avant d’inter-
agir est une variable aléatoire X continue de densité de probabilité :

1
fX (E, m) = e−x/λ(E,m) .
λ(E, m)

où le paramètre λ(E, m) est un réel positif qui dépend de l’énergie et du matériau.


1
μ = est le coefficient d’atténuation linéaire. On souhaite estimer μ à partir d’un
λ
ensemble de mesure E = {x1 , x2 , . . . , xn } de X.
1. Calculez l’estimateur du maximum de vraisemblance. Quel est cet estimateur ?
Vérifiez en déterminant l’espérance de X.
2. Cet estimateur est-il biaisé ? Quelle est sa variance ?
3. Application numérique : on effectue 8 mesures de distance l’interaction d’un γ de
662 keV dans du germanium :

E = {0,15; 0,24; 2,4; 4,2; 3,5; 6,7; 3,3; 0,40}.

Donnez la valeur estimée du coefficient d’atténuation linéaire avec son incertitude.


La valeur donnée dans les tables est de μ = 0,48 cm−1 , concluez.

III.7 Intervalle de confiance d’une loi de Poisson   


On effectue un comptage de désintégrations radioactives. Le nombre d’événements
observé est N ; le nombre moyen d’événements attendu n.
1. Donnez la fonction de vraisemblance du paramètre n. Quelle est son maximum ?
2. Donnez la densité bayesienne a posteriori, pour un a priori uniforme.
3. Justifiez que pour un nombre d’événements petit, l’utilisation de l’écart type
comme erreur est inapproprié.
4. Pour N = 1, construisez les intervalles de confiance HPD à 68,3%, 95,4% et
99,7%.
5. Donnez un intervalle de confiance à 68% symétrique autour du maximum pour n,
en fonction du nombre N d’événements observé. Calculez cet intervalle pour N = 1,
N = 20, N = 100.

120
Partie III • Statistiques

III.8 Test du χ2 
On réalise une trentaine de mesures d’une même grandeur. On obtient les résultats
suivants :
6,967 9,582 14,881 8,981 4,385
9,424 14,831 7,896 10,867 9,242
8,340 9,194 9,417 9,869 12,418
11,383 10,119 13,318 11,134 8,748
12,624 13,815 12,745 7,874 10,923
8,243 8,596 6,824 12,765 10,988

1. Estimez la moyenne et l’écart type de la population à partir de cet échantillon.


2. Avec le test du χ2 , déterminez la compatibilité de l’échantillon avec une loi nor-
male de même moyenne et écart type. Vous choisirez les classes de telle sorte que le
calcul du test se fasse simplement.
3. A partir des tables de la loi de χ2 , calculez la p-value du test.
4. Recommencez pour une loi uniforme de même moyenne et variance.

III.9 Test de Kolmogorov 


La table suivante présente 20 nombres distribués uniformément sur l’intervalle [0 ;1] :
0,0303 0,1629 0,1685 0,2131 0,2216
0,2316 0,2826 0,3156 0,3923 0,4755
0,4849 0,5196 0,5400 0,6586 0,7399
0,7443 0,7599 0,8044 0,9472 0,9574

1. Rappelez la fonction de répartition de la loi uniforme.


2. Explicitez la fonction de répartition de l’échantillon.
3. Justifiez que, pour a < x < b, on à toujours sup |k − x| = sup(|x − a|, |x − b|)
4. Calculez le test de Kolmogorov-Smirnov pour l’échantillon.
© Dunod. La photocopie non autorisée est un délit.

5. Précisez l’intervalle de confiance (approximé) à 68%. L’échantillon est-il compa-


tible avec la loi uniforme ?

III.10 Ajustement exponentiel 


On mesure le courant lors de la décharge d’un condensateur de capacité C au cours
du temps i(t) dans une résistance R = 1 ± 0,01 kΩ. Les résultats obtenus sont :
Temps t (s) 0 0,5 1,5 4
Courant i(t) (A) 2,51 1,61 0,766 0,085
Incertitude Δi (A) 0,12 0,08 0,038 0,004

121
Exercices

Le calcul théorique donne : i(t) = i(0) exp(−t/τ) avec τ = RC. On supposera que les
mesures sont indépendantes.
1. Déterminez le rapport r(t) = i(t)/i(0) pour chaque point.
2. On va tenter de déterminer τ avec la méthode des moindre carrés en ajustant
r(t) = exp(−t/τ) :
2.a Tracez K 2 en fonction de τ.
2.b En choisissant trois points proches du minimum, déterminez l’équation d’une
parabole approximant K 2 (τ) ≈ aτ2 + bτ + c.
2.c En déduire une estimation de τ avec l’incertitude associée.
3. Déterminez la valeur finale de C et de ΔC.

III.11 Intervalle de confiance d’un ajustement 


On considère un ajustement à un seul paramètre θ. On se propose de démontrer par
l’approche bayesienne que les solutions de l’équation :

Δχ2 = n2 .

définissent les bornes d’un intervalle de confiance à nσ.


1. Donnez l’expression de la fonction de vraisemblance, en considérant que K 2 (θ) est
parabolique.
2. En considérant un a priori uniforme pour le paramètre, justifiez que l’on peut né-
gliger cet a priori.
3. Déterminez la densité de probabilité a posteriori f (θ|xi , yi , Δyi ) du paramètre θ.
4. Montrez que l’estimateur θ̂ obtenu par ajustement est le mode de la densité a pos-
teriori.
5. En déduire le résultat.

III.12 Intégration Monte-Carlo 


-
On considère la fonction f (x) = 4 − x2 sur l’intervalle x ∈ [0, 2].
1. Quelle est la représentation graphique de cette fonction.
2. En déduire la valeur de l’intégrale :
 2
I= f (x)dx.
0

122
Partie III • Statistiques

3. Proposez un estimateur de l’intégrale I.


4. Évaluez cet estimateur en utilisant la table de 30 nombres aléatoires uniformes sur
[0, 1] suivante :

0,04624 0,0561697 0,0818155 0,128879 0,159624


0,163695 0,226042 0,27431 0,328542 0,336961
0,344419 0,41084 0,423711 0,437286 0,446332
0,554584 0,597895 0,610281 0,679192 0,680671
0,683775 0,729696 0,751365 0,775383 0,863248
0,908018 0,932101 0,94448 0,956023 0,961044

5. Quelle est l’erreur sur cette estimation ?


6. Combien de nombres aléatoires faudrait-il pour obtenir une précision de 1% ? de
0,001% ?

III.13 Expérience de comptage et erreur systématique   


On reprend la situation de l’exercice III.7. Le nombre moyen d’événements attendu
est proportionnel à une grandeur ξ, positive, que l’on souhaite estimer. Le coefficient
de proportionnalité, α, est mesuré par ailleurs avec une incertitude : α = α0 ± Δα. Le
nombre d’événements observé est N = 3.
1. Rappelez la fonction de vraisemblance du nombre d’événements L(ξ, α) =
f (N|ξ, α).
2. En supposant que α est décrit par une distribution normale, proposez une densité a
priori pour α. Justifiez que ce choix n’est applicable que si Δα  α0 .
4. En utilisant un a priori uniforme sur [0, +∞] pour ξ, donnez l’expression de la
densité jointe a posteriori f (ξ, α|N).
5. En déduire marginale du paramètre ξ seul, f (ξ|N). (Vous pourrez montrer
 la+∞densité(x−μ) 2
1 −
que √ x3 e 2σ2 dx = μ3 + 3μσ2 . Le calcul du coefficient de normalisation
© Dunod. La photocopie non autorisée est un délit.

2πσ −∞
n’est pas demandé.
6. Tracez la courbe f (ξ|N) pour α = 1,2 ± 0,2 pour σ ∈ [0, 15]. Comparez avec la
même densité pour Δα = 0.
7. En utilisant les nombres aléatoires de l’exercice précédent, déterminez le coeffi-
cient de normalisation par intégration Monte-Carlo.
8. En déduire une limite supérieure à 90% de niveau de confiance sur ξ. Commentez
la pertinence de ce résultat.

123
Exercices

Cet exercice illustre la méthode utilisée pour intégrer des erreurs systématiques dans
l’approche bayesienne. Le paramètre α dont la valeur est déterminée avec une cer-
taine précision est appelé paramètre de nuisance. La méthode consiste donc à traiter
les paramètres de nuisance comme des variables aléatoires de densité a priori de
moyenne et d’écart type connus (on utilise souvent une loi normale). La densité a
posteriori du paramètre étudié est obtenue en marginalisant sur les paramètres de
nuisances.

124
Annexes
Annexes

Corrigés

P ARTIE I : É CHANTILLONS
I.1 Histogramme
On calcule préalablement les 4 grandeurs suivantes :
1 1 2
m1 = xi ≈ 2,23676 cm, m2 = x ≈ 7,66959 cm,2
n n i
1 1
m3 = x3i ≈ 33,9759 cm,3 m4 = x4i ≈ 173,994 cm.4
n n

1
1. Moyenne : x̄ = xi = m1 ≈ 2,23676 cm.
n
Écart type : σ = x̄ − x̄ = m2 − m21 ≈ 2,66649 cm2 ⇒ σ = 1,633 cm.
2 2

2. Pour les moments d’ordre supérieur, on peut généraliser le théorème de Koenig :


1 1 3
ordre 3 : (xi − x̄)3 = (xi − 3x2i x̄ + 3xi x̄2 − x̄3 ) = x¯3 − 3 x¯2 x̄ + 2 x̄3 ,
n n
1
ordre 4 : (xi − x̄)4 = x¯4 − 4 x¯3 x̄ + 6 x¯2 x̄2 − 3 x̄4 .
n
L’application numérique donne alors :

x¯3i − 3 x¯2 x̄ + 2 x̄3 m3 − 3m2 m1 + 2m31


β1 = = ≈ 1,123 ,
σ3 σ3
¯
xi − 4 x¯3 x̄ + 6 x¯2 x̄2 − 3 x̄4
4 m4 − 4m3 m1 + 6m22 m21 − 3m41
γ2 = −3= − 3 ≈ 0,536 .
σ4 σ4
© Dunod. La photocopie non autorisée est un délit.

3. On s’attend à obtenir un histogramme centré sur m = 2,23 cm avec des valeurs


dispersées de quelques unités autour de cette valeur (σ = 1,63 cm). De plus l’asymé-
trie positive indique que la distribution va s’étirer sur la droite et le kurtosis positif
indique une distribution assez piquée (probablement à gauche de la moyenne pour
autoriser une queue de distribution vers la droite).
4. Tables de fréquence et histogramme :
Classes de largeur 3 cm
classe nombre classe nombre classe nombre
0-3 37 3-6 10 6-9 3

127
Corrigés

Classes de largeur 1,2 cm


classe nombre classe nombre classe nombre
0-1,2 16 3,6-4.8 6 7,2-8,4 0
1,2-2,4 18 4,8-6 2
2,4-3,6 5 6-7.2 3

Classes de largeur 0,3 cm


classe nombre classe nombre classe nombre
0-0,3 1 2,4-2,7 2 4,8-5,1 2
0,3-0,6 3 2,7-3 1 5,1-5,4 0
0,6-0,9 6 3-3,3 1 5,4-5,7 0
0,9-1,2 6 3,3-3,6 1 5,7-6 0
1,2-1,5 3 3,6-3,9 2 6-6.3 0
1,5-1,8 7 3,9-4,2 3 6,3-6,6 3
1,8-2,1 6 4,2-4,5 1
2,1-2,4 2 4,5-4,8 0
événements par classe de 3 cm

événements par classe de 1.2 cm

événements par classe de 0.3 cm


18 7
35
16
6
30
14
5
25 12

10 4
20
8 3
15
6
2
10 4
1
5 2

0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9
longueur (cm) longueur (cm) longueur (cm)

5. A partir des tables de fréquence on obtient :


S heppard
m0,3 ≈ 2,238 cm, σ0,3 ≈ 1,617 cm, σ0,3 ≈ 1,614 cm,
S heppard
m1,2 ≈ 2,256 cm, σ1,2 ≈ 1,729 cm, σ1,2 ≈ 1,694 cm,
S heppard
m3 ≈ 2,460 cm, σ3 ≈ 1,743 cm, σ3 ≈ 1,513 cm.

6. Pour déterminer la médiane, on classe l’échantillon. Comme il y a un nombre pair


de valeurs (50), la médiane est donnée par :
x25 + x26
med{xi } = = 1,7375.
2
On ne peut pas déterminer de mode directement à partir de l’échantillon.
À partir de la table de fréquence, on constate que la médiane doit se situer dans la
classe [1,2; 2,4] (16 valeurs plus petites que 1,2, 34 plus petites que 2,4). Par inter-
polation linéaire on a donc :
25,5 − 16
med{xi } ≈ 1,2 + 1,2 = 1,833.
18
Le mode est donné par le centre de la classe la plus peuplée, soit 1,8 cm.

128
Annexes

I.2 Optimisation de la largeur des classes

1. Au numérateur, les termes |m − mδ | et |σ − σδ | mesurent le biais introduit sur la


moyenne et l’écart type par la réduction des données. Le dénominateur correspond à
la largeur des classes.
2. Le but de l’organisation en classes est de réduire au maximum le volume de don-
nées en minimisant la perte d’information. Ceci peut s’obtenir par des classes les
plus grandes possibles tout en conservant un biais faible. Ces deux conditions se tra-
duisent donc par une valeur de K(δ) la plus petite possible. La largeur optimale sera
∂K
donc telle que = 0.
∂δ
3. Les tables de fréquence pour δ = 0,3, 1,2 et 3 cm figurent dans la correction de
l’exercice précédent. Les autres tables sont :
Classes de largeur 4,2 cm :

classe nombre classe nombre classe nombre


0-4,2 44 4,2-8,4 6

Classes de largeur 3,6 cm :

classe nombre classe nombre classe nombre


0-3,6 39 3,6-7,2 11

Classes de largeur 2,4 cm :

classe nombre classe nombre classe nombre


0-2,4 34 2,4-4,8 11 4,8-7,2 5

Classes de largeur 1,8 cm :

classe nombre classe nombre classe nombre


0-1,8 26 3,6-5,4 8
1,8-3,6 13 5,4-7,2 3
© Dunod. La photocopie non autorisée est un délit.

Classes de largeur 0,6 cm :

classe nombre classe nombre classe nombre


0-0,6 4 2,4-3 3 4,8-5,4 2
0,6-1,2 12 2-3,6 2 5,5-6 0
1,2-1,8 10 3,6-4,2 5 6-6,6 3
1,8-2,4 8 4,2-4,8 1

4. Calcul de K(δ) : La moyenne et l’écart type de l’échantillon sont m = 2,23676 cm


et σ = 1,633 cm. On a alors pour chaque largeur de classe les résultats regroupés
dans le tableau.

129
Corrigés

δ mδ σδ K(δ) K(δ)
0.16

0,6 2,232 1,611 0,044 0.14

1,2 2,256 1,729 0,096 0.12

1,8 2,268 1,672 0,039 0.1

0.08
2,4 2,208 1,598 0,026
0.06
3 2,460 1,743 0,111
0.04

3,6 2,592 1,491 0,138 0.02


0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
4,2 2,604 1,365 0,151 Largeur δ

5. Le minimum du critère d’optimisation est autour de 2,4 cm. On choisira donc cette
valeur de largeur de classe. Il est important de noter que le critère présenté ici n’est
qu’un exemple parmi d’autre. Toute fonction satisfaisant les propriétés de la ques-
tion 2 pourrait faire office de critère d’optimisation, menant à des résultats différents.

I.3 Propagation d’incertitude


On utilise les formules usuelles de propagation d’erreur :
1. U = RI
 2  2  2 
ΔU ΔR ΔI
= + ⇒ ΔU = (IΔR)2 + (RΔI)2 .
U R I

c
2. E =
λ
 2  2
ΔE Δλ cΔλ
= ⇒ ΔE = .
E λ λ2

 m2 1
m
3. T = 2π = 2π
k k
 2  2  2 
ΔT Δm Δk Δm2 mΔk2
= + ⇒ ΔT = π + 3 .
T 2m 2k mk k

mv
4. p = 
v2
1− c2

0
4
1
∂p v ∂p m v2 Δm2 m2 Δv2
=  , =  3 ⇒ Δp = +  .
∂m v2 ∂c v 1− v2 2 3
1 − cv2
1−
2 2
c2 1− c2
c2

130
Annexes

Vf
5. W = −nRT ln
Vi
∂W Vf ∂W Vf ∂W nRT
∂W −nRT
= −RT ln , = −nR ln , = = , .
∂n Vi ∂T Vi ∂Vi
∂V f Vi Vf
0
4
1  ⎛ ⎞
   ⎜⎜⎜ ΔV 2 ΔV 2f ⎟⎟⎟
Vf 2 2 Vf 2
⇒ ΔW = R T2 ln Δn + n ln
2 ΔT + n T ⎜⎝⎜ 2 + 2 ⎟⎟⎠⎟.
2 2 2 ⎜ i
Vi Vi Vi Vf
 
n1
6. θ2 = arcsin sin θ1
n2
∂θ2 sin θ1 ∂θ2 −n1 sin θ1
=  n 2 , =  n 2 ,
∂n1 ∂n2
n2 1 − n2 sin θ1
1
n22 1 − n2 sin θ1
1

∂θ2 n1 cos θ1
=  2 ,
∂θ1
n2 1 − nn12 sin θ1
0
4
4
4
4
1 sin θ21 Δn1 +
4 n21 sin2 θ1 Δn22 n2 cos2 θ1 Δθ12
2 2

n n42
+ 1 n22
⇒ Δθ2 = 2
n 2 .
1− 1
n2 sin θ1

2(ρ s − ρl )gR2
7. v =

 2  2  2  2
Δv Δ(ρ s − ρl ) 2ΔR Δη
= + +
v ρ s − ρl R η
/
 2  2
Δv Δρ2s + Δρ2l 2ΔR Δη
⇒ = + + .
v (ρ s − ρl ) 2 R η
© Dunod. La photocopie non autorisée est un délit.

I.4 Régression linéaire

1. En appliquant les formules de régression linéaire :


  
n Ii Ui − Ii Ui 1  
a =  2   = 474,715 Ω, b = ( Ui − a Ii ) = −0,138 V et
n Ii − Ii Ii n
r2 = 0,9735.
2. Avec b = 0, le système se réduit à une unique équation :
  
∂ (Ui − aIi )2
=0→ Ii Ui = a Ii2
∂a

131
Corrigés


Ii Ui
soit, a =  2 = 456,166 Ω.
Ii

3. En inversant U et I, on obtient une autre droite de régression :


  
n Ii Ui − Ii Ui 1  
a =  2   = 2,0507 Ω−1 , b = ( Ii − a Ui ) = −0,4229 mA.
n Ui − Ui Ui n
Dans cet exercice on a deux estimateurs différents de la résistance : R̂1 = a =
474,715 Ω et R̂2 = 1/a = 487,64 Ω. Les deux sont a priori corrects mais il faudrait
déterminer une incertitude sur ces estimateurs afin de vérifier qu’ils sont compatibles,
i.e. que leur barres d’erreurs se recouvrent.

I.5 Incertitude de mesure

1. On traduit l’histogramme en table de fréquence :


classe nombre classe nombre classe nombre
0,2-0,3 4 0,4-0,5 22 0,6-0,7 6
0,3-0,4 6 0,5-0,6 11 0,7-0,8 1

Pour chaque mesure, U/I donne une estimation de R. L’erreur sur R peut-être déter-
minée à partir de la variance de l’histogramme :

1
6
1
R̄ = c j n j = (4 × 0,25 + 6 × 0,35 + · · · + 1 × 0,75) = 0,474 kΩ.
n j=1 50

1 2
6
1
σ2R = c j n j − R̄2 = (16 × 0,25 + 36 × 0,35 + · · · + 1 × 0,75) − R̄2 = 0,0126 kΩ2 .
n j=1 50

D’où une estimation de l’erreur sur chaque mesure de R : ΔR = σR = 112 Ω.


Il est important de noter que l’erreur obtenue porte sur chaque mesure individuelle
de R, on verra plus tard que si on prend comme estimateur√de R la moyenne de n
mesures (n = 50 ici) alors l’erreur sera plutôt donnée par σ/ n
2. L’incertitude sur les coefficients a et b peut être estimée à partir de l’écart type des
10 valeurs, soit :

Δa = σa = 41,9 Ω et Δb = σb = 0,268 V.

En utilisant l’hypothèse R = a on a donc ΔR = 41,9 Ω.


3. La loi d’Ohm (U = RI) prévoit b = 0. Le premier étudiant mesure b =
−0,138 ± 0,268 ce qui est parfaitement compatible avec 0. La mesure est consistante
avec la loi d’Ohm.

132
Annexes

4. Si la pente de la droite de régression, a, était un peu plus grande, alors pour passer
par les points de mesure, l’intersection avec l’axe des ordonnées, b, serait plus petit.
On attend donc une anti-corrélation entre a et b. Le calcul de la covariance donne
cov(a, b)
cov(a, b) = −8,624 × 10−3 , soit un coefficient de corrélation r = = −0,768.
σa σb
On constate donc que les deux paramètres sont fortement anti-corrélés.
5. Pour décorréler les deux variables, on doit diagonaliser la matrice de covariance.
Les valeurs propres sont solutions de l’equation :

λ2 − (σ2a + σ2b )λ + (1 − r2 )σ2a σ2b = 0.

soit :
 6
1 λ1 ≈ 0,0733 ,
λ1,2 = (σ2a + σ2b ) ± σa + σb + (4r − 2)σa σb ⇒
4 4 2 2 2
2 λ2 ≈ 0,0002336 .

On détermine alors un vecteur propre (x, y) pour λ1 en fixant x = 1. On obtient alors :


    
σ2a rσa σb 1 1 rσa σb
= λ1 ⇒y= 2 .
rσa σb σ2b y y σb − λ1

En normalisant ce vecteur propre, on en déduit la rotation a appliquer pour décorre-


ler a et b : ⎛ ⎞
⎛ ⎞ ⎜⎜⎜ - 1 ⎟⎟⎟ ⎛ ⎞
⎜⎜⎜ cos θ ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟ ⎜⎜ 0,99276 ⎟⎟
⎜ ⎟⎟⎟
⎜⎜⎜ ⎟⎟⎟ = ⎜⎜⎜ 1 + y ⎟⎟⎟ ≈ ⎜⎜⎜
2
⎟⎟⎠ soit θ ≈ 83,03.
⎜⎝ ⎟⎠ ⎜⎜⎜ y ⎟⎟⎟ ⎜⎝
sin θ ⎜⎜⎝ - ⎟⎟⎠ −0,1204
1 + y2
et ⎛ ⎞
⎜⎜⎜ cos θ − sin θ ⎟⎟⎟ ⎛⎜ 0,99276 0,1204 ⎞⎟
⎜⎜ ⎟⎟⎟ ⎜⎜⎜ ⎟⎟⎟
R = ⎜⎜⎜⎜⎜ ⎟⎟⎟ ≈ ⎜⎜⎜ ⎟⎟ .
⎜⎝ sin θ cos θ ⎟⎟⎠ ⎝ −0,1204 0,99276 ⎟⎠
© Dunod. La photocopie non autorisée est un délit.

Finalement on définit a et b décorrélés par :

a = a cos θ − b sin θ et b = a sin θ + b cos θ.

Les erreurs sur a et b seront données par les écarts types après changement de
variables, qui vont-correspondre aux racines
- des valeurs propres de la matrice de co-

variance : Δa = λ1 ≈ 0,85 et Δb = λ2 ≈ 0,0152. On constate que Δb est petit,
ce qu’on attend si la relation U = RI est vérifiée (peu de dispersion autour de la
direction principale).

133
Corrigés

P ARTIE II : P ROBABILITÉS
II.1 Probabilités discrètes

1. P(C̄) = 1 − P(C) = 0,7.


2. P(B|C) = P(B et C)/P(C) = 0,2/0,3 = 2/3. Pour déterminer P(C|B) on détermine
d’abord P(B) en utilisant la fait que C et C̄ forment un système complet :
P(B et C) 0,2
P(B) = P(B et C) + P(B et C̄) ⇒ P(C|B) = = = 0,4.
P(B) 0,5

3. On doit déterminer P(D et C) :


P(D) = P(D et C) + P(D et C̄) ⇒ P(D et C) = P(D) − P(D et C̄) = 0.
Les deux événements sont incompatibles.
4. On doit comparer P(A et B) et P(A)P(B). En utilisant la question 2, P(A)P(B) =
0,3 × 0,5 = 0,15. et :
P(A et B) = P(A) + P(B) − P(A ou B) = 0,3 + 0,5 − 0,65 = 0,15.
On a donc P(A et B) = P(A)P(B), ce qui prouve l’indépendance.
5. Une condition nécessaire (mais pas suffisante) pour former un système complet est
P(A) + P(C) + P(D) = 1 or ici P(A) + P(C) + P(D) = 1,2. Ces trois événements ne
forment pas un système complet.

II.2 Paradoxe des anniversaires

1. L’événement « au moins deux personnes ont la même date anniversaire » est le


complémentaire de « tous ont des dates anniversaire différentes », soit :
p = P(au moins deux identiques) = 1 − P(5 dates différentes).
En terme de combinatoire cette proposition revient à choisir 5 dates parmi les
365 possibles (on laisse de coté le problème des années bissextiles) sans considé-
ration d’ordre, soit Ck=5
n=365 . Le nombre total de combinaisons de 5 dates sans ordre
est n /n! = 365 /365!. On a donc :
k 5

C5365 A5365 364 × 363 × · · · × 361


p= = = ≈ 0,0271.
3655 /365! 3655 3654

2. Pour un groupe de taille n, on généralise le résultat précédent par :


     
An365 0 1 n−1
p(n) = = 1− × 1− × ··· × 1− .
365n 365 365 365

134
Annexes

Pour n petit devant 365, on peut utiliser le développement limité de l’exponentielle :


n−1 −i n(1−n)
p(n) ≈ 1 − e−0 e−1/365 . . . e(1−n)/365 = 1 − e 1 365 =1−e 730 .

3. On cherche à déterminer n tel que p(n) > 0,5, soit :


n(1−n) n(1 − n)
e 730 < 0,5 ⇔ < ln 0,5 ⇔ n2 − n − 730 ln 2 > 0.
730
La solution de cette inéquation pour n entier donne alors n ≥ 23. Dans un groupe
de plus de 23 personnes (par exemple une classe) il y plus d’une chance sur deux de
trouver deux personnes ayant le même anniversaire. Intuitivement on s’attendrait à
une probabilité beaucoup plus faible d’où le nom de « paradoxe des anniversaires »
donné à ce résultat.

II.3 Jeu de cartes

1. Le jeu est composé de deux populations : 4 rois et 48 non-rois. La probabilité de


trouver exactement 2 rois parmi 5 cartes est donc :

C24 C348
P(2 rois en main) = ≈ 0,040 .
C552

2. Un joueur possède exactement 2 rois et 3 autres cartes. Les trois autres joueurs to-
talisent 15 cartes parmi les 47 restantes. La probabilité de trouver un ou deux autres
rois dans les 15 cartes est ainsi :
C12 C14
45
P(1 roi adverse | 2 rois en main) = ≈ 0,444 ,
C15
47

C22 C13
45
P(2 rois adverses | 2 rois en main) = ≈ 0,097.
C15
47
© Dunod. La photocopie non autorisée est un délit.

3. Il faut considérer 3 cas :


a. il ne reste aucun roi dans le paquet, la probabilité de tirer un nouveau roi est donc
nulle.
b. il reste un seul roi dans le paquet, alors :

C11 C231
P(1 nouveau roi | 1 roi dans le paquet) = ≈ 0,094 ,
C332
P(2 nouveaux rois | 1 roi dans le paquet) = 0.

135
Corrigés

c. il reste deux rois dans le paquet, alors :


C12 C230
P(1 nouveau roi | 2 rois dans le paquet) = ≈ 0,175 ,
C332

C22 C230
P(2 nouveaux rois | 2 rois dans le paquet) = ≈ 0,006 .
C332
Finalement la probabilité de tirer un ou deux rois est donné par :

P(1 nouveau roi) = P(2 rois dans le paquet)


×P(1 nouveau roi | 2 rois dans le paquet)
+P(1 roi dans le paquet)
×P(1 nouveau roi | 1 roi dans le paquet)
= (1 − P(1 roi adverse) − P(2 rois adverses))
×P(1 nouveau roi | 2 rois dans le paquet)
+P(1 roi adverse)
×P(1 nouveau roi | 1 roi dans le paquet)
≈ (1 − 0,444 − 0,097) × 0,175 + 0,444 × 0,094 ≈ 0,122 ,

P(2 nouveaux rois) = P(2 rois dans le paquet)


×P(2 nouveaux rois | 2 rois dans le paquet)
= (1 − P(1 roi adverse) − P(2 rois adverses))
×P(2 nouveaux rois | 2 rois dans le paquet)
≈ (1 − 0,444 − 0,097) × 0,006 ≈ 0,003 .

La probabilité d’obtenir un brelan est donc d’environ 1 chance sur 8, celle d’obtenir
un carré de l’ordre de 3 chances sur mille. On peut de manière similaire calculer les
probabilités de toutes les situations de jeu.

II.4 Dé pipé
1
1. Un dé normal possède 6 faces équiprobables donc p5 = . Pour un dé pipé la
6
2
probabilité d’obtenir un résultat autre que 3 est p¯3 = 1 − p3 = ; les 5 faces restantes
3
p¯3 2
étant équiprobables, p5 = = .
5 15
2. Il y a 30 dés pipés dans un échantillon de 100, soit une probabilité de 0,3 de tirer
un dé pipé.

136
Annexes

3. On cherche à déterminer P(pipé|3). D’après le théorème de Bayes :

P(3|pipé)P(pipé)
P(pipé|3) = .
P(3)

On sait par ailleurs qu’un dé est soit pipé, soit normal d’où :

P(3) = P(3 et pipé) + P(3 et normal)

= P(3|pipé)P(pipé) + P(3|normal)P(normal)

1 1
= × 0,3 + × 0,7.
3 6

Finalement :
0,3
3
P(pipé|3) = 0,7
≈ 0,462 ,
0.3
3 + 6

soit un peu moins d’une chance sur deux.


4.

P3 (N = 1) = p3 : probabilité d’obtenir 3 ;
P3 (N = 2) = p3 (1 − p3 ) : probabilité d’obtenir 3 après un échec ;
P3 (N = 3) = p3 (1 − p3 )2 : probabilité d’obtenir 3 après deux échecs.

5. P3 (N = n) = p3 (1 − p3 )n−1
6. Moyenne :
© Dunod. La photocopie non autorisée est un délit.



μ3 = np3 (1 − p3 )n−1
n=1
p3 

= n(1 − p3 )n
1 − p3 n=1
p3 1 − p3
=
1 − p3 p23
1
= ;
p3

137
Corrigés

Variance :

∞ 
σ23 = n2 p3 (1 − p3 )n−1 − μ23
n=1
p3  2
∞  1
= n (1 − p3 )n − 2
1 − p3 n=1 p3
p3 (1 − p3 )(2 − p3 ) 1
= − 2
1 − p3 p33 p3
1 − p3
= .
p23

7. Le raisonnement est similaire à celui de la question 3, qui donne le résultat pour


N = 1. Pour N = n :
P(n|pipé)P(pipé)
P(pipé|n) = ,
P(n|pipé)P(pipé) + P(n|normal)P(normal)
avec :
 n−1
1 1 2n−1
P(n|pipé) = 1− =
3 3 3n
 n−1
1 1 5n−1
P(n|normal) = 1− = ,
6 6 6n

soit :
0,3×2n
3n−1
P(pipé|n) = 0,3 × 2n × 5n
.
3n−1
+ 0,76n−1

8.a On utilise toujours le même dé qui est soit pipé soit normal, donc si on connaît le
type de dé, les séries de lancer sont indépendantes et :

P(n1 et n2 et n3 |pipé) = P(n1 |pipé)P(n2 |pipé)P(n3 |pipé).

En revanche, si on ne connaît pas le type de dé il existe une dépendance et :

P(n1 et n2 et n3 )  P(n1 )P(n2 )P(n3 ).

Pour avoir des séries de lancers indépendantes il faudrait changer le dé à chaque sé-
rie. C’est justement cette dépendance que l’on va utiliser pour tenter de déterminer la
nature d’un dé particulier en combinant plusieurs séries de lancers.

138
Annexes

8.b. Les séries de lancers sont indépendantes pour un type spécifié, donc :
P(n1 et n2 et n3 |pipé) = P(n1 |pipé)P(n2 |pipé)P(n3 |pipé)
2n1 +n2 +n3 −3 24
= n +n +n = 7
31 2 3 3
P(n1 et n2 et n3 |normal) = P(n1 |normal)P(n2 |normal)P(n3 |normal)
5n1 +n2 +n3 −3 54
= n +n +n = 7 .
61 2 3 6
Le théorème de Bayes permet de conclure que :
0,3 × 24
37
P(pipé|n1 = 2 et n2 = 4 et n3 = 1) = ≈ 0,766 .
0,3 × 24
+ 0,76×7 5
4
37

II.5 Achat d’ordinateurs

1. La probabilité d’avoir un ordinateur défectueux connaissant sa marque (P(d|m))


correspond au taux de panne (troisième colonne du tableau).
2. L’appartenance à une des quatre marques forme un système complet donc :
P(d) = P(d et m1 ) + P(d et m2 ) + P(d et m3 ) + P(d et et m4 )
= P(d|m1 )P(m1 ) + P(d|m2 )P(m2 ) + P(d|m3 )P(m3 ) + P(d|m4 )P(m4 )
0,003 × 200 0,002 × 300 0,006 × 100 0,0015 × 400
= + + +
1000 1000 1000 1000
= 0,026 .

3. On cherche à déterminer P(m|d). À partir des résultats précédents et du théorème


de Bayes, on a :
P(d|m)P(m)
P(m|d) = .
P(d)
L’application numérique donne P(m1 |d) = P(m2 |d) = P(m3 |d) = P(m4 |d) = 0,25. Si
on considère qu’il s’agit d’une première série d’achat pour tester les quatre marques,
© Dunod. La photocopie non autorisée est un délit.

on peut penser que les proportions ont été correctement choisies pour équilibrer
la probabilité de panne, sous réserve de validité des informations données par le
constructeur. C’est ce dernier point que nous allons étudier par la suite.
4. Le nombre k de pannes est le nombre de « succès » de défaillance parmi n machines
avec une probabilité de défaillance p fixée, ce qui correspond à une loi binomiale de
paramètres n, p.
5. Probabilité de 2 pannes pour la marque m1 :
P(2; m1 ) = C2200 × 0,0032 × 0,997198 ≈ 0,0988.

139
Corrigés

Probabilité de 2 pannes pour la marque m2 :

P(2; m2 ) = C2300 × 0,0022 × 0,998298 ≈ 0,0988.

Probabilité de 1 pannes pour la marque m3 :

P(1; m3 ) = C1100 × 0,006 × 0,99499 ≈ 0,331.

Probabilité de 6 pannes pour la marque m4 :

P(6; m4 ) = C6400 × 0,00156 × 0,9985394 ≈ 0,000035.

La probabilité d’observer 6 pannes pour la marque m4 est extrêmement faible. La


conclusion logique est que la probabilité de panne donnée par le constructeur doit-
être sous-estimée. Pour les marques m1 , m2 et m3 le nombre de pannes observé cor-
respond à une probabilité élevée. Au vu des données, les chiffres des constructeurs
semblent crédibles (ce qui ne signifie pas nécessairement qu’ils sont justes).
6. Si on se limite à ces résultats, on exclut la marque m4 . Entre les trois marques res-
tantes, si on considère que les données constructeurs sont validées par l’expérience,
on choisira la marque avec le plus faible taux de pannes, soit m2 .
Remarque
Dans ce cas précis, pour chaque type de machine le taux de défaillances est faible
et le nombre de machines élevé. La loi binomiale s’approxime alors raisonnablement
par une loi de Poisson de paramètre λ = np = 0,6 pour toute les marques. On trouve
alors : P(2; m1 ) = P(2; m2 ) ≈ 0,0988, P(1; m3 ) ≈ 0,329 et P(6; m4 ) ≈ 0,000036.

II.6 Probabilités de défaillance

1. Il s’agit d’un cas typique d’application de la loi binomiale. La probabilité d’un


nombre k de défaillances est :

p(k) = B(k; 13, 10−4 ) = Ck13 0,0001k 0,999913−k .

On remarque en particulier que pour k ≥ 6, p(k + 1)  p(k) car la probabilité de


13 < C13 . On en déduit alors que la probabilité d’inci-
défaillance est très faible et Ck+1 k

dent, qui correspond à la probabilité d’au moins 6 défaillances est :

P(au moins 6 défaillance) = p(6) + p(7) + · · · + p(13)


≈ p(6)
≈ 1716 × 10−24 × 0,99996 ≈ 1,71 × 10−21 .

Cette probabilité est extrêmement faible néanmoins elle n’est pas nulle : le risque
zéro n’existe pas !

140
Annexes

II.7 Somme de deux variables aléatoires

1.a Pour deux variables indépendantes, la densité jointe se factorise :


f (x, y) = fX (x) fY (y).

1.b Pour avoir z < Z < z+dz avec Z = X+Y, il faut avoir X ∈ R et z−x < Y < z−x+dz,
soit :
P(z < Z < z + dz) = P(X ∈ R et Y ∈ [z − x, z − x + dz]
 +∞ 
= f (x, z − x)dx dz
−∞
+∞ 
= fX (x) fY (z − x)dx dz
−∞
= ( fX ∗ fY )(z)dz.

1.c Par construction P(z < Z < z + dz) = fZ (z)dz donc en identifiant au résultat
précédent valable pour tout z, il vient :
fZ = fX ∗ fY .

2.a La fonction caractéristique de z s’exprime à partir de x et y par


 
ϕZ (t) = ϕX+Y (t) = eit(x+y) f (x, y)dxdy
 
= e fX (x)dx eity fY (y)dy
itx

= ϕX (t)ϕY (t).

2.b La densité de probabilité étant la transformée de Fourier de la fonction caracté-


ristique, si ϕZ (t) = ϕX (t)ϕY (t) alors la densité de Z est la convolution des densités de
X et Y, soit fZ = fX ∗ fY .

II.8 Loi exponentielle


© Dunod. La photocopie non autorisée est un délit.

1. En x = 0, le photon n’a pas pu interagir donc P(0) = 1. Quand x → ∞, le photon


a de plus en plus de chance d’interagir donc P(+∞) = 0.
2.
P(L1 + L2 ) = Prob(traverser L1 puis L2 )
= Prob(traverser L1 )
×Prob(traverser L2 sachant qu’on a traversé L1 )
= P(L1 ) × P(L2 |L1 ).

141
Corrigés

3. La probabilité d’interaction ne dépend pas de l’épaisseur traversée, les deux évé-


nements « traverser L1 » et « traverser L2 » sont donc indépendants, d’où P(L2|L1) =
P(L2).
4. P(dx) = 1 − Prob(interaction sur dx) = 1 − λdx .
5. En utilisant les questions 2, 3 et 4, on a P(x + dx) = P(x)P(dx) = P(x)(1 − λdx),
d’où :

P(x + dx) = P(x) − P(x)λdx ⇔ P(x + dx) − P(x) = −P(x)λdx


⇔ dP = −P(x)λdx
⇔ P(x) = Ae−λx+B .

Les constantes d’intégration s’obtiennent à partir les conditions P(0) = 1 et P(+∞) =


0, soit P(x) = e−λx .
6. Par définition, F X (x) = Prob(X < x) = 1 − Prob(X > x). Or la probabilité de
trouver X > x est exactement la probabilité de ne pas avoir interagit sur une épaisseur
x, d’où :
F X (x) = 1 − P(x) = 1 − e−λx .
On vérifie que F X (x) vérifie bien les propriétés d’une fonction de répartition : c’est
une fonction croissante avec F X (0) = 0 et F X (+∞) = 1.
7. La densité de probabilité s’obtient en dérivant la fonction de répartition :
dF X
fX (x) = = λe−λx .
dx
1
Cette loi est la loi exponentielle de paramètre λ. Sa moyenne vaut μ = et sa va-
λ
1
riance σ2 = 2
λ
II.9 Loi de Poisson

1. Calcul de la moyenne :

+∞
ne−λ λn 
+∞
λn−1 
+∞ k
λ
μ= = λe−λ = λe−λ = λe−λ eλ = λ.
n=0
n! n=1
(n − 1)! k=0
k!

2. Fonction caractéristique :

+∞ −λ n int
e λ e
= e−λ eλe = eλ(e
it it −1)
ϕ(t) = .
n=0
n!

142
Annexes

3. Les moments s’obtiennent par dérivation de la fonction caractéristique :


ϕ (t) = iλeit−λ(1−e
it )

ϕ (t)
⇒ ϕ (0) = iλ ⇒ μ1 = = λ,
i
ϕ (t) = −λ(1 + λeit )eit−λ(1−e
it )

ϕ (t)
⇒ ϕ (0) = −λ − λ2 ⇒ μ2 = 2 = λ + λ2 ,
 i
2 2it it−λ(1−eit )
ϕ (t) = −iλ 1 + 3λe + λ e e
it

 ϕ (t)
⇒ ϕ (0) = −i λ + 3λ2 + λ3 ⇒ μ3 = 3 = λ + 3λ2 + λ3 ,
 i
3 3it it−λ(1−eit )
ϕ (t) = λ 1 + 7λe + 6λ e + λ e e
it 2 2it

ϕ (t)
⇒ ϕ (0) = λ + 7λ2 + 6λ3 + λ4 ⇒ μ4 = = λ + 7λ2 + 6λ3 + λ4 .
i4
On en déduit les moments centrés utilisant la version généralisée du théorème de
Koenig :
μ 2 = μ2 − μ21 = λ,
μ 3 = μ3 − 3μ1 μ2 + 2μ31 = λ,
μ 4 = μ4 − 4μ1 μ3 + 6μ21 μ22 − 3μ41 = λ + 3λ2 .

Et finalement :
μ 3 μ 4
σ2 = μ 2 = λ, = λ− 2 , − 3 = λ−1 .
1
μ = μ1 = λ, β1 = γ2 =
σ3 σ4
4. Quand λ → +∞ on a : β1 → 0 et γ2 → 0. On retrouve alors les moments de la
loi normale (pour prouver la convergence vers la loi normale il faudrait démontrer la
convergence de tous les moments).
© Dunod. La photocopie non autorisée est un délit.

P ARTIE III : S TATISTIQUES


III.1 Sondage d’opinion (1)

1. La proportion totale d’ouvriers est donnée par :


touvrier = 0,05 × 0,52 + 0,22 × 0,48 = 0,1316 soit soit 13,16%.
La proportion totale d’ouvrières par :
touvrieres = 0,05 × 0,52 = 0,026 soit 2,6%.

143
Corrigés

2. La proportion d’ouvrières dans la population est la probabilité de trouver une ou-


vrière lors d’un tirage aléatoire. Le nombre d’ouvrières parmi 1000 personnes doit
donc suivre une loi binomiale de paramètre 1000 et de probabilité 0,026.

P(k ouvrières) = B(k; 1000, 0,026) = Ck1000 0,026k 0,9741000−k .

-
3. Moyenne : μ = np = 26, écart type : σ = np(1 − p ≈ 5,03.
4. 5% de la valeur moyenne correspond à une fluctuation de 1,3. Il s’agit donc de
déterminer la probabilité de trouver un nombre d’ouvrières différent de 25, 26 ou 27,
soit :

P( ±5%moyenne) = P(k < 25 ou k > 27) = 1 − P(25) − P(26) − P(27).

Le calcul numérique n’est pas demandé. On peut néanmoins l’obtenir rapidement


en approximent la loi binomiale par une loi normale de même moyenne et même
variance. On a alors :
 1 − (k−26)
2

P( ±5%moyenne) = 1 − √ e 2×5,032 ≈ 0,77 .


k=25,26,27 5,03 2π

5. Un échantillon représentatif devrait reproduire au mieux les proportions de la po-


pulation. Du fait de la variance de la loi binomiale, la probabilité d’avoir une grande
fluctuation relativement à la valeur moyenne est très importante, en particulier pour
les faibles proportions. Ce type d’échantillon n’est pas représentatif. Il existe des mé-
thodes complexes qui permettent de créer des échantillons plus représentatifs d’une
population qui sont utilisées par l’INSEE et les instituts de sondages. Néanmoins la
représentativité parfaite n’est jamais atteinte. L’exercice suivant discutera des pro-
blèmes résiduels une fois la représentativité assurée.

III.2 Sondage d’opinion (2)

1. Le nombre de réponses positives suit une loi binomiale de paramètre 1000 et de


probabilité 0,479. On cherche la probabilité d’avoir obtenu 482 oui, soit :

P(482) = B(482; 1000, 0,479) = C482


1000 0,479
482
0,521518 .

L’approximation de la loi binomiale par la loi normale de moyenne μ = 479 et de


variance σ2 = 479 × (1 − 0,479) ≈ 249,6 est parfaitement valide et plus facile pour
l’application numérique. Ici :
- 1 (482−479)2
P(482) ≈ N(482; 479, 249,6) = √ e− 2×249,6 ≈ 0,0248 ,
2π × 249,6

144
Annexes

soit une probabilité de 2,48%.


2. On raisonne de la même manière avec une moyenne μ = 501 et une variance
σ2 = 501 × (1 − 0,501) ≈ 250. On obtient alors une probabilité de 1,23%. On
constate ainsi que lorsque le résultat d’un sondage est proche de 50%, il est possible
de sonder dans l’échantillon un résultat inverse de celui attendu sur la population.
On commence à aborder ici le problème de l’estimation : ici on utilise la fraction de
réponse positive dans l’échantillon pour estimer celle de la population. Néanmoins
ces deux grandeurs peuvent différer du fait de la variance de la loi binomiale.
-
3. L’écart type de la loi binomiale est ici σ = 1000p(1 − p) où p est la fraction
de réponse positive dans la population. Cet écart type est maximal pour p = 50%,
c’est-à-dire
√ la où le risque d’inversion du résultat est le plus grand ; on a alors
σ = 250 ≈ 16. Une fluctuation de ±16 réponses positives (donc de 1,6%) est
probable à environ 68% (intervalle à 1σ de la loi normale). Un sondage donnant un
résultat dans la fourchette 48,4%-51,6% a ainsi une probabilité non négligeable de
représenter l’inverse de la situation de la population. Il est à noter que ce type de
résultats de sondage est assez fréquent dans le contexte d’élections.

III.3 Seuil d’alerte

1. L’histogramme devrait avoir un forme gaussienne, de moyenne 220 bars et d’écart


type 1 bar (puisque 2 bars correspondent à 95,4% de confiance soit 2σ).
2. L’incertitude est donnée par la précision du capteur. Si on choisit de fixer l’incerti-
tude à 1σ on aura don Pmesure = 253 ± 1 bars.
3. Comme la loi normale est symétrique entre x = Pmesure et μ = Pvrai , elle mesure la
probabilité d’un écart entre la mesure et la valeur vraie. On a donc :
Prob(Pvraie > Pcritique ) = Prob(Pvraie − Pmesure > Pcritique − Pmesure )
 +∞
= N(x; Pmesure , 1)dx.
Pcritique
© Dunod. La photocopie non autorisée est un délit.

On a constate ici que Pcritique − Pmesure = 3 bars correspond à une fluctuation de 3σ.
On a donc :
 +∞   3σ 
1
Prob(Pvraie > Pcritique ) = N(x; 0, σ)dx = 1− N(x; 0, σ)dx
3σ 2 −3σ
1
= (1 − 0,997) = 0,00015 .
2
Soit une probabilité de 0,015% de se trouver au dessus du seuil. Cette probabilité
peut sembler faible, mais pour certaines installations industrielles il s’agit encore
d’un risque trop grand.

145
Corrigés

4. Comme l’erreur de mesure (donc l’écart type de la distribution de probabilité de


la mesure) est constante, plus la mesure s’éloigne de la valeur critique plus la pro-
babilité que cette mesure découle d’une fluctuation d’une valeur vraie située au-delà
diminue.
5. On cherche le seuil tel que l’écart Pcritique − P seuil corresponde à une probabilité de
3 × 10−7 , soit, si on raisonne en nombre de σ :
  nσ   nσ
−7 1
3 × 10 = 1− N(x; 0, σ)dx ⇒ N(x; 0, σ)dx = 0,9999994.
2 −nσ −nσ
Cette probabilité correspond à 5σ, soit finalement P seuil = 251 bars.

III.4 Borne d’une loi uniforme


l
1. La moyenne de la loi uniforme sur [0, l] est . L’estimateur de moyenne empirique
2
étant un estimateur de la moyenne, on peut prendre comme estimateur de l :
2
n
l̂ = 2μ̂ = xi .
n i=1
L’estimateur de moyenne empirique est non biaisé donc notre estimateur de l égale-
ment. Sa variance est le quadruple de celle de la moyenne empirique :
4σ2 l2
σ2lˆ = E[(2μ̂)2 ] − E[2μ̂]2 = 4(E[μ̂2 ] − E[μ̂]2 ) = 4σ2μ̂ = = ,
n 3n
l2
où σ2 = est la variance de la loi uniforme. Tout comme pour la moyenne em-
12
pirique, l’estimateur est convergent puisque σ2lˆ → 0 quand n → +∞. L’application
numérique donne l̂ = 8.
2. L’échantillon précédent contient la valeur 9, on a donc l ≥ 9, or l’estimateur donne
l̂ = 8. La valeur maximale de l’échantillon donne dans ce cas un meilleur estimateur.
On va donc étudier l̂ = max{xi }.
3. Commençons par chercher la fonction de répartition de cet estimateur. On note L̂
la variable aléatoire et l̂ une réalisation particulière :
F L̂ (l̂) = P(L̂ < l)
ˆ
= P(max{Xi } < l̂)
= P(X1 < lˆ et X2 < lˆ et . . . et Xn < l̂)
#n
= P(Xi < l̂) car les variables Xi sont indépendantes
i=1
= F X (l̂)n ,

146
Annexes

où F X est la fonction de répartition de la loi uniforme, soit :


⎧ ⎧


⎪ 0 si x < 0 ⎪

⎪ 0 si x < 0


⎨1 ⎪

⎨x
fX (x) = ⎪
⎪ si 0 ≤ x ≤ l ⇒ F X (x) = ⎪
⎪ si 0 ≤ x ≤ l .


⎪ l ⎪

⎪ l
⎩ 0 si x > l ⎩ 1 si x > l

Finalement la fonction de répartition de l’estimateur, sur l’intervalle [0, l] est :


lˆn
F L̂ (l̂) = F X (l̂)n = .
ln
et la densité de probabilité s’obtient par dérivation de la fonction de répartition :
dF L̂ nl̂n−1
fL̂ (l̂) = = n .
dlˆ l

4. Moyenne :
 l n−1  l
ˆl nl̂ dlˆ = n l̂n+1 n
μ = E[L̂] = = l.
0 ln n+1 l 0 n+1
n

Variance :  l
 l n−1
ˆl2 nl̂ dlˆ = n lˆn+2 n 2
E[L̂ ] =
2
= l ,
0 ln n+2 l 0 n+2
n

d’où :
n 2 n2 nl2
σ2 = E[L̂2 ] − E[L̂]2 = l − l2
= .
n+2 (n + 1)2 (n + 2)(n + 1)2
L’estimateur est convergent, biaisé mais non biaisé asymptotiquement. On peut redé-
n +1ˆ
finir un estimateur non biaisé par : l̂ = l, ce qui signifie que l’estimateur est
n
toujours strictement supérieur au maximum de l’échantillon. On a alors μlˆ = l et
l2 l2 l2
σ2lˆ = . On constate que pour n > 2 on a toujours < : l’esti-
n(n + 2) n(n + 2) 3n
mateur construit avec le maximum est plus efficace (il converge plus vite) que celui
© Dunod. La photocopie non autorisée est un délit.

construit avec la moyenne empirique.


5. La fonction de vraisemblance de l’échantillon est une fonction de l :
#
L(l) = fl (xi ),
i

où fl est la densité de probabilité uniforme sur [0, l]. Tant que l < max xi , il existe au
moins un indice j tel que x j > l. Pout cette valeur fl (x j ) = 0 et donc L(l) = 0. Pour
1 1
l ≥ max xi , fl (xi ) = pour chaque xi et donc L(l) = n :
l l

147
Corrigés

×10-6

Fonction de vraisemblance
30

25
l=max xi

⎧ 20


⎨ 0 si l < max xi ,

L(l) ⎪
15
⎪ 1

⎩ n sinon. 10
l
5

0
0 2 4 6 8 10 12 14 16
l

Le maximum de la fonction de vraisemblance est donc atteint en l = max xi . L’esti-


mateur biaisé lˆ de la question 3 est donc l’estimateur de maximum de vraisemblance.
On vérifie par ailleurs que cet estimateur est plus efficace que l’estimateur non biaisé
nl2 l2
car < .
(n + 1)2 (n + 2) n(n + 2)
III.5 Efficacité limite
On va se placer dans le cas général de n lancers sans obtenir 6. La probabilité d’un tel
événement est donnée par la loi binomiale B(0; n, p) = (1 − p)n , où p est la probabi-
lité de succès. On a ainsi P(données|p) = (1 − p)n . On cherche à déterminer d’abord
la densité a posteriori du paramètre p, P(p|données). On utilise alors le théorème de
Bayes en prenant comme probabilité a priori P(p) pour p une loi uniforme sur [0, 1]
(p est une probabilité donc toutes les valeurs entre 0 et 1 sont a priori possibles.) :
P(données|p)P(p) (1 − p)n
P(p|données) = " 1 = "1 .
0
P(données|p)P(p)dp 0
(1 − p)n dp
Les données semblent favoriser une faible probabilité, puisqu’aucun événement n’est
observé. La limite pα va donc correspondre à la valeur maximale que p puisse prendre
telle que P(p < pα |données) = α, soit :
 pα " pα
(1 − p)n dp
α= P(p|données)dp = "0 1 .
0
0
(1 − p)n dp

Le calcul générique de l’intégrale donne :


 u
1 − (1 − u)n+1
(1 − p)n dp = ,
0 n+1
soit finalement :
1
α = 1 − (1 − pα )n+1 ⇔ pα = 1 − (1 − α) n+1 .

148
Annexes

1. Pour n = 20 et α = 0,95, on obtient p95 = 0,133. Il y donc 95% de chance que


la valeur vraie de la probabilité d’obtenir un 6 soit inférieure à 0,133 (pour un dé
équilibré on attendrait 0,167).
2. Pour n = 20 et pα = 1/6, on obtient α = 0,978. On exclu l’hypothèse p = 1/6 à
97.8% de confiance.
3. Pour n = 50, la limite à 95% de niveau de confiance devient p95 = 0,057 et p = 1/6
est exclu à 99,991% de confiance.

III.6 Propagation d’un photon

1. La fonction de vraisemblance est :


# n
1 −xi

1 − xi
L(λ) = e = ne λ .
λ

i=1
λ λ

En passant au logarithme et en dérivant on obtient :


d ln L d  x n  x
i i
= n ln λ − = + ,
dλ dλ λ λ λ2
et finalement, l’estimateur de maximum de vraisemblance λ̂ est :
n  xi 1
+ = 0 ⇒ λ̂ = xi .
λ̂ λ̂2 n i

Il s’agit de l’estimateur de moyenne empirique.


La valeur moyenne de X est donnée par :
 +∞  +∞
x −x −x !+∞ −x −x !+∞
E[X] = e λ dx = −xe λ + e λ dx = λ −e λ = λ.
0 λ 0
0
0

Le paramètre à estimer est la moyenne de la variable aléatoire, il n’est donc pas sur-
prenant que l’estimateur de maximum de vraisemblance soit l’estimateur de moyenne
empirique.
© Dunod. La photocopie non autorisée est un délit.

2. La moyenne empirique est un estimateur convergent, non biaisé de variance


σ2
σ2λ̂ = où σ est la variance de la loi exponentielle :
n
 +∞ 2  +∞  +∞
x −x −x −x
E[X ] =
2
e dx =
λ 2xe dx = 2λ
λ e λ dx = 2λ2 ,
0 λ 0 0

et finalement :
λ2
σ2 = E[X 2 ] − E[X]2 = 2λ2 − λ = λ2 ⇒ σ2λ̂ = .
n

149
Corrigés

3. Application numérique : λ̂ ≈ 2,761 cm. Pour l’incertitude à 1σ on construit un


estimateur de l’écart type à partir de λ̂ et de la relation donnant σ2 en fonction de λ,
λ̂
soit Δλ = √ = 0,792 cm.
8
1
On en déduit un estimateur du coefficient d’atténuation linéaire μ̂ = ≈ 0,383 cm−1
λ̂
Δλ̂ μ̂ −1
et Δμ̂ = μ̂ = √ ≈ 0,135 cm . La valeur tabulée est comprise dans l’intervalle
λ̂ 8
μ̂ ± Δμ̂, la mesure semble en accord avec les résultats antérieurs.

III.7 Intervalle de confiance d’une loi de Poisson

1. Un comptage d’événements rares est décrit par une loi de Poisson de paramètre n.
La fonction de vraisemblance de n est donc :
e−n nN
L(n) = .
N!
d − ln L 1
En minimisant − ln L = n − N ln n + ln N!, il vient = 1 − = 0 ⇒ n = N.
dn n
Avec un seule mesure, la valeur la plus vraisemblable est évidemment n = N !
2. On considère que le paramètre n a une densité a priori uniforme sur [0, u]
avec u  N, de telle sorte que :
1
L(n) L(n) e−n nN
f (n) = P(n|N) = "u
1 u
≈ " +∞ = " +∞ .
u 0 L(n)dn 0
L(n)dn 0
e−n nN dn

3. Pour n petit, la loi de Poisson est très asymétrique (γ1 = n−1 ) ce qui n’est pas re-
flété par une barre d’erreur ±σ qui de plus√ ne correspond pas à un niveau de
√ confiance
de 68%. De plus pour n < 1, on a σ = n > n, et donc l’intervalle n ± n contient
des valeurs négatives qui ne sont pas accessibles !
4. On se place dans le cas N = 1. On souhaite un intervalle de confiance [n− , n+ ] tels
que n− et n+ vérifient :
 n+ " n+
e−n ndn
= α et f (n− ) = f (n+ ) ⇒ e−n− n− = e−n+ n+ ,
n−
f (n)dn = " +∞
n− e−n ndn
0

où α est le niveau de confiance souhaité. On calcule d’abord :


 b  b
2 3b
ne−n dn = −ne−n a − e−n dn = (a + 1)e−a + (b + 1)e−b .
a a

150
Annexes

 +∞
En particulier ne−n dn = 1. On en déduit alors :
0

(n− + 1)e−n− − (n+ + 1)e−n+ = α et e−n− n− = e−n+ n+ .

En injectant le second résultat on simplifie le premier :

e−n− − e−n+ = α et e−n− n− = e−n+ n+ ,

soit par substitution :


   
ln e−n− α × e−n− − α + n− e−n− = 0
   
− ln α + e−n+ × α + e−n+ − n+ e−n+ = 0.

Ces deux équations se résolvent numériquement. Graphiquement, on obtient :

n99
- n95
- n68
- n68 95 99
+ n+ n+
0 0.4

0.35
68.3%
-0.05 0.3 95.4%
0.25
99.7%
-0.1 0.2

0.15

-0.15 0.1

0.05

-0.2 -3 0 -3
10 10-2 10-1 1 10 10 10-2 10-1 1 10
n n

La résolution de ces équations donne :

α = 0,683 ⇒ n− = 0,268 et n+ = 2,50,


α = 0,954 ⇒ n− = 0,039 et n+ = 4,86,
α = 0,997 ⇒ n− = 0,0026 et n+ = 8,01.
© Dunod. La photocopie non autorisée est un délit.

III.8 Test du χ2

1. On utilise les estimateurs de moyenne et d’écart type empiriques :


0
4
1 ⎛ ⎞
1  30 ⎜⎜⎜⎜ 1  2 ⎟⎟⎟
30 30
μ̂ = xi ≈ 10,2131 et σ̂ = ⎜⎜⎝ xi − μ̂ ⎟⎟⎟⎠ ≈ 2,47.
2
30 i=1 29 30 i=1

2. La loi à tester est une loi normale de moyenne μ̂ et d’écart type σ̂. Il faut donc cal-
culer l’intégrale de cette loi sur chaque classe. En choisissant des classes de la forme

151
Corrigés

[μ̂ + kσ̂, μ̂ + (k + 1)σ̂], avec k entier (positif ou négatif), on simplifie le problème puis-
qu’on connait les niveaux de confiance de la loi normale à 1σ, 2σ, . . . . On construit
donc la table suivante :
Cj 2,80-5,27 5,27-7,74 7,74-10,21 10,21-12,68 12,68-15,15
nj 1 2 14 7 6
pj 0,0215 0,1355 0,3415 0,3415 0,1355
Kj2 0,1954 1,0490 1,3763 1,0278 0,9210

Soit finalement K 2 = 4,5696 pour 4 degrés de liberté.


3, On trouve dans les tables données en annexes, pour une loi de χ2 à 4 degrés de
libertés, p-value= 0,35 pour K 2 = 4,438 et p-value= 0,30 pour K 2 = 4,878. En
interpolant linéairement on obtient finalement :

(4,878 − 4,5696) × (0,3 − 0,35)


p-value = 0,35 + ≈ 0,335.
4,878 − 4,438

4. La loi uniforme de même moyenne et écart type a pour bornes :

⎧ √
a+b b−a ⎪

⎨ a = 2μ̂ − √3σ̂ ≈ 5, 93
= μ̂ et √ = σ̂ ⇒ ⎪
⎪ .
2 12 ⎩ b = 2μ̂ + 3σ̂ ≈ 14, 49

Soit pour la loi à tester :

1
f (x) = si 5,93 < x < 14,49, 0 sinon.
8,56

Le test statistique donne alors (en utilisant les même classes) :


Cj 2,80-5,27 5,27-7,74 7,74-10,21 10,21-12,68 12,68-15,15
nj 1 2 14 7 6
pj 0 0,212 0,2882 0,2882 0,212
Kj2 - 2,989 3,315 0,3134 0,00204

Soit finalement K 2 = 6,638 pour 3 degrés de liberté, correspondant à une p-value


de 0,086. Les données proposées sont mieux décrites par une loi normale que par
une loi uniforme. On fait ici le choix de garder les mêmes classes pour les deux tests.
Dans le cas de la loi uniforme, la première classe n’est pas utilisable ce qui fait perdre
un degré de liberté. On aurait pu redéfinir les classes pour le second test.

152
Annexes

III.9 Test de Kolmogorov


Intervalle [a, b] 0-0,0303 0,0303-0,1629 0,1629-0,1685 0,1685-0,2131
F(x) 0 0,05 0,10 0,15
|F(x) − a| 0,0303 0,2530 0,0629 0,0185
|F(x) − b| 0 0,1129 0,0685 0,0631
sup |F(x) − x| 0,0303 0,2530 0,0685 0,0631
Intervalle [a, b] 0,2131-0,2216 0,2216-0,2316 0,2316-0,2826 0,2826-0,3156
F(x) 0,2 0,25 0,30 0,35
|F(x) − a| 0,0131 0,0284 0,0684 0,0674
|F(x) − b| 0,0216 0,0194 0,0174 0,0344
sup |F(x) − x| 0,0216 0,0284 0,0684 0,0674
Intervalle [a, b] 0,3156-0,3923 0,3923-0,4755 0,4755-0,4849 0,4849-0,5196
F(x) 0,40 0,45 0,50 0,55
|F(x) − a| 0,0844 0,0577 0,0245 0,0651
|F(x) − b| 0,0077 0,0255 0,0151 0,3040
sup |F(x) − x| 0,0844 0,0577 0,0245 0,3040
Intervalle [a, b] 0,5196-0,5400 0,5400-0,6586 0,6586-0,7399 0,7399-0,7443
F(x) 0,60 0,65 0,70 0,75
|F(x) − a| 0,0804 0,1100 0,0414 0,0101
|F(x) − b| 0,0600 0,0086 0,0399 0,0057
sup |F(x) − x| 0,0804 0,1100 0,0414 0,0101
Intervalle [a, b] 0,7443-0,7599 0,7599-0,8044 0,8044-0,9472 0,9472-0,9574
F(x) 0,80 0,85 0,90 0,95
|F(x) − a| 0,0557 0,0901 0,0956 0,0028
|F(x) − b| 0,0401 0,0456 0,0472 0,0074
sup |F(x) − x| 0,0557 0,0901 0,0956 0,0074

1. La fonction de répartition de la loi uniforme s’obtient par intégration de la densité


de probabilité :
⎧ ⎧


⎪ 0 si x < 0 ⎪

⎪ k1 si x < 0
⎨ ⎨
f (x) = ⎪
⎪ 1 si 0 ≤ x ≤ 1 ⇒ F(x) = ⎪
⎪ k x + k3 si 0 ≤ x ≤ 1 .

⎩ 0 si x > 1 ⎪
⎩k
2
4 si x > 1
Les constantes d’intégration s’obtiennent en imposant F(−∞) = F(0) = 0 et
F(+∞) = F(1) = 1 soit par continuité :



⎪ 0 si x < 0

F(x) = ⎪⎪ x si 0 ≤ x ≤ 1 .

⎩ 1 si x > 1
© Dunod. La photocopie non autorisée est un délit.

2. La fonction de répartition de l’échantillon est une fonction en escalier de la forme :





⎪ 0 si x < x0


⎨k
Fech (x) = ⎪
⎪ si xk < x ≤ xk+1 .


⎪ n
⎩ 1 si x ≥ x
n

3. Considérons k > 0, on a alors :


a − k ≤ x − k ≤ b − k ⇒ |x − k| ≤ |a − k| ou |x − k| ≤ |b − k|,

153
Corrigés

d’où |x − k| ≤ sup(|a − k|, |b − k|). On obtient le même résultat pour k ≤ 0.


Pour a ≤ x ≤ b, le maximum de |x − k| est ainsi atteint soit quand x = a soit quand
x = b, d’où le résultat sup |x − k| = sup(|x − a|, |x − b|)
4. En utilisant le résultat précédent, on constate que pour calculer D20 , il suffit de
calculer les écarts entre la loi théorique et celle de l’échantillon sur les bornes des
classes, le maximum global se trouvant nécessairement parmi ces valeurs. Le détail
du calcul de D20 est donné dans la table ci-dessus. La valeur supérieure, résultat du
test de Kolmogorov-Smirnov est D20 = 0,2530.

5. En utilisant les tables en annexe, la p-value associée à cette valeur de D20 20 =
1,13 est environ 15,5%. Les données sont compatibles avec une loi uniforme.
L’intervalle de confiance à 68% pour 20 mesures est [0; 0,214]. L’intervalle de
confiance à 95% est [0; 0,308]. La valeur obtenue donne un accord un peu moins
bon qu’1σ.

III.10 Ajustement exponentiel

1. On calcule r(t) et Δr(t) en utilisant les formules de propagation d’erreur :

 2  2  2
Δr Δi Δi(0)
= + .
r i i(0)

t 0 0,5 1,5 4
r(t) 1 0,641 0,305 0,0339
Δr(t) 0 0,0442 0,0210 0,0023

  r(t) − e−t/τ 2
2.a. On calcule K (τ) =
2
pour différentes valeurs de τ. On utilise
Δr(t)
les points pour t = 0,5, 1,5 et 4 s.
r(t)

0.8

0.6

τ 1,1 1,15 1,2 1,25 1,3


χ2 (τ)
0.4
16,3 4,33 1,54 9,37 29,9
0.2

0
0 0.5 1 1.5 2 2.5 3 3.5 4
t (en s)

154
Annexes

2.b. En utilisant les points pour τ = 1,15 s, τ = 1,2 s et τ = 1,25 s, on détermine


l’approximation parabolique autour du minimum :



⎪ a = 2124

χ2 (τ) ≈ aτ2 + bτ + c ⎪
⎪ b = −5047,2 .

⎩ c = 2999,6

−b
2.c. On en déduit la valeur de τ qui minimise K 2 (τ) : τ̂ = = 1,188 s. La valeur au
2a
minimum Kmin = χ (τ̂) = 1,241 pour 2 degrés de libertés (3 points et 1 paramètre),
2 2

soit un p-value de 0,54, ce qui caractérise un très bon ajustement.


L’incertitude à 1σ sur τ̂, est donnée par l’écart type de l’estimateur et donc par la
dérivée seconde de la fonction de vraisemblance :
χ2(t)

30

25

20
1
στ̂ = √ ≈ 0, 022 s.
Δτ̂ = 5 15
a
10
Finalement τ̂ = 1,188 ± 0,022 s
5

0
1.1 1.15 1.2 1.25 1.3
τ=1.188 t (en s)

3. C = τ̂/R = 1,188 mF.


En utilisant la propagation d’erreur :
/
 2  2
ΔR Δτ̂
ΔC = C + = 0,025 mF.
R τ̂

III.11 Intervalle de confiance d’un ajustement


© Dunod. La photocopie non autorisée est un délit.

1. On pose :
K 2 (θ) = Kmin
2
+ a(θ − θ̂)2 = −2 ln L,
d’où :
K2
L(θ) = e− e− 2 (θ−θ̂) .
min a 2
2

2. La fonction de vraisemblance tombe vite à zero quand on s’eloigne de θ̂, en choi-


sissant un a priori uniforme sur un intervalle beaucoup plus grand que la largeur de
la fonction, on peut le négliger.

155
Corrigés

3. La densité a posteriori est alors donnée par le théorème de Bayes :

e− 2 (θ−θ̂)
a 2
L(θ)
f (θ|xi , yi , Δyi ) = " +∞ = " +∞ a .
L(θ)dθ e− 2 (θ−θ̂)2 dθ
−∞ −∞

1
La densité a posteriori est une loi normale de moyenne θ̂ et de variance . Le terme
- a
de normalisation vaut donc : a/2π et finalement :

a − a (θ−θ̂)2
f (θ|xi , yi , Δyi ) = e 2 .

4. Le mode de la densité a posteriori correspond à son maximum. Dans le cas d’une


loi normale il est égal à la moyenne, soit θ̂.
5. À partir de la densité a posteriori de θ, un intervalle de confiance bayesien à nσ
est défini par les bornes :
n
θ± = θ̂ ± √ ,
a
soit, en injectant ces valeurs dans l’expression de K 2 :
n
K 2 (θ± ) = Kmin
2
+ a(θ̂ ± √ − θ̂)2 ⇒ Δχ2 = n2 .
a
On peut étendre le résultat à plusieurs dimensions en utilisant la loi multinormale.
L’intégrale de normalisation fait alors apparaître la loi de χ2 à nθ degrés de libertés,
nθ étant le nombre de paramètres. On peut ainsi retrouver les valeurs numériques de
la table 10.1.

III.12 Intégration Monte-Carlo


-
1. y = 4 − x2 ⇒ x2 + y2 = 4 avec x > 0, y > 0. On reconnait l’équation d’un quart
de cercle de rayon 2.
22 π
2. L’intégrale I est la surface du quart de disque, soit I = =π
4
3. A partir de n nombres aléatoires xi répartis uniformément sur [0,1], l’intégrale
Monte-Carlo constitue un estimateur de I :
2-
n
Iˆ = 4 − (2xi )2 .
n i=1

4. L’application numérique donne Iˆ ≈ 3,08

156
Annexes

/
2 1 
5. L’incertitude numérique est alors ΔIˆ = √ (4 − 4x2i ) − 4Iˆ2 ) ≈ 0,17. On
29 30 i
constate que le résultat exact de l’intégrale est bien inclus dans l’intervalle Iˆ ± ΔI.ˆ
ΔIˆn
6. On cherche n tel que = α. Dans cette étude on peut utiliser la valeur attendue
π
du résultat puisque la valeur de π est connue. Dans le cas usuel où le résultat n’est
pas connu, on utilisera Iˆ pour déterminer la précision relative. On a ainsi :
 2
30 ΔIˆ
nα = 2 .
α π
Pour α = 0,01, n0,01 = 878 et pour α = 0,001, n0,001 = 87800. On constate que
pour calculer correctement les premières décimales de π, il sera nécessaire d’utiliser

plusieurs centaines de milliers de nombres. Comme la précision augmente en n,
cette méthode n’est pas du tout efficace pour calculer π avec précision. L’intégration
Monte-Carlo n’en reste pas moins une méthode numérique pratique pour le calcul
numérique d’intégrales.

III.13 Paramètre de nuisance

1. Un comptage d’événements suit une loi de Poisson de paramètre λ = αξ, la fonc-


tion de vraisemblance est donc :
e−αξ αN ξ N
L(ξ, α) = f (N|ξ, α) = .
N!
2. Notre connaissance a priori de α est α = α0 ± Δα, la densité a priori sera donc une
loi normale de moyenne α et d’écart type Δα, soit :
1 (α−α0 )2

f (α) = √ e 2Δα2 .
2πσ
Puisqu’il s’agit d’un comptage d’événements, on doit toujours avoir n = αξ > 0,
et donc α > 0. La loi normale est définie sur [−∞, +∞], on ne peut donc l’utiliser
que si la partie négative de la distribution est négligeable, soit Δα  α0 . Si ce n’est
pas le cas, il faut couper la distribution. Le calcul analytique est alors beaucoup plus
© Dunod. La photocopie non autorisée est un délit.

complexe.
3. En utilisant le théorème de Bayes :
(α−α0 )2
e−αξ αN ξ N −
√ 1 e 2Δα2
N! 2πΔα
f (ξ, α|N) = .
" +∞ " +∞
e−αξ αN ξ N −
(α−α0 )2
√ 1 e 2Δα2 dαdξ
0 −∞ N! 2πΔα
En ignorant les termes constants de normalisation, on a donc :
(α−α0 )2
− −αξ
f (ξ, α|N) ∝ αN ξ N e 2Δα2 .

157
Corrigés

4. On intègre l’expression précédente par rapport à α :


 +∞  +∞ (α−α0 )2
− −αξ
f (ξ|N) = f (ξ, α|N)dα ∝ ξ N
αN e 2Δα2 dα.
−∞ −∞
Le terme dans l’exponentielle peut se factoriser comme :
(α − α0 )2 −1 
2 2 ξ 2 Δα2
− − αξ = α − α 0 − ξΔα − α 0 ξ + ,
2Δα2 2Δα2 2
d’où :
2 2
 +∞ (α−(α0 −ξΔα2 ))2
N −α0 ξ+ ξ Δα −
f (ξ|N) ∝ ξ e 2 α e
N 2Δα2 dα.
−∞
Pour N = 3, le résultat de l’intégrale est donné par :
 +∞ (α−(α0 −ξΔα2 ))2 √  3  
3 −
α e 2Δα2 dα = 2πΔα α0 − ξΔα2 + 3 α0 − ξΔα2 Δα2 ,
−∞
soit, en ignorant encore les termes multiplicatifs constants :
ξ2 Δα2
 3  
f (ξ|N) ∝ e−α0 ξ+ 2 ξ 3 α0 − ξΔα2 + 3 α0 − ξΔα2 Δα2 ,
ou encore :
 ξ2 Δα2 3  
e−α0 ξ+
ξ 3 α0 − ξΔα2 + 3 α0 − ξΔα2 Δα2
2

f (ξ|N) = " .
+∞ −α0 ξ+ ξ2 Δα2 3  3   2
0
e 2 ξ α0 − ξΔα + 3 α0 − ξΔα Δα dξ
2 2

Le calcul analytique de l’intégrale de normalisation est possible mais fastidieux et


utilise des résultats analogues à celui introduit pour le calcul de l’intégrale précé-
dente.
5. On obtient les courbes suivantes. Le cas Δα = 0 correspond à la loi de Poisson
seule :
f(ξ|n)

Δα=0.2
Δα=0

0 2 4 6 8 10 12 14
ξ

158
Annexes

L’intégration sur le paramètre de nuisance pour Δα = 0,2 élargit la distribution, ce


qui est attendu puisqu’on prend en compte une incertitude supplémentaire.
6. On peut approximer par méthode Monte-Carlo :

k 
k 30
Ik = f (x)dx ≈ f (kxi ), pour un échantillon {xi } uniforme sur [0,1].
0 30 i=0

En prenant k = 15, on obtient I15 = 5,06 pour le dénominateur de la densité a poste-


riori.
7. Pour déterminer une limite supérieure, on cherche ξ90 tel que
 ξ90 Iξ90
f (ξ|N)dξ = 0,9 ⇒ = 0,9.
0 I15

À partir du graphique on peut identifier que ξ90 devrait se situer dans l’intervalle de
4 < ξ < 8. Puis en procédant par dichotomie on aboutit à ξ90 ≈ 6. Le résultat final
est donc ξ < 6 à 90% de confiance. Il est cependant important de noter que pour des
raisons pratiques l’intégrale Monte-Carlo a été calculée avec un très petit échantillon
et souffre donc d’une erreur importante. On a vu à l’exercice précédent qu’il fallait un
très grand échantillon pour que l’intégrale Monte-Carlo devienne une approximation
raisonnable.
© Dunod. La photocopie non autorisée est un délit.

159
F ORMULAIRE

Ce formulaire regroupe les principaux résultats et formules décrits dans cet ouvrage.
Il vise à retrouver facilement les résultats utiles. On se référera au texte principal pour
les démonstrations et les commentaires sur leur utilisation.

M ESURES DE FORME
Moyenne d’ un échantillon

1
N
m = x̄ = xi
n i=1

Moyenne d’ un histogramme

1  Ii + Ii+1  Ii + Ii+1
k k
m≈ ni = fi
n i=i 2 i=i
2

Moyenne d’ une variable aléatoire


 +∞
μ= x f (x)dx
−∞

Variance d’ un échantillon
1
σ2 = (xi − m)2
n i
© Dunod. La photocopie non autorisée est un délit.

Variance d’ un histogramme

1   Ii + Ii+1 2  I + I 2
k k
i i+1
σ2 ≈ ni − x̄ = fi − x̄
n i=i 2 i=i
2

Variance d’ une variable aléatoire


 +∞
σ2 = (x − μ)2 f (x)dx
−∞

161
Analyse de données en sciences expérimentales

Asymétrie d’ un échantillon
1 
β1 = (xi − m)3
nσ3 i

Asymétrie d’ une variable aléatoire


 
x − μ 3
β1 = f (x)dx
σ

Kurtosis d’ un échantillon
1 
γ2 = (xi − m)4 − 3
nσ4 i

Kurtosis d’ une variable aléatoire


 
x − μ 4
γ2 = f (x)dx − 3
σ

Covariance d’ un échantillon
1
cov({xi , yi }) = (xi − m x )(yi − my )
n i

Covariance d’ une distribution


 
cov(x, y) = (x − μ x )(y − μy ) f (x, y)dxdy

Coefficient de corrélation
cov(x, y)
ρ=
σ x σy

Théorème de Koenig
Aussi bien pour un échantillon, un histogramme ou une densité de probabilité en
substituant la définition appropriée de la moyenne.

cov(x, y) = E[xy] − E[x]E[y] σ2 = E[x2 ] − E[x]2

Pour les moments centrés d’ordre 3 et 4 :

E[(x − E[x])3 ] = E[x3 ] − 3E[x]E[x2 ] + 2E[x]3


E[(x − E[x])4 ] = E[x4 ] − 4E[x]E[x3 ] + 6E[x2 ]E[x]2 − 3E[x]4

162
Formulaire

P ROBABILITÉS
Propriétés
P(Ω) = 1, P() = 0, P(Ā) = 1 − P(A)
P(A ou B) = P(A) + P(B) − P(A et B)

Incompatibilité
P(A et B) = 0 ⇒ P(A ou B) = P(A) + P(B)

Indépendance
P(A et B) = P(A).P(B)

Système complet
n 
n
Ai = Ω, Ai ∩ A j = ∅ pour i  j ⇒ P(B) = P(Ai et B)
i=1 i=1

Probabilité conditionnelle
P(A et B)
P(A|B) =
P(B)

Théorème de Bayes
P(A|B)P(B)
P(B|A) = .
P(A)
 
P(A) = P(A et Bi ) = P(A|Bi)P(Bi ) , {Bi} système complet
i i

C OMBINATOIRE
Tirage avec remise de k parmi n
© Dunod. La photocopie non autorisée est un délit.

avec ordre : N(n, k) = nk


nk
sans ordre : N(n, k) =
k!
Tirage sans remise de k parmi n
n!
avec ordre (arrangements) : N(n, k) = Akn =
(n − k)!
Ak n!
sans ordre (combinaisons) : N(n, k) = Cn = n =
k
k! k!(n − k)!

163
Analyse de données en sciences expérimentales

Tirage dans de multiples populations


  
N(ni , ki )
Prob(n1 , k1 , . . . , nr , kr ) = i avec k = ki , n= ni
N(n, k) i i

V ARIABLES ALÉATOIRES
Densité de probabilité
f (x)dx = P(x < X < x + dx)
f(x1 , . . . , xn )dx1 . . . dxn = P(x < X1 < x1 + dx1 , . . . , xn < Xn < xn + dxn )
 1+∞
+∞
f (x)dx = 1 , f (x1 , . . . , xn )dx . . . dxn = 1
−∞ −∞

Densité marginale
 +∞
fXi (xi ) = f (t1 , t2 , . . . , xi , . . . tn )dt1 . . . dtn
−∞

Densité conditionnelle, théorème de Bayes


f (x1 , . . . , xn )
f (xi |x1 , . . . , xi−1 , xi+1 , . . . , xn ) =
fXi (xi )
f (x|y) fY (y)
f (y|x) =
fX (x)

Indépendance
f (x, y) = fX (x) fY (y) ⇒ f (y|x) = fY (y) , f (x|y) = fX (x)

Fonction de répartition
 x
dF
F(x) = P(X < x) = f (t)dt, f (x) = , F(−∞) = 0, F(+∞) = 1
−∞ dx

Changement de variables
y = ϕ(x), ϕ bijective
fX (x)
fY (y) =  
 dϕ 
dx

Transformation : Y uniforme sur [0, 1] → fX (x)


X = F X−1 (Y)

164
Formulaire

Transformation : Y uniforme sur [0, 1] → X uniforme sur [a, b]


X = a + (b − a)Y

Somme de variables indépendantes Z = X + Y


 +∞
fZ (z) = ( fX ∗ fY )(z) = fX (t) fY (z − t)dt μZ = μ X + μY σ2Z = σ2X + σ2Y
−∞

L OIS USUELLES
Loi binomiale
Probabilité d’obtenir k succès parmi n essais, chaque essai ayant une probabilité p de
succès.
n!
B(k; n, p) = Ckn pk (1 − p)n−k , Ckn =
k!(n − k)!
1 − 2p 1 − 6p(1 − p)
μ = np, σ = np(1 − p), β1 = - , γ2 =
np(1 − p) np(1 − p)

Loi de Poisson
e−λ λr
P(r, λ) =
r!
1 1
μ = λ, σ2 = λ, β1 = √ , γ2 =
λ λ

Loi uniforme
1
f (x; a, b) = si a ≤ x ≤ b , = 0 sinon.
b−a
a+b (b − a)2 −6
μ= , σ2 = , β1 = 0, γ2 = = −1.2
2 12 5
© Dunod. La photocopie non autorisée est un délit.

Loi normale (Gauss)


2
1 − (x−μ)
N(x; μ, σ) = √ e 2σ2
σ 2π
μ = μ, σ2 = σ2 , β1 = 0, γ2 = 0

Loi multinormale
1 T Σ −1 (
e− 2 (x−μ) x−μ)
1
N(x; μ, Σ) = n 1
(2π) |Σ|
2 2

165
Analyse de données en sciences expérimentales

Loi du χ2 à n degrés de libertés


x 2 −1
n

e− 2
x
fχ2 (x; n) = n
2 2 Γ( n2 )
8 12
μ = n, σ2 = 2n, β1 = , γ2 =
n n

C ONVERGENCES
Loi binomiale
-
B(k; n, p) ≈ N(k; np, np(1 − p)) pour n  50
B(k; n, p) ≈ P(k; np) pour k  n, p  1

Loi de Poisson

P(k; λ) ≈ N(k; λ, λ) pour λ  25

Loi du χ2
fχ2 (x; n) ≈ N(x; n, 2n) pour n  30

Théorème central limite


Pour n variables Xi distribuées selon f de moyenne μ et d’écart type σ :

1  x1 − μ x2 − μ xn − μ  1  xi − μ
n
Zn = √ + + ... + = √
n σ σ σ n i=1 σ

σ
lim fZn (z) = N(z; μ, √ ), la vitesse de convergence dépend de f .
n→+∞ n

C ALCUL D ’ ERREUR
Propagation d’ incertitudes

n  2  
 ∂f   ∂ f ∂ f 
Δf =
2
Δx2i +2 ri j  Δx Δx
∂xi  ∂xi ∂x j  i j
i=1 i, j<i
n  2
∂f
Δf2 = Δx2i , pour des variables décorrélées.
i=1
∂xi

166
Formulaire

Cas usuels

f (x, y) = x + y : Δ f 2 = Δx2 + Δy2

f (x, y) = x − y : Δ f 2 = Δx2 + Δy2


 2  2  2
Δf Δx Δy
f (x, y) = x.y : = +
f x y
 2  2  2
x Δf Δx Δy
f (x, y) = : = +
y f x y

Δf Δx
f (x) = xn : =n
f x

Incertitude sur l’ histogramme



Nombre de coups attendu dans la classe i : natt
i = nobs
i ± nobs
i

Intervalle de confiance
 b
[a, b] est un intervalle de niveau de confiance α si f (x)dx = α
a

Limites
 a
x < a avec un niveau de confiance α si f (x)dx = α
−∞
+∞
x > a avec un niveau de confiance α si f (x)dx = α
a
© Dunod. La photocopie non autorisée est un délit.

Intervalles de confiance de la loi normale


2 3
μ − 1σ, μ + 1σ : 68,3% de confiance ;
2 3
μ − 2σ, μ + 2σ : 95,4% de confiance ;
2 3
μ − 3σ, μ + 3σ : 99,7% de confiance.

Inégalité de Bienaymé-Tchebychev
1
α ([μ − nσ, μ + nσ]) > 1 − en particulier α ([μ − 2σ, μ + 2σ]) > 75%
n2

167
Analyse de données en sciences expérimentales

E STIMATEURS
Biais
b(θ̂) = E[θ̂ − θ]
b(θ̂) = 0 : Estimateur non biaisé ;
b(θ̂) → 0 : Estimateur non biaisé asymptotiquement.

Convergence

σ2θ̂ = E[θ̂2 ] − E[θ̂]2 → 0

Borne de Cramer-Rao
1 + b (θ̂)
σ2θ̂ ≥ − $  %
d2 ln L 
E dθ2 
θ=θ̂

Efficacité
Pour deux estimateurs θ̂1 et θ̂2 de θ, le plus efficace est celui qui converge le plus vite.

θ̂1 plus efficace que θ̂2 ⇔ σ2θ̂ < σ2θ̂


1 2

Un estimateur efficace atteint la borne de Cramer-Rao.

Moyenne empirique
1 σ
μ̂ = xi , σμ̂ = √
n n

Variance et écart type empirique


⎛   2 ⎞
1  n ⎜⎜⎜⎜ 1  2 1 ⎟⎟
σ̂ =
2
(xi − μ̂) =
2
⎜⎝ xi − xi ⎟⎟⎟⎠
(n − 1) (n − 1) n n
-
σ̂ = σ̂2 (non biaisé asymptotiquement)

Erreur à ≈ 68% sur la moyenne empirique


/
σ̂ (xi − μ̂)2
Δμ̂ = σμ̂ ≈ √ =
n n(n − 1)

168
Formulaire

Intégrale Monte-Carlo
Pour {xi } uniforme sur [a, b]

b−a  b
Iˆ = h (xi ) −−−−−→ I = h(x)dx
n i
n→+∞ a

Incertitude sur l’ intégrale Monte-Carlo


/
b − a 1
ΔIˆ = σ5Iˆ = √ h(xi )2 − (b − a)2 Iˆ2 )
(n − 1) n i

Covariance empirique et coefficient de corrélation


1 
c,
ov(X, Y) = (xi − μ̂X )(yi − μ̂Y )
n−1 i


i (xi − μ̂X )(yi − μ̂Y )
ρ̂ = - 
i (xi − μ̂ X ) i (yi − μ̂Y )
2 2

Fonction de vraisemblance

L(θ) = f ({xi }; θ)


#
L(θ) = fX (xi ; θ) pour des mesures xi indépendantes.
i

Estimateur du maximum de vraisemblance


 
∂L(θ)  ∂ln L(θ) 
© Dunod. La photocopie non autorisée est un délit.

ˆ
θ tel que  = 0 ou −  =0
∂θ θ=θˆ ∂θ θ=θˆ

Erreur à ≈ 68% sur le maximum vraisemblance


L’estimateur de maximum de vraisemblance est, en général, efficace et non biaisé
asymptotiquement.
1
Δθ̂ = σθ̂ ≈ σ̂θ̂ =  2 
 ∂ ln L(θ) 
2 ∂θ θ=θ̂

169
Analyse de données en sciences expérimentales

T EST STATISTIQUES
Test du Khi-Deux

k 
k
(n p̂ j − np j )2 (n p̂ j − np j )2
K2 = K 2j = , Ki = √
j=1 j=1
np j np j

K 2 suit une loi du χ2 à n − 1 degrés de libertés.


 +∞
p-value = fχ2 (x)dx.
K2
- -
P(K 2 ∈ [k − 1 − -2(k − 1); k − 1 + 2(k
- − 1)]) ≈ 68%
P(K ∈ [k − 1 − 2 2(k − 1); k − 1 + 2 2(k − 1)]) ≈ 95%
2

Test de Kolmogorov-Smirnov
Dn = sup |F(x) − Fech (x)|
x


P(Dn > β) = 2 (−1)r−1 e−2nr β
2 2

r=1

β = 0.9584/ √n pour 68.3% (1σ)
β = 1.3754/ √n pour 95.4% (2σ)
β = 1.8177/ n pour 99.7% (3σ)

A JUSTEMENTS
Régression
 ∂ f (xi , θ) 
θˆ reg tel que yi − f (xi , θ) = 0
i ∂θ

Critère de qualité – coefficient de corrélation


 reg 2
i (yi − f (xi , θ̂i ))
r =1−
2

i (yi − ȳ)
2

Régression d’ une droite f(x)=ax+b


σy
a=r
σx
σy
b = ȳ − r x̄
σx
cov(x, y)
r=
σ x σy

170
Formulaire

Méthode du Khi-Deux ou moindres carrés


 ⎛⎜⎜ y − f (x , θ) ⎞⎟⎟2
2 
K (θ) = ⎜⎜⎝ i i ⎟⎟⎠
i
Δy i

2   ∂ f (xi , θ) ⎛⎜⎜ yi − f (xi , θ) ⎞⎟⎟


θˆ tel que ∂K (θ) = −2 ⎜⎜⎝ ⎟⎟⎠ = 0
∂θ i ∂ 
θ Δy 2
i

Critère de qualité
2
Kmin = K 2 (θmin ) suit une loi de χ2 à Nd f = n − nθ degrés de libertés.
 +∞
p-value = fχ2 (x; Nd f )dx
2
Kmin

Incertitude pour un paramètre unique

Δχ2 = K 2 (θ) − Kmin


2
= n2

définit un intervalle à nσ.

Incertitude sur les paramètres (cas général)

Δχ2 = K 2 (θ̂1 , . . . , θi , . . . , θ̂n ) − Kmin


2
= β(nθ , α)
 β(nθ ,α)
α= fχ2 (x; nθ )dx
0

définit un intervalle de niveau de confiance α.

Méthode du Khi-Deux pour un histogramme


© Dunod. La photocopie non autorisée est un délit.

 n ∂ f (x j , θ)  nδ

1− 
f (x j , θ) = 0
j
δ ∂θ nj

Méthode du Khi-Deux pour une droite f (x) = ax


 xi yi
(Δyi )2 1
â =  , Δâ = 
x2i  x2i
(Δyi )2
(Δyi )2

171
Analyse de données en sciences expérimentales

Méthode du Khi-Deux pour une droite f (x) = ax + b


AE − DC DB − AC
â = , b̂ =
BE − C 2 BE − C 2
1.52 1.52
Δâ = √ , Δb̂ = √
B E
avec
 xy  x2
i i i
A= , B = ,
(Δyi )2 (Δyi )2
 xi  yi  1
C= , D = et E =
(Δyi )2 (Δyi )2 (Δyi )2

Contour de confiance sur (a, b)


-
B(a − â)2 + E(b − b̂)2 + 2C(a − â)(b − b̂) = −2 ln(1 − α)
pour un niveau de confiance α.

172
T ABLEAUX

1 x2
Loi normale centrée réduite N(x; 0, 1) = √ e− 2 et intervalle de confiance centré. On no-
 a  a 2π

tera que N(x; 0, 1)dx = 2 N(x; 0, 1)dx = 2F(x) − 1 où F(x) = 2 πerf(x) + 1 est la fonction
−a 0
de répartition de la loi normale.

 a  a
a N(a; 0, 1) N(x; 0, 1)dx a N(a; 0, 1) N(x; 0, 1)dx
−a −a

0,0 0,39894 0,000000 2,5 0,01753 0,987581


0,1 0,39695 0,079656 2,6 0,01358 0,990678
0,2 0,39104 0,158519 2,7 0,01042 0,993066
0,3 0,38139 0,235823 2,8 0,00792 0,994890
0,4 0,36827 0,310843 2,9 0,00595 0,996268
0,5 0,35207 0,382925 3,0 0,00443 0,997300
0,6 0,33322 0,451494 3,1 0,00327 0,998065
0,7 0,31225 0,516073 3,2 0,00238 0,998626
0,8 0,28969 0,576289 3,3 0,00172 0,999033
0,9 0,26609 0,631880 3,4 0,00123 0,999326
1,0 0,24197 0,682689 3,5 0,00087 0,999535
1,1 0,21785 0,728668 3,6 0,00061 0,999682
1,2 0,19419 0,769861 3,7 0,00042 0,999784
1,3 0,17137 0,806399 3,8 0,00029 0,999855
1,4 0,14973 0,838487 3,9 0,00020 0,999904
1,5 0,12952 0,866386 4,0 0,00013 0,999937
1,6 0,11092 0,890401 4,1 0,00009 0,999959
© Dunod. La photocopie non autorisée est un délit.

1,7 0,09405 0,910869 4,2 0,00006 0,999973


1,8 0,07895 0,928139 4,3 0,00004 0,999983
1,9 0,06562 0,942567 4,4 0,00002 0,999989
2,0 0,05399 0,954500 4,5 0,00002 0,999993
2,1 0,04398 0,964271 4,6 0,00001 0,999996
2,2 0,03547 0,972193 4,7 0,00001 0,999997
2,3 0,02833 0,978552 4,8 0,00000 0,999998
2,4 0,02239 0,983605 4,9 0,00000 0,999999

173
Analyse de données en sciences expérimentales

Valeurs de χ2 pour une p-value = 1 − Fχ2 (x) fixée.

p-value degrés de libertés


1 2 3 4 5 6 7

1e-06 23,928 27,631 30,665 33,377 35,888 38,258 40,522


1e-05 19,511 23,026 25,902 28,473 30,856 33,107 35,259
5e-05 16,448 19,807 22,555 25,013 27,294 29,450 31,512
0,0001 15,137 18,421 21,108 23,513 25,745 27,856 29,878
0,0005 12,116 15,202 17,730 19,997 22,105 24,103 26,018
0,001 10,828 13,816 16,266 18,467 20,515 22,458 24,322
0,002 9,550 12,429 14,796 16,924 18,907 20,791 22,601
0,005 7,879 10,597 12,838 14,860 16,750 18,548 20,278
0,01 6,635 9,210 11,345 13,277 15,086 16,812 18,475
0,02 5,412 7,824 9,837 11,668 13,388 15,033 16,622
0,03 4,709 7,013 8,947 10,712 12,375 13,968 15,509
0,04 4,218 6,438 8,311 10,026 11,644 13,198 14,703
0,05 3,841 5,991 7,815 9,488 11,070 12,592 14,067
0,1 2,706 4,605 6,251 7,779 9,236 10,645 12,017
0,15 2,072 3,794 5,317 6,745 8,115 9,446 10,748
0,2 1,642 3,219 4,642 5,989 7,289 8,558 9,803
0,25 1,323 2,773 4,108 5,385 6,626 7,841 9,037
0,3 1,074 2,408 3,665 4,878 6,064 7,231 8,383
0,35 0,873 2,100 3,283 4,438 5,573 6,695 7,806
0,4 0,708 1,833 2,946 4,045 5,132 6,211 7,283
0,45 0,571 1,597 2,643 3,687 4,728 5,765 6,800
0,5 0,455 1,386 2,366 3,357 4,351 5,348 6,346
0,55 0,357 1,196 2,109 3,047 3,996 4,952 5,913
0,6 0,275 1,022 1,869 2,753 3,655 4,570 5,493
0,65 0,206 0,862 1,642 2,470 3,325 4,197 5,082
0,68 0,170 0,771 1,510 2,304 3,130 3,975 4,836
0,7 0,148 0,713 1,424 2,195 3,000 3,828 4,671
0,75 0,102 0,575 1,213 1,923 2,675 3,455 4,255
0,8 0,064 0,446 1,005 1,649 2,343 3,070 3,822
0,85 0,036 0,325 0,798 1,366 1,994 2,661 3,358
0,9 0,016 0,211 0,584 1,064 1,610 2,204 2,833
0,95 0,004 0,103 0,352 0,711 1,145 1,635 2,167
0,99 0,000 0,020 0,115 0,297 0,554 0,872 1,239

174
Tableaux

Valeurs de χ2 pour une p-value=1 − Fχ2 (x) fixée.

p-value degrés de libertés


8 9 10 11 12 15 20

1e-06 42,701 44,811 46,863 48,866 50,825 56,493 65,421


1e-05 37,332 39,341 41,296 43,206 45,076 50,493 59,045
5e-05 33,502 35,431 37,311 39,148 40,948 46,168 54,426
0,0001 31,828 33,720 35,564 37,367 39,134 44,263 52,386
0,0005 27,868 29,666 31,420 33,137 34,821 39,719 47,498
0,001 26,124 27,877 29,588 31,264 32,909 37,697 45,315
0,002 24,352 26,056 27,722 29,354 30,957 35,628 43,072
0,005 21,955 23,589 25,188 26,757 28,300 32,801 39,997
0,01 20,090 21,666 23,209 24,725 26,217 30,578 37,566
0,02 18,168 19,679 21,161 22,618 24,054 28,259 35,020
0,03 17,010 18,480 19,922 21,342 22,742 26,848 33,462
0,04 16,171 17,608 19,021 20,412 21,785 25,816 32,321
0,05 15,507 16,919 18,307 19,675 21,026 24,996 31,410
0,1 13,362 14,684 15,987 17,275 18,549 22,307 28,412
0,15 12,027 13,288 14,534 15,767 16,989 20,603 26,498
0,2 11,030 12,242 13,442 14,631 15,812 19,311 25,038
0,25 10,219 11,389 12,549 13,701 14,845 18,245 23,828
0,3 9,524 10,656 11,781 12,899 14,011 17,322 22,775
0,35 8,909 10,006 11,097 12,184 13,266 16,494 21,826
0,4 8,351 9,414 10,473 11,530 12,584 15,733 20,951
0,45 7,833 8,863 9,892 10,920 11,946 15,020 20,127
0,5 7,344 8,343 9,342 10,341 11,340 14,339 19,337
0,55 6,877 7,843 8,812 9,783 10,755 13,679 18,569
0,6 6,423 7,357 8,295 9,237 10,182 13,030 17,809
0,65 5,975 6,876 7,783 8,695 9,612 12,381 17,046
© Dunod. La photocopie non autorisée est un délit.

0,68 5,707 6,587 7,475 8,368 9,267 11,987 16,581


0,7 5,527 6,393 7,267 8,148 9,034 11,721 16,266
0,75 5,071 5,899 6,737 7,584 8,438 11,037 15,452
0,8 4,594 5,380 6,179 6,989 7,807 10,307 14,578
0,85 4,078 4,817 5,570 6,336 7,114 9,499 13,604
0,9 3,490 4,168 4,865 5,578 6,304 8,547 12,443
0,95 2,733 3,325 3,940 4,575 5,226 7,261 10,851
0,99 1,646 2,088 2,558 3,053 3,571 5,229 8,260

175
Analyse de données en sciences expérimentales

Valeurs de χ2 pour une p-value=1 − Fχ2 (x) fixée.

p-value degrés de libertés


25 30 35 40 45 50 100

1e-06 73,895 82,044 89,947 97,653 105,198 112,608 182,127


1e-05 67,182 75,023 82,640 90,079 97,372 104,542 172,099
5e-05 62,302 69,904 77,300 84,532 91,629 98,614 164,659
0,0001 60,140 67,633 74,926 82,062 89,070 95,969 161,319
0,0005 54,947 62,162 69,199 76,095 82,876 89,561 153,167
0,001 52,620 59,703 66,619 73,402 80,077 86,661 149,449
0,002 50,223 57,167 63,955 70,618 77,179 83,657 145,577
0,005 46,928 53,672 60,275 66,766 73,166 79,490 140,169
0,01 44,314 50,892 57,342 63,691 69,957 76,154 135,807
0,02 41,566 47,962 54,244 60,436 66,555 72,613 131,142
0,03 39,880 46,160 52,335 58,428 64,453 70,423 128,237
0,04 38,642 44,834 50,928 56,946 62,901 68,804 126,079
0,05 37,652 43,773 49,802 55,758 61,656 67,505 124,342
0,1 34,382 40,256 46,059 51,805 57,505 63,167 118,498
0,15 32,282 37,990 43,640 49,244 54,810 60,346 114,659
0,2 30,675 36,250 41,778 47,269 52,729 58,164 111,667
0,25 29,339 34,800 40,223 45,616 50,985 56,334 109,141
0,3 28,172 33,530 38,859 44,165 49,452 54,723 106,906
0,35 27,118 32,382 37,623 42,848 48,058 53,258 104,862
0,4 26,143 31,316 36,475 41,622 46,761 51,892 102,946
0,45 25,222 30,307 35,386 40,459 45,527 50,592 101,115
0,5 24,337 29,336 34,336 39,335 44,335 49,335 99,334
0,55 23,472 28,386 33,306 38,233 43,164 48,099 97,574
0,6 22,616 27,442 32,282 37,134 41,995 46,864 95,808
0,65 21,752 26,488 31,246 36,021 40,809 45,610 94,005
0,68 21,225 25,904 30,610 35,337 40,081 44,839 92,891
0,7 20,867 25,508 30,178 34,872 39,585 44,313 92,129
0,75 19,939 24,478 29,054 33,660 38,291 42,942 90,133
0,8 18,940 23,364 27,836 32,345 36,884 41,449 87,945
0,85 17,818 22,110 26,460 30,856 35,290 39,754 85,441
0,9 16,473 20,599 24,797 29,051 33,350 37,689 82,358
0,95 14,611 18,493 22,465 26,509 30,612 34,764 77,929
0,99 11,524 14,953 18,509 22,164 25,901 29,707 70,065

176
Tableaux


p-value pour le test de Kolmogorov-Smirnov en fonction de z = Dn n, avec n la taille de
l’échantillon et Dn la statistique de Kolmogorov. En toute rigueur, ces valeurs ne sont
valables que pour n > 80, néanmoins pour n < 80 la vraie p-value sera toujours plus faible
que celle approximée ici.

√ √ √
z = Dn n p-value z = Dn n p-value z = Dn n p-value

0 1,00000 0,69 0,72781 1,1 0,17772


0,04 1,00000 0,7 0,71124 1,12 0,16264
0,08 1,00000 0,71 0,69453 1,14 0,14860
0,12 1,00000 0,72 0,67773 1,16 0,13556
0,16 1,00000 0,73 0,66089 1,18 0,12345
0,2 1,00000 0,74 0,64402 1,2 0,11225
0,24 1,00000 0,75 0,62717 1,24 0,09235
0,28 1,00000 0,76 0,61036 1,28 0,07549
0,3 0,99999 0,77 0,59363 1,32 0,06132
0,32 0,99995 0,78 0,57700 1,36 0,04949
0,34 0,99983 0,79 0,56050 1,4 0,03968
0,36 0,99949 0,8 0,54414 1,44 0,03162
0,38 0,99872 0,81 0,52796 1,48 0,02503
0,4 0,99719 0,82 0,51197 1,52 0,01969
0,42 0,99452 0,83 0,49619 1,56 0,01539
0,44 0,99027 0,84 0,48064 1,6 0,01195
0,46 0,98400 0,85 0,46532 1,65 0,00864
0,48 0,97532 0,86 0,45026 1,7 0,00618
0,5 0,96395 0,87 0,43546 1,75 0,00437
0,52 0,94969 0,88 0,42093 1,8 0,00307
0,54 0,93250 0,89 0,40669 1,85 0,00213
0,56 0,91242 0,9 0,39273 1,9 0,00146
0,58 0,88961 0,92 0,36572 1,95 0,00100
0,6 0,86428 0,94 0,33992 2 0,00067
© Dunod. La photocopie non autorisée est un délit.

0,61 0,85077 0,96 0,31536 2,05 0,00045


0,62 0,83675 0,98 0,29206 2,1 0,00030
0,63 0,82225 1 0,27000 2,15 0,00019
0,64 0,80732 1,02 0,24917 2,2 0,00013
0,65 0,79201 1,04 0,22956 2,25 0,00008
0,66 0,77636 1,06 0,21114 2,3 0,00005
0,67 0,76042 1,08 0,19387 2,35 0,00003
0,68 0,74422 1,1 0,17772 2,4 0,00002

177
B IBLIOGRAPHIE

Il existe de nombreux ouvrages traitant de probabilités et de statistiques. Cette courte liste,


non exhaustive, regroupe quelques livres qui permettront d’approfondir les notions décrites
dans le présent ouvrage.

Kendall’s Advanced Theory of Statistics :


volume I, Distribution Theory, A. Stuart et K. Ord, Hodder Arnold Publication
volume IIa, Classical Inference and the Linear Model, A. Stuart, K. Ord et S. Arnold,
Hodder Arnold Publication
volume IIb, Bayesian Inference, A. O’Hagan et J. Forster, Hodder Arnold Publication
Le Kendall & Stuart constitue un ouvrage de référence sur la théories des distributions et
l’inférence statistique.

Analyse statistique des données expérimentales, K. Protassov, Presses Universitaires de


Grenoble.

Monte Carlo Methods, J.M. Hammersley et D.C. Handcomb, Methuen and Co

Statistical Data Analysis, G. Cowan, Oxford University Press

Cours de School Of Statistics 2008, en particulier les cours de I. Laktineh, P. Lutz et


H. Prosper, http://sos.in2p3.fr

Review of Particles Physics, C. Amsler et al. http://pdg.lbl.gov,Physics Letters B667, 1


Les chapitres 31, 32 et 33 donnent un résumé complet des outils de probabilités, statistiques
et les méthodes Monte-Carlo.
© Dunod. La photocopie non autorisée est un délit.

179
I NDEX

A E

ajustement écart type 5, 45


χ2 , 95 erreur voir incertitude
incertitude, 102 espérance 44
moindres carrés, 95 estimateur 67
biais, 68
régression, 15, 94, 95
convergence, 67
aléatoire
efficacité, 68, 72, 74
processus, 41
robustesse, 68, 70
tirage, 38
variable, 41, 55 F
aléatoires
échantillon, 107 fonction
arrangements 38 caractéristique, 48
de répartition, 41
C
G
classe 7 génération 108
coefficient
corrélation, 56, 95, 105 H
d’aplatissement, voir kurtosis
histogramme 9, 83
d’asymmétrie, 7, 46
de corrélation, 14 I
combinaisons 38
combinatoire 37 inégalité
composantes principales 19 de Bienaymé-Tchebychev, 46
convergence 53 de Cramer-Rao, 72
corrélation 13 incertitude 81, 113
covariance 13, 56, 71, 102, 105 absolue, 21
covariance empirique 71 ajustement, 102
maximum de vraisemblance, 82
moyenne, 69
© Dunod. La photocopie non autorisée est un délit.

D
propagation, 23
décorrélation 17 relative, 25
dérivée logarithmique 25 incompatibilité 35
densité indépendance 37, 56
conditionelle, 55 information 73
de probabilité, 42 intégration Monte-Carlo 110
jointe, 55 intervalle de confiance 77, 103
marginale, 55 K
distribution
voir probabilité, densité kurtosis 7, 46

181
Analyse de données en sciences expérimentales

L définition fréquentiste, 33
densité, 42
loi fonction, 34
binomiale, 49 loi, 41
de χ2 , 52 p-value 88, 99
de Bernoulli, 49
de Gauss, voir loi normale R
de Poisson, 49, 75
multinormale, 57 régression voir ajustement
normale, 51, 78
uniforme, 50 S

M série congruente 107


Sheppard (correction de) 10
médiane 5, 45 système complet 35
mesure
de dispersion, 5, 45 T
de position, 4, 44
mode 5, 45 test
moindres carrés voir ajustement Kolmogorov-Smirnov, 89
moments 44 Pearson (χ2 ), 87
moyenne 4, 44, 69 théorème
moyenne empirique 69, 110 central limite, 59
de Bayes, 37, 55, 80
N de Koenig, 6, 45
des moments, 48
niveau de confiance 77
noyau 84
V
P
variance 5, 45, 70
Parzen 84 variance empirique 70
permutations 38 vraisemblance
probabilité fonction, 72
conditionnelle, 36 incertitude, 82
définition bayesienne, 33 maximum, 74

182