Académique Documents
Professionnel Documents
Culture Documents
ANALYSE STATISTIQUE
DES DONNÉES
EXPÉRIMENTALES
■ Konstantin PROTASSOV
EDP
SCH-.NCI-S
ANALYSE STATISTIQUE
DES DONNÉES EXPÉRIMENTALES
Grenoble Sciences
Grenoble Sciences poursuit un triple objectif :
♦ réaliser des ouvrages correspondant à un projet clairement défini, sans contrainte
de mode ou de programme,
♦ garantir les qualités scientifique et pédagogique des ouvrages retenus,
♦ proposer des ouvrages à un prix accessible au public le plus large possible.
Chaque projet est sélectionné au niveau de Grenoble Sciences avec le concours de
referees anonymes. Puis les auteurs travaillent pendant une année (en moyenne)
avec les membres d'un comité de lecture interactif, dont les noms apparaissent au
début de l'ouvrage. Celui-ci est ensuite publié chez l'éditeur le plus adapté.
(Contact : Tél. : (33)4 76 51 46 95 - E-mail : Grenoble.Sciences@ujf-grenoble.fr)
Deux collections existent chez EDP Sciences :
♦ la Collection Grenoble Sciences, connue pour son originalité de projets et sa qualité
♦ Grenoble Sciences - Rencontres Scientifiques, collection présentant des thèmes de
recherche d'actualité, traités par des scientifiques de premier plan issus de
disciplines différentes.
ISBN 2-86883-456-6
ISBN 2-86883-590-2
© EDP Sciences, 2002
ANALYSE STATISTIQUE DES
DONNÉES EXPÉRIMENTALES
Konstantin Protassov
EDP
SCIENCES
17, avenue du Hoggar
Parc d'Activité de Courtabœuf, BP 112
91944 Les Ulis Cedex A, France
Ouvrages Grenoble Sciences édités par EDP Sciences
Le but de ce petit ouvrage est de répondre aux questions les plus fréquentes que
se pose un expérimentateur et de permettre à un étudiant d’analyser, d’une façon
autonome, ses résultats et leurs précisions. C’est cet esprit assez “utilitaire” qui a
déterminé le style de présentation.
Dans l’analyse des données expérimentales, il existe plusieurs niveaux qui sont condi
tionnés par notre désir d’obtenir une information plus ou moins riche, mais aussi par le
temps que nous sommes prêts à y consacrer. Fréquemment, nous voulons juste obtenir
la valeur d’une grandeur physique sans nous préoccuper de vérifier les hypothèses à
la base de notre démarche. Parfois, cependant, les résultats obtenus nous paraissent
être en contradiction avec nos estimations préliminaires et ainsi nous sommes obligés
d’effectuer un travail plus scrupuleux. Ce livre est écrit pour permettre au lecteur de
choisir le niveau d’analyse nécessaire.
La partie “indispensable” du texte correspondant au premier niveau est composée
avec une police de caractères normale. Les questions qui correspondent à une analyse
plus approfondie et qui nécessitent un appareil mathématique plus complexe sont
composées avec une police de caractères spéciale. Cette partie du livre peut être sautée
lors d’une première lecture.
A la base de toute analyse des données expérimentales, on trouve une approche
statistique qui exige des considérations mathématiques rigoureuses et parfois com
plexes. Néanmoins, l’expérimentateur n’a pas toujours besoin de connaître les détails
et les subtilités mathématiques. De plus, rares sont les situations où les conditions
expérimentales correspondent exactement aux conditions d’application de tel ou tel
théorème. C’est pourquoi l’accent est mis non pas sur la démonstration des résultats
mathématiques mais sur leur signification et leur interprétation physique. Parfois,
pour alléger la présentation, la rigueur mathématique est volontairement sacrifiée et
remplacée par une argumentation “physiquement évidente”.
Le plan du livre est simple. Dans l’introduction, on présente les causes d’erreurs et
on définit le langage utilisé. Le premier chapitre rappelle les principaux résultats
de statistique essentiels à l’analyse des données. Le deuxième chapitre présente des
notions plus complexes de statistique, il est consacré aux fonctions de varables aléa
toires. Dans le troisième chapitre qui est la partie la plus importante, on s’efforce de
répondre aux questions les plus fréquentes qui se posent dans l’analyse des données
expérimentales. Le dernier chapitre est consacré aux méthodes les plus fréquemment
utilisées pour l’ajustement de paramètres.
6 Analyse statistique des données expérimentales
Bien que ce livre soit particulièrement adapté au travail d’étudiants de second cycle,
il pourra être également utile aux jeunes chercheurs, aux ingénieurs et à tous ceux
qui sont amenés à réaliser des mesures.
quelles sont les valeurs les plus fréquentes ou les plus rares. Il faut souligner une fois
encore que, dans cette approche, il ne s’agit pas tellement de la valeur concrète d’une
grandeur physique, mais surtout de la probabilité de trouver différentes valeurs.
On verra par la suite que cette fonction — la distribution d’une valeur physique — est
heureusement suffisamment simple (en tout cas, dans la majorité des expériences).
Elle a deux caractéristiques. La première est sa valeur moyenne qui est aussi la
valeur la plus probable. La deuxième caractéristique de cette fonction de distribution
indique, grosso modo, la région autour de cette moyenne dans laquelle se regroupe la
majorité des résultats des mesures. Elle caractérise la largeur de cette distribution et
est appelée l’incertitude. Comme nous pourrons le voir par la suite, cette largeur a
une interprétation rigoureuse en terme de probabilités. Pour des raisons de simplicité
nous appellerons cette incertitude “l’incertitude naturelle” ou “initiale” de la grandeur
physique elle-même. Ce n’est pas tout à fait vrai, puisque cette erreur ou incertitude
est souvent due aux conditions expérimentales. Bien que cette définition ne soit pas
parfaitement rigoureuse, elle est très utile pour la compréhension.
Le fait que, dans la plupart des expériences, le résultat puisse être caractérisé par
seulement deux valeurs, permet de revenir sur la question avec laquelle nous avons
commencé notre discussion : “Peut-on se demander quelle est la valeur d’un paramétre
physique ?” Il se trouve que dans le cas où deux paramétres sont nécessaires et
suffisants pour caractériser une grandeur physique, on peut réconcilier notre envie
de poser cette question et la rigueur de l’interprétation d’un résultat en termes de
probabilités. La solution existe : on appellera valeur physique la valeur moyenne de la
distribution et incertitude ou erreur de la valeur physique la largeur de la distribution1.
C’est une convention admise de dire que “la grandeur physique a une valeur donnée
avec une incertitude donnée”. Cela signifie que l’on présente la valeur moyenne et la
largeur d’une distribution et que cette réponse a une interprétation précise en termes
de probabilités.
Le but des mesures physiques est la détermination de cette fonction de distribution
ou, au moins, de ses deux paramètres majeurs : la moyenne et la largeur. Pour
déterminer une distribution on doit répéter plusieurs fois une mesure pour connaître
la fréquence d’apparition des valeurs. Pour obtenir l’ensemble des valeurs possibles
ainsi que leurs probabilités d’apparition, on devrait en fait effectuer un nombre infini
de mesures. C’est très long, trop cher, et personne n’en a besoin.
On se limite donc à un nombre fini de mesures. Bien sûr, cela introduit une erreur
1 Pour des raisons historiques, les deux termes “incertitude” et “erreur” sont utilisés en physique
pour décrire la largeur d’une distribution. Depuis quelques années, les organismes scientifiques
internationaux essaient d’introduire des normes pour utiliser correctement ces deux termes (de la
même façon que l’on a introduit le système international d’unités). Aujourd’hui, on appelle une
erreur la différence entre le résultat d’une mesure et la vraie valeur de la grandeur mesurée. Tandis
que l’incertitude de mesure est un paramètre, associé au résultat d’une mesure, qui caractérise la
dispersion des valeurs qui peuvent raisonnablement être attribuées à la grandeur mesurée. Dans
ce livre, nous tâcherons de suivre ces normes, mais parfois nous utiliserons des expressions plus
habituelles pour un physicien. Par exemple, une formule très connue dans l’analyse des données
expérimenatles porte le nom de “la formule de propagation des erreurs”. Nous utiliserons toujours
ce nom bien connu bien que, selon les normes actuelles, nous aurions dû l’appeller “la formule
de propagation des incertitudes”. Le lecteur intéressé trouvera dans la bibliographie toutes les
références sur les normes actuelles.
Pourquoi les incertitudes existent-elles ? 9
Dans ce chapitre, nous avons réuni des notions de base de la théorie des probabilités :
la définition d’une probabilité et ses propriétés élémentaires ainsi que l’introduction
des distributions les plus fréquemment utilisées dans l’analyse des données expéri
mentales. Parmi ces distributions, celle de Gauss joue un rôle très particulier, c’est
pourquoi la partie esssentielle de ce chapitre (paragraphes 1.2 et 1.4) lui est consacrée
car elle et est indispensable à la compréhension du reste du livre.
1.1 Probabilités
Pour pouvoir décrire une grandeur physique en termes de probabilité il faut rappeler
les définitions et les propriétés les plus simples. Pour les mesures les plus fréquentes
faites en laboratoire nous n’avons pas besoin de toute la panoplie des méthodes de la
statistique mathématique et notre expérience du monde est largement suffisante pour
comprendre et assimiler les propriétés fondamentales des probabilités. Logiquement,
chaque lecteur de ce livre a déjà eu l’occasion dans sa vie de jouer, au moins aux
cartes et ainsi la notion de probabilité ne lui est pas étrangère.
Supposons que l’on observe un événement E répété Ne fois (on dit que l’on prend un
échantillon de Ne événements). Dans n cas, cet événement est caractérisé par une
marque distinctive a (appelée aussi caractère). Si les résultats des événements dans
cette suite sont indépendants, alors la probabilité P(a) que la marque a se manifeste
est définie comme
n
P(a) = lim (1)
Nc-+oo
On voit toute de suite que la probabilité varie de 0 à 1
12 Analyse statistique des données expérimentales
et que la somme sur tous les caractères (de même nature) possibles {«}, i = a, b, c,...
est égale à 1
= 1- (2)
i
Un exemple d’événement est le tirage d’une carte du jeu. La marque distinctive serait
la catégorie de couleur (pique, cœur, carreau ou trèfle). Pour un jeu de 52 cartes, la
probabilité d’une catégorie de couleur est égale à 1/4. On notera par A l’ensemble
d’événements où ce signe s’est manifesté.
Introduisons deux opérations très simples avec les probabilités. Définissons par A + B
l’ensemble des événements dans lesquels la marque a ou la marque 6, ou les deux, sont
présentes (ici a et b peuvent être de nature différente). Par exemple, a est une catégorie
de couleur, b est la valeur de la carte (le roi, la dame, etc.) De plus, définissons par AB
l’ensemble des événements dans lesquels ces deux signes se manifestent simultanément.
Alors,
C’est-à-dire, pour trouver la probabilité qu’un événement possède au moins une des
marques nous devons, d’abord, ajouter deux probabilités T’(A) et 'P(B). Cependant,
certains événements peuvent avoir les deux signes en même temps et on les a comptés
deux fois. C’est pourquoi il faut soustraire la probabilité P(AB).
Prenons un jeu de 52 cartes avec 13 cartes dans chaque couleur (le roi, la dame, le
valet et 10 cartes numérotées de 1 à 10). Pour une carte tirée au hasard, la probabilité
d’être soit le roi soit une carte de cœur (a étant le roi, b une carte de cœur) est égale à
Introduisons une notion un peu plus compliquée. Supposons que l’événement A puisse
se produire de na manières différentes, l’événement B de rib manières et l’événement
AB de nab manières. Si le nombre total de réalisations possibles est égal à N (ne pas
confondre avec le nombre Ne d’événements introduit au début du paragraphe), alors
T^(A) = P(AB) =
p(AB) = ^ • ^ = p(A) •
A na
Parmi les na cas où l’événement A se produit, il y a une proportion nab/na où
l’événement B s’est également produit. On peut introduire la probabilité correspon
dante qui s’appelle laproba,bilitéconditionnelleP(A/B) de l’événement B, c’est-à-dire
la probabilité d’observer B sous réserve que A se soit produit.
I - Rappels sur la théorie des probabilités 13
P(B/A) = P(B).
p‘-4’=ê- =
= è = è H =
et ainsi ces deux événements ne sont plus indépendants dans le jeu de 53 cartes !
L’explication de cette différence est relativement simple : si nous savons qu’une carte
est un roi alors elle ne peut pas être le joker, et ainsi nous avons déjà obtenu une
certaine information pour déterminer sa catégorie de couleur.
Une grandeur physique peut avoir une valeur numérique discrète ou continue. Dans
le premier cas, on l’appellera grandeur “discrète”, dans le deuxième, “continue”. Les
exemples de grandeurs discrètes sont la catégorie de couleur, la valeur de la carte, si
14 Analyse statistique des données expérimentales
Figure 1.1 : Histogramme de la première série de mesures de la longueur l : sont portées sur l’axe
des abscisses la valeur mesurée et sur l’axe des ordonnées la fréquence de son apparition fi •= nj/N
l’on reprend notre exemple, ou le comptage d’un détecteur, si l’on considère des exem
ples plus physiques. Mais plus fréquemment en physique, on mesure des grandeurs
continues, comme la longueur, la durée, le courant, etc.
Cette distinction des valeurs (ou des grandeurs) discrètes et continues est tout à fait
justifiée. Néanmoins, en physique, on décrit assez souvent une grandeur continue
par une valeur discrète et vice versa. De ce point de vue, cette séparation est, en
partie, conventionnelle et les propriétés (ou même l’écriture) valables pour les valeurs
discrètes seront utilisées pour les valeurs continues et inversement. On franchira cette
frontière régulièrement, même parfois sans se rendre compte de ce que l’on fait. Cette
attitude correspond à un parti pris de présentation. Le lecteur ne doit pas en déduire
que le passage à la limite s’effectue dans tous les cas sans difficulté.
Pour illustrer le caractère conventionnel de cette distinction, considérons un exem
ple de mesure de la longueur d’une chambre (il est évident que la longueur est
une grandeur continue) à l’aide d’un décimètre qui possède aussi des divisions cen
timétriques. Le fait même que nous disposions d’un décimètre avec des divisions nous
oblige à décrire une grandeur continue à l’aide de valeurs entières donc discrètes (on
aura un certain nombre de décimètres ou de centimètres). On peut aller plus loin et
dire que la représentation d’une longueur par un nombre fini de chiffres est un passage
obligé d’une valeur continue à une valeur discrète.
Bien sûr, il existe des situations où une valeur discrète ne peut pas être remplacée par
une valeur continue, par exemple dans le jeu de cartes. Cependant, ces situations sont
rares dans les expériences de physique. Nous observerons par la suite des passages des
valeurs d’un type à l’autre. Les propriétés de probabilité resteront les mêmes dans
I — Rappels sur la théorie des probabilités 15
les deux cas. C’est pourquoi nous donnerons les démonstrations générales pour les
variables continues et considérerons que les résultats s’appliquent aussi aux variables
discrètes.
Continuons notre expérience mentale. Supposons qu'après avoir fait une dizaine de
mesures rapides, nous ayons trouvé une fois la longueur de la chambre égale à 323
centimètres, cinq fois — 324 cm et quatre fois — 325 cm. Les résultats sont présentés
sur la figure 1.1 qui s’appelle un “histogramme”. Sur l’axe des abscisses, on montre la
valeur mesurée et, sur l’axe des ordonnées, le nombre relatif fi = ni /N (ni mesures
de la valeur l par rapport au nombre total N de mesures) c’est-à-dire la fréquence
d’apparition de chaque valeur. Le sol n’était pas plat, notre décimètre n’était pas
toujours droit, 1a. longueur était, la plupart du temps, comprise entre 324 et 325 cm
et nous ne savions pas dans quel sens il fallait l’arrondir. D’où la dispersion de nos
résultats.
Pour clarifier la situation nous avons pris un instrument de mesure gradué en mil
limètres et en augmentant sensiblement le nombre de mesures nous avons obtenu les
nouveaux résultats représentés sur la figure 1.2. Avec une autre échelle on retrouve
les mêmes tendances : les résultats sont légèrement différents et se regroupent autour
d’une certaine valeur.
Figure 1.2 : Histogramme de la deuxième série de mesures de la longueur l : sont portées sur l’axe
des abscisses la valeur mesurée et sur l’axe des ordonnées la fréquence de son apparition = ni/N
y=
valle donné. Ainsi, dans le cas d’un grand nombre de mesures et selon notre définition
(1), le produit f(x)dx donne la probabilité que la grandeur mesurée se trouve dans
l’intervalle de x à x + dx. La fonction f(x) représente la densité de probabilité.
On l’appellera aussi la fonction de distribution de probabilité, x varie au hasard et
s’appelle variable aléatoire.
D’après notre définition, la probabilité P de trouver la valeur dans l’intervalle compris
entre et x? est égale à
P = I f(x)dx
qui est la somme (l’intégrale) de f(x) pour toutes les valeurs de x entre xi et x?.
Selon (2), f(x) obéit à la condition
-|-oo
f(x)dx = 1, (5)
ce qui signifie que la probabilité de trouver une valeur de x quelconque est égale à 1.
Par commodité mathématique, nous avons pris ici des limites infinies pour l’intégrale.
Mais une grandeur physique, par exemple la longueur, peut ne pas varier dans ces
limites (elle ne peut pas être négative). Cela signifie que la fonction f(x) utilisée
pour décrire cette grandeur doit devenir très petite en dehors des limites que nous
choisissons effectivement.
Pour une grandeur discrète qui prend les valeurs numériques Xi = {æi, x?,...} nous
I — Rappels sur la théorie des probabilités 17
£>(*«■)= 1- <5')
i=l
/ -oo
xf(x)dx. (6)
Chaque valeur possible de x est multipliée par la probabilité de son apparition f(x)dx
et la somme (l’intégrale) est effectuée sur toutes les valeurs possibles.
Pour une variable discrète
OO
(6Z)
i=l
/(®)
1
b—a
a x b x
(10)
et sa variance :
= a:2 — æ2
1 b3 - a3 (b-a)2
(H)
3 (b-a) 12
I — Rappels sur la théorie des probabilités 19
Les deux seules caractéristiques, x et <r2, peuvent ne pas être suffisantes pour décrire
la fonction f(x). On peut alors définir les valeurs moyennes du cube, de la quatrième
puissance de l'écart etc. De cette façon, on obtient un moment central d’ordre n :
' +oo
f (x — x)nf(x)dx,
— oo
Hn = (x- x)n = < (12)
oo
J}(ars- - x)nP(xi).
. Î=1
Le mot “central" souligne le fait que le moment est calculé par rapport à la valeur moyenne
x. Notons que, par définition,
Po = 1, = 0, p2 = <^2- (13)
Parfois, il est utile d'introduire des moments sans rapport avec la valeur moyenne :
fi'n =
Les moments (ou les moments centraux), ainsi définis, déterminent la distribution /(a:)
d’une façon unique. On démontre facilement que si deux densités de probabilités /i(ar) et
fo(x) ont les mêmes moments, elles sont identiques j\(x) = f?(x). Laissons au lecteur
intéressé le soin d'effectuer cette démonstration.
La connaissance de tous les moments (ou {/Li }) donne une information complète
sur la fonction de distribution de probabilité f(x). Cependant, il est plus rationnel de
travailler avec une seule fonction contenant tous les moments dans son expression. Cette
fonction s'appelle la fonction génératrice des moments définie par :
+ OQ
f extf(x)dx,
— oo
= ext = < (14)
oo
E ex,t ’P(xl-).
i=l
On voit que /i'n est le coefficient de tn/n\. /j.'n peut également être déterminée à partir
des dérivées de la fonction Af^(t) :
f(x)dx.
dtn
— oo
20 Analyse statistique des données expérimentales
Mx(t) = (15)
La relation entre ces deux fonctions est donc :
M'Jt) = extMx(t).
Conformément au théorème que l’on vient d énoncer, on peut affirmer que l égalité des
deux fonctions génératrices, Afx(t) = M2(t), implique l égalité des deux fonctions de
distribution de probabilité : fi(x) =
Pour un lecteur intéressé par les aspects mathématiques du problème, notons que cette
définition de la fonction génératrice n'est pas la seule utilisée dans la littérature. On peut
remplacer la fonction exponentielle d’un argument réel e^par la fonction d'un argument
purement complexe e,xt. Dans le premier cas, la définition est étroitement liée à la
transformation de Laplace, alors que dans le deuxième elle est liée à la transformation
de Fourier. Les deux transformations intégrales sont très proches l'une de l'autre : une
rotation de 7r/2 dans le plan complexe de t permet de passer d'une transformation à
l'autre.
L'introduction de la fonction génératrice peut être considérée comme une astuce permet
tant de faciliter les diverses démonstrations (ce que nous verrons plus tard). Mais on peut
lui donner une interprétation physique plus profonde qui sort du cadre de ce livre.
P = /(aq, x2)dx1dx2
avec la condition de normalisation :
4-oo />4-oo
f(x1,x2)dxidx2 = 1.
I — Rappels sur la théorie des probabilités 21
(16)
+ co /• + co
/ -00
+00
/
J — oo
y+oo
(ai! + aq)/(aq, x2)dxrdx2
/ /
-00 J — 00
+oc
(aii + aq)/i(aq) • f2(x2)dx1dx2
y+oo
/ /
-oo J — oo
+00
Xifi(xi) • f2(x2)dxidx2
r+oo
/
+00
-00
/
J — oo
x2j\(xi) ■ f2(x2)dxidx2
r+oo
/ -oo
a:i/i(a:i)da:i • /
+00
J — oo
y+oc
fa(x2)dx2
/ -OO
fi(xx)dxi ■ /
J — oc
x2f2(x2)dx2
+00 r + oo
-Chr+æî
/ -oo
(æi
+00
f^x^dxx ■ /
J — oo
fo(x-2)dx-2
y+oc
/+00
-oo
-x^)fi(xr)dxr
(æi
y+oc
/
J —oo
(x2— x2)f2(x2)dx2
/ -OO
fi(xx)dxi • /
J — oo
(x2 —'x2)‘2f2(x2)dx2
(17)
qui montre que la variance de la somme de deux grandeurs indépendantes est égale à
la somme de leur variance. Cette formule est la base du traitement des incertitudes
et elle est utilisée continuellement en physique.
On voit d’ailleurs l’avantage d’une telle définition de la variance. Nous avons dit
qu’il était “a priori” possible de caractériser l’étalement d’une distribution /(a:) par
D' = |æ — âij, par exemple. Mais, avec cette définition, on ne peut obtenir une relation
aussi simple que celle donnée par la formule (17).
(18)
On introduit la somme
(19)
(20)
N
=n<w-
£=1
Cela signifie que la fonction génératrice des moments d'une somme de grandeurs indépen
dantes est égale au produit des fonctions génératrices individuelles.
De plus, si toutes les grandeurs dans cette somme ont la même fonction de distribution
(21)
1.1.5 Corrélations
Jusqu'à présent, nous n’avons considéré que des exemples de grandeurs physiques (varia
bles aléatoires) indépendantes. Mais on rencontre aussi des variables corrélées (c'est-à-dire
non indépendantes). A la fin du paragraphe 1.1.1 (voir (4)), nous avons vu un tel exemple
avec une carte ajoutée à un jeu normal de 52 cartes, ce qui entraîne que la probabilité de
deux événements A et B simultanés V(AB) n’est pas égale au produit des probabilités
P(A) et V(B) :
T’(.A) P(B) < P(AB).
Cette inégalité est le signe de deux événements corrélés.
On peut penser que de tels exemples sont relativement rares en physique. En effet, dans
la plupart des situations réelles, nous avons affaire à des variables aléatoires indépen
dantes comme les mesures d’une même grandeur {a:,}. Bien évidemment, il existe des
situations où une mesure peut influencer la suivante, comme la mesure d’un courant avec
un ampèremètre électromécanique (de mauvaise qualité) dont le ressort est usagé et se
déforme facilement. Dans ce cas, chaque mesure risque de dépendre des précédentes. La
statistique n'est d'aucun secours dans ce type de situations. C'est un exemple d’erreur
systématique qu'il est assez difficile de détecter et de corriger. En physique expérimen
tale, il existe beaucoup de situations où, pour une expérience précise, on doit utiliser un
unique appareil dont on ne connaît pas très bien les propriétés. Ce manque de connais
sance de l'appareillage conduit parfois à des erreurs systématiques et même à de fausses
découvertes.
24 Analyse statistique des données expérimentales
Néanmoins, en statistique, il existe “un mécanisme" tout à fait naturel et fréquent d'appa
rition des corrélations. Même si les variables {a:;} sont indépendantes, leurs fonctions
peuvent être corrélées.
Nous caractériserons la dépendance entre deux variables Xi et Xj (avec des valeurs
moyennes y, et y, et des variances <r? et <r?) par le coefficient de corrélation qij défini
par :
Les écarts quadratiques moyens 07 et aj sont introduits dans la définition par commodité.
Nous utiliserons aussi la covariance de deux variables :
En particulier, pour i = j
Prenons un exemple, presque trivial, qui donne une illustration de ce mécanisme d'appa
rition des corrélations. Soient xi et .r2 deux grandeurs physiques indépendantes avec la
même moyenne y et la même variance <r2. Introduisons deux grandeurs yi et î/2 qui leur
sont liées par une relation linéaire :
Vi = anxi + « 12 ■'■■2
<
y-> = asi^i + a22ai2
On a alors :
cov(j/i,j/2) = (yi-ÿï)
+012022(2:2 - y)2
= (anO2i + a12a22)a2 ± 0.
Autrement dit, dans le cas général (si 011021 + 012022 / 0), les deux variables j/i et y2
ne sont pas indépendantes mais sont corrélées.
Cet exemple donne une illustration de la notion de corrélation.
Néanmoins, la notion d’indépendance de deux variables n'est pas toujours évidente. Con
sidérons l’exemple simple de la corrélation des deux variables x et y — x3. A priori, nous
pouvons penser qu elles sont corrélées.
D'après la définition (23), la covariance est donnée par
Figure 1.5 : Les distributions de Gauss pour plusieurs jeux de paramétres m et <j
Supposons qu’une valeur physique varie d’une façon continue dans un intervalle de
moins l’infini jusqu’à plus l’infini1. La densité de probabilité /(a:) de trouver la valeur
physique aléatoire x pour une distribution normale est donnée par
/(*) =
2<r2 J
La distribution normale est caractérisée par deux paramètres y et a. Leur sens est
clairement visible sur la figure 1.5 où nous avons présenté plusieurs distributions
correspondant à des y et a différents : y donne la position de la distribution, a son
étalement.
Notons que le facteur devant la fonction exponentielle est choisi pour que la probabilité
totale soit normée :
f (^~^)2
f(x)dx 1 2<r2 e y dy = 1.
1 Nous avons déjà dit, au paragraphe précédent, que la plupart des valeurs physiques varient dans
des limites finies, mais, dans les situations expérimentales concrètes, les valeurs réelles ne sont
jamais proches des limites et ainsi l’hypothèse d’infinité de l’intervalle de variation n’a aucune
conséquence sur l’applicabilité des résultats obtenus.
I — Rappels sur la théorie des probabilités 27
f + C° 2
I= / e~x dx (25)
J — oo
qui se rencontre souvent en physique est simple.
Il suffit de considérer /2 (intégrale sur tout le plan xy) et de passer en coordonnées polaires
dans l'intégrale double :
dxdye +y )
D'où I = y/îr.
= 0 + y ■ 1 = y.
+°° (z-rf
- oo >/27r<7
= 2<r2—1 = f/ + 0° ÿ2e~y2 dy = <r2.
J—oo
(La dernière intégrale peut être calculée, par intégration par parties.) Nous voyons
pourquoi, dès le début, nous avons désigné par a le deuxième paramètre de cette
distribution.
Il est relativement facile de calculer des moments d’ordre plus élévé de la distribution de
Gauss. Il faut introduire la fonction génératrice des moments centraux qui, par définition,
est égale à
28 Analyse statistique des données expérimentales
On voit que tous les moments impairs sont nuis (/i2n+i = 0), ce qui est évident en vertu
de la symétrie de la distribution normale par rapport à x = y. Les moments pairs sont
(27)
Pour voir l'utilité des fonctions génératrices, prenons un exemple qui interviendra au
paragraphe suivant. Considérons la distribution d’une grandeur physique y = ax + b qui
est une fonction linéaire d'une autre grandeur x distribuée selon la loi normale avec une
moyenne y et une variance a2.
La fonction génératrice des moments est égale à
donc
= ebt Mx(at).
Selon notre hypothèse, la distribution de x est une distribution de Gauss (26). D'où
(28)
Cette expression prouve que la grandeur y a aussi une distribution normale de valeur
moyenne ay + b et de variance a2a2. Les deux résultats sont presque évidents : la trans
lation change juste la valeur moyenne et le changement d’échelle multiplie la moyenne par
a et la variance par a2 (le résultat était prévisible vu les dimensions de ces grandeurs).
Comme la distribution de Gauss est entièrement déterminée par les deux valeurs y, a
et que la plupart des grandeurs physiques peuvent être décrites par cette distribution,
les résultats expérimentaux peuvent, être caractérisés par deux valeurs seulement . Par
convention, on présente ces derniers sous la forme2
une grandeur x plusieurs fois, environ un tiers des résultats se trouve en dehors de
p ± <t et seulement deux tiers dans l’intervalle. De ce point de vue, il n’y a rien de
dramatique si le résultat sort de cet intervalle. Par contre, si le résultat se trouve
aussi en dehors de l’intervalle [/z — 3<r, p + 3a], la situation devient beaucoup plus
préoccupante. La probabilité d’un tel événement pour la distribution de Gauss est
seulement de 0,3 %, c’est-à-dire qu’elle est négligeable, vu le nombre d’expériences
réalisées habituellement au laboratoire (de quelques unités jusqu’à quelques dizaines).
L’apparition du résultat en dehors de l’intervalle de 3a signifie, la plupart du temps,
qu’il existe une erreur soit dans le déroulement de l’expérience, soit dans les calculs
de n et de a.
Dans le paragraphe 3.1, nous reviendrons sur la définition de n et de a à partir d’un
nombre limité de mesures ainsi que sur la précision d’une telle détermination. Si l’on
ne peut obtenir la valeur de a expérimentale qu’à un facteur 2 près, on ne doit pas
prendre à la lettre les valeurs des probabilités obtenues avec un a théorique.
Pour l’instant, que retenir sur la distribution de Gauss (ou normale) ? D’abord, le fait
qu’une très grande majorité de grandeurs physiques se décrit, au moins en première
approximation, par cette distribution. Cette circonstance explique son importance en
physique. Cette distribution est caractérisée par deux paramètres : la valeur moyenne
H associée à la “vraie” valeur de la grandeur physique et la largeur a associée à l’erreur
expérimentale. C’est la raison pour laquelle le résultat d’une expérience s’écrit sous
la forme y, ± a ; l’interprétation d’une telle écriture est que la probabilité pour que la
valeur physique mesurée se trouve dans cet intervalle est égale à 2/3. Si le résultat
sort de l’intervalle /j. ± 3a, alors il est très probable qu’une erreur se soit glissée dans
nos mesures ou dans les calculs de /j. ou de a.
Cette distribution décrit des grandeurs discrètes qui peuvent prendre seulement deux
valeurs. Supposons qu’un événement ait deux réalisations possibles A et B. Soient p
la probabilité, de la réalisation A, q = 1 — p la probabilité de la réalisation B. Si cet
événement se répète N fois, on peut déterminer la probabilité PAr(n) que la réalisation
A se produise n fois. La probabilité d’obtenir successivement n fois la réalisation A
puis N — n fois la réalisation B est égale à pnqN~n = prl(l — p)N~n. Vu que l’ordre
de réalisations A et B est sans importance, il faut multiplier cette probabilité par le
nombre de possibilités d’extraire n objets parmi N objets, c’est-à-dire par
V!____
s'm _ ____
N ~ nl(N - n)!
Cette densité de probabilité est celle de la distribution binomiale. Elle est caractérisée
par deux paramètres N et p. Plusieurs exemples de cette distribution sont donnés
sur la figure 1.7.
Comme exemple physique simple, considérons N particules d’un gaz sans interaction
distribuées uniformément dans un volume V. Chaque particule a une position aléa
toire dans ce volume et a une probabilité p — v/V de se manifester dans une partie v
du volume V. Dans ces conditions la probabilité Pa’Çi) de trouver n particules dans
v est donnée par (30).
Il est facile de vérifier que la densité de probabilité (30) est normée conformément à
l’équation (2) :
jV N
Déterminons la moyenne du nombre n. Par définition (voir (6')), elle est égale à
N N
»= nPN(n) = nPN(n).
32 Analyse statistique des données expérimentales
-Pjv(u)
0,4
0,3
0,2
0,1
0,0
0 2 4 6 8 n
Figure 1.7 : La distribution binomiale pour trois valeurs du paramètre p, N étant fixé : .V = 10
Nous avons utilisé le fait que le terme avec n = 0 est nul ; changeons la variable de
sommation en posant k = n — 1 :
N
nPN(n)
n=l
Pour calculer la première somme, nous utilisons la même astuce que pour le calcul de
n dans (32) :
N N
77 n(n ~ l)f’iv(n) = 77 n(n ~ l)f’iv(n)
n~0 n=2
= N(N - l)p2.
_ N N
MM = e- = 2e"PA.(„) = 2——
n=0 v 7
, dM^(0) , ti
Pi = ———= Np(l- p + pe) e‘ = Np,
dt lr=o
ri = É^ffiqA.(w_1)p2(1_p + pe.p-»e«
n = p) = Np,
Les résultats (32) et (33) peuvent paraître triviaux mais ils sont fondamentaux pour
toute la statistique : la valeur moyenne n est proportionnelle au nombre de mesures
n~N
34 Analyse statistique des données expérimentales
ff ~ y/N.
Pour comprendre l’importance de ces résultats, rappelons que la valeur moyenne est
associée à la valeur d’une grandeur physique xexp et l’écart-type à son incertitude (voir
la discussion suivant la formule (29)). Si l’on définit l’erreur (l’incertitude) relative 6
comme le rapport
6 = =, (34)
n
on voit que cette valeur est inversement proportionnelle au nombre de mesures N
8~4=- (35)
y/N
Cela signifie que, plus l’on fait de mesures, plus la précision est grande ; une conclusion
évidente, presque triviale. Ce qui est beaucoup moins évident, c’est la dépendance
fonctionnelle de 8 avec N. La formule (35) montre que la précision relative décroît
seulement comme la racine de N. Pour augmenter la précision par un facteur de 10,
il faut multiplier le nombre d’expériences, et ainsi le coût, par 100 ! Une expérience
précise peut coûter très cher et, ici, on en comprend la raison. Vu qu’une bonne
précision est chère, il faut savoir de quelle précision on a vraiment besoin. C’est une
question non triviale et nous y reviendrons à la fin du livre.
Nous avons obtenu la formule (35) à partir de la distribution binomiale mais elle
restera valable quelle que soit la situation expérimentale. Nous reviendrons sur cette
question au paragraphe 2.1.
N(N - 1)...(N-n + 1)
PfAn) = lim (l-p)N-n.
N —> oo Nn
p -¥ 0
Np = p
I — Rappels sur la théorie des probabilités 35
Rappelons que n restant fini, il est toujours petit par rapport à N. Donc,
jV(jV-l)...(jV-n+l) f O ( n — 1\
Nn \ NJ ' ' ' \ N J
lorsque N tend vers l’infini.
On peut réécrire (1 — p)N~n comme
Hm = e-,.
AT-s-œ \ N/
(36)
n!
C’est la distribution de Poisson.
On peut vérifier aisément qu’elle est normée :
OO OO n
n —0 n—0
«= = e-^ £2 =
n=0 n=l ' ' k=o
(*) en‘P^(n)
n=0
Notons que la distribution de Poisson ne dépend que d’un seul paramètre p = Np. La
forme de cette distribution pour plusieurs valeurs de p est présentée sur la figure 1.8.
I
I
0,4
i
W
0,3
1 /t =. 3
0,2 \ p, = 5
/•
(figure 1.8). n est le nombre de particules détectées pendant 1 seconde. Cet exemple
montre un “passage” entre différentes distributions. On a remplacé une distribution
à deux paramètres (binomiale) par une autre beaucoup plus simple (de Poisson) qui
ne contient qu’un seul paramétre.
(37)
= 7T (a: — æ0vT,
-------- )2 +—a22
/ ■oo
f(x)dx = 1.
e dj
x= + ajg
£2 + a2 £2 + a2'
La fonction génératrice (14) ou (15) de la distribution de Lorentz n'existe pas non plus
à cause de la divergence de l’intégrale correspondante. Cependant, il est possible de
remédier à ce problème. Au lieu de la définition issue de la transformation de Laplace, on
peut choisir pour fonction génératrice une définition issue de la transformation de Fourier
(voir la discussion à la fin du paragraphe 1,1,3) :
Mx(t) (38)
où la fonction exponentielle d’un argument réel a été remplacée par la fonction ex
ponentielle d'un argument purement complexe (pour simplifier la discussion, on prend
x = .rn = 0).
Avec cette définition, la fonction génératrice existe et elle est égale à :
eixt d.r = el'|«.
(39)
a2 + æ2
Cette intégrale, relativement compliquée, peut être calculée directement en utilisant la
théorie des fonctions des variables complexes. Cependant, on peut obtenir ce résultat
indirectement en utilisant le fait qu’en prenant la transformation de Fourier d’une fonction
puis la transformation de Fourier inverse de la fonction obtenue, on retrouve la fonction
initiale. Ainsi si F(t) est la transformation de Fourier de f(x)
alors
on obtient
1 r+œ
— / e~^aeixtdt
-I a+oo -i /*0
— e-^+f^dt+_ eta+ixtdt.
Jo 27t J_,c
1 f 1 1 1 _ « 1
2tt ( ix — a ix + a ) tt a2 + x2 ’
où nous avons utilisé le fait que a > 0. Ainsi l'expression de la transformation de Fourier
directe (40) nous donne la formule (39).
Nous sommes en présence d’une distribution pour laquelle les définitions générales
des valeurs moyennes ne sont pas valables. Cette particularité de la distribution de
Lorentz a des conséquences très importantes. Nous verrons au paragraphe suivant
que c’est la seule distribution qui ne se transforme pas en une distribution de Gauss
lorsque le nombre de mesures devient grand.
40 Analyse statistique des données expérimentales
Cette distribution hérite son nom d'une fonction spéciale dite fonction T ou intégrale
d'Euler de deuxième espèce. La fonction T est définie par l'intégrale
(x > 0) (41)
En principe, x dans cette expression peut être complexe. Nous n'étudierons pas toutes
les propriétés de cette fonction, mais nous nous bornerons à la plus intéressante :
(42)
qui se démontre très simplement : il suffit d'intégrer (41) une fois par parties.
Pour x entier, x = n, nous obtenons
= n! (43)
car
/•OC
r(l) = / e~tdt= 1.
Jo
Autrement dit, la fonction T est une généralisation de la fonction factorielle n! au cas
d'un argument non entier, ou même complexe (dans la littérature, on rencontre parfois
l'écriture x! qui signifie T(a:+ 1)).
Notons que pour les valeurs demi-entières x = n + 1/2, la fonction T peut aussi être
écrite sous une forme relativement simple
(44)
2"
pour x > 0. Cette fonction contient deux paramètres3. Notons que (3 est simplement un
paramètre d'échelle. Le choix de la constante devant la fonction de x est dicté, comme
d'habitude, par la normalisation de la probabilité totale, ce qui se vérifie facilement à l'aide
I - Rappels sur la théorie des probabilités 41
Figure 1.10 : La distribution gamma pour plusieurs valeurs du paramétre a, 0 étant fixe : 0 — 1
1 T(a + 3)
Xa+2e~x^dx = ^2 = /?2(a + 2)(a + 1).
L(a+ 1 ),<>+' r(a+l)
3 Notons la ressemblance formelle entre la distribution gamma et celle de Poisson : si l’on remplace
n par a et p. par x/(3. Cependant, il ne faut pas oublier que les rôles des variables et des
paramètres sont inversés dans ces distributions.
42 Analyse statistique des données expérimentales
et introduisons une nouvelle variable p = /?/(! — (3t). L'expression pour Af'(t) devient
1 1
Af'(t) =
(1 -/?/)“+! r(a + l)p“+1
L’intégrale dans cette expression est égale à T(a + l)pa+1 et finalement M'(t) s'écrit
1
M'(t) = (46)
(1 - /?/)“ + ! '
Soit x une grandeur physique aléatoire avec une moyenne p et une variance a2.
Si a2 est fini, alors la distribution de la valeur moyenne sur un grand nombre
n de mesures (n —ï oo)
1 n
x = -ÿ jXi
i=I
tend vers une distribution de Gauss avec une moyenne p et une variance <r2/n.
distribution ne tend pas vers une distribution normale. Néanmoins, cette situation
reste rare et quand les conditions du théorème sont remplies, celui-ci nous garantit
que, pour obtenir un résultat précis et fiable, il faut mesurer plusieurs fois la valeur
de x et calculer sa moyenne.
Vu l’importance du théorème central limite, nous donnons ici sa démonstration qui
peut, cependant, être oubliée lors d’une première lecture.
ici, nous avons fait le développement limité de la fonction exponentielle et nous avons
utilisé le fait que la valeur moyenne de x est égale à /j, et que le carré de l'écart-type est
fini et égal à <r2 (13). Introduisons d'abord une valeur auxiliaire
x—n
(x —
O = Mw(t) = exp
<Ty/n
Pour t fixe, t/y/n tend vers 0 lorsque n tend vers l'infini. Nous pouvons ainsi utiliser le
développement (47) par rapport au paramètre t/y/n :
t2
Mw (t) = 1 + cr2 ----- 1- O
2'.a2n
Introduisons maintenant une nouvelle variable z liée à la valeur moyenne introduite dans
l'énoncé du théorème
1
x = ~yXi
i=i
ï=i
Toute les valeurs W{ apparaissant dans la dernière expression ont la même distribution car
les différents Xj ont des distributions équivalentes. Nous pouvons alors utiliser la propriété
(21) de la fonction génératrice des moments, selon laquelle la fonction génératrice des
moments d'une somme de n grandeurs aléatoires ayant la même distribution est égale à
la n-ième puissance de leur fonction génératrice :
3
Mz(t) = [Mw(t)]n
44 Analyse statistique des données expérimentales
Mz(t)
On reconnaît ici la fonction génératrice (26) des moments d'une distribution de Gauss
avec une moyenne nulle et une variance <r2= 1. Autrement dit, dans la limite où n est
grand, la grandeur z a une distribution normale avec une moyenne nulle et une variance
unité. La valeur moyenne X est liée à z par
Nous avons déjà démontré qu'une fonction linéaire (ici X) d'une grandeur aléatoire z
avec une distribution normale a aussi une distribution normale (voir (28)). Ainsi la valeur
X, dans la limite où n est grand, a une distribution de Gauss avec une moyenne fi et une
variance <r2/n.
Nous pouvons encore remarquer que l'erreur relative 8x sur la valeur moyenne X, intro
duite dans la formule (34), est inversement proportionnelle à la racine carrée de n.
Soulignons que, dans la démonstration, aucune hypothèse n'a été faite sur la forme de la
fonction de distribution de x et qu'ainsi ce résultat est très général.
Le théorème que nous venons de démontrer est particuliérement important pour les
expériences physiques car il nous donne la garantie que, si le nombre de mesures
est suffisant, nous obtiendrons tôt ou tard une valeur physique ayant une distribution
bien connue. Cependant, il s’agit d’un théorème limite, c’est-à-dire que le passage vers
une distribution de Gauss ne se réalise que si n est suffisamment grand. Dans une
situation concrète, il faut savoir à quel point la distribution de la grandeur mesurée
est proche de la distribution de Gauss et quand le nombre de mesures est suffisant.
Pour l’instant, la conclusion physique principale du théorème central limite est que
toutes les grandeurs physiques, ou presque, ont une distribution de Gauss ; de plus
nous savons ce qu’il faut faire pour que la distribution devienne une distribution
normale. Pour éclaircir cet aspect du théorème, donnons-en une autre formulation,
plus “physique”, que l’on peut aussi rencontrer dans les livres sous le nom du théorème
central limite :
Les points importants dans cette formulation du théorème sont la présence d’un
grand nombre de facteurs extérieurs, leur indépendance et leur faible influence sur
la grandeur physique.
Les deux formulations du théorème sont relativement proches l'une de l'autre. Dans la
deuxième, n joue le rôle du nombre de facteurs indépendants ; x, peut être considérée
comme la valeur de la grandeur x influencée par un seul facteur i. Ainsi on retrouve
presque la même démonstration du théorème. Pour n mesures indépendantes on peut
affirmer que les Xj ont la même distribution et ainsi la même valeur de <r2, mais pour n
facteurs indépendants, on ne peut plus dire qu'ils vont donner la même distribution à x.
I — Rappels sur la théorie des probabilités 45
avec les mêmes valeurs de fi et de <r2. Toutefois cela n’est pas un obstacle au théorème.
Pour le démontrer, il faut remplacer une simple valeur moyenne arithmétique X par une
expression plus complexe. Le lecteur, amateur de mathématiques, pourra mener lui-même
cette étude.
Il est facile de voir que, pour la distribution de Lorentz, le théorème central limite ne
s'applique pas. Autrement dit, la condition d'existence d'un écart-type fini est essentielle
à ce théorème et n'est pas simplement une condition pour faciliter la démonstration.
Si x est distribué selon une loi lorentzienne, la valeur moyenne
,Y = ly> = ïi + ^ + ...+5i
n i=i n n n
= exp | = Mx = exp
Mx(t) = _ e- 'I- ;
En physique, cette distribution est caractéristique de la forme d’une raie dans les
transitions électromagnétiques. Cet exemple ne signifie pas, cependant, que toutes
les raies mesurées expérimentalement ont une forme lorentzienne. Nous verrons plus
tard que l’appareil avec lequel on effectue les mesures modifie aussi la forme de la
distribution et que, pour une distribution de Lorentz initiale, on peut mesurer une
distribution de Gauss. Notre exemple de la distribution de Lorentz, bien qu’il soit
très important en physique, reste néanmoins une exception.
Il faut comparer ce résultat avec la distribution de Gauss représentée par une ligne
discontinue :
(./• -p,sj2}
fH = 200-^-
V s4 2<t?4 J
avec les paramétres /j.Si = 18 et aSi k 5,2. Les valeurs de ces paramétres ont été
calculées selon (19) et (20) en supposant que chaque chiffre dans un numéro télé
phonique est distribué selon une distribution discrète constante avec une moyenne
(9 + 0)/2 = 4,5 et une variance (9 — 0)2/12 = 6, 75 (à comparer avec (10) et (11)).
La coïncidence entre la courbe et l'histogramme est impressionnante ! Notons que le
théorème central limite suppose que les distributions de x, doivent être les mêmes et
indépendantes (ce qui semble être crédible dans notre expérience). Alors la somme sn,
pour n termes dans la somme, aura une distribution proche de celle de Gauss lorsque
n oo. Dans notre cas, n = 4, mais nous voyons que la distribution de Gauss est
déjà une très bonne approximation de la distribution de s^.
4 A cause de la ressemblance formelle entre les distributions gamma et de Poisson, on peut utiliser
exactement la même approche pour démontrerque, dans la limite a —> oo, la distribution gamma
donne une distribution de Gauss. Nous laissons cet exercice au lecteur.
I - Rappels sur la théorie des probabilités 47
n! ~ V2^enlnn~n
^(n) ~
Pour simplifier cette expression dans la limite p, n >> 1, utilisons une approche
assez connue dite “méthode du col”. Notre fonction P^(n) contient deux facteurs, le
premier, 1/y/n, qui varie lentement avec n et le deuxième, e“A(n)) qUi a Une variation
très rapide avec n du fait de la fonction exponentielle ; ici
On peut voir aisément que la fonction jp(n) possède un seul minimum pour n = p et
qu’elle peut être développée en série de Taylor au voisinage de ce point :
Nous avons utilisé ici le fait que jp(p) = 0 et f'^p) = 0, car n = p est un minimum
de la fonction, et nous n’avons gardé que le premier terme non nul. Comme nous
l’avons déjà remarqué, la probabilité P^(n) ne sera sensiblement différente de zéro
qu’au voisinage de n = p. Au-delà de cette région, elle est très petite à cause de la
fonction exponentielle décroissante. Au voisinage de ce point, on peut écrire que
(n-^)2/2^
Dans cette expression, nous avons remplacé la fonction qui varie lentement avec n par
sa valeur au point n = p. La distribution ainsi obtenue est une distribution de Gauss
avec une moyenne p et un écart-type y/~p. D’ailleurs, il est tout à fait normal que la
moyenne et la variance restent les mêmes que pour la distribution de Poisson. Sur
la figure 1.8, nous avons donné quelques exemples de la distribution de Poisson avec
plusieurs valeurs de p. Plus la valeur de p est grande, plus la distribution devient
symétrique par rapport au maximum qui est aussi la valeur moyenne.
Nous avons déjà vu au paragraphe 1.3.2 que la distribution de Poisson peut être
obtenue à partir de la distribution binomiale lorsque le nombre de mesures N est
grand et que p est petit, le produit p = Np restant constant. Cela signifie également
que, dans le cas d’un grand nombre de mesures, la distribution binomiale tend vers
48 Analyse statistique des données expérimentales
Soulignons les conclusions à retenir. D’abord, pour la plupart des expériences phy
siques faites au laboratoire, l’hypothèse selon laquelle la distribution d’une grandeur
physique est une distribution de Gauss constitue une très bonne hypothèse de départ.
C’est le théorème central limite qui nous le garantit. De plus, si jamais on a le moindre
doute sur la forme de la distribution, ce même théorème nous indique comment on
peut contourner le problème : il faut faire plusieurs mesures et travailler sur la valeur
moyenne qui est forcement décrite par la distribution normale.
I - Rappels sur la théorie des probabilités 49
Poisson
—T OO
Gauss
Figure 1.12 : Les relations entre les distributions binomiale, de Poisson et de Gauss
Néanmoins, il ne faut pas oublier “le point faible” de ce théorème : comme c’est un
théorème limite, le nombre de mesures doit être grand, et donc l’expérience peut
devenir chère. Pour contrôler la déviation à la loi gaussienne et savoir combien de
mesures sont nécessaires, une analyse plus approfondie est indispensable : elle est
l’objet des paragraphes suivants.
Cette page est laissée intentionnellement en blanc.
Chapitre 2
Fonctions d’une variable aléatoire
On peut formuler un problème assez général et très important pour les applications
physiques. Supposons que soit connue la fonction de distribution de probabilité f(x)
d’une variable aléatoire x (en particulier, la moyenne de cette distribution x = /j,x et
sa variance <rx = (x — x)2). Quelle est alors la fonction de distribution de probabilité
g(y) d’une variable aléatoire y (en particulier, yy et <ry) lorsque la relation entre y et
x est donnée par une fonction connue y = y(x) ? C’est, en statistique, le phénomène
de la propagation des erreurs.
Au chapitre précédent, nous avons vu que la valeur moyenne et la variance sont les
caractéristiques majeures d’une distribution de probabilités. Elles peuvent même
être suffisantes pour décrire toute la distribution et l’on les interprète alors comme
valeur de la grandeur et son incertitude (erreur). Ceci est vrai, en particulier, dans
le cas de la distribution de Gauss qui est la plus fréquemment rencontrée dans les
expériences. C’est pourquoi nous allons trouver d’abord la relation entre les moyennes
et les variances de x et de y — y(x). La relation entre les variances porte le nom de
la formule de propagation des erreurs.
Commençons simplement par chercher la relation entre yx et <rx, d’une part et /iy
et <ry, d’autre part. Nous nous limitons, pour l’instant, au cas d’une seule variable
!/ = y(x).
Développons cette fonction en série de Taylor au voisinage de x = yx :
L’approximation standard consiste à négliger dans cette expression tous les termes
sauf le premier :
C’est un résultat qui pourrait sembler évident mais cette expression est approximative.
Elle n’est exacte que si la fonction y(x) est linéaire.
D’une façon tout à fait analogue, nous pouvons calculer la variance de y :
soit
Il s’agit encore d’une expression approchée qui ne prend une valeur exacte que si la
fonction est linéaire. Nous reviendrons sur la précision de cette approximation à la
fin du chapitre.
Nous pouvons généraliser les résultats (49) et (50) au cas de plusieurs variables. Soit
y = y(x1,x2,... ,xn) une fonction de n variables. Pour abréger, utilisons des nota
tions “vectorielles” :
X = x1,x2,... , xn,
p. = pi, P2, • . . , Pn >
et pour la variance :
dy
<7^ ~ (y(x) - y(p)Y ~ ES dy (xi-y^xj - yj).
dxi dxj
i=l j = l
Supposons que les variables xi soient indépendantes (nous verrons dans ce chapitre le
cas plus général sans cette hypothèse supplémentaire). Alors
_______________ ^,2> si i = j,
(xi - /J.i)(xj - /j.j) = (53)
0, si i y j.
(54)
Nous avons ainsi résolu le problème posé au début du paragraphe. L’expression (54)
permet de calculer l’écart-type <ry de y si les écarts <rs de Xj sont connus.
Réécrivons cette dernière formule en remplaçant1 ax et ay par Aa: et Ay :
Les exemples les plus simples et les plus fréquents concernent la somme et le produit
(ou le rapport) de deux valeurs physiques. Pour la somme de deux valeurs aq et xz
y = xx +xz
l’expression (55) s’écrit
y = 2:12:2
(57)
Dans cette expression ainsi que dans les expressions suivantes nous écrivons æi et .r2
à la place de y\ et p2. Ce choix est volontaire car expérimentalement il est possible
de déterminer mX1 et mX2 et non et p2. Pour ne pas introduire chaque fois de
nouvelles notations, gardons partout .rj et i2 qui ne représentent pas des fonctions
mais des valeurs expérimentales.
D’une façon analogue, pour le rapport
zi
y = —,
X-2
nous obtenons
Les deux dernières expressions de Aj/ peuvent être réunies sous une forme plus com
mode si l’on passe à l’incertitude relative ^y/y :
(58)
Les formules (56) et (58) ont une structure similaire : la racine carrée d’une somme
de carrés. Pour des estimations rapides et simplifiées, on applique les majorations
suivantes :
et
(60)
x
II — Fonctions d’une variable aléatoire 55
(on “déduit” parfois cette formule en calculant la dérivée de log y). Cependant l’utilisa
tion de ces majorations n’est justifiée que si l’on veut une évaluation grossière de
l’incertitude. La différence entre la vraie valeur de l’incertitude (58) et sa majoration
(60) peut être importante. Par exemple, si l’on suppose des incertitudes relatives sur
Xi de 5%, la formule exacte donne une incertitude Ay/y = 7%, tandis que sa majora
tion conduit à une valeur beaucoup plus grande : 10% ! Plus les variables sont nom
breuses, plus la différence est grande. Ceci s’explique simplement car l’augmentation
de l’incertitude en fonction du nombre n des variables est en dans l’expression
(58') et en n dans la majoration du type (60).
L’expression (55) ou les cas particuliers (56) et (58) donnent une idée sur la façon de
diminuer l’incertitude : il faut toujours se battre contre la plus grande incertitude.
Si une des incertitudes est seulement trois fois plus petite que les autres, on peut
pratiquement la négliger. Cette approximation donne une erreur supplémentaire de
10% dans les calculs d’incertitude (c’est une erreur de deuxième ordre).
Le meilleur choix des conditions expérimentales (des appareils et des méthodes de
mesure) consiste à avoir si possible les mêmes contributions de toutes les variables
différentes dans l’expression (55), ce qui minimise cette incertitude.
Nous pouvons appliquer la formule (55) directement. Pour le faire nous calculons les
dérivées :
dy _ 1 . dy _ _______1_______ &y_ ______ X-2______
dxi 2y/x1 + xilxz ’ dx-2 2x3y/x! + a^/a^ ’ &x3 2x3y/x1 + x3/x3
1 a?2\2 (Aa?3)2
Ai/ = (61)
2 + x3/x3 ■J’3 J x%
Le problème est que, pour des fonctions compliquées, nous obtenons toujours un
résultat “compliqué” et qu’ainsi la probabilité d’avoir une erreur arithmétique lors de
la dérivation ou lors des applications numériques est très grande.
Il est préférable de procéder autrement : on décompose la fonction initiale en fonctions
élémentaires et on fait les opérations successivement. Dans l’exemple précédent :
Nous voulons calculer l’incertitude de y à 10% près. Nous voyons que Ax3/x3 est
beaucoup plus grande que A.x3/x3. Ainsi, l’expression de Az2 peut être simplifiée
par
Aa:2 Aa:2
Az2 ~ z2----- = ----- .
X3
Nous notons aussi que Az2 ~ 1 est beaucoup plus grande que Azi = 0,1 et ainsi,
pour Azi, nous obtenons l’expression
1 Aa?2
Aj/ ~
2y x3
une expression beaucoup plus simple que (61). Le résultat est y = 2,5 ± 0, 2.
Il faut souligner que l’exemple précédent n’est pas artificiel. La raison de ce phénomène
un peu étrange est liée au fait qu’il est difficile d’effectuer une expérience où toutes
les sources d’incertitudes ont la même importance : il existe une ou deux incertitudes
dominantes. Il faut en profiter car le gain de temps dans le calcul de l’incertitude
peut être assez grand, surtout pour des mesures répétitives. De plus, cette analyse
par étapes est utile pour élucider les véritables sources d’incertitudes et ainsi prévoir
des possibilités d’amélioration de l’expérience.
Notons une fois de plus que notre expression (55) n’est pas une formule exacte. Dans
sa démonstration, nous avons supposé que le développement en série de Taylor peut
être limité à la dérivée première. Autrement dit, nous remplaçons la fonction y = y(x)
par la fonction linéaire :
assez différente de + àx) — y(x) | — |cotg 12°— cotg 10°| ~ 0, 97. C’est la raison
pour laquelle, pour les fonctions “rapides”, l’écriture yexp ± Ay est remplacée par
_ +Aj/i
y - yexp _^y2 ,
où Aî/i = |y(x + àx) — y(x) | et Aï/2 = |j/(a: — &x) — y(x) |. Dans notre cas,
+0,97
y = 5, 67 -1,44
Cherchons à généraliser la formule de propagation des erreurs (54) au cas de plus de deux
variables corrélées. Nous considérons le passage de n variables {a^} à n variables {y.;}
liées entre elles par des relations générales :
De même, D(y) = cov[ÿ,y). Nous utilisons la lettre D pour cette matrice dans le but de
souligner sa relation avec la variance (24).
Conformément au (51), nous avons :
%•(*) - %-(Â) +
Î=1
dyj
EE
fc = l Z=1
dxi g=p
(xk - yk)(xi - yt). (63)
Ici, pour les valeurs moyennes apparaissant dans (63), nous avons des expressions plus
compliquées que (53) :
L'expression (assez volumineuse) de la matrice de covariance D\y) peut être écrite sous
une forme beaucoup plus compacte si l'on introduit la matrice du Jacobien de la trans
formation (62) :
(64)
Comme illustration de la formule de propagation des erreurs dans le cas des variables
corréllées, considérons un exemple dans lequel nous voulons déterminer la valeur d'une
résistance R ainsi que la puissance P dégagée par cette résistance. Si nous connaissons le
courant I qui traverse la résistance et la tension U aux bornes de celle-ci, nous trouvons
immédiatement
R=j et P = UI.
(66)
et
(67)
Nous aurions pu choisir une autre approche. En ayant calculé la valeur de la résistance
R = U/I, nous pouvons déterminer P à partir de la formule
P = RI2.
I U
1/1 -U/I2
60 Analyse statistique des données expérimentales
D(P,R) = JD(U,I)Jy
_ ( I U \( (AU)2 0 W / 1/1 \
1/1 -U/I2 J \ 0 (A/)2 J \ U -Ujl2 J
Comme il se doit nous retrouvons sur la diagonale les expressions des incertitudes
qui peuvent être réécrites sous les formes (67) et (66) respectivement, alors que les
éléments non diagonaux nous donnent la covariance de R et P
Il est intéressant de remarquer que la corrélation entre P et R est nulle lorsque les
contributions à l'incertitude AP et AR de la tension et du courant sont identiques
AU _ AI
U ~ I '
Il s'agit d'un argument supplémentaire pour effectuer les mesures en faisant en sorte que
toutes les contributions des différentes sources d'incertitude soient à peu près les mêmes.
Pour retrouver l'expression correcte de AP, à partir de P = RI2, compte tenu de la
corrélation entre R et I, calculons d'abord cov(R, I). D'après (63), nous avons :
,D n dR dl 2 ÔR 91 ,TTT. 9R9I ,TT . 9R9I.xrr,2
= -<„,((/,/) + — — (AP) .
cov(7, U) = cov((7, /) = 0 et
Donc,
Nous supposons, tout d'abord, que cette fonction y — y(x) est biunivoque, c'est-à-dire
qu'à une valeur de x correspond une seule valeur de y et inversement. Nous présentons
sur la figure 2.1 un exemple de fonction de ce type.
Nous savons que la probabilité de trouver la valeur de x dans l'intervalle compris entre x
et x + dx est égale à :
Nous cherchons la fonction g(y) qui nous donne la même probabilité de trouver la valeur
de y dans l'intervalle compris entre y et y + dy :
Il suffit de réécrire (70) en remplaçant x par y. Pour cela nous devons, d'abord, introduire
la fonction inverse :
x = x(y).
Ceci est possible car notre fonction y(x) est biunivoque. On a alors
Il nous reste à remplacer dx par dy comme nous le faisons dans les changements de
variables d'intégration. La seule différence réside dans le fait que la densité de probabilité
ne peut jamais être négative. C'est pourquoi nous définissons
dx(y)
dx = dy
dy
dx(y)
dx = — dy
dy
si la dérivée dx(y)/dy est négative. Les deux dernières expressions peuvent être réunies
sous une forme compacte :
dx(y}
dx = dy. (73)
dy
dx(y)
y(y) = f[x(y)] (74)
dy
Si la fonction y = y(x) n'est pas biunivoque (figure 2.2), la tâche devient un peu plus
compliquée. Il faut d'abord introduire toutes les branches univoques pour la fonction
inverse : æi = xi(y), x? = x?(y), ... ,Xf. = Xf. (y), puis faire la somme sur toutes ces
branches (la probabilité de trouver y dans l'intervalle entre y et y + dy est égale à la
somme de toutes les probabilités d'apparition de x entre xt et Xj + dxt).
II - Fonctions d’une variable aléatoire 63
Prenons l'exemple y(x) = a:2, avec une fonction de distribution de probabilité de x égale
à f(x). La fonction y(x) = a:2 n'est pas biunivoque car pour deux valeurs de x différentes
on peut avoir la même valeur de y : y(x) — x2 — (—a:)2. Il existe donc deux branches de
la fonction inverse :
Les formules obtenues sont valables dans le cas d’une fonction d'une variable y = y(x).
On peut les facilement généraliser au cas où nous voulons passer de n variables indé
pendantes aq, X2,... , xn = x à n variables indépendantes y^,y2,. ■ ■ ,yn = y à l'aide
d'une transformation yi = yi(xi, X2, ■ ■ ■ , xn) = yi(x). Alors la densité de probabi
lité f(x1,X2,-.-,xn) = f(x) (voir (18)) se transforme en une densité de probabi
lité g(yi,y2, ■ ■ ■ ,yn) — g(y) à l’aide d'une relation qui est la généralisation de (74)
établie dans le cas d’une seule variable. Il faut introduire la transformation inverse
Xi = Xi(yi,y2,... ,yn) = Xi(y). La densité de probabilité g(y) est
(a) (b)
Figure 2.3 : Les vitesses et les angles dans le système du laboratoire (a)
et dans le système du centre de masse (b)
0j +02 =
2
La vitesse du centre de masse est égale à
- __ mV0 + 0 _ Vo
cm m+m 2
Dans le système du centre de masse (figure 2.3 b), les particules ont les vitesses iq et
«2 de modules égaux mais de directions opposées :
14 J4
2 ’ 2 '
Après la collision, les modules des vitesses restent inchangés en vertu de l’élasticité
de la collision :
l-'lI = |fl|
|fl l-'lI = |V2|
1-1 = |f2 l-l = —
et la collision donne lieu “simplement” à une rotation d’un angle % qui est l’angle de
diffusion dans le système du centre de masse. Dans le système du laboratoire après
la collision, les vitesses sont égales à :
17 17
Vi = fl + y, 14 = f2 + y.
Deux relations lient les angles polaires de diffusion dans les deux systèmes. L’angle
azimutal, bien évidemment, reste invariant et nous le désignerons par <p.
Par ailleurs, l’angle solide dans le système du centre de masse dQcm = srn.xdxd<p est
lié à l’angle solide dans le système de laboratoire dQ;a;> = sin#id#idç? par la relation
dQ.cm = 2sin2#id#idç? = 4cos#idQ(a;>. (79)
Comme nous l’avons dit, dans le système du centre de masse la distribution angulaire
est isotrope. Cela signifie que la probabilité dP que la particule 1 parte dans un angle
solide dQcm divisée par d£lcm ne dépend pas de l’angle :
dP 1
fem(X,<p) = = cte = —.
dClcm 47T
La valeur de cette constante est égale à 1/47T car la probabilité est normée à 1. Vu la
relation entre les angles solides (79), nous pouvons réécrire /Cm(x,Ç’) sous la forme
t dP dP 1 r ,
Jcm\X,P) — 37;--- — -,----- a
d\lcm 4 cos Pi4 cos te
Ainsi nous avons la distribution angulaire dans le système du laboratoire qui d’après
(78) s’écrit :
, V?) - “ | COS 01 0 < 0\ < 7T/2
0 01 > tt/2
Figure 2.5 : Les distributions angulaires dans le système du centre de masse (a)
et dans le système du laboratoire (b)
Nous avons déjà souligné que la formule de propagation des erreurs, largement utilisée
dans le traitement des résultats expérimentaux, est une formule approchée (sauf dans
le cas presque trivial d’une fonction linéaire). Cette approximation est parfois assez
grossière puisque pour obtenir la formule de propagation des erreurs nous avons utilisé
la relation (49) : y(x) ~ y(x), alors que toute la statistique est basée, par la définition
de la variance, sur l’importance de la différence entre y = x2 et y ~ x2.
Dans certains cas, nous pouvons obtenir l’expression exacte de la variance a2 sans
utiliser la formule de propagation des erreurs. Considérons l’exemple très simple d’une
fonction produit de deux variables indépendantes :
y - xi x2.
Cette fonction peut être mise sous la forme équivalente :
y = yi y2 + yi(x2 - y2) + y2(xi - pi) + (2:1 - jUi)(ar2 - P2), (80)
c’est-à-dire sous la forme d’un développement en série de Taylor au voisinage du point
= yi,x2 = y2. L’expression (80) contient un nombre fini de termes : une constante
p-; y2 ; les contributions avec les dérivées premières
dy dy
dx\
— ^2,
dx2 =
ÆT = AU ,^2 = ^2
est obtenue en négligeant le dernier terme dans le développement (80). Ainsi cette
formule conduit à une erreur supplémentaire dans le calcul de (Ai/)2 = <r2 égale à
_2 _2 ÿ
^Xi ^X2 ‘
On pourrait penser qu’il est facile d’améliorer la formule de propadgation des erreurs
en poussant plus loin le développement de la fonction en série de Taylor. Cette
proposition apparaît dans certains livres sur l’analyse des données. Techniquement,
c’est un exercice simple, bien qu’il soit assez pénible (il faut faire très attention et
garder correctement tous les termes de même ordre dans le développement et dans
les calculs intermédiares). Cependent des problèmes majeurs apparaissent dans cette
voie.
Considérons l’exemple simple d’une fonction d’une seule variable y = y(x). Comme
pour la formule de propagation des erreurs, développons cette fonction en série de
Taylor au voisinage de x — y? = x :
Nous conservons volontairement le terme du troisième ordre car il donnera en fait une
contribution à la variance du même ordre que le terme du seconde ordre. La valeur
moyenne de ÿ prend alors la forme
est l’intéressant d’obtenir une expression plus précise de l’incertitude d’une grandeur
physique si l’on ne peut plus l’interpréter avec précision.
Pour mieux comprendre, étudions sur un exemple le “passage” d’une distribution
gaussienne a une distribution plus complexe. Soient et X2 deux variables gaus
siennes. Quelle est la distribution de leur rapport
Appliquons l’approche générale présentée dans le paragraphe 2.2.2. Il faut passer des
variables et X2 aux variables y et z ~ X2 (cette dernière joue le rôle d’une variable
auxiliaire) et intégrer sur z.
Pour simplifier les relations, supposons que les valeurs moyennes yi sont positives et que
les incertitudes sont faibles par rapport aux valeurs moyennes (<r,- ■< yi}. Cela signifie
que la distribution cherchée reste proche d'une distribution gaussienne. Si /(^î) et 7(^2)
sont les fonctions de distribution des variables a: 1 et X2
(Xj - /JLjf
f(xi) = 1
Ô(Xi,X2)
f(xi(y, z))f(x2(y,z)) dz.
d(y,z)
Le Jacobien de la transformation x 1 — yz, X2 — z est égal à
dx\ ÔX2
â(x1,x2) dy dy z 0
d(y,z) dxi dx2 y 1
dz dz
Cette dernière intégrale peut être calculée si l'on utilise la valeur de l'intégrale auxiliaire2
■x/tÏ b
2 A3/2
2 L’astuce pour calculer J(A, B) est classique : il faut utiliser la méthode de dérivation par rapport
au paramètre B :
y2 1 Pi P2
Avec A — —7 + et B — y—? H--- ?, on trouve finalement après quelques calculs
2(7 ] 2(72 <7 j ^2
laborieux mais sans difficulté majeure
z\_ 1 Ao(y) f (y-yn)'2] 1 f (y-yo)2) /O1X
~ v^A(y) ^(y) exp l 2A2(!/) J ~ V2ÏÏA(y) 6XP l ^2(y) / ' ( }
La fonction (81) s’écrit sous une forme qui ressemble beaucoup (surtout si l’on fait
l’approximation supplémentaire A^(y)/A2(y) ss 1) à la distribution de Gauss, mais
sa largeur dépend de y.
Un exemple d’une telle distribution est tracé sur la figure 2.6 (pour yi/y? — 1,
(T’i/yi = 0,3 et <72/y> - 0, 2).
Figure 2.6 : La fonction de distribution g(y) de y = a?i /a?2 (ligne continue) comparée
à une fonction gaussienne (ligne pointillée).
On constate que, lorsque les incertitudes relatives sont faibles (<7,; ■< pi). la fonction
de distribution g(y) est très proche d’une gaussienne : c’est une fonction qui est très
piquée au voisinage de y = yo = pi/p? (on peut donc garder la dépendance rapide de
y dans la fonction exponentielle, mais remplacer partout ailleurs y par yo) avec une
largeur <ry dont le carré est égal à
2
rr2 h2 rr
. PI a22
<7 y2 ~ A (y)ly=yo 9 i 9 9
^2 ^2 ^2
II - Fonctions d’une variable aléatoire 71
ss 0,15.
Notons que ces valeurs sont très proches de la moyenne yy et de la variance <r/ calculées
avec la fonction de distribution (81) :
yy ss 1,05, ay æ 0,16.
Néanmoins, la différence entre ces deux fonctions est évidente.
On remarquera que la nouvelle fonction (81) dépend de trois variable y0 = y\/y2,
et <72/112, tandis qu’une gaussienne ne dépend que de deux variables. En
principe, des mesures précises de la fonction de distribution g(y) peuvent permettre
d’avoir non seulement des informations sur la variable y mais aussi sur et (une
des quatre caractéristiques des distributions initiales <Ti, y2, <t2 restera toujours
inconnue mais on pourra avoir les rapports entre elle et les autres).
En conclusion de ce paragraphe, on constate que “l’amélioration” de la formule de
propagation des erreurs, grâce à l’augmentation du nombre de termes dans le dévelop
pement en série de Taylor, ne représente aucune difficulté. Mais cela n’a pas beaucoup
d’intérêt puisque l’interprétation du résultat obtenu en termes de probabilités reste
assez limité.
Nous avons déjà étudié des distributions très différentes : symétriques et asymétriques ;
définies sur un intervalle fini, demi-infini et infini ; déterminées par un ou plusieurs
paramètres. Si nous conservons la même approche, la description des données expéri
mentales devient assez lourde (pour chaque grandeur physique on est obligé d’indiquer
la loi de probabilité et ses paramètres). Sans doute, une telle approche est indispen
sable pour rester précis dans la description des données (sans approximer les distri
butions de toutes les grandeurs par une loi gaussienne). Cependant, il est possible de
3 Nous laissons au lecteur le soin de retrouver ces expressions.
72 Analyse statistique des données expérimentales
proposer une autre forme de description des données expérimentales qui permet, au
moins en première approximation, d’unifier les résultats de distributions différentes.
La notion unificatrice sera, bien évidemment, celle de probabilité.
On peut commencer par le cas le plus simple, celui d’une distribution de Gauss. Dans
le paragraphe 1.2, nous avons vu qu’une grandeur décrite par cette loi de probabilité
est entièrement définie par deux valeurs n et <r et que le résultat, écrit sous la forme
H ± <t, a une interprétation rigoureuse en termes de probabilités. Autrement dit, si
l’on connaît n et <r on peut donner la probabilité Pr pour que x prenne une valeur
dans l’intervalle de = /i — rcr à x2 = fJ- + rcr (quelle que soit la valeur de r) :
rx^ = n+r<7
Pr exp
J iTi —fd—ra
Les avantages d’une telle présentation sont, d’une part, qu’elle est suffisamment infor
mative (elle nous donne le domaine de variation de la valeur de x et la probabilité de l’y
trouver) et, d’autre part, qu’elle est aisément généralisable aux autres distributions.
Quelle que soit la distribution f(x), on peut décrire le résultat observé par le niveau
de confiance Pr et l’intervalle de confiance [a?i, 2:2]
Il est vrai que pour une distribution non gaussienne, la détermination de la moyenne
et de la variance à partir de Pr et [2:1,212] peut être plus complexe que pour une
distribution gaussienne ; mais si l’on dispose d’une information exhaustive (forme de
la distribution et autres paramètres nécessaires comme, par exemple, le nombre de
mesures effectuées) ce problème peut être résolu.
Des exemples d’utilisation des niveaux et des intervalles de confiance seront présentés
lors de la discussion d’utilisation de la distribution de Student (pour un nombre limité
de mesures) ou encore de la distribution y2 (pour l’ajustement des paramètres).
Notons qu’un tel language permet de présenter d’une façon très informative un autre
type de résultats expérimentaux : les résultats négatifs, c’est-à-dire le fait qu’un
phénomène attendu n’est pas observé. Toute la physique des particules en est une
bonne illustration : pendant très longtemps on cherche une particule, on ne la trouve
pas, mais on continue jusqu’au jour où l’on obtient un résultat positif. On a cherché
ainsi la particule véhiculant l’interaction forte, proposée par Yukawa, ou du positon
(antiparticule de l’électron) dont l’existence avait été prédite par Dirac. Aujourd’hui
recherche le boson de Higgs (selon les modèles actuels, c’est une particule qui serait
responsable de l’existence de la masse de toutes les autres particules) : les recherches
de cette particule ont débuté il y a plus de quarante ans mais n’ont toujours pas
abouti.
Quand un résultat négatif est obtenu, on peut quantifier cet échec : on peut dire,
par exemple, que, dans le domaine de variation des paramètres où la recherche a été
menée, la probabilité de trouver une particule est inférieure à une certaine valeur.
D’habitude, une particule se manifeste par un signal x dans un détecteur. Quand
aucun signal n’est enregistré, on peut considérer que ce signal est inférieur à une
certaine valeur x,, et ce, avec une certaine probabiliteé Pr(x < 2q).
C’est pour ce type de résultats qu’il est utile d’introduire des niveaux de confiance
dont l’intervalle est limité d’un seul côté. On a alors affaire à un intervalle unilatéral
(contrairement à un intervalle bilatéral introduit au départ). La probabilité que x
soit plus petit que est alors égale à
ri
/ -oo
f(x)dx.
Evidemment, pour une même probabilité Pr, les intervalles unilatéraux et bilatéraux
ne sont pas les mêmes. Par contre, si l’on sait calculer les intervalles unilatéraux, par
soustraction, on obtient facilement les intervalles bilatéraux, et vice versa.
Quelques exemples numériques sont donnés dans le Tableau 2.2.
Tableau 2.2 : Probabilités Vr (en %) pour que la valeur d’une variable gaussienne x soit
inférieure à fj, + r?
Nous aurons donc besoin de distributions plus compliquées que celles de Gauss et
nous les présentons dans ce chapitre.
(82)
Nous appellerons cette valeur la moyenne estimée à partir d’un échantillon ou plus
simplement la moyenne expérimentale pour la distinguer de la vraie moyenne p que
nous appellerons aussi la moyenne théorique.
Cette moyenne expérimentale peut être considérée comme une grandeur physique.
Elle est la somme de n grandeurs indépendantes car nous supposons que les mesures
{a:,} sont indépendantes. Pour n grandeurs indépendantes, la fonction de distribution
se factorise en un produit de fonctions de distribution (voir (18)). (Afin d’alléger les
démonstrations nous n’écrivons pas les intégrales multiples pour exprimer les valeurs
moyennes qui sont symbolisées par une barre). Ainsi, la valeur moyenne de m est
égale à
(85)
III — Expériences avec un nombre limité de mesures 77
Ecrivons le terme sous la somme en utilisant le fait que les valeurs moyennes de Xi et
de m sont identiques et égales à /i :
(xi — m)2 = [(aq — /j.) — (m — /z)]2 = (a:,- — p.)2 — 2(arj — n)(m — /j.) + (m — /j.)2.
Le premier terme dans cette expression donne, par définition, <r2, le troisième <r2/n,
en vertu de (84). Pour calculer le deuxième terme explicitons la différence
1 "
m - /-'■ = - ~ n)-
i=l
Alors,
_________________________ 1 " __________________________ a2
(ar, - n)(m - /j.) = - ^2 (xi ~ - p) = —,
n fc=i
car dans cette somme il n’existe qu’une seule contribution différente de zéro pour
k = i. Finalement, nous obtenons la valeur moyenne de la variance :
Ainsi nous avons construit une grandeur s2 qui, dans la limite d’un grand nombre de
mesures, nous donne la vraie variance <r2 de la grandeur physique x. Mais nous avons
déjà décidé de travailler avec la moyenne m. Nous avons donc à définir la variance s2,
de cette grandeur (ou l’écart quadratique moyen) à partir des résultats expérimentaux
{a:;}. Cette définition est évidente :
(88)
Lorsque n tend vers l’infini, cette valeur tend vers zéro comme <r2/n conformément
à (84).
quadratique moyen (88). Soulignons que cet écart est une caractéristique de m
et représente ainsi l’incertitude sur cette dernière valeur et non pas sur x. Si l’on
veut déterminer la variance de x il faut utiliser la définition (86). Bien évidemment,
les deux valeurs m et sm ne sont plus suffisantes pour présenter toute l’information
expérimentale (les deux définitions contiennent explicitement un troisième paramètre,
le nombre de mesures n). Plus tard nous compléterons cette description et nous en
donnerons une interprétation exacte à l’aide des probabilités, comme cela a déjà été
fait pour la distribution de Gauss.
Par analogie avec les formules (86) et (83), on peut définir la covariance, le coefficient
de corrélation et les moments d'ordre supérieur pour un échantillon. Ainsi, par exemple,
la covariance de deux variables x et y est donnée par
(89)
^xy — (90)
Sx Sy
(91)
Il faut aller plus loin dans l’analyse des nouvelles définitions. Pour la valeur moyenne
m, l’incertitude expérimentale est donnée par la racine carrée de sa variance, autrement
dit par sm. Mais cette valeur sm étant une valeur déterminée à partir des données
expérimentales, possède sa propre incertitude. Nous devons savoir l’estimer. Mal
heureusement, on ne peut pas obtenir un résultat général pour toute distribution ;
c’est pourquoi on fait l’hypothèse supplémentaire que la grandeur x est distribuée
selon la loi normale.
Le problème devient facile à résoudre bien que sa démonstration soit assez longue.
La mesure de l’incertitude est la racine carrée de l’écart quadratique moyen. Si l’on
veut calculer l’erreur de on doit calculer la variance correspondante :
1 1
~ ^7 /2(a:» ~ A) + ^2 z2 {xi - — fl)-
2=1 2,fc=l, i^k
= _ ,
du fait que les puissances impaires de (a:, — /j.) donnent zéro ; ainsi, dans ce produit, les
termes non nuis correspondent à i — k, j — l ou j — k, i — l. Le résultat final pour .s4,
est :
____ 1 '(" - 1) 2 l . 2(n- 1) 2
s4 “R H------ ----- H------------ p2
n2(n -l)2. n n n
J_ n2 — 2n + 3 9
1^4 +
n3 n — i1---- P-2 ■
------
~- &
m n(n-l)’
la variance D(s2n) est donnée
n—3 9
------- 7^2 • (92)
n—1
Dans cette expression, on peut utiliser le fait que, pour une distribution normale, — <r2
et p.4 = 3<r4 (voir (27)) :
s“=\~i- (93)
Une fois de plus nous retrouvons une dépendance de la forme 1/y/n ; autrement dit.
il est assez difficile d’avoir une très bonne précision sur les incertitudes dans une
expérience : on a besoin de plusieurs dizaines de mesures pour s’approcher de la
précision de l’ordre de 10%. Nous reviendrons sur la formule (93) dans un paragraphe
spécial consacré à la précision des incertitudes.
La précision d’une expérience Ax est déterminée à partir des données expérimentales
et possède aussi sa propre incertitude. Sa connaissance est très importante dans
l’analyse des résultats car elle est liée directement à leurs interprétations en termes
de probabilités. Une erreur d’un facteur 2 dans Ax peut modifier complètement les
conclusions.
Dans certaines situations, on peut connaître de manière assez exacte la précision sur
l’incertitude Ax. S’il s’agit d’une incertitude purement statistique nous avons montré
que l’incertitude relative sur la variance expérimentale est d’après (93)
6g2^ — 6g2 —
n— 1
III — Expériences avec un nombre limité de mesures 81
Ax est proportionnel à la racine carrée de .s/, et ainsi son incertitude relative est
égale à
_ A(Aæ) 1 _ / 1
~ Ax ~ 2 Ss- ~ y 2(n - 1) ' (94)
Soulignons que cette fonction décroît très lentement avec le nombre de mesures n. Sa
courbe est présentée sur la figure 3.1. Pour 5 — 6 mesures, est à peu près égale à
1/3 et il faut effectuer une cinquantaine de mesures pour avoir une incertitude relative
de l’ordre de 10%.
0,0 ---------- '---------- '---------- 1---------- 1---------- ■---------- 1---------- ■---------- 1-------- »
0 10 20 30 40 n
Figure 3.1 : L’erreur relative sur l'incertitude 8^x en fonction du nombre de mesures n
3.1.3 Distribution x2
Supposons que les variables x^,x2,... ,xn sont distribuées selon une loi normale, avec
une moyenne nulle et une variance unité. Pour une seule variable y(x) = x2 le résultat
général a déjà été exprimé par (76). Pour la distribution de Gauss cette formule s’écrit
comme
y(y) =
Autrement dit, g(y) représente une distribution gamma avec a = —1/2, (3 = 2 et a une
fonction génératrice
1
Pour la somme des n variables indépendantes (95) nous pouvons utiliser la propriété (21)
et écrire la fonction génératrice de y2 :
W = (97)
Ainsi nous avons trouvé ce que l’on appelle la distribution de probabilité y2.
Sa valeur moyenne est
X2 = /?(« + 1) = n (98)
et sa variance
Dans la limite d’un grand nombre de mesures n —» oo, la distribution y2 tend, comme
il se doit, vers celle de Gauss. Nous ne démontrons pas ici ce résultat. Notons
simplement que le changement formel de variable y/2 -4 /t et n/2 - 1 -I n nous
donne la densité de probabilité pour la distribution de Poisson (36) qui tend vers la
distribution de Gauss lorsque n —> oo.
Notons que la ressemblance formelle entre ces deux distributions, déjà mentionée lors
de la discussion de la distribution gamma, conduit à des relations utiles. Par exemple,
les intervalles de confiance (voir paragraphe 2.3) pour la distribution de Poisson et
pour la distribution y2 sont liés entre eux :
Nous sommes passés d’une distribution à n variables à une nouvelle distribution d’une
seule variable. Une question assez naturelle peut être posée : où et quand les autres
variables ont-elles disparu ? Pour mieux voir et comprendre la technique de ce “tour
de passe-passe”, prenons un exemple bien connu de la physique statistique : un gaz
de particules sans interaction qui se trouve à l’équilibre thermodynamique à la tem
pérature T. Chaque composante v, (z — x, y, z) de la vitesse des particules du gaz a
une distribution maxwellienne :
. / m f mv? )
mv2
r/ j j ( m \3/2 f + '’y + C) L, j 4
j(fr, vy, vz)dvxdvydvz = J exp S---------- > dvxdvydvz.
Nous ne sommes intéressés que par l’énergie des particules et ainsi les directions de
la vitesse n’ont aucune importance. Nous pouvons écrire l’élément de volume dans
l’espace de vitesses dvxdvydvz sous la forme v2dvd£lv, où v est le module de la vitesse
et dQ„ l’angle solide dans cet espace. Calculons l’intégrale sur c’est-à-dire la
somme sur toutes les directions possibles. Après une telle sommation, dvxdvydvz se
transforme en 47rv2dv. Le dernier pas concerne le passage de la vitesse à l’énergie :
v= et dv — dE/y/^mE.
On en déduit la distribution de probabilité en énergie. La probabilité de trouver la
particule avec une énergie dans l’intervalle compris entre E et E + dE est égale à :
g(E)dE= e kr y/ÊdE.
2 c-e/2
9(£) =
v5F 23/2
Nous verrons que cette grandeur est également distribuée selon x2 mais avec n — 1
degrés de liberté ! Il est possible de prévoir ce résultat et même de le comprendre qual
itativement. Certains arguments qualitatifs ont été développés au paragraphe 2.1.1,
lors de la discussion du facteur n — 1 dans la définition de la variance expérimentale.
Il faut aussi noter que les n grandeurs z, = Xi — m sont liées par la relation
n
Zzi = °-
i=i
et qu’ainsi dans la formule (100) nous avons n — 1 et non pas n variables indépendantes.
Le principe d'une démonstration plus rigoureuse est le suivant. Nous voulons passer de
n variables indépendantes x^, x?,. . . ,xn = x à n variables indépendantes ÿi, 3/2, • • • , Un
= y â l'aide d'une transformation yi = yi(xit x-z,... , xn) = yi(x). Pour cela, on utilisera
la formule (77) introduite â la fin du paragraphe 2.2.2.
Effectuons une transformation linéaire orthogonale
n
yi — y2 CijXj->
avec
n n
= (ioi)
1=1 J=1
Une rotation dans l’espace euclidien à n dimensions est un exemple d’une telle transfor
mation. Le Jacobien est alors égal à 1 et, en vertu de (77), la fonction de distribution est
inchangée. La formule (101) nous garantit que la forme de la distribution reste gaussi
enne :
n M
1 1 Al
= a(y)-
La condition (101) peut encore s’exprimer à l'aide des coefficients Cÿ sous la forme :
2^CijCjk — dik - |
î f h si î' = kt (102)
j=i 1
86 Analyse statistique des données expérimentales
(103)
et les autres y, avec i > 2 de façon arbitraire. Néanmoins, les fonctions y, possèdent les
propriétés suivantes (rappelons que tous les Xj ont les mêmes y, et cr) :
n n
W = ^7 CijXj = y? Cÿ = ^-0 = 0,
1=1 1=1
et
n n n n n
D(y<) = y? = LL T? y? CijCikôjk • (T2 - <T2 y^ CijCij - <r2,
j=i fc=i j=i fc=i j=i
qui ont été établies en utilisant l’indépendance des xt et la relation (102). Ainsi les
variables y, sont distribuées selon une loi gaussienne avec une moyenne nulle et une
variance <r2.
Les expressions (101) et (103) nous permettent de réécrire w sous la forme
(104)
i=2
Autrement dit, la grandeur w est distribuée selon la loi y2 avec n — 1 degrés de liberté.
Ainsi nous pouvons utiliser les résultats établis sur la distribution y2 (98—99) et en
déduire immédiatement que
p = n — (105)
où l est le nombre de relations linéaires entre {a:,}.
III — Expériences avec un nombre limité de mesures 87
La solution du problème est relativement simple si nous exprimons cette fonction sous la
forme
t — y/n — X
V(n~ !)« • Sm/'a'
OÙ
La variable j/i a une distribution normale (car tous les x^ ont la même distribution normale)
avec la moyenne nulle (83) et la variance unité (84). La variable y2 est distribuée selon
Xn-i comme nous venons de le démontrer (104). Ainsi nous connaissons les distributions
de et de y2 et nous voulons trouver la distribution du rapport t = yrjyfÿï, en utilisant
les règles connues de transformation des distributions.
La densité de probabilité de j/i et y2 est égale à :
y./2 1 • e-y2/2
5(2/1 ’2/22 = ' r(^)2("-1)/2
avec 2/1 qui varie de —oo jusqu'à +oo et y2 qui varie de 0 jusqu’à +oo. Transformons
d'abord cette densité en faisant le changement de variables
22(2/1,2/2) = 2/2,
Le module du Jacobien de cette transformation est égal à ,/z-j et, conformément à (77),
la nouvelle densité de probabilité /i(zi,z2) est
z^1
/î(zi,z2) = y/zi-
r(^) 2(-^’
88 Analyse statistique des données expérimentales
Pour obtenir la densité de probabilité f(t) nous intégrons /i(zi,Z2) par rapport à Z2 et
utilisons la relation f(t) = f(z^)\dz\/dt\ :
/(^i) = r h^^dz.
/(*)
y/n — 1 Jo y/n — 1
e-(ï?22)/2 z”2’ 1 . e-^2/2
yfti^n - 1)
Le changement de variable
z2(zf + 1)
u=
2
ramène cette intégrale à une fonction T.
A-i(t) = (107)
Pour n donné, les fonctions T dans la formule ci-dessus peuvent être explicitées à
l’aide de (43) et (44).
Cette fonction (107) est relativement simple. Pour n = 2, on retrouve la distribution
de Lorentz. Pour n > 2, la distribution t. de Student représente, grosso modo, une
certaine puissance de cette distribution. Vu la discussion du paragraphe 1.3.3, nous
pouvons tout de suite dire que, pour n donné, seuls les moments Hk avec k < n — 1
peuvent être définis.
On peut aussi calculer facilement la valeur moyenne et la variance de cette distribution
lorsque cette dernière existe :
t=0 et
Il - xjp ?=2
Poisson Gamma
n= a a = n/2 — 1
binomiale Gauss
Student Lorentz
Commençons par un exemple concret : nous mesurons n fois la longueur l d’une plaque
métallique et ainsi obtenons des résultats {/1J2, • ■ • ,ln}- Soient n — 6, = 4372 mm,
/2 — 4364 mm, Z3 — 4342 mm, I4 — 4338 mm, l5 — 4354 mm et Ig = 4330 mm. Quelle
est la longueur de la plaque ?
est décrite par la distribution de Student f„_i(t) (107). Dans cette expression, /i est
la vraie valeur de la grandeur mesurée (dans notre cas, la longueur Z), m la moyenne
estimée à partir des résultats expérimentaux (82)
1 "
m = - Y\,
n
i=I
Soulignons une fois de plus que m et sm sont entièrement définis par les résultats
expérimentaux. La forme de la distribution de Student est relativement proche de celle
de Gauss (elle est la même dans la limite n —> oo) et ainsi nous allons vite comprendre
par analogie avec la distribution de Gauss comment nous pouvons l’utiliser.
En termes de probabilités, la phrase “t a la distribution de Student” signifie que la
probabilité de trouver la vraie valeur /j. de l dans l’intervalle compris entre m — smt.vp
et m + smt„p est égale à :
+ (109)
«/ - t ts’p
Tableau 3.1 : Les coefficients de Student t^-p correspondant à un nombre u de degrés de liberté
et à une probabilité V
Dans les conditions limites d’un grand nombre de mesures, les coefficients de Student
t„p coïncident avec les valeurs données par la distribution de Gauss (voir la dernière
ligne du tableau 3.1). Par exemple, pour une probabilité (un niveau de confiance) de
95%, le coefficient t1/=0o;7’=o>95 = 1, 96. Quand le nombre de mesures n’est pas élevé,
par exemple n = 3, pour la même probabilité il faut prendre AZ beaucoup plus grand
ti/=2;'P=O,95 = 4, 3.
Désormais, pour un nombre fini n de mesures, notre résultat s’exprimera sous la forme
lexp i AZ — TTl ± Smti/p (111)
dont l’interprétation est un peu plus compliquée que dans le cas de la distribution
de Gauss : nous sommes obligés de donner le nombre de mesures effectuées et la
probabilité choisie pour pouvoir utiliser un coefficient de Student.
III - Expériences avec un nombre limité de mesures 93
lu = m = = 4350 mm
et
— 6,6 mm.
Pour présenter le résultat final (111), choisissons, par exemple, une probabilité de
95%, alors le coefficient de Student = 2,57 et A/ — 17 mm. Ainsi la
valeur moyenne de la longueur est :
ln = (4350 ± 17) mm
Dans notre exemple, s = a/6 • 6, 6 mm = 16 mm. C’est la raison pour laquelle nous
avons écrit “la valeur moyenne de la longueur” et non pas “la longueur” tout court.
Nous voyons que le deuxième niveau d’analyse est plus rigoureux et plus riche d’infor
mation que le premier, mais il est aussi notablement plus lourd dans son traitement
et surtout dans son interprétation.
Dans le résultat final, nous avons gardé deux chiffres significatifs mais on aurait pu
n’en garder qu’un seul. Montrons comment évaluer l’incertitude de l’incertitude.
L’estimation “théorique” obtenue dans (94) ne dépend que du nombre de mesures n,
et conduit pour l’incertitude relative à
J^ = LL«0,3 (30%).
Rappelons que pour obtenir cette estimation, chaque mesure xi est supposée avoir
une distribution de Gauss.
Il est possible d’obtenir une estimation expérimentale de cette valeur à partir des
données obtenues. Pour cela, on utilise les formules (94) et (93)
JW2)
S2
94 Analyse statistique des données expérimentales
^- 0,23 (23%)
~ 0,30
~ 0,14.
Cette différence peut servir d’indication sur l’existence d’un problème dans les don
nées. Compte tenu de fait que pour obtenir l’estimation “théorique” nous n’avons
utilisé que l’hypothèse de normalité de la distribution, c’est cette hypothèse qui doit
être vérifiée en premier lieu.
En fait, il existe une procédure relativement simple (critères de Pearson) qui permet de
voir si la distribution à laquelle on a affaire est une gaussienne. Cette procédure est
basée sur la vérification des relations précises qui existent entre les moments centraux
différents d'une distribution gaussienne (voir (27)). Dans ce livre, nous ne présentons pas
ces critères car, dans les expériences simples, ils ne sont pas souvent utilisés.
Nous avons compris que la méthode d’analyse des données expérimentales dépend
de la rigueur et de la précision du résultat que nous voulons obtenir. Notons que
le premier niveau, bien qu’il ne possède pas de bases mathématiques profondes et
qu’il ne soit fondé que sur notre “bon sens”, donne presque toujours des résultats
acceptables. La plupart du temps, il donne tout à fait correctement la valeur de la
grandeur physique (à <r près).
Par contre, l’incertitude estimée dans cette méthode peut être assez différente de
l’incertitude exacte par un facteur deux-trois ou même plus (dans notre exemple,
nous avons obtenu une estimation de 21 mm au lieu de s = 16 mm ; nous verrons
d’autres exemples où cette différence est encore plus grande). Le premier niveau
d’analyse des données est utile, surtout si l’on tient compte de la facilité avec laquelle
les résultats sont obtenus.
On peut dire que le deuxième niveau est un niveau fondamental. Il donne les résultats
avec une interprétation précise, y compris pour l’analyse postérieure plus sophistiquée.
Cette étape est indispensable lors d’une expérience effectuée en travaux pratiques.
Le troisième niveau est presque obligatoire si nous effectuons une véritable expérience
de physique en laboratoire. Il touche des aspects un peu différents de la statistique :
il essaie d’analyser la validité des hypothèses qui forment notre théorie. Dans notre
exemple, nous avons tenté de vérifier l’hypothèse sur la forme de la distribution pour
la longueur. Jusqu’ici nous n’avons pas considéré ce type de problèmes en statistique.
Ces problèmes sont importants surtout pour une expérience réelle de physique, mais
ils nécessitent des résultats statistiques beaucoup plus fournis que ceux que nous
pouvons obtenir lors de travaux pratiques classiques.
96 Analyse statistique des données expérimentales
Un autre problème apparaît lorsque l’on veut comparer des résultats expérimentaux.
Avant de discuter le cas de deux grandeurs décrites par la distribution de Student,
commençons par celui de deux grandeurs décrites par une distribution gaussienne.
A partir de deux résultats, ± Aæj et æ2 ± il faut introduire leur différence
X= — £2 qui a également une distribution gaussienne avec une moyenne nulle et
une variance AA2 = Aæ2 + Aa:^- Si la valeur de X est compatible avec 0, compte
tenu de son incertitude, alors les deux résultats sont compatibles.
Par exemple, on veut savoir si la température dans une pièce varie dans le temps.
On a effectué deux mesures à une heure d’intervalle et on a obtenu deux valeurs
Ti = 25, 2 ± 0, 2 ’C et T2 = 24,5 ± 0, 2 ’C. La différence T = Tj - T2 = 0, 7 ’C doit
être comparée avec 0. On voit que cette valeur dépasse 2<tt (avec <tt = 0,3 ’C) et
l’on peut raisonnablement conclure que la température a effectivement varie.
Etudions maintenant un exemple de deux grandeurs décrites par la distribution de
Student.
Supposons qu’un collègue ait mesuré la longueur de la même plaque métallique et
qu’il ait obtenu la valeur
lc = (4355 ± 13) mm
avec la même probabilité V = 95% mais pour n = 10 mesures. Rappelons que notre
résultat, pour n = 6 mesures, est
Ces deux valeurs sont légèrement différentes et nous voulons savoir si elles sont com
patibles. Si oui, pouvons-nous les regrouper d’une certaine façon pour augmenter la
statistique et ainsi améliorer la précision ?
Nous désirons savoir quelle est la probabilité pour que la valeur absolue de la différence
| mx — my | soit supérieure ou inférieure à une valeur donnée. Le problème est à nouveau
l’absence d’information sur les véritables valeurs de y et de <r2. Il peut être contourné
en utilisant le fait que la variable
- my
où
nx ny
- mx)2 +
$2 _ i=l________________ 3 = 1_________________
^37 “F ^y 2
a une distribution de Student avec p = nx + ny — 2 degrés de liberté.
et
qui ont les distributions Xn„-1 avec ~ 1 degrés de liberté et Xnv-i avec — 1 degrés
de liberté respectivement (voir (104)). Leurs fonctions génératrices des moments sont
1
YL? (s) = et MXny-SS>> (1 _ 2s)("*-1)/2
(1- 2s)("^1)/2
98 Analyse statistique des données expérimentales
est égale à
1
(1 - 2s)(”-+r1!'-2)/2’
où nous avons utilisé la propriété (21). Autrement dit, cette somme a la distribution
Xn^+n -2 avec p = r!J-+r!y — 2 degrés de liberté (nous avons nx+ny mesures avec deux
relations linéaires qui fixent mx et my ; voir la remarque (105)). Ensuite nous retrouvons
la démonstration du paragraphe 3.2.
Nous sommes maintenant en mesure de répondre à notre question puisque nous avons
établi une relation univoque (109) entre la valeur de t et la probabilité P.
Dans notre exemple, mx = 4355 mm, my = 4350 mm, nx = 10, ny = 6. Pour
connaître s2 nous devons calculer les sommes (112). Dans notre expérience
ny
- mÿ)2 = 1304 mm2.
i=l
2 1
Amr — —9 ; P=0,95 ' et, s mx
' Î=1
nous avons
Amx \2
Y(x< - mx)2 nx(nx - 1)
Ï=1
= 9 ; P=0,95 J
Donc,
1304 + 2978
mm2 ~ 306 mm2
10 + 6-2
et la valeur de t correspondante à s2 est égale à
5
t = —. ~ 0, 55.
x/306(l/10 + 1/6)
Dans le tableau 3.1, nous voyons que la probabilité qui correspond au coefficient de
Student t ~ 0, 55 pour v = 14 degrés de liberté est P ~ 0, 4.
III — Expériences avec un nombre limité de mesures 99
Nous avons montré comment il est possible de comparer les moyennes de deux expériences.
Il existe une méthode analogue pour comparer les variances expérimentales, désignée par
le critère T de Fisher, qui donne la probabilité pour que le rapport s^/s^ soit différent
de 1. Pour cela, il faut introduire une distribution spéciale de ce rapport que l'on peut
obtenir à partir des distributions connues de et et en utilisant des règles générales
formulées au paragraphe 2.2.2. Dans ce livre, nous ne présentons pas ce critère car
cette distribution est relativement complexe et son utilité pratique bien moindre que la
distribution de Student : si deux échantillons sont vraiment incompatibles, cela apparaît
surtout sur les moyennes et dans une moindre mesure sur les variances.
Nous sommes assez convaincus que les deux résultats ne sont pas contradictoires et
désirons savoir comment les “réunir” pour avoir une meilleure statistique et plus de
précision sur la grandeur mesurée.
100 Analyse statistique des données expérimentales
Nous obtenons assez facilement la formule exprimant la moyenne pour les deux séries
de mesures
E Xi + i=l
E Vi
(H3)
nx + Tly
et
(114)
Il est utile de réécrire cette formule autrement. Rappelons les relations entre les
variances expérimentales s2 de la grandeur et celles de ses valeurs moyennes s2,
(voir éqs. (88) et (110))
et
et obtenir l’expression
m.r | mu
(Am.J2 (Am,)2
(H5)
(Am^)2 (Am,)2
où est introduite l’incertitude Aml+ÿ comme
1 _ 1 1
(Aml+ÿ)2 (Amr)2 + (Amÿ)2' (H6)
mx
Il est logique, compte tenu du fait que les mesures du collègue étaient plus précises,
que mx+y soit plus proche de sa valeur mx.
Les formules (115) et (116) peuvent être généralisées facilement pour un nombre
arbitraire n d’expériences :
Il est vrai que cette façon de calculer la moyenne sur plusieurs expériences n’est pas
toujours mathématiquement irréprochable mais elle donne la possibilité d’avancer et
de réunir les connaissances obtenues dans des expériences parfois très différentes.
S’il a été possible de vérifier auparavant que ces séries de mesures sont compatibles
(compatibilité des moyennes et des variances), l’erreur introduite par cette procédure
est très faible. Même l’hypothèse d’égalité des coefficients de Student pour un grand
nombre de mesures n’est pas mauvaise. Dans le tableau 3.1, on voit que le coefficient
de Student varie peu avec p. Par exemple pour P = 0,95, t change seulement de
10% quand u passe de 10 à 30. De plus, cette variation est une correction dans
l’incertitude, autrement dit, c’est une correction de deuxième ordre.
C’est la raison pour laquelle cette approche est très utilisée en physique quand on veut
profiter de résultats d’expériences différentes (parfois assez coûteuses) pour obtenir la
valeur “universelle” de telle ou telle constante physique fondamentale.
L’incertitude naturelle d’une grandeur physique n’est pas la seule possible. Une autre
source importante d’incertitude est l’appareil de mesure. Par l’appareil, nous sous-
entendons non seulement l’appareillage utilisé pour faire une expérience mais, plus
généralement, la méthode de mesure choisie.
Nous voulons savoir quelle est l’influence de l’appareil sur la valeur physique ou, en
d’autres termes, comment il modifie la fonction de distribution initiale. Nous verrons
qu’il y a d’abord une modification “triviale” de cette distribution : celle-ci s’élargit, ce
qui signifie que les erreurs d’appareil s’ajoutent aux erreurs naturelles de la grandeur
physique.
Cependant, une autre modification de la fonction de distribution est aussi possible.
L’appareil peut décaler la valeur moyenne, donc l’appareil mesure une valeur systéma
tiquement plus grande (ou plus petite) que la valeur “réelle”. Ces erreurs s’appellent les
erreurs systématiques. Elles ne sont pas forcément de nature aléatoire et ne pourront
pas être traitées directement à l’aide des techniques qui ont été présentées jusqu’ici.
L’analyse de ce type d’erreurs, qui est plus complexe, fait l’objet de ce paragraphe.
102 Analyse statistique des données expérimentales
Pour étudier l’influence d’un appareil sur la valeur mesurée, choisissons d’abord un
appareil très simple — un pèse-personne mécanique. Son principe de fonctionnement
est élémentaire : le poids d’un objet dont nous voulons connaître la masse m est
compensé par la contraction d’un ressort. Ce dernier est lié à une aiguille qui indique
sur un cadran la valeur de la masse. Si le coefficient de raideur est égal à k, le
déplacement du ressort et celui de l’aiguille est
mg
soit
On peut dire qu’au lieu de la vraie fonction de distribution f(x), l’appareil nous donne
une fonction de distribution modifiée F(x).
La fonction S(x,x') s’appelle la fonction de résolution (la terminologie vient de
l’optique). Quelle est la forme de cette fonction ? La réponse à cette question est
difficile. La plupart du temps, la fonction de résolution S(a:,a:') ne dépend que du
module de la différence x — x' :
Cette propriété signifie que l’appareil n’introduit pas d’erreur systématique, c’est-à-
dire qu’il ne modifie pas la valeur moyenne de la distribution.
/ ■CO
xF(x)dx= I
2 —co
I
2—co
x S(x',x) f(x')dx'dx.
/ •OO
+co
!
7—CO
(t + x') S(\t\) f(x')dx'dt
=
/ •CO
tS(|t|)dt • /
0-1 + 1 ■/if =
J— CO
f(x')dx' + /
7—CO
S(|t\)dt ■ I
<7—00
x'f(x')dx'
/ -co
f(x)dx = 1, /
7—CO
S(t)dt = 1
et du fait que S(|t|) est une fonction paire. Il n’y a pas d'erreur systématique :
HF _ _ p.
Dans les mêmes conditions, nous pouvons montrer facilement que l’appareil ne peut
qu'élargir la distribution initiale. La variance de la distribution F(x) est
/•+oo r+oo />+co
<Tp = / (x ~ /j.)2 F(x)dx = / / (t + x’ — n)2 S(|f |) f(x'}dx'dt
J — oo J — oo J — oo
+oo r+co r+co r+co
/ ■CO
t2S(|t|)df • /
J —CO
f(x'}dx' + 2 I
J—CO
+co
fS(|t|)df • /
J —CO
r+co
(x1 — /J.}f(x')dx'
r+co
/ ■CO
S(|t|)dt • /
r+co
2 —CO
(x' - fi)2f(x')dx'
D'où
_2 C2
&F — <Tf ■
Comme pour les fonctions de distribution, on peut affirmer que si les conditions du
théorème central limite sont satisfaites (c’est-à-dire s’il y a plusieurs facteurs indé
pendants qui agissent sur la fonction de résolution et si l’influence de chacun de ces
facteurs est petite), cette fonction a la forme de Gauss :
1 (x — x'}2 1
S(x — x') =
2<r2 J
104 Analyse statistique des données expérimentales
(x — F)2 1
2^ J’
<?f
V -p) -
\ps +
Ce calcul permet de vérifier que la variance <Tp de la fonction F(æ) est égale à la
somme des variances a2. et <rj :
2 — A2 _L A2
<Tp — <Tg + <rf-
Dans une expérience réelle deux situations extrêmes peuvent être rencontrées. Celle
où 1a. variance de l’appareil est négligeable devant la largeur naturelle (<rg -A <r2) et
l’appareil ne change rien ; celle où la variance d’appareil est plus importante que la
variance initiale (a2 A> <rj) et on peut alors prendre l’incertitude de l’appareil comme
l’incertitude de l’expérience.
En général, la détermination de la fonction de résolution n’est pas aisée. Pour les
appareils simples utilisés en travaux pratiques, la connaissance précise de la fonction
S(x, x') n’est pas indispensable. On peut se limiter à la calibration de l’appareil avec
une fonction f(sc) bien définie. Dans l’exemple d’un pèse-personne, on doit peser des
poids connus (les étalons) et repérer les indications correspondantes. Ainsi on obtient
III - Expériences avec un nombre limité de mesures 105
une échelle de l’appareil utilisable pour la mesure de poids inconnus. Les fonctions
obtenues de cette manière se présentent souvent sous la forme d’une courbe ou d’une
table d’étalonnage.
Pour un appareil digital, l’incertitude de mesure est indiquée dans la description.
Pour un appareil à aiguille, la précision est caractérisée par la classe de l’appareil qui
est toujours marquée sur son cadran au-dessus du symbole de position de l’appareil.
L’incertitude de l’appareil est égale au produit de sa classe par la pleine échelle utilisée
pour la mesure, divisé par 100 :
classe • pleine échelle
incertitude = --------------—------------ .
100
Pour diminuer l’incertitude de mesure, il faut donc toujours travailler avec les échelles
les plus sensibles possibles (les échelles qui donnent la déviation maximale acceptable).
Dans la plupart des cas, on travaille avec des appareils de classe 0,5 ; 1,0 ; 1,5 ou 2,5.
Pour les expériences plus sophistiquées, cette procédure simple n’est plus suffisante.
L’expérimentateur doit faire une étude approfondie du nouvel appareil pour avoir le
maximum d’informations sur la fonction de résolution 5(æ',a?) : vérifier si elle ne
dépend que de |.r — -r'| ou, sinon, établir la forme de cette fonction, etc.
Rexp — + RA ■
Si les appareils choisis sont de bonne qualité, pour un assez grand domaine de valeurs
de la résistance Rx, telles que Ry Rx Ra, on a ReXp ~ Tïêxp? — Rx- Néanmoins,
106 Analyse statistique des données expérimentales
(I)
Figure 3.6 : Premier schéma possible pour mesurer la valeur d’une résistance
la première méthode donne toujours des valeurs systématiquement plus petites que la
vraie valeur de Rx, tandis que la deuxième donne des valeurs systématiquement plus
grandes. Dans les deux cas, on a une erreur systématique plus ou moins importante
en fonction des relations entre Rv,Ra et Rx.
(II)
Figure 3.7 : Deuxième schéma possible pour mesurer la valeur d’une résistance
On peut donc dire que la première méthode est préférable pour mesurer des petites
résistances tandis que la deuxième est plus adaptée aux grandes résistances. Cepen
dant les deux méthodes donnent une erreur systématique qu’on ne peut éliminer qu’en
connaissant les valeurs de Ry et Ra.
Proposons une troisième façon de mesurer la résistance. Pour cela, nous avons besoin
d’une résistance variable dont nous pouvons établir la valeur Rv, de deux résistances
identiques R et d’un appareil de mesure (d’un ampèremètre ou d’un voltmètre, au
choix). Le schéma de branchement est présenté sur la figure 3.8.
Si Rx est égale à Rv, alors le courant Ia qui passe par l’ampèremètre (ou le voltmètre)
est nul. On peut le voir à partir de l’expression de Ia :
1 Rx~ Rv I
(121)
2A R-, + Rx
I étant le courant aux bornes du circuit,
A — 1 -L R 2^ + A, + Rx
+ a2R(Rv + Rxy
(III)
h A
h
Figure 3.8 ; Troisième schéma possible pour mesurer la valeur d’une résistance
L'expression (121) peut être obtenue de la façon suivante. Nous introduisons les courants
R, R, h, R (figure 3.8) et écrivons le système de 5 équations
’ I=R+R
I = R +h
< R =R+R
RRV + 11R = RRX + RR
RRa H- RR = RR.
R —R+R
* R —I R —R
.R=I-R
1 r I __ r IR R , IR + IR
a2R + 2 — 2R + Rr + Rt, a2R+Rx + RR
Erreurs d’expérimentateur
Finalement les erreurs de l’expérimentateur constituent le troisième type d’erreurs
systématiques. Par exemple certaines personnes évitent tel ou tel chiffre lors des
estimations de fractions de divisions d’échelle d’un appareil. Ou encore, quand on
modifie les paramètres d’une expérience, le système a besoin d’un certain temps pour
se mettre en équilibre et les indications des appareils peuvent être instables pendant
quelques secondes, fl ne faut pas se précipiter pour faire les mesures. Lors des mesures
d’un intervalle de temps, une erreur systématique peut être introduite par le fait que
des personnes différentes ont des vitesses de réaction différentes.
III — Expériences avec un nombre limité de mesures 109
Une erreur presque inévitable intervient lors de la lecture des indications des appareils
à aiguille : il existe toujours une certaine distance entre l’aiguille et l’échelle et le
résultat lu dépend de l’angle de vision. De plus, si l’aiguille se trouve entre deux
divisions d’échelle, il y aura une erreur liée au choix de la valeur retenue.
Toutes ces erreurs sont presque inévitables. Il faut savoir les estimer en sachant bien
que ces estimations sont personnelles, subjectives, de la responsabilité de l’expérimen
tateur.
Pour éviter ces erreurs on peut donner quelques recommandations pratiques. Les er
reurs systématiques proviennent souvent du mauvais fonctionnement de l’appareillage
ou de l’expérimentateur lui-même. Ce dernier paragraphe contient quelques recom
mandations générales qui permettront d’éviter une grande partie de ces erreurs.
Commençons par les questions de planification et de réalisation d’une expérience sont
d’une importance fondamentale. Même dans le cas d’une manipulation relativement
simple en travaux pratiques il faut leur consacrer quelques minutes. Quels sont les
points auxquels il faut faire attention ?
Symétrie apparente
Si le montage possède des éléments identiques, il faut les interchanger et répéter la
mesure. Par exemple, sur la figure 3.8, nous avons un schéma pour déterminer une
110 Analyse statistique des données expérimentales
résistance inconnue Rx dans lequel nous utilisons deux résistances supposées iden
tiques R. Il faut s’en assurer expérimentalement en permutant ces résistances lorsque
le courant qui passe par l’ampèremètre est nul. Si, avec les résistances interchangées,
le courant devient différent du zéro, il faut soit remplacer les résistances soit aug
menter l’incertitude de mesure. En travaux pratiques, on utilise fréquemment des
appareils polyvalents qui peuvent mesurer le courant, la tension ou même la résis
tance. Si l’on utilise deux appareils de ce type dans la même expérience, on peut les
interchanger et vérifier la stabilité du résultat.
Quand on mesure la différence de deux températures avec deux thermomètres dif
férents il faut aussi les interchanger. Si le résultat n’est pas le même on doit prendre la
demi-somme des deux mesures comme valeur expérimentale. Si l’un des thermomètres
(ou les deux) est affecté par une erreur systématique, cette procédure permettra de
s’en affranchir.
Expérience préliminaire
Une expérience scientifique est toujours précédée d’une manipulation préliminaire.
Son but est multiple. L’expérimentateur “apprend” la manipulation, s’entraîne à
effectuer les opérations qui seront les plus fréquentes, vérifie le fonctionnement des
divers éléments. Dans cette manipulation, on essaie d’obtenir une idée sur l’intervalle
des valeurs de chaque grandeur physique ainsi que sur leurs incertitudes. Cette mani
pulation préliminaire permet de déterminer la stratégie future pour toute l’expérience.
Même en travaux pratiques il faut essayer d’effectuer une expérience préliminaire, bien
que le temps soit très limité. Il faut, au moins, prendre connaissance de l’appareillage
et surtout de ses composantes qui n’ont pas été étudiées auparavant. Si, pendant
l’expérience, il faut changer d’échelle et si on ne sait pas effectuer cette opération, on
risque non seulement de perdre du temps mais aussi de perdre une partie des données.
nous pouvons prendre un pas plus petit, 1 A. Dans notre système, il n’y a pas de
dépendance rapide en fonction du paramètre et il vaut mieux choisir des points de
mesures distribués de manière uniforme sur tout intervalle de variation du courant.
Cependant, il ne faut pas perdre de temps en fixant les valeurs de I exactement à
1 A ou 2 A. Si nous mesurons la puissance pour I — 1, 95 A au lieu de / = 2, 00 A,
la précision sur les paramètres sera la même. Pour accélérer la manipulation nous
pouvons faire les mesures en augmentant progressivement le courant avec un pas de
2 A de 0 à 10 A. L’avantage est que notre système trouvera chaque fois son équilibre
assez rapidement. De plus, nous nous attendons à une dépendance régulière P(I) et
pouvons contrôler que la puissance varie lentement avec la variation du courant.
Le problème concernant l’ordre des mesures apparaît quand il existe une source
d’erreurs systématiques (par exemple, si la température de la pièce monte progressive
ment pendant l’expérience, elle modifie le paramètre Po). Avec l’ordre précédent nous
ne trouverons jamais cette source d’erreurs : la fonction P(P) sera toujours régulière
et continue. Par contre, si nous choisissons un ordre différent des mesures : I = 0,
10, 2, 8, 4, 6 A, les points expérimentaux “oscilleront” autour d’une courbe continue
et ces oscillations seront plus grandes que les incertitudes des mesures. Un simple
changement de l’ordre des mesures peut nous aider à détecter une erreur systéma
tique.
C’est à l’expérimentateur de décider quel est l’aspect de la manipulation le plus im
portant : la rapidité et la simplicité des mesures ou la sécurité.
Si nous étudions une grandeur dont la dépendance en fonction d’une variable est assez
rapide comme, par exemple, la recherche de la fréquence propre d’un circuit RLC par
une mesure de la tension en fonction de la fréquence, la logique doit être différente.
La tension aux bornes de la résistance peut être approchée par la formule
2
1
U(i/) = u0 + U1
(!/ - l/„)2 +
2,0
/
/
1, ± L
20 30 40 50 60 70 v, Hz
inutile. Autrement dit, nous sélectionnons les résultats. Cette procédure est parfaite
ment correcte à condition que nos critères de sélection soient objectifs et justes. Si,
plus tard, nous décidons que nous nous sommes trompés dans le choix des critères,
nous devons avoir la possibilité de revoir l’ensemble des mesures initiales. La seule
solution à ce problème est de conserver tous les résultats des mesures.
Par exemple, nous mesurons des différences de températures à l’aide des deux ther
momètres. Nous devons enregistrer les indications de deux appareils et ensuite calculer
la différence. Si l’un des appareils fonctionne mal et donne, de temps en temps, une
valeur fausse nous pourrons trouver plus facilement cette erreur si nous avons deux
enregistrements séparés. Nous verrons alors les fluctuations dans les indications de ce
thermomètre. Si nous ne notons que la différence nous ne saurons jamais lequel des
deux thermomètres fonctionne mal.
Ordinateur
L’ordinateur devient de plus en plus présent en travaux pratiques. C’est très bien car
il permet d’accélérer l’acquisition des données d’une façon spectaculaire. Cependant,
il faut comprendre que l’ordinateur ne peut pas faire des miracles et la précision d’une
seule mesure faite avec l’ordinateur n’augmente pas pour autant ! Quand l’écran de
l’ordinateur affiche huit chiffres significatifs, nous devons savoir qu’en réalité le nombre
de chiffres significatifs reste le même que si nous avions fait la mesure nous-mêmes.
Simplement, l’appareil qui sert d’interface entre l’appareil de mesure (un voltmètre,
un thermomètre, etc.) et l’ordinateur ne sait pas arrondir correctement le résultat.
Le nombre de chiffres affichés est défini par le nombre de digits d’ordinateur et non
par la véritable précision de l’expérience. Ce phénomène pose un vrai problème :
l’acquisition automatique des données rend difficile la détermination de l’incertitude
de mesure car l’appareil de mesure est souvent inaccessible. La solution consiste à
répéter l’expérience ou une partie de celle-ci. Nous obtiendrons des résultats différents
et déterminerons ainsi l’incertitude en utilisant l’approche décrite dans ce livre.
Schémas et tableaux
Les schémas et les tableaux sont des formes très pratiques pour limiter l’écriture et
éviter ainsi les erreurs inutiles. Il ne faut pas que le schéma d’une expérience soit
trop détaillé et qu’il soit proche d’une photographie. Il doit contenir le minimum
nécessaire d’informations en expliquant l’idée de l’expérience, en donnant une des
cription de l’appareillage et les notations utiles. On a parfois besoin d’un schéma
complet dans lequel l’échelle est soigneusement respectée. Mais dans la plupart des
situations, l’échelle est consciemment modifiée. Par exemple, dans le schéma présenté
sur la figure 4.4. la vraie taille de la résistance inconnue Rx peut être de quelques
millimètres tandis que la résistance variable R.v représente un appareil d’une dizaine
de centimètres. Dans cette expérience, ces résistances jouent le même rôle et le dessin
souligne leur “équivalence”.
Tous les résultats des mesures doivent être écrits de préférence, sous la forme d’un
tableau. Il vaut mieux noter les valeurs de la même grandeur physique dans une
colonne, car l’œil compare plus facilement deux chiffres écrits l’un sous l’autre. La
première ligne de chaque colonne doit contenir le nom de la grandeur, son symbole
et ses unités. Si possible, il faut préparer les tableaux avant la manipulation. Il
114 Analyse statistique des données expérimentales
est toujours utile de réserver quelques colonnes supplémentaires. Elles peuvent être
nécessaires pour noter immédiatement les incertitudes sur les valeurs (surtout si elles
varient lors de l’expérience) ou, plus tard, les résultats obtenus lors du traitement des
données. Par exemple, si nous mesurons la résistance inconnue comme rapport de la
tension à ses bornes au courant qui la traverse, nous devons préparer six colonnes :
pour la tension et son incertitude, pour le courant et son incertitude et pour la ré
sistance et son incertitude. Si, de plus, les échelles de ces appareils ne sont pas des
multiples de 10, il vaut mieux préparer des colonnes supplémentaires pour noter les
mesures brutes comme nous l’avons discuté auparavant.
Calculs arithmétiques
Lors des calculs arithmétiques, il ne faut pas se précipiter sur la calculatrice. Prenons
un exemple. Nous déterminons la valeur de la chaleur spécifique C d’un liquide de
masse m contenu dans une boîte. Pour cela, nous chauffons ce récipient à l’aide d’une
petite résistance plongée dans le liquide. Le courant qui passe par la résistance est /, la
tension aux bornes de celle-ci U, la durée du chauffage t. En première approximation,
si nous négligeons les pertes de chaleur (par la surface de la boîte ou pour chauffer la
résistance elle-même, etc.) la chaleur spécifique est donnée par :
C _ mAT
où AT est la différence des températures après et avant le chauffage. Soient les valeurs
expérimentales : m = 17, 6 g, U = 10, 7 V, I = 42 mA, t = 23, 7 s, AT = 0, 36 K.
L’ordre de calculs doit être le suivant. Dans l’expression initiale
10,7 V -42 mA -23,7 s
~ 17,6 g -0,36 K
nous réécrivons toutes les valeurs dans le même système d’unités (par exemple, SI) :
où nous avons séparé les chiffres significatifs et les ordres de grandeur : si la valeur de
x ■ 10rl est plus grande que 5 • 10rl nous l’écrivons comme 0,æ - 10ri+1, sinon nous ne
changeons rien. L’avantage d’une telle représentation est que nous voyons immédia
tement l’ordre de grandeur : 103. La valeur de la première fraction, dans la plupart
des situations, sera alors de l’ordre de 1 (de 0,1 à 10).
Deuxièmement., dans le résultat intermédiaire nous gardons, pour l’instant, trois
chiffres significatifs 1,68, bien que les valeurs de AT et de I n’en contiennent que deux.
Nous le faisons volontairement pour éviter les erreurs supplémentaires d’arrondi. Dans
le résultat final, après avoir calculé l’incertitude sur C, nous ne laisserons que le nom
bre de chiffres significatifs correspondant à cette incertitude (peut être un seul).
Troisièmement, dans la dernière expression, nous avons choisi les unités kJ/kg-K et
non pas J/kg-K, car nous connaissons la chaleur spécifique de l’eau 4,18 kJ/kg-K et
cette valeur nous est très familière. Même si le liquide dans le récipient n’est pas de
l’eau, il faut toujours avoir les repères physiques qui peuvent servir comme moyens
de contrôle de la validité de notre résultat.
Que faire avec les erreurs systématiques ? Comment peut-on travailler avec ? Si c’est
possible, il vaut mieux les éviter ou, au moins, essayer d’éliminer ces sources d’erreurs
(comme, par exemple, vérifier la position du zéro de l’appareil).
Parfois, on ne peut pas éliminer la source de ces erreurs mais on peut introduire une
correction permettant de diminuer l’erreur. Par exemple, si nous effectuons la mesure
d’une puissance électrique supposée constante à l’aide d’un wattmètre. Au début de
l’expérience, nous avons noté une valeur de 4,50 W et nous savons que l’incertitude
sur cette valeur déterminée à partir de la classe de l’appareil est de 0,02 W. A la
fin de notre expérience, nous voyons que le wattmètre indique une valeur de 4,42
W. Que devons-nous faire dans cette situation ? Il faut débrancher le wattmètre du
circuit et voir la valeur affichée. S’il indique —0,07 W, cela signifie que le zéro de
l’appareil a dérivé et que la puissance mesurée à la fin de l’expérience était égale en
fait à 4,49 W. La différence par rapport à la valeur initiale est due, probablement, à la
précision de nos mesures. Il faut obligatoirement noter ce phénomène dans le cahier
d’expérience, mais pour les calculs ultérieurs on prendra une valeur de la puissance
P = (4, 50 ±0,02) W.
Si l’appareil débranché indique une valeur 0,00 W, cela signifie que la différence entre
les deux valeurs de la puissance est due à la variation réelle de la puissance dans le
circuit. Dans ce cas, nous devons utiliser lors des calculs ultérieurs une valeur de la
puissance P — (4, 46 ±0, 04) W ; dans notre cahier d’expérience nous devons noter ce
phénomène et que l’incertitude a été calculée non pas à partir de la classe de l’appareil
mais qu’elle a été estimée grossièrement par AP = (Pmax — Pmm)/2.
Cette expression n’est pas mathématiquement irréprochable mais elle est très pra
tique, par exemple dans la comparaison rapide de deux résultats expérimentaux.
Cette formule nous aide à comprendre, par exemple, quelle incertitude il faut choisir,
celle de l’appareil ou celle de la lecture, quand nous effectuons des mesures avec les
appareils à aiguille. Supposons que notre appareil de mesure soit un ampèremètre de la
classe 4 avec une pleine échelle de 5 A et que cette échelle possède 100 divisions. Ainsi
l’erreur d’appareil est égale à Aa:app = 0, 2 A. Nous estimons que notre incertitude de
lecture est égale à la moitié de la division d’échelle : Aa:iect = 0,025 A. L’incertitude
de mesure est alors
Aï = Ÿ^Aifapp)2 ± (A^ieet)2 ~ Ax.app = 0,2 A.
III — Expériences avec un nombre limité de mesures 117
Ces deux exemples ne sont pas très réalistes : ils servent surtout à illustrer la procédure
à appliquer pour estimer les incertitudes. En pratique, tous les appareils ont une
échelle telle que l’incertitude de lecture soit compatible avec celle de l’appareil :
A^app — A2qect.
Autrement dit, notre ampèremètre devrait être de la classe 1 ou 0,5. Dans ces con
ditions, on peut dire que l’incertitude de mesure est approximativement égale à la
division d’échelle. Cette estimation est utilisée quand on ne dispose pas d’information
sur la classe de l’appareil. Par exemple, pour les appareils avec l’affichage numérique,
l’incertitude peut être estimée grossièrement à 1 dans le dernier digit (à condition,
bien évidemment, que les indications de l’appareil aient été stables tout le long de la
mesure).
Cette page est laissée intentionnellement en blanc.
Chapitre 4
Ajustement des paramètres
On rencontre des nombreuses situations dans lesquels on des paramètres sont déter
minés à partir des données expérimentales. Par exemple, on a une fonction qui dépend
d’un paramètre et on veut trouver la valeur de ce dernier pour que cette fonction repro
duit bien les données. Habituellement, on cherche la meilleure valeur du paramètre,
son incertitude et une manière d’évaluer la qualité de la description des données
par la fonction choisie. Cette procédure est appelée ajustement des paramètres.
Avant d’évoquer des approches concrètes d’ajustement, définissons quelques proprétês
générales des paramètres déduits des données expérimentale.
En principe, différentes expressions peuvent être proposées pour définir la valeur d’un
paramètre à partir des données expérimentales. Par exemple, si l’on fait une série de
N mesures d’une grandeur1 X pour laquelle on obtient les résultats X\,X2,... ,Xn,
on peut proposer comme valeur de X la moyenne de tous les résultats
X*2 — H-
# AL
1 Ici, on parle d’une grandeur X pour utiliser les exemples déjà abordés dans ce livre, mais on
aurait pu également parler d’un paramètre X.
120 Analyse statistique des données expérimentales
dans laquelle les différents résultats sont pondérés par des poids inconnus pi. Choisis
sons ces poids en imposant comme condition l’efficacité de l’estimation. Autrement
dit, on cherche à ce que la variance de X soit minimale.
Avant de calculer la variance de X, on impose que X ait la même moyenne p que les
{*<} :
__ N N
= 52 = P"
2*=1 2=1
<7^- peut être considérée comme fonction de TV—1 variables indépendantes pi,p2, • • • ,Pn-i
(Pn doit être exprimée en fonction des autres variables à partir de (123)) :
<^x(Pl,P2, • • ■ ,PN-l) =
Pi =
P2 =
Pn-i
°N-l
soit
N-I a
E
A= fcl '
AT-1 ,
i+ E
i=i '
Finalement, on trouve les poids p{ qui sont inversement proportionnels aux variances
1 1
Pi=^ N
E^
i= 1
On voit que ces caractéristiques (estimation biaisée, efficacité) sont très importantes
pour pour optimiser le choix des paramètres.
Nous allons exposer maintenant deux méthodes les plus fréquemment utilisées (la
méthode des moindres carrés et celle du maximum de vraisemblance) pour ajuster
des paramètres.
122 Analyse statistique des données expérimentales
Nous disposons de n mesures indépendantes {j/Jxp} = y^p, y-z?, - • - , y'n‘‘ d’une gran
deur physique y pour n valeurs de son argument {a:;} = , x^,... ,xn. Supposons
que notre fonction y = y(x) dépende aussi de k paramètres {dj} = ai, a?,... , a*.
Cette formulationdu problème suppose que les valeurs y, sont décrites par les variables
aléatoires tandis que les {a:,} sont définis d’une façon déterministe. En pratique, cette
hypothèse signifie que les incertitudes Aa\ sont négligeables. Ainsi les paramètres {aj}
sont également décrits par les variables aléatoires dont nous devons déterminer non
seulement les valeurs moyennes mais aussi les variances.
Dans un cas général, c’est un problème assez complexe. C’est pourquoi nous faisons
l’hypothèse supplémentaire que y est une fonction linéaire de ses paramétres {aj} qui
s’écrit
k
y = y(a1,a2,. .. ,ak;x) = ^aifi(x),
1=1
IV — Ajustement des paramètres 123
où les fonctions {fi(a:)} sont connues. Il peut s’agir de monômes comme fi(x) — xl,
dans ce cas nous cherchons les coefficients de développement en série de Taylor ou
de fonctions trigonométriques cosinus et sinus et obtenons un développement en série
de Fourier. Ainsi, malgré cette hypothèse sur la linéarité par rapport aux coefficients
{ay}, notre problème reste assez général et particulièrement utile pour les applications
physiques.
Pour déterminer k paramètres, il faut que le nombre de points expérimentaux n soit
égal ou supérieur à k. Par exemple, pour une droite, nous avons besoin d’au moins
deux points pour définir la pente et la constante à l’origine. Nous supposons donc
que n > k.
Une approche assez générale pour choisir des paramètres est donnée par la méthode
des moindres carrés. Dans cette méthode on affirme que les meilleurs paramètres {aj}
sont tels qu’ils minimisent la somme des carrés :
n
(y'” - y(ai, q2, ■ ■ ■ ,ak;xi))2
R(ai,a2, - ,afe) = 5^ (124)
2=1
C’est une somme sur tous les points expérimentaux i = 1,2,... , n qui réunit ainsi la
totalité de l’information expérimentale. Chaque terme de la somme est le carré de
la différence entre la valeur mesurée j/texp et la valeur théorique y(ai ,a2,... ,a(.;Xi)
calculée pour cette valeur de Xj. Plus proches sont la théorie et l’expérience, plus petite
est la contribution de ce terme. Chaque terme est pondéré par un poids conformément
à son erreur <7Z (voir le paragraphe 3.2.2). Plus grande est <7;, moins importante est
la contribution de ce point. De plus, nous supposons que nous connaissons les vraies
variances de chaque point <7?. En pratique, nous ne pouvons obtenir que les valeurs
expérimentales (Ar/?xp)2.
Le critère utilisé (le minimum de la somme des carrés) n’est pas le seul critère possible.
Cependant, on peut démontrer un théorème mathématique (dit de Gauss-Markov)
selon lequel les paramètres déterminés par la méthode des moindres carrés sont les
plus précis : leur variance sera plus petite que les variances des coefficients obtenues
avec tous autres critères. Cette affirmation reste vraie quelle que soit la forme de la
distribution de probabilité (autrement dit, il n’est pas nécessaire de supposer que les
{r/;Xp} soient distribuées selon la loi normale et le critère reste toujours valable). Mal
gré l’importance de ce théorème, nous ne donnons pas ici sa démonstration. Le lecteur
intéressé peut la retrouver dans les livres de mathématiques. Notons simplement que
l’idée de la démonstration est proche de celle que nous avons utilisée au début de ce
chapitre pour retrouver la formule (118). Il faut noter que la méthode des moindres
carrés est souvent utilisée dans des situations où ses conditions de validité ne sont pas
vraiment remplies (ou si l’on n’est pas sûr qu’elles soient remplies). La raison pour
cela en est simple : on ne dispose pas d’autre méthode présentant la même simplicité
et la même puissance.
Dans ce livre, nous nous sommes surtout intéressés à la démarche et nous allons
montrer maintenant comment appliquer la méthode pour obtenir les valeurs des
paramètres et leurs incertitudes.
124 Analyse statistique des données expérimentales
(125)
dai
soit
(126)
Dans le cas général, il est plus facile de travailler avec une écriture matricielle. Pour cela,
introduisons la matrice T7 de n lignes et de k colonnes :
/ \
y= yT/v-i
ynP/Vn /
\
et le vecteur (soit la matrice d'une colonne et de k lignes)
< ai >
d2
A=
\ ak /
R = (y — fa)t (y — fa)
et les équations (126)
Nous voulons trouver le vecteur A à partir du vecteur connu y. En multipliant (127) par
la matrice (T^T7)-1, nous obtenons le résultat :
A= = jy. (128)
IV - Ajustement des paramètres 125
Les vecteurs A et V sont liés par une transformation linéaire avec un Jacobien J, c’est
pourquoi nous pouvons utiliser la relation (65) pour les variances :
£)(>!) = (129)
La matrice de covariance -D(V) est diagonale car toutes les mesures yf sont indépen
dantes. De plus elle est égale à la matrice unitaire vu la normalisation du vecteur y :
/ 1 0 . • 0 \
0 1 . . 0
dm =
l 0 0 . ■ 1 /
Grâce aux formules (128) et (130) nous avons trouvé les valeurs des paramètres {a^} et
leurs incertitudes. Bien que la matrice D(V) soit diagonale, la matrice -D(-d) ne l'est pas
(les paramètres {aj} ne sont pas indépendants).
y= ai,
/ 1/(7! \
l/<72 1
T7 = ) ) • •
0*2
\ 1/<T„ /
La matrice devient un nombre
De même
(^TJ2) = £
i=l
sW
” ! n 1
ai (131)
126 Analyse statistique des données expérimentales
(132)
Si toutes les erreurs sont les mêmes, cri — <r2 — ... — <rn — <r, nous retrouvons nos
formules pour la moyenne (82) et pour la variance (84) :
n £2
1
ai - -
n 2=1
n
Fonction linéaire
y = ai + a2x,
( IM Xi/<Ti \
T (
l/<r2 ^2/^2 l/<r2 • l/<Tn
y=
\ Xl/<?1 X2j(T2 .. • %n /&n
xn /'a’n /
/ En W E xi/^.2 \
2=1
(77T77) =
\ E xi/(r‘i E xV^
2=1 2 =1
et
/ E yr/^î \
(^Ty) = 2=1
\ E y?v ■ Xi/<?1
2=1 /
La matrice inverse de (77T77) qui est aussi la matrice de covariance (130) s’écrit
/ E \
1
D(A) = (77T77)-1 2=1
)
À
\ - E xi/^i
2=1 /
où
n
2=1
sn
2 =1
Xi
<r?
IV - Ajustement des paramètres 127
(133)
Aa| — <t a2 2
Â
Dans le cas général, l’élément D(yt)i2 est différent de 0, ce qui signifie que les deux
paramètres ai et a2 sont corrélés :
1 n
cov(ax,a2) (135)
A i=l
a?'
3
Remarque très importante. Supposons que toutes les valeurs {r/"”} soient dis
tribuées selon une loi normale. Les conditions de minimisation (126) ou (128) fixent k
relations entre les {y"f} • Ainsi, la somme Rmin où nous avons remplacé les {«/} par
leurs valeurs venant de la minimisation (128) a une distribution y2 avec (n — k) degrés
de liberté, conformément à la formule (105). Pour les {r/"”} distribuées selon une loi
normale, la notation standard de cette somme est y2 : Rm;n = Xmin- Rappelons que
la valeur moyenne de Xmin selon (98) est
y'mm
2 . (136)
Autrement dit, si tous nos calculs sont corrects et cohérents et si toutes nos hypothèses
sont vérifiées, nous devons obtenir pour la somme de carrés R"?n une valeur proche
de (n — k).
A cause de cette relation avec la distribution y2, la méthode de moindre carrés est
également appelée la méthode y2.
L’hypothèse de la forme gaussienne des distributions yt donne une autre interprétation
du critère du minimum des carrés. La probabilité dP que les yi se trouvent dans les
128 Analyse statistique des données expérimentales
dP = ---- -----(27\jvt)/2a/exp
2 1 ( 2
r dJ V^ - - dyN, (138)
où R est défini par (124). Ainsi le minimum de R(a\, a2, • • • ,ak), fonction des
paramètres ai,a2)... , a/j, correspond au maximum de cette probabilité. On peut
dire que les “meilleures valeurs” de ai,a2)... , a/. sont celles qui attribuent la plus
grande probabilité au résultat observé.
Sur la figure 4.1, nous avons présenté un exemple de données expérimentales (10
points) pour lesquelles nous voulons ajuster une droite y — ai ± a2a:. Les valeurs
numériques correspondantes sont réunies dans le tableau 4.2.
Ier niveau d’analyse
Pour une estimation rapide on peut utiliser une procédure presque intuitive. A l’œil
nu, on trace toute la famille des courbes linéaires qui passent par les points expérimen
taux et on choisit les valeurs maximale et minimale de a;. La valeur approximative
et son erreur peuvent être définies simplement comme :
~max 1 mm „max __ min
approx
et Aaappr°x = ui ai
ai
2 2
Dans notre cas, pour les lignes (1) et (2) on obtient
aappr°x = 5|5±Q|5|
aapprox = _0)5±0, 1.
Nous gardons deux chiffres significatifs dans l’incertitude Aa2 afin d’avoir, pour les
grandes valeurs de x, le même nombre de chiffres significatifs dans a2a: et dans ai-
cov(ai,a2)
Qai a2 -0,90.
Aai Aa2
Sa valeur absolue est relativement grande, donc ces paramètres sont fortement corrélés.
Nous avons pris conscience de cette corrélation lors de notre analyse rapide : pour passer
IV - Ajustement des paramètres 129
Xi 1 2 3 4 5 6 7 8 9 10 S
5,4 3,8 4,0 4,0 3,5 2,1 2,9 2,0 1,1 1,7
0,6 1,1 0,2 0,5 0,5 0,6 0,6 1,1 0,2 0,4
y^ 5,0 4,5 4,1 3,6 3,2 2,7 2,3 1,8 1,4 0,9
0,4 0,4 0,3 0,6 0,4 1,0 1,0 0,0 2,3 4,0 10
(As/rp)2
de la droite (1) à la droite (2) il faut changer non seulement la pente a-i mais aussi la
constante a\. Ceci n’est pas toujours le cas. Dans une situation où l'origine x = 0 se
trouve à peu près au milieu des points expérimentaux, le passage d'une droite extrême à
une autre se fait seulement par la modification de la pente a^. L'erreur sur la constante et
le coefficient de corrélation sont petits dans ce cas-là. Ceci peut également se voir grâce
à la formule (135). Quand tous les {#$} sont du même signe, le coefficient de corrélation
est grand. Quand l'origine x = 0 se trouve au milieu des points expérimentaux, la somme
correspondante est proche de zéro.
!/(*) = ai-
ai = 2, 72 ±0,12.
130 Analyse statistique des données expérimentales
Il suffit de regarder la figure 3.3 pour voir qu'il se trompe. Son hypothèse est fausse, mais
comment pouvons-nous le prouver ?
La différence entre nos deux résultats se trouve dans la valeur de la somme xjkin qu'il
faut calculer après avoir choisi les valeurs des paramètres {aj}. Conformément à (136)
et (137), dans notre ajustement de 10 points avec 2 paramètres, on obtient \,2„„ = 8
avec une incertitude — 4. La valeur obtenue dans la dernière ligne du tableau 3.2
(X„„n)exp — 10 est en très bon accord avec cette estimation (les valeurs de sont
calculées avec les paramètres (139)). Par contre, pour l’analyse de notre collègue, on
s’attendrait à obtenir X2lin = 9 avec ~ 4 tandis que la valeur expérimentale est
(Xmin)exp — 145 ! Voilà la contradiction !
Nous pouvons reformuler ces conclusions en termes de probabilité car nous avons déjà
étudié la distribution y2 au paragraphe 2.3.2. Dans le tableau 3.3, nous présentons les
valeurs x2 et les probabilités P pour que x2 soit plus grande ou égale à y2 avec un
nombre donné de degrés de liberté.
Pour notre collègue, la probabilité de trouver y2 plus grand que 21,7 pour u — 9 est
inférieure à 1%. La probabilité de trouver x2 proche de 100 est alors négligeable. Ainsi
son hypothèse est réfutée.
Tableau 3.3 : Les valeurs xl et les probabilités P pour que x2 > xl
pour u degrés de liberté pour une droite
intervalles : Ir = [0, 4[, I2 — [4, 8[, I3 = [8, 12[et I4 — [12, oo[. Le pas correspond à la
racine carrée de la variance. A l’aide du tableau 3.3, nous évaluons les probabilités pour
que la valeur de y2 se trouve dans l’intervalle correspondant : Pi ~ 0,15, P2 ~ 0,40,
P3 ~ 0, 30, P4 ~ 0, 15. Nous voyons que les probabilités d’obtenir de très grandes et de
très petites valeurs de y2 sont faibles. Leur apparition signifie que le choix de la fonction
était mauvais. En physique, on considère que le choix d'une fonction est correct si la
valeur de X2 par degré de liberté est proche de 1.
Il existe un autre argument important qui conduit à interpréter ces probabilités avec beau
coup de prudence. Rappelons que nous avons remplacé partout dans nos calculs les vraies
variances <r? par les valeurs expérimentales (Aj/^)2, car nous ne connaissons que ces
dernières. La différence entre <Tj et Aj/^xp peut être de l’ordre de 10%. Ainsi nous sommes
capables de déterminer y2 à 10 — 20% près.
En conclusion, notons que la comparaison des deux premiers niveaux d’analyse montre
bien deux particularités caractéristiques de ce genre d’évaluation rapide : l’approche
simple reproduit assez bien les valeurs de ai et de 02, mais les incertitudes sur ces
valeurs peuvent être très différentes des valeurs exactes. L’avantage du troisième
niveau réside en la possibilité de confirmer ou d’infirmer le choix de la dépendance
fonctionnelle.
La méthode des moindres carrés est une approche très efficace et elle est largement
suffisante pour les expériences faites en travaux pratiques. Néanmoins, il existe des
situations où on ne peut pas l’appliquer, par exemple lorsque le nombre d’événements
est petit et que l’on ne peut pas évaluer correctement les incertitudes, ou quand les
incertitudes sur x ne sont pas négligeables X\,X2,--. ,xn. Dans ces situations, on
utilise une autre approche plus générale basée sur la fonction dite de vraisemblance.
Une des hypothèses utilisées pour développer la méthode des moindres carrés était la
forme gaussienne de la distribution des r/;. On peut démontrer que cette condition peut
être légèrement affaiblie mais que, de toute façon, cette approche n'est pas valable pour
une distribution quelconque. C'est pourquoi on peut chercher à proposer une approche
plus générale du problème.
En utilisant les fonctions de distribution f(xi; a) des variables2 indépendantes X.;. on écrit
la probabilité de trouver les valeurs de X{ dans les intervalles [a:2-, x, +
Ai(<.) = o.
A partir de cette condition, on trouve la valeur du paramètre a. Il est parfois plus commode
de minimiser le logarithme de cette fonction que la fonction elle-même.
On desire, par exemple, trouver la moyenne /J. inconnue d'une fonction de distribution
gaussienne. Supposons que la fonction de distribution est la même pour tous les X{ (avec
la même variance inconnue <r2) :
(*»' - a)2 1
f(Xi) =
2<r2 J ’
et sa dérivée
^lnLW = Ê
1=1
s’annule pour
Â= (142)
Le signe' sur /j. souligne que la méthode du maximum de vraisemblance nous indique com
ment estimer ce paramètre ; autrement dit, elle fournit une estimation. Bien évidemment,
dans ce cas simple, on retrouve une expression connue de la moyenne.
Mais cette méthode est vraiment très générale. Par exemple, pour une distribution bino
miale (qui est une distribution discrète I), on peut trouver la valeur la plus vraisemblable
2 Pour avoir la même écriture qu’au début du chapitre, la variable aléatoire est représentée par la
lettre x.
IV — Ajustement des paramètres 133
(dans cette expression, nous avons volontairement omis une constante qui ne dépend pas
de p). Alors
d , rv x N—x
ln L(p = -0
dp p 1—p
(143)
+ )V1„ ‘
2<r2
soit
?2
2=1
Comme nous l’avons déjà vu plusieurs fois, pour avoir une estimation correcte (non biaisée)
il faut diviser la somme par TV — 1 et non pas par N (voir, par exemple, (85)).
distribution3 de j/?* une gaussienne avec des “moyennes” i/th(a;Xj) dépendant de un (ou
plusieurs) paramètre(s), on a
^))21
J
et le logarithme de la fonction de vraisemblance donne (à une constante près) la somme
R (125) avec le signe moins. Ainsi le maximum de vraisemblance correspond au minimum
de la somme des carrés.
Cette correspondance n'est pas surprenante, compte tenu de l’argumentation choisie pour
développer la méthode du maximum de vraisemblance. De plus, elle permet d’utiliser la
puissance de la méthode des moindres carrés pour évaluer, par exemple, les incertitudes
sur les valeurs des paramètres (voir le paragraphe suivant).
Enfin, si la méthode du maximum de vraisemblance soit plus souple que la méthode des
moindres carrés, on doit se souvenir qu elle n’est pas parfaite : les estimations qu elle
propose peuvent être biaisées et il est plus difficile d’avoir un jugement sur la qualité de
l'ajustement des paramètres. Rappelons que la méthode des moindres carrés (par la valeur
de y2 obtenue) peut nous dire si notre hypothèse sur la forme de la fonction à ajuster est
correcte ou non. Au contraire, dans la méthode du maximum de vraisemblance, ce type
de critère n’existe pas.
Cette courbe est à la base de l’analyse des fonctions de vraisemblance dépendant d'un
paramètre. Le segment de droite reliant les deux branches de la parabole pour ln L —
— 1/2, caractérise un intervalle de confiance
correspondant à une probabilité de 68,27 %, pour une distribution gaussienne. D’une façon
analogue, le segment de droite reliant les deux branches de la parabole pour ln L = —2
correspond à un intervalle de confiance de 95,45 %.
On peut démontrer pour une classe assez large de distributions (pas forcément gaus
siennes) qui ne dépendent que d'un seul paramètre, qu'il est possible de trouver les inter
valles de confiance de la même façon.
Par exemple, dans le cas d’une distribution binomiale abordée dans le paragraphe précé
dent, on peut tracer le logarithme de la fonction de vraisemblance en fonction de p. Pour
x = 2 et N — 10, cette fonction
est présentée sur la Figure 4.3 (dans cette expression, on a ajouté une constante pour
que la valeur maximale de ln£(p) soit égale à 0). Ce n’est pas une parabole mais elle
lui ressemble quelque peu. D'ailleurs, on peut souvent approximer les fonctions de ce
type par des paraboles au voisinage du maximum (ce qui signifie qu'on peut approcher la
136 Analyse statistique des données expérimentales
A partir de cette courbe, nous pouvons facilement trouver tous les intervalles de confiance
désirés. Par exemple, pour un intervalle de confiance de 95,45%, la solution de l'équation
donne [0,036 ; 0,505]. On remarque que cet intervalle n'est pas symétrique par rapport
à p = 0, 2.
Une autre approche existe pour déterminer l'incertitude sur la valeur des paramètres dans
la méthode du maximum de vraisemblance. Elle est beaucoup plus pratique, surtout
lorsque la fonction de vraisemblance dépend de plusieurs paramètres. Cette approche
porte le nom d'inégalité de Cramér-Rao-Fréchet. Donnons sa démonstration dans le cas
où la vraisemblance L(a) ne dépend que d'un seul paramètre a, mais le résultat peut être
généralisé au cas de plusieurs paramètres.
Soit â l'estimation du paramètre a. Cette estimation est biaisée par une erreur systéma
tique /3(a), c’est-à-dire que la valeur moyenne de a est égale à4
a + /3(a).
4 Pour simplifier la présentation des formule, nous utiliserons l'écriture f .. ,dX qui signifie une
intégrale multiple sur toutes les variables xi.
IV - Ajustement des paramètres 137
En dérivant cette relation par rapport à a et utilisant le fait que l'estimation a n'est
fonction que des données expérimentales {a?;}, on obtient
(145)
(147)
5 Pour démontrer cette inégalité, il suffit de remarquer que l’intégrale /(A/(æ) + g(x))2d.x est
positive quelque soit la valeur de A. Ainsi l’équation
n’a pas de racines réelles non nulles. Donc, le discriminant doit être négatif. Cette condition
nous donne l'inégalité recherchée.
138 Analyse statistique des données expérimentales
(pour obtenir cette relation, il suffit de calculer la dérivée de l'équation (146) par rapport
à q).
Ainsi l'inégalité (147) prend une autre forme équivalente
1 , dp{a) y
1 da
d2 ln L(a
da2
Pour que cette inégalité devient une égalité, il faut que, dans l’inégalité de Schwartz, les
fonctions f et g soient les mêmes à un facteur multiplicatif A près, c'est-à-dire que
(149)
Autrement dit, la vraisemblance doit avoir une forme gaussienne (à comparer avec l'équation
(144))
Notons que, dans ce cas, la dérivée seconde du logarithme de la vraisemblance est une
constante :
<92 ln L(q) _
da2 A
Ainsi, pour la variance, on obtient
soit
(151)
donc, le logarithme de la vraisemblance prend (à une constante près qui ne nous intéresse
pas) la forme
N
_ 2 1 A mr2
(152)
3k N 2
- 2 1 A mv? 2 1 3k
T=— — > —-=— — N— T = T.
3k N 2 3k N 2m
d/3
Le paramètre T n'est pas biaisé, donc, —— = 0.
dT
De même, on calcule la variance de ce paramètre en utilisant la procédure appliquée pour
obtenir la formule (84) :
140 Analyse statistique des données expérimentales
Pour obtenir ce résultat, nous avons utilisé l'indépendance des variables Vi et le fait que,
d'après (27),
■> 1
ar > =■
~ fï2 ln L(T)
dT2
R.J. Barlow, “A Guide to the Use of Statistical Methods in the Physical Sciences”,
Jonh Wiley fc Sons, Chichester, New York, Brisbane, Toronto, Singapore, 1989.
L. Lyons, “A practical guide to Data Analysis for Physical Sciences Students”, Cam
bridge University Press, Oxford, 1991 ;
L. Lyons, “Statistics for nuclear and particle physicists”, Cambridge University Press,
Oxford, 1986.
B.N. Taylor, Ch.E. Kuyatt, “Guidelines for Evaluating and Expressing the Uncertainty
of NIST Measurement Results”, NIST Technical Note 1297, 1994
(http://physics.nist.gov/cuu/Uncertainty/bibliography.html) ;
“Guide pour l'expression de l’incertitude de mesure”, BIPM, CEI, FICC, ISO,
OIML, UICPA, UIPPA, ISBN 92-67-20188-3, 1995
(http.//www. iso.ch/iso/fr/prods-services/otherpubs/Metrology. html).
Probabilité .................................................................................................................... 11
Propagation des erreurs ........................................................................................ 51, 53
Précision de la variance expérimentale .................................................................... 78